其他
平安首席医疗科学家谢国彤:两大基础平台与四大算法领域,详解金融巨头的医疗科技版图 | CCF-GAIR 2020
以下为谢国彤的现场演讲内容,雷锋网《医健AI掘金志》作了不改变原意的编辑及整理:
谢国彤:各位现场和线上的朋友,大家好。我叫谢国彤,负责平安的医疗科技。很高兴今天有机会跟大家分享平安在医疗科技方面的进展。赛飞的工作很多。举一个例子,我们在进行组织病理影像分析时,一个病理的影像大概有10亿像素,如果一个医生要很完整的把肾小球和肾小球里的内皮细胞、细膜细胞都标注完,一个小时都不能完成。但是,所有的片子都有必要去标注吗?不见得。我们利用主动学习的方法,挑选信息量最大的片子。后来我们发现,标注52%的训练数据,就可以达到跟此前标注完所有数据差不多的效果。再比如分布式加速。现在的NLP模型庞大无比,不管是现在最火的GPT-3拥有的上千亿参数,还是常用的BERT,都是几亿参数的大模型。我们参加ACL比赛时,用了赛飞分布式加速能力,在20天之内训练了281次,不停把模型的精度推到极致,最后拿到冠军。这就是分布式加速给模型训练带来的价值。再比如模型压缩的例子,这是非常现实的场景:很多AI模型希望跟硬件进行整合,但是模型很大,硬件存储却很小。我们的一个眼底OCT模型大小是6G,一个OCT设备存储是2G,无法把这个模型放在存储里。最后,我们把6G的模型压缩到原来的四分之一,精度只损失一点点,最终完成软硬一体的计算。当然,除了在医疗领域,赛飞还可以拓展变成更加通用的AI平台。
在疾病的预测过程中,有非常多的关键技术:一、数据修复。拿到100条记录,要求所有的关键数据都有数值,最后剩下一条就不错了。我们在IEEE ICHI参加了Data Imputation的比赛拿了冠军,我们利用数据所谓的横向、纵向和斜向关系,分析数据之前、之后和相关检测检验的信息,猜测缺失的数据可能是多少,均有不错的效果。二、特征工程。很多预测是从病例中进行挖掘,这里也有挑战:数据是多模态的,不像影像相对单纯。在这次新冠疫情里,预测有60%的ICU患者发生了不同程度的脓毒症,脓毒症是ICU的第一大杀手。ICU里的信号非常复杂,有心率血压、脉搏等生命体征信息,并且时间序列是连续的。我们利用很好的多模态数据特征工程的方法,提前6个小时预测患者发生脓毒症的风险,精度比目前最好的方法高20%,这个工作今年发表在重症医学顶级期刊CCM上。三、可解释机器学习建模。很多医生是很难接受黑盒模型的,尤其是预测,本来就是在猜,如果怎么猜的都不知道,医生很难接受这个模型。我们的做法是将深度学习的方法跟医生比较能接受的生存分析survival analysis方法结合起来,利用SHAP等可视化的方法,把因素和结局的关系可视化出来。比如右上角的图,有一个U字形,那是一个非常典型的例子,红色的表示当值在那个区域的时候,导致患者出现肾衰竭的风险,而绿色部分是保护性因素,值在这个区间的患者不容易发生风险,但它不是线性的。我们利用可解释的模型加上深度学习的方法,用算法定量、精准地把非线性的关系可视化出来,解释给医生,让他们更容易接受。
做预测模型有什么用?现在有两个面向用户的场景在使用:第一个场景是面向C端用户。平安有最大的全球互联网医疗平台——平安好医生。我们把常见病(高血压、糖尿病、冠心病、脑卒中)的预测模型放在平安好医生APP上。平安好医生有几亿的用户,他们会填写数据预测,看看自己有什么风险,同时进行相应的管理。第二个场景是针对老年人群体。我们在甘肃收集到185万老年人数据。老年人出现高血压、糖尿病的比例占老年人口的40%,慢性病管理的挑战在于知晓率低,治疗率低。老年人不知道自己有病,或者有病也不会主动治疗。我们跟甘肃卫健委合作,用算法把这些人挑出来,通过甘肃家庭医生平台,让家庭医生有针对性找到高危老年人,对他们进行主动管理,提高疾病的知晓率和治疗率。三是在珠海,我们利用200多万居民的健康数据和12个疾病的预测模型,可以生成一个完整的风险评估报告。同时,我们会把相应患者的教育,以及可访问的健康服务跟风险因素挂在一起:哪些服务可以帮助降低哪些风险因素,让政府在进行疾病管理的时候变得更加精准,更有针对性。基于智能影像的辅助诊断