查看原文
其他

阿里达摩院专家解密:AI 算法将肺炎疑似病例基因分析缩短至半小时的背后

李雨晨 雷锋网 2020-09-18

我们期待更多的“火神山速度”

  文 | 李雨晨  

到今天为止,肺炎疫情的发展依旧是每个人头脑里绷得最紧的一根弦。

截至2月1日24时,国家卫生健康委收到31个省(自治区、直辖市)和新疆生产建设兵团累计报告确诊病例14380例,疑似病例有19544例。

尽管疫情严重,但一个好消息是,AI正成为前线医务人员的重要加持力量。

2月1日,浙江省疾控中心上线自动化的全基因组检测分析平台,利用阿里达摩院研发的AI算法,可将原来数小时的疑似病例基因分析缩短至半小时,大幅缩短确诊时间,并能精准检测出病毒的变异情况。

1


核酸检测方法的局限性

在这么多天科普知识的疯狂输出下,我们可以知道的一点是,新型冠状病毒感染的肺炎患者的临床表现与流感的临床表现差别并不大。

因此,医务人员口中所说的“小盒子”———核酸检测试剂盒的检测结果对于确诊来说非常重要。

在核酸检测试剂盒开发过程中,基因组测序是必不可少的步骤,这个过程会耗费数日。一旦完成,核酸检测试剂盒的开发将变得很快。

那么,试剂盒数量够了就行了吗?远远不是。

此前,北京大学医学部病原生物学系教授,美国伯明翰阿拉巴马大学医学院微生物学系分子病毒学终身教授罗光湘曾表示,核酸检测试剂盒并不能独立使用,需要搭配PCR仪器共同进行检测,而这种仪器只有规模较大的医院才有,社区医院、县城医院或许还未普及,只能送往中心城市的医院或疾控中心进行检测。

所以,一开始,新型冠状病毒核酸检测只能在湖北省疾控中心进行,而且核酸检测试剂盒生产较少,就出现了疑似患者确诊困难,得不到及时救治的状况。

此外,新型冠状病毒本身也很“难缠”。

公开信息显示,该病毒是基因组序列最长的病毒之一,全基因组序列全长29847bp,临床诊断需要将患者样本与该病毒基因序列进行比对才能确定诊断结果。

达摩院算法专家顾斐博士表示,目前医院普遍采用核酸检测方法,只能检测到病毒基因的局部。一旦病毒发生变异,就可能出现漏检的情况。

在接受雷锋网采访时,一位知情人士透露,核酸检测方法是一种用于放大扩增特定DNA片段的分子生物学技术,能利用聚合酶链式反应将微量的DNA大幅扩增,从而检测出带有特定基因片段的病毒,也就是说这种方法只能检测到样本基因的局部。

(新型冠状病毒结构)
所以,面对汹涌的疫情,单靠“人肉输出”来获得有漏检风险的结果,目测已经不是一个好办法了,大量疑似的患者仍然存在。

2


AI 算法成破局利器

严峻的抗疫形势下,AI成为破局的一把利器。

此次研发的自动化全基因组检测分析平台属于高通量测序,由浙江省疾病预防控制中心、阿里达摩院医疗AI团队和杰毅生物技术公司共同研发,突破之处在于大幅缩短了检测时间。

针对平台的合作细节以及未来的应用规划,雷锋网与阿里达摩院的一位算法专家进行了采访。

Q:传统的病毒基因分析过程,主要包含哪些步骤和阶段? 

A:一般而言整个流程涵盖:样本标记、分装;核酸提取;荧光定量PCR体系配制;上机检测;数据报告分析。


Q:这么一套平台,达摩院这边投入了多少人力,什么时候开始做,前后花了多长时间?

A:疫情发生后,达摩院投入十余人研发这套新平台,例如针对新冠病毒基因的特征进行了分析,基于PDB等公共数据集的数据进行算法的优化训练,也有算法专家奔赴浙江省疾控中心前线,与两个合作方沟通合作,才研发了这套平台。


Q:既然是AI算法,就存在准确性的问题,达摩院的AI算法、模型在各个阶段应用过程中是否需要考虑准确性的问题? 

A:目前,没有不准确的情况。在检测过程中,对于算法而言,需要做到100%的准确率。


Q:病毒基因的检测和分析是两种不同的工作,你们是如何合作的?

A:杰毅生物开发了全自动高通量测序建库仪,把整体常规人工需要12小时的工作缩短到2个小时。简单一点理解,就是检测的结果进行“数据化”,然后交由达摩院开发的算法进行分析。每次测序过程会产生海量的数据,基于一系列优化的算法,可以加快样本病例的检测速度。在这个环节里,算力和算法同样重要。


Q:这样一个帮助医务人员在减负和提效之间保持平衡的平台,未来的应用方法和合作途径如何?

A:接下来,全基因组检测分析平台会在全省大规模应用。达摩院会与合作伙伴共同将这套技术推广至全国。对于是否有其他省市医院寻求使用,暂时不好透露。

3


点睛之笔———分布式设计的算法

值得注意的是,达摩院这次的分布式设计算法是整个pin“点睛之笔”。

在序列比对过程中,达摩院对算法增加了分布式设计,提升了比对效率;样本基因分析的速度由数小时缩短到半小时;在病毒序列拼接阶段,达摩院使用分布式设计的de Bruijn图算法,变异病毒也能精准检测,病毒拼接的速度由30分钟-1小时缩短到15-30分钟。

除此之外,不同于传统核酸检测方法,这一平台还可以检测到病毒的全貌,对疑似病例的病毒样本进行全基因组序列分析比对,避免因为病毒变异造成的漏检情况。

本次分析病毒检测和病毒变异部分主要基于开源算法,设计分布式算法以加速分析流程。病毒序列拼接完成后,通过设计BiLSTM+DNN的方式训练模型预测病毒蛋白二级结构。

与此同时,达摩院还在研究基于序列的蛋白质三维结构预测模型以及药物筛选模型。

浙江省疾控中心基因测序负责人孙逸博士表示:“该平台基于阿里云的强大算力与达摩院新算法可以为病毒的解析提供支撑,基于该平台,未来还可以在短时间内将检测范围覆盖整个确诊病例,也为后续疫苗与药物研发打下了坚实基础。

4


一场关乎全民的技术战

为了抗疫这场关乎全民的战役,国内的科技巨头第一时间站了出来。

为了帮助加速新药和疫苗研发,此前,阿里云宣布将向全球公共科研机构免费开放一切AI算力。

目前,中国疾控中心已成功分离病毒,但在新药和疫苗研发期间,需要进行大量的数据分析、大规模文献筛选和科学超算工作。阿里云的AI算力,可以支持病毒基因测序、新药研发、蛋白筛选等工作,帮助科研机构缩短研发周期。

而且,除了这次的全基因组检测分析平台,达摩院还在春节期间,用五天时间推出了“智能疫情机器人”,目前正在为浙江省新型肺炎公共服务与管理平台提供服务。

今天(2月2日),“7000人鏖战,9天建成”的武汉火神山医院正式交付。可以相信的是,在防疫战役越来越深入的情况下,全基因组检测分析平台会像火神山医院一样,用AI的力量为民众和医务工作者带来更多的信心。


往期推荐


▎蛇?蝙蝠?水貂?新型冠状病毒究竟来源于哪种动物?
▎哈佛教授 Charles Lieber 因中国合作被捕,中美跨国科研合作或进入寒冬期
▎腾讯接受 30%“苹果税”,僵局结束?
▎武汉雷神山、火神山:运营商赶工建5G、3000万网友“云监工”


100000AI人才为你投票,企业扫码报名




你还在看吗?
Modified on

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存