查看原文
其他

癌症研究中让人类头疼的那些问题,找AI来做呀!

Nature自然科研 Nature Portfolio 2022-10-02

点击上方蓝字,关注我们!

原文作者:Esther Landhuis

人工智能方法挑战癌症研究。


来源:Shutterstock

Guillaume Jacquemet正在观察培养皿中癌细胞的扩散,他在时差显微(time-lapse microscopy)成像画面中逐帧追踪每一个细胞的细胞核。搞清楚这些细胞的运动,就能了解药物或基因突变是如何影响肿瘤在体内扩散的。他总共拍摄了500多个片段,每个片段包含了120帧图像,每帧图像有200-300个细胞。分析这些图像无疑是一项挑战。在芬兰埃博学术大学担任细胞生物学家的Jacquemet说:“如果要我手工追踪,那是不可能完成的任务。”


为此,他训练了一个机器来帮他甄别细胞核。Jacquemet用的是ZeroCostDL4Mic平台上现成的技术手段。ZeroCostDL4Mic和其他越来越多同类资源一样,都是专为不擅长编程的实验室科学家打造的,目的是让他们能够用上人工智能(AI)技术[1]


AI技术门类下囊括了多种技术。一种是机器学习:利用手工预处理过的数据,通过AI学习的结果进行预测。另一种是深度学习:能从原始数据中识别复杂的模式,广泛应用于自动驾驶汽车、语音识别软件、打游戏的计算机,以及从海量显微镜数据中识别出细胞核的任务。


深度学习的概念起源于上世纪40年代,当时的科学家构建出了拥有内部互联层的计算机模型,类似于人脑的神经元。几十年后,研究人员又教会了这些“神经网络”如何识别形状、词汇和数字。但直到五年前左右,深度学习才开始在生物和医学领域取得一些成绩。


推动这项技术发展的一个主要动力是生命科学数据的爆炸式增长。例如,现代基因测序技术在单次实验中可以获取数个GB的信息。2006年启动的癌症基因组图谱(Cancer Genome Atlas)收集了涉及33种癌症类型的数万个样本;数据量大小超过了2.5PB(1PB=100万GB)。此外,随着组织标注和自动显微技术的发展,生成成像数据的速度大大超过了研究人员可以分析它们的速度。瑞典皇家理工学院的生物工程师Emma Lundberg说:"毫无疑问,一场革命已经发生。"

提高基于图像的解析

癌症生物学家Neil Carragher在2004年第一次看到了这场变革的苗头。那时,他在英国拉夫堡的AstraZeneca领导一支团队探索生命科学的新技术,偶然发现了让公司重新思考其药物筛选工作的一项研究。他和他的团队当时正在用基于细胞的筛选方法寻找潜在的候选药物,但很难找到苗头化合物(hit)。而这项研究显示,人工智能和分析学可以帮助他们改进药物筛选流程[2]。Carragher说:"我们相信这是解决我们生产力危机的办法。"


但掌握AI技术对于生物学家来说有一定难度。Jacquemet透露他曾用了一周多的时间安装好运行深度学习模型的正确软件库。在那之后,他说:"你还要学Python编程来使用这个模型。"


Carragher在AstraZeneca的团队与计算生物学家Anne Carpenter以及她位于麻省理工-哈佛大学博德研究所(Broad Institute)的同事合作,将这篇2004年论文中的图像分析方法进行了规模化,并研究了多种药物对于人类乳腺癌细胞的影响[3]。Carpenter随后还将该技术开发成一个细胞绘图(Cell Painting)程序,可以用各种荧光染料对细胞进行染色,随后利用开源软件CellProfiler来生成细胞的分析结果。


尽管如此,Carragher说这些分析依然耗费大量人力。Carragher目前在英国爱丁堡大学领导一个癌症药物发现项目,他说即使有了开源软件可以免去从头编程的麻烦,加上数千个处理器和TB级内存的计算集群,他们仍要花上一个月左右的时间,才能鉴定出需要让图像分析软件寻找的细胞特征。在对每一个细胞系进行参数优化后,他的团队还要对模型进一步改进,使其适用于所有细胞。

细胞核(左,DNA着色)被CellProfiler(右)自动识别出。来源:C. McQuin et al./PLoS Biol. (CC BY 4.0)

去年,Carragher和他的团队想到了让深度学习来加速这一过程。激发他们的是2017年谷歌加州总部研究人员在预印本网站bioRxiv上发布的分析结果[4]。谷歌的研究人员从博德研究所的Bioimage Benchmark Collection下载了Carragher的乳腺癌数据集,并利用它们训练了一个深度神经网络。虽然这个网络之前只在通用图像上训练过,如车辆和动物;但让它扫描乳腺癌数据寻找模式后,这个模型学会了分辨对于药物发现具有重要意义的细胞变化。由于一开始并没有被告知要寻找哪种模式,这个模型发现了连研究人员都没有想到的特征。


在此基础上,Carragher和同事针对8种乳腺癌类型筛选出了14000种化合物[5]。"我们确实发现了一些有意思的苗头化合物。"他说,包括一种已知能调节血清素受体的化合物,该化合物对于乳腺发育十分重要,他们在今年早些时候报道了这一结果[6]


在博德研究所,一支由计算生物学家Juan Caicedo领导的团队正在将基于图像的解析技术用来筛查基因变异。他和团队让各种基因变异在肺癌细胞中过表达,并用细胞绘图方法进行染色,寻找可能预示了制药机会的细胞差异。他们发现,机器学习从图像中识别出有效变异的能力与测量细胞内基因表达的过程一样高效。研究人员在2月份在麻省理工学院举行的AI驱动药物发现与制造会议上报告了这一结果。


癌细胞图谱项目(Cancer Cell Map Initiative)旨在绘制人类癌症背后的分子网络,作为该项目的一部分,研究人员正在训练一种深度学习模型,能够根据个人的癌症基因组序列来预测他们的药物反应。加州大学圣迭戈分校的生物工程师Trey Ideker认为这类预测具有生命交关的重要意义,准确度是关键中的关键。但一些人拒绝接受模型得到的结果,原因是这种方法背后的机制并不明了,这是因为深度学习网络只给出答案而不会告诉你过程,这种问题也被称为“黑箱”(black-box)学习。Ideker说:"人们都想知道为什么,这后面的机制是什么。"Ideker的团队正在创建一个“可视化”的神经网络,将模型的内部机制与癌细胞的生物学特征直接联系起来。作为一次概念验证,团队构建了一个酵母细胞模型,称为DCell。该模型可以预测基因突变对细胞生长产生的影响,以及影响背后的分子途径[7]

空间维度

作为人类蛋白质图谱(Human Protein Atlas)的一部分,Lundberg和其他瑞典科学家正在利用深度学习解决另一项计算挑战:评估蛋白质的定位。人类蛋白质图谱是一项耗时多年的多组学研究,旨在绘制出人类全部的蛋白质。空间信息能揭示蛋白质在细胞中的位置,这类信息在系统水平的研究中比例偏低。Lundberg表示,如果研究人员可以获取这些信息,他们就能用它来了解更多关于基础生物学的见解。


进入AI时代。2016年,Lundberg和她的同事邀请游戏玩家帮助计算机对细胞中蛋白质的位置进行分类。这些公民科学家参与了名为EVE Online的角色扮演游戏,游戏中,玩家必须精确定位荧光标记的蛋白才能得分,让原本执行该任务的AI系统进一步升级。不过,即使是经过增强的系统,在速度和准确性上依然落后于人类专家。


于是在2018年,Lundberg的团队将这些图像带到了Kaggle。Kaggle是一个机器学习挑战平台。在这里,机器学习专家将拿出他们最好的模型来破解公司和研究人员提供的数据集。在三个月的时间里,来自世界各地的2172支竞争队伍开发出了一个深度学习模型,不仅能辨别一个蛋白和多个参考标志物染色的细胞,还能计算出蛋白的空间分布。


这是一个充满挑战的任务。Lundberg说一半的人类蛋白质会出现在细胞的多个位。像细胞核这样的细胞区域更是非常常见的位置。


尽管如此,Lundberg认为Kaggle的选手们交出了满意的答卷。比赛中领先的方法大多数来自于没有生物学背景的计算科学家,包括曾创建出预测地震和贷款违约模型的软件工程师Bojan Tunguz,他进入了这次人类蛋白质图谱竞赛的前几名。Tunguz认为在完全不同的学科中解决这类问题的方法是相通的。


Lundberg说,最好的模型可以同时在多种细胞系中识别出常见和罕见的蛋白质位置,最重要的是,这个模型还能有效捕捉混合模式。算法的准确度几乎可以和人类专家相媲美,另外还有速度和可重复性的优势。此外,它还能量化空间信息[8]。“当我们不仅能用标签进行描述,还能用标签量化这些信息时,我们就可以将它与其他数据进行整合。”其中就包括已经颠覆了癌症研究的“组学”(omics)数据。


比如,一个名为DeepProg的计算框架可以利用深度学习处理“组学”数据集,包括基因表达和表观遗传数据,来预测病人的存活率[9]。同时,DigitalDLSorter可以直接从肿瘤RNA测序数据推断免疫细胞的种类和数量来预测结果,无需依赖繁琐的传统工作流程[10]

新视野

很多用于构建深度学习模型的工具已经可以在线上免费获取,包括各种软件库和编程框架,如Tensorflow、Pytorch、Keras和Caffe。如果遇到了图像分析工具的各种问题,可以前往“科学社区图像论坛”(Scientific Community Image Forum:https://forum.image.sc)提问或贡献你的答案。还有资源可以帮助研究人员找到相关的深度学习模型,并通过迁移学习重新定义模型的任务用途。例如在Kipoi上就可以搜索超过2000个开箱即用的模型,可以用于预测转录因子蛋白如何与DNA结合,或者酶会在什么位置剪接DNA。


Lundberg团队还与其他开发者合作构建了一个基本的模型园地(model zoo:https://bioimage.io),用于快速共享人类蛋白质图谱的模型;目前正在为模型生产者和非专业用户创建更为高级的模型库。


为此,Lundberg实验室的博士后Wei Ouyang将创建一个名为ImJoy的平台,可以让研究人员在自己的电脑浏览器、云端或是手机端上测试并运行AI模型。共享生物图像数据和深度学习模型也是开放生物图像分析中心的首要任务,该项目由美国政府资助并由Carpenter和威斯康星麦迪逊分校的生物工程师Kevin Eliceiri领导。


另一个选择是不久前刚上线的ZeroCostDL4Mic平台,由伦敦大学学院的生物物理学家Ricardo Henriques开发。平台充分利用了谷歌面向AI开发者的免费云服务Colab,提供多项受欢迎的深度学习显微技术,包括Jacquemet用来在视频片段中自动标注细胞核的工具。Jacquemet说:"你需要的一切将在几分钟内安装好。"点击几下后,用户就能利用样本数据来训练神经网络完成预期任务(见“急寻:更多数据”),随后就可以将神经网络应用于自己的数据集上,全程无需编写代码。


急寻:更多数据

 

深度学习模型可以直接处理原始数据,但首先需要利用标注过的信息对模型进行训练。

 

训练深度学习模型需要海量的标注数据,而这种体量的数据并不常见,美国宾夕法尼亚大学的计算生物学家Casey Greene说,“贵的不是数据,而是标注过的数据。”

 

在基因组学领域有大量公开的测序数据。但数据的相关描述,或元数据,常常不是缺失,就是错误或非标准化,斯坦福大学生物信息学博士生Emily Flynn说。如果研究人员想要训练一个模型来检测病人样本中的非小细胞癌时,可能会发现数据的标签各不相同,比如“nsclc”“non small-cell”或是“non small cell LC”,这种差异难倒了分析工具。有时候,样本会被标注成:“疾病:胶质瘤”和“疾病:是”的模式,华盛顿大学麦迪逊分校的生物统计学家Colin Dewey说。


为了帮助组织整理这些数据,Dewey创建了一个名为MetaSRA的计算流程,可以利用文本挖掘技术实现标准化,并在公开序列数据上存储更多元数据。Greene和同事还创建了一个协调表达数据和RNA序列的数据库refine.bio。此外Flynn通过与斯坦福生物工程师Russ Altman的合作,利用机器学习技术来推断基因表达数据中缺失的标签,从而改善refine.bio中的标注。


在生物图像领域,标注一直是问题所在。为了标注一组病理切片,“必须有人手动在癌症部位周围画一个标记框,而这份工作往往要价不低。”Greene说。现在,开发者开始训练深度学习算法,让它们来标注细胞图像中的细胞核与相关结构,图像数据资源(Image Data Resource)等在线数据库正在使研究人员更容易分享并找到他们需要的生命科学图像。


除了谷歌提供的免费服务外,如果研究人员想要使用更大的数据集或者训练更为复杂的模型,他们也许要通过购买或其他方式获得额外的计算资源。


Henriques表示,ZeroCostDL4Mic可以为缺乏专业技能和计算资源的生物学家简化深度学习的使用方式,就像一个AI“诱导剂”,引导研究人员愿意探索这些工具背后的软件,参与改变癌症等领域的研究方式。

参考文献:

1. von Chamier, L. et al. Preprint at bioRxiv https://doi.org/10.1101/2020.03.20.000133 (2020).

2. Perlman, Z. E. et al. Science 306, 1194–1198 (2004).

3. Ljosa, V. et al. J. Biomol. Screen. 18, 1321–1329 (2013).

4. Ando, D. M., McLean, C. Y. & Berndl, M. Preprint at bioRxiv https://doi.org/10.1101/161422 (2017).

5. Warchal, S. J., Dawson, J. C. & Carragher, N. O. SLAS Discov. 24, 224–233 (2019).

6. Warchal, S. J. et al. Bioorg. Med. Chem. 28, 115209 (2020).

7. Ma, J. et al. Nature Meth. 15, 290–298 (2018).

8. Ouyang, W. et al. Nature Meth. 16, 1254–1261 (2019).

9. Poirion, O. B., Chaudhary, K., Huang, S. & Garmire, L. X. Preprint at medRxiv https://doi.org/10.1101/19010082 (2019).

10. Torroja, C. & Sanchez-Cabo, F. Front. Genet. 10, 978 (2019).


原文以Deep learning takes on tumours为标题发表在2020年4月 21日的《自然》科技特写版块

© nature

Nature|doi:10.1038/d41586-020-01128-8


点击“阅读原文”阅读英文原文

 

点击图片阅读热门文章

面对“超级”细菌,AI从上亿分子中找出了“超级”抗生素我的AI不可能这么傻:深度学习的致命弱点

中国AI能在2030年赶超世界吗?


由于近期微信订阅号的规则更改,很多朋友反映不能快速找到我们。小编建议大家可以将Nature自然科研设置为星标🌟,这样就能在微信公众号中发现我们,查看每天订阅。

 具体步骤:


快去试试吧!



版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。


© 2020 Springer Nature Limited. All Rights Reserved

喜欢今天的内容吗?喜欢就点个“在看”吧⇣⇣

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存