查看原文
其他

斯隆奖获得者李婧翌:AI+X并非总是有效,生物数据量小、噪音大,可解释性是关键

智药邦 2022-06-15

The following article is from 智源社区 Author 李婧翌团队

智源导读:在过去20年中,由于实验技术的发展,生物领域数据出现爆发式增长,同时推动了生物学科的定量化研究。因此,如何从数据中挖掘出有意义的生物学发现,已经成为生物学领域重要问题之一。
加州大学洛杉矶分校(UCLA)统计系的李婧翌教授的研究目标正是为解决这一问题,即针对前沿生物学问题,开发新的统计学方法。
随着深度学习技术的普及,李婧翌的研究团队也高度关注这一研究领域的发展。但正如她所说,当前的AI模型往往需要样本量大、噪音小的数据,并且其模型的可解释性也往往不及简单的统计模型。
因此,尽管AI+X在人工智能社区呼声很高,但似乎并非所有X领域的研究都非AI不可。
本文为首篇「青源研究组」成员访谈/约稿文章。

撰文 | 李婧翌, 蒋若尘, 席楠, 闫冠傲

李婧翌,加州大学洛杉矶分校(UCLA)统计系终身副教授,2018年斯隆奖获得者,入选 《麻省理工科技评论》“35 岁以下科技创新 35 人”(Innovators Under 35)2020 年中国区榜单。

“对我而言,回答了心中的问题或者做出了新的发现,这种成就感要远高于生活中的其他快乐。”
——李婧翌


1

基本研究思路

在过去的20年中,新的生物学实验技术促使生物学在定性的、观察性的研究之外,还能定量地、更精确地研究生物体在细胞和分子层面的变化。通过这些实验技术手段得到的定量信息,我们称之为高通量生物数据,譬如由第二至三代测序技术产生的基因组、表观遗传学和转录组数据。

高通量生物数据的分析充满着挑战,而且不断更新迭代的实验技术会产生新的数据类型,从而往往需要新的计算方法。

然而,在目前的AI前沿研究中,大家的重点在于使用复杂模型比如深度神经网络来提高预测精度,但目前复杂模型在生物数据中的成功应用仍具有局限性:

首先,复杂模型的训练通常需要样本量大、噪音小的数据,比如使用核酸序列来预测蛋白质结合位点,以及使用氨基酸序列来预测蛋白质结构等;

其次,同简单模型比,复杂模型在可解释性方面并无明显优势。

由于生物学数据存在样本量小、噪音大的问题,因此李婧翌团队目前的研究仍着重于使用可解释性较好的统计学模型来开发计算方法。

原因在于,解释性好的模型能让我们容易分析模型和数据吻合的程度,以及不吻合的原因(究竟是数据噪音还是生物学信号)。


2

研究方向 1:提高数据分析可靠性

现阶段在生物数据计算中主要存在的一个问题是,很多新提出的计算方法缺乏统计学意义上的严谨性,使用这样的方法会阻碍科学发现的可重复性和可靠性,从而影响科学和医疗的进步。

而统计学的重要目标之一就是提高数据分析的严谨性和可靠性。

譬如,为了控制在多次假设检验中的假发现率(false discovery rate,即被检测检验判断为阳性的结果中真实条件为的阴性的比例),统计学家提出了基于假设检验 p 值的计算方法,比如著名的 Benjamini-Hochberg 算法和 Storey q-value 算法。

尽管此类计算方法在生物学数据的分析中已经被广泛使用,但一个常见的问题是,很多针对新数据类型开发的计算方法无法或者很难给出正确的p值(即真实结果应为阴性条件下的p值并不服从在0到1之间均匀分布的理论要求),其重要原因在于生物数据往往样本量过小(通常不大于3),从而使得计算p值需要的概率模型假设很难被验证。而采用不正确的p值会造成假阳性率过高或检验效力(power)过低,从而严重影响分析结果的可靠性。

针对这一普遍性的问题,李婧翌研究团队提出了一种新的计算方法(Clipper[1]),使用户能在无需计算p值的情况下直接控制高通量数据分析中的假阳性率(该工作由博士生戈心舟和陈怡翎主导完成)。

图注:Clipper和三种常用的FDR控制方法的说明

Clipper的优势在于无需对数据分布进行参数化的假设,从而适用于样本量小的情况,避免了p值计算的难点,并节省了p值计算的时间。

李婧翌团队目前正致力于将Clipper应用于多种类型的生物数据分析,譬如识别全基因组层面的差异表达基因和蛋白质结合位点。

除了假设检验,李婧翌还和南加州大学的童欣教授、纽约大学的冯阳教授合作开发了对机器学习二元分类算法实现群体层面假阳性率(或假阴性率)控制的Neyman-Pearson通用算法[11]。

此算法可以帮助用户对二元分类算法找到一个合适的阈值,从而使得分类器在群体层面的假阳性率或假阴性率(即更严重的一类错误,譬如把恶性肿瘤误判为良性)被控制在用户期望的小概率(如百分之五)以下。

以上两个工作分别是针对多次假设检验和二元分类问题,尽管在统计和机器学习中,这两个问题的区分不言而喻,但在实际应用中,一个生物医学的数据分析问题究竟是更适合被当做多次假设检验问题还是二元分类问题,往往并不一目了然。针对此问题,李婧翌写了一篇讨论文章,从而为数据分析人员提供指南[12]。


3

研究方向 2:对计算方法进行评测

另一个在目前生物数据分析中存在的问题是,对于同一类型的数据通常存在着多个为了同一个目标而开发的计算方法,因此从用户的角度而言,如何去选择合适的计算方法是一个难题。

譬如,在当前热门的单细胞RNA测序数据的分析中,一个重要的计算问题(doublet detection)是如何识别出数据中的“假单细胞”,即多于一个细胞被包含进入一个反应体因此被实验误判为一个细胞的情况。


针对这一问题,目前已有十种已发表的计算方法,但是这些方法的相对优劣以及适用范围对用户而言并不清楚。


现实情况是,后发表的方法通常会宣称其优于之前的方法,但是这样的结论往往缺乏第三方的验证。


针对这一问题,李婧翌研究组对doublet detection方法进行了全面的评测,从而为单细胞研究人员就该问题的方法选择提供了指导(该工作由博士生席楠完成) [2]。


图注:计算方法评估


此外,为了进一步公平化计算方法的评测和优化实验参数(测序的细胞数目和深度)的选择,李婧翌团队开发了单细胞仿真数据模拟器(scDesign[3], scDesign2[4])。


第一版本scDesign由前博士生李维完成,李维目前是罗格斯大学(Rutgers University)的助理教授。


第二版本scDesign2可以产生模拟真实数据中基因表达的相关性的仿真数据,由博士生孙天毅完成。


4

研究方向 3:基因测序数据的计算方法

除以上工作之外,李婧翌团队还开发了一系列关于基因测序数据的计算方法。

■ 博士生宋东源开发了用于分析单细胞中基因表达随着细胞状态变化的工具PseudotimeDE [5],其优势在于可以提供正确的p值。

■ 博士生宋东源和李可欣开发了从单细胞高通量基因表达数据中挑选用户指定数目的标志性基因的scPNMF方法,该方法可用于指导对更准确、更便宜的单细胞低通量基因表达测量实验的设计(即如何选择测量的基因使得实验数据更有信息量)[13](即将在ISMB/ECCB 2021会议和Bioinformatics杂志发表)。

■ 针对单细胞和微生物测序数据中存在很多缺失值的问题,前博士生李维和现博士生蒋若尘分别开发了两种针对数据特征的补齐方法[6,7]。这些方法通过提高数据的质量来帮助后续的数据分析。

■ 针对第二代测序数据无法测出信使核糖核酸(mRNA)的全长序列的技术局限,李婧翌和前博士生李维开发了多种统计方法来实现从数据中推测全长mRNA的序列和表达量[8, 9,10]。

相比其他方法,以上方法更着重于对数据中噪音的考量以及对分析结果的假阳性的控制,从而使得研究者可以更加准确地对第二代测序数据进行全长mRNA层面的分析。

5

愿  景

在未来很长一段时间内,基于高通量生物数据的定量研究会在生物医学中发挥更重要的作用。

不断进步的实验技术会产生更多,更精确的生物数据,随之而来的是对更严谨的计算方法的需求。

通过定量化的研究,在未来,我们希望可以通过计算机和AI技术来模拟一个生物体内部的变化,从而能更好地了解各种生物,包括人类自身。同时,我们希望能通过计算方法来分析药物的作用,从而为治疗疾病设计更精确的药物。

相关研究论文

[1] Ge, X., Chen, Y. E., Song, D., McDermott, M., Woyshner, K., Manousopoulou, A., ... & Li, J. J. (2020). Clipper: p-value-free FDR control on high-throughput data from two conditions. bioRxiv.


[2] Xi, N. M., & Li, J. J. (2021). Benchmarking computational doublet-detection methods for single-cell rna sequencing data. Cell systems, 12(2), 176-194.


[3] Li, W. V., & Li, J. J. (2019). A statistical simulator scDesign for rational scRNA-seq experimental design. Bioinformatics, 35(14), i41-i50.


[4] Sun, T., Song, D., Li, W. V., & Li, J. J. (2020). scDesign2: an interpretable simulator that generates high-fidelity single-cell gene expression count data with gene correlations captured. bioRxiv.


[5] Song, D., & Li, J. J. (2020). PseudotimeDE: inference of differential gene expression along cell pseudotime with well-calibrated p-values from single-cell RNA sequencing data. bioRxiv.


[6] Li, W. V., & Li, J. J. (2018). An accurate and robust imputation method scImpute for single-cell RNA-seq data. Nature communications, 9(1), 1-9.


[7] Jiang, R., Li, W. V., & Li, J. J. (2020). mbImpute: an accurate and robust imputation method for microbiome data. bioRxiv.


[8] Li, W. V., Li, S., Tong, X., Deng, L., Shi, H., & Li, J. J. (2019). AIDE: annotation-assisted isoform discovery with high precision. Genome research, 29(12), 2056-2072.


[9] Li, J. J., Jiang, C. R., Brown, J. B., Huang, H., & Bickel, P. J. (2011). Sparse linear modeling of next-generation mRNA sequencing (RNA-Seq) data for isoform discovery and abundance estimation. Proceedings of the National Academy of Sciences, 108(50), 19867-19872.


[10] Li, W. V., Zhao, A., Zhang, S., & Li, J. J. (2018). Msiq: Joint modeling of multiple rna-seq samples for accurate isoform quantification. The annals of applied statistics, 12(1), 510.


[11] Tong, X.*, Feng, Y.*, and Li, J.J. (2018). Neyman-Pearson classification algorithms and NP receiver operating characteristics. Science Advances 4(2):eaao1659.


[12] Li, J.J. and Tong, X. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.


[13]Song, D., Li, K.A., Hemminger, Z., Wollman, R., and Li, J.J. (2021). scPNMF: sparse gene encoding of single cells to facilitate gene selection for targeted gene profiling.

     



----------- End -----------







历史文章推荐    


AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(五) 2018-2020的主要突破性事件
IBM的AI系统通过深度生成模型和分子动力学模拟加快抗生素发现
FDA发布人工智能/机器学习行动计划
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
CDE关于发布《模型引导的药物研发技术指导原则》的通告(2020年第59号)
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动
AI赋能制药行业CRO,都有哪些新进展
利用量子理论加速药物发现的18家初创企业
AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存