斯隆奖获得者李婧翌:AI+X并非总是有效,生物数据量小、噪音大,可解释性是关键
The following article is from 智源社区 Author 李婧翌团队
加州大学洛杉矶分校(UCLA)统计系的李婧翌教授的研究目标正是为解决这一问题,即针对前沿生物学问题,开发新的统计学方法。
随着深度学习技术的普及,李婧翌的研究团队也高度关注这一研究领域的发展。但正如她所说,当前的AI模型往往需要样本量大、噪音小的数据,并且其模型的可解释性也往往不及简单的统计模型。
因此,尽管AI+X在人工智能社区呼声很高,但似乎并非所有X领域的研究都非AI不可。
本文为首篇「青源研究组」成员访谈/约稿文章。
1
2
3
针对这一问题,目前已有十种已发表的计算方法,但是这些方法的相对优劣以及适用范围对用户而言并不清楚。
现实情况是,后发表的方法通常会宣称其优于之前的方法,但是这样的结论往往缺乏第三方的验证。
针对这一问题,李婧翌研究组对doublet detection方法进行了全面的评测,从而为单细胞研究人员就该问题的方法选择提供了指导(该工作由博士生席楠完成) [2]。
图注:计算方法评估
此外,为了进一步公平化计算方法的评测和优化实验参数(测序的细胞数目和深度)的选择,李婧翌团队开发了单细胞仿真数据模拟器(scDesign[3], scDesign2[4])。
第一版本scDesign由前博士生李维完成,李维目前是罗格斯大学(Rutgers University)的助理教授。
第二版本scDesign2可以产生模拟真实数据中基因表达的相关性的仿真数据,由博士生孙天毅完成。
4
5
相关研究论文
[1] Ge, X., Chen, Y. E., Song, D., McDermott, M., Woyshner, K., Manousopoulou, A., ... & Li, J. J. (2020). Clipper: p-value-free FDR control on high-throughput data from two conditions. bioRxiv.
[2] Xi, N. M., & Li, J. J. (2021). Benchmarking computational doublet-detection methods for single-cell rna sequencing data. Cell systems, 12(2), 176-194.
[3] Li, W. V., & Li, J. J. (2019). A statistical simulator scDesign for rational scRNA-seq experimental design. Bioinformatics, 35(14), i41-i50.
[4] Sun, T., Song, D., Li, W. V., & Li, J. J. (2020). scDesign2: an interpretable simulator that generates high-fidelity single-cell gene expression count data with gene correlations captured. bioRxiv.
[5] Song, D., & Li, J. J. (2020). PseudotimeDE: inference of differential gene expression along cell pseudotime with well-calibrated p-values from single-cell RNA sequencing data. bioRxiv.
[6] Li, W. V., & Li, J. J. (2018). An accurate and robust imputation method scImpute for single-cell RNA-seq data. Nature communications, 9(1), 1-9.
[7] Jiang, R., Li, W. V., & Li, J. J. (2020). mbImpute: an accurate and robust imputation method for microbiome data. bioRxiv.
[8] Li, W. V., Li, S., Tong, X., Deng, L., Shi, H., & Li, J. J. (2019). AIDE: annotation-assisted isoform discovery with high precision. Genome research, 29(12), 2056-2072.
[9] Li, J. J., Jiang, C. R., Brown, J. B., Huang, H., & Bickel, P. J. (2011). Sparse linear modeling of next-generation mRNA sequencing (RNA-Seq) data for isoform discovery and abundance estimation. Proceedings of the National Academy of Sciences, 108(50), 19867-19872.
[10] Li, W. V., Zhao, A., Zhang, S., & Li, J. J. (2018). Msiq: Joint modeling of multiple rna-seq samples for accurate isoform quantification. The annals of applied statistics, 12(1), 510.
[11] Tong, X.*, Feng, Y.*, and Li, J.J. (2018). Neyman-Pearson classification algorithms and NP receiver operating characteristics. Science Advances 4(2):eaao1659.
[12] Li, J.J. and Tong, X. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.
[13]Song, D., Li, K.A., Hemminger, Z., Wollman, R., and Li, J.J. (2021). scPNMF: sparse gene encoding of single cells to facilitate gene selection for targeted gene profiling.
----------- End -----------
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(五) 2018-2020的主要突破性事件
IBM的AI系统通过深度生成模型和分子动力学模拟加快抗生素发现
FDA发布人工智能/机器学习行动计划
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
CDE关于发布《模型引导的药物研发技术指导原则》的通告(2020年第59号)
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动
AI赋能制药行业CRO,都有哪些新进展
利用量子理论加速药物发现的18家初创企业
AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例