屠鑫明目前就读于华盛顿大学西雅图 Paul G Allen school,导师是Sara Mostafavi, 之前在北京大学取得生物和计算机的双学位,研究兴趣主要是利用机器学习解析基因组学数据,包括variant to function预测,单细胞多组学,perturbation modeling。 个人主页:https://xinmingtu.cn/
Ewen Callaway. What's next for AlphaFold and the AI protein-folding revolution. Nature, 2022, 604 Paul J. Carter, Arvind Rajpal. Designing antibodies as therapeutics. cell, 2022, 185(15): 2789-2805 Kyle Swanson, Eric Wu, Angela Zhang, et al. From patterns to patients: Advances in clinical machine learning for cancer diagnosis, prognosis, and treatment. cell, 2023
基础模型简介+多模态
基础模型(Foundation Models)是一种大规模预训练的人工智能模型,如OpenAI的GPT系列模型。这些模型通过大量的数据预训练,提供了强大的基础能力,可以在多种任务中进行微调使用。例如,GPT-3和GPT-4模型已经在文本生成、翻译、编程辅助等多个领域显示出了强大的表现。 在生物医学科学领域,文本基础模型如GPT4,Med-PaLM已经初步展示了其巨大潜力。但更多的生物医学科学任务需要多模态基础模型来完成。目前很多工作在推进对文字和图像基础模型的研究,并探索如何在生物医学科学领域训练和应用这样的模型。 大模型简介+多模态 相关阅读材料 Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, et al. On the Opportunities and Risks of Foundation Models. arXiv:2108.07258, 2022推荐语:基础模型白皮书, 全面介绍基础模型的优势和风险 Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712, 2023 推荐语:报告了OpenAI的GPT-4模型在各种任务中的突出表现,并对人工普适智能的前景进行了探讨。 Karan Singhal, Tao Tu, Juraj Gottweis, et al. Towards Expert-Level Medical Question Answering with Large Language Models. arXiv:2305.09617, 2023推荐语:本文研究了Med-PaLM 2,一种具备专业内科医生水准的,能够准确回答医疗问题的大语言模型。 Karan Singhal, Shekoofeh Azizi, Tao Tu, et al. Large language models encode clinical knowledge. Nature, 2023: 1-9推荐语:谷歌开发的临床医学文本大模型,在美国医师资格考试USMLE和其他多项生物医药任务中取得新高 Michael Moor, Oishi Banerjee, Zahra Shakeri Hossein Abad, et al. Foundation models for generalist medical artificial intelligence. Nature, 2023, 616(7956): 259-265推荐语:展望多模态生物医学科学基础模型及其应用 Kathryn Wantlin, Chenwei Wu, Shih-Cheng Huang, et al. BenchMD: A Benchmark for Unified Learning on Medical Images and Sensors. arXiv:2304.08486, 2023https://arxiv.org/pdf/2304.08486.pdf 推荐语:介绍了一个专门为评估和比较不同算法在处理多模态医学图像和传感器数据能力的基准测试平台 Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, et al. PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering. arXiv:2305.10415, 2023 https://arxiv.org/abs/2305.10415推荐语:介绍了一个新的视觉问题回答数据集,PMC-VQA,并使用其进行视觉指令调整来增强模型在解决医学影像问题上的能力。 Lavender Yao Jiang, Xujin Chris Liu, Nima Pour Nejatian, et al. Health system-scale language models are all-purpose prediction engines. Nature, 2023: 1-6 推荐语:本文介绍了一种通用的全健康系统的语言模型,对于非结构化病历也有很好的兼容性,用于辅助医生进行临床医疗。 Tao Tu, Shekoofeh Azizi, Danny Driess, et al. Towards Generalist Biomedical AI. arXiv:2307.14334, 2023 推荐语:本文研究了Med-PaLM M在影像学医疗中表现出比放射科医生更精确的诊断能力,对于通用AI生物医学的发展具有里程碑意义。
大模型+基因
导语
基因组学作为生命科学的重要分支,致力于研究生物体的基因组结构、功能和相互作用。而大模型则是近年来人工智能领域的热门话题,它们以强大的计算能力和学习能力,有可能为基因组学研究带来了巨大的突破。大模型的学习能力有可能使得它们能够预测基因功能、发现基因间的相互作用,并揭示潜在的遗传变异与疾病之间的联系。 在本次读书会中,我们将一同探讨大模型在基因组学中的一些热门话题。比如,我们将聚焦于基因组与语言之间的差异。基因组与语言不同,所以直接搬运NLP上的大模型任务到基因组有待考究。比如基因它是一种固定的单位,并没有像语言那样的特别强的序列关系信息。基因组的不同之处在于它们来自于表达量的差异,而非序列的排列顺序。因此,如何设计大模型预训练的任务值得大家思考和讨论。 另外,基因组学领域涉及大量的结构数据,这些数据揭示了基因组之间的关系。这些结构数据为我们揭示了基因组内部的细微差异以及它们与其他基因组之间的相互作用,为深入理解基因组学提供了重要的线索。如何结合这些已经有的结构化数据到大模型中? 大模型+基因 相关阅读材料 Huang, Kexin, Cao Xiao, Lucas M. Glass, Cathy W. Critchlow, Greg Gibson, and Jimeng Sun. "Machine learning applications for therapeutic tasks with genomics data." Patterns 2, no. 10 (2021): 100328.推荐语:这篇综述大范围调查了机器学习在基因组学用于快速高效的药物研发上的应用,也总结了技术上和客观上的挑战。 Cui, Haotian, Chloe Wang, Hassaan Maan, and Bo Wang. "scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI." bioRxiv (2023): 2023-04.推荐语:本文介绍了用生成式AI建立单细胞多组学基础模型,能够捕捉有意义的生物学信息并能快速微调优化。 Theodoris, C.V., Xiao, L., Chopra, A. et al. Transfer learning enables predictions in network biology. Nature (2023). https://doi.org/10.1038/s41586-023-06139-9推荐语:本文介绍了迁移学习,它代表了一种预训练的深度学习模型,通过微调,下游程序能够加速网络中关键调节因子和候选治疗靶点的发现。 Shen, Hongru, Jilei Liu, Jiani Hu, Xilin Shen, Chao Zhang, Dan Wu, Mengyao Feng et al. "Generative pretraining from large-scale transcriptomes for single-cell deciphering." Iscience 26, no. 5 (2023). Chen, J., Xu, H., Tao, W. et al. Transformer for one stop interpretable cell type annotation. Nat Commun 14, 223 (2023). https://doi.org/10.1038/s41467-023-35923-4 Yang, F., Wang, W., Wang, F. et al. scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data. Nat Mach Intell 4, 852–866 (2022). https://doi.org/10.1038/s42256-022-00534-z推荐语:第一篇文章介绍了tGPT,它代表了一种新的整合与破译转录物组的范式。第二篇文章介绍了TOSICA,一种基于Transformer的单细胞可解释注释模型,有快速精确的one-stop注释和batch-insensitive集成。第三篇文章介绍了scBERT,一种单细胞RNA序列数据的细胞注释模型,解决了缺乏基因序列标记等问题,有良好概括性和稳健性。 Benegas, Gonzalo, Sanjit Singh Batra, and Yun S. Song. "DNA language models are powerful zero-shot predictors of non-coding variant effects." bioRxiv (2022): 2022-08. Zvyagin, Maxim, Alexander Brace, Kyle Hippe, Yuntian Deng, Bin Zhang, Cindy Orozco Bohorquez, Austin Clyde et al. "GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics." bioRxiv (2022): 2022-10.推荐语:GWAS给MML在DNA中的应用创造了可能。第一篇文章介绍了GPN,通过无监督学习全基因组变异影响,并在测试中取得了良好效果。第二篇文章介绍了GenSLMs,一种基因组尺度的语言模型,揭示了SARS-CoV-2的进化动力学。
大模型 + 结构生物学
导语结构生物学,一直在致力于解析生物分子、特别是蛋白质和核酸的三维结构,以了解它们的功能、活动和相互作用。在过去的几十年里,结构生物学已经为我们揭示了许多生命的秘密。然而,由于实验困难和数据复杂性,结构生物学面临着巨大的挑战。这就是机器学习发挥其强大作用的地方。通过大数据处理,模式识别,预测建模等,机器学习已经被广泛应用在生物信息学,药物发现,基因编辑等领域。特别是近年来,深度学习的应用,为结构生物学的研究带来了前所未有的可能性。结构生物学和机器学习的融合,将极大推动生物科学的进步。在这个研讨会上,我们邀请了来自一些领域内的专家,他们在这个交叉领域做出了卓越的贡献。他们将分享他们的最新研究成果,讨论新的科研方向,展望未来的可能性。 大模型+ 结构生物学 相关阅读材料 Zeming Lin et al. Evolutionary-scale prediction of atomic-level protein structure with a language model.Science379,1123-1130(2023).DOI:10.1126/science.ade2574推荐语:本文综述了语言模型带来的高分辨率结构预测的革命,实现了宏基因组蛋白序列结构的预测,并且这种预测具有高的可信度。 P Sturmfels, R Rao, R Verkuil, et al. Seq2MSA: A Language Model for Protein Sequence Diversification. Nature, 2021, 596(26 August 2021): 583推荐语:本文介绍了一个语言模型,使得即便输入了一个较低的序列特征的蛋白,生成的序列能保持与目标序列结构上的一致,这将有助于科研人员已有目标结构的新蛋白研发。 John Jumper, Richard Evans, Alexander Pritzel, et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021: 1-11推荐语:本文介绍了一种卓越而又新颖的机器学习方法——AlphaFold,它基于神经网络模型,结合了蛋白结构的物理和生物维度,扩充了多元序列比对。 M Baek, I Anishchenko, I Humphreys, et al. Efficient and accurate prediction of protein structure using RoseTTAFold2. bioRxiv, 2023推荐语:本文介绍了一种由结合AlphaFold2与RoseTTAFold 共同优势的模型 ,它对于大分子和复杂蛋白有着良好的分辨率,扩展了RoseTTAFold 原始的三轨结构体系,为进一步研究提供了良好工具。 Ruidong Wu, Fan Ding, Rui Wang, et al. High-resolution de novo structure prediction from primary sequence. bioRxiv, 2022推荐语:本文介绍了OmegaFold,它能够实现高分辨率主要序列的从头合成预测,尤其是不属于任何蛋白家族的孤立蛋白结构和多序列比对预测不准确的抗体。
大模型+生物医药安全性
导语在我们进入大模型和生物医学的交汇点时, 需要特别关注的一点是生物医药的安全性。例如,AI模型的预测和决策可能直接影响患者的治疗方案和药物选择,这就需要我们仔细评估模型的准确性、可解释性和稳健性,确保模型的预测结果不会导致不良的医疗后果。药物发现、基因编辑、临床决策支持等领域本身已经有很多对安全性的研究,但大模型的广泛应用和巨大规模带来了新的挑战。我们也面临着伦理和对齐的挑战。例如,我们需要考虑数据隐私、算法偏见、模型的可解释性等问题。 大模型+生物医药安全性 相关阅读材料 S Harrer. Attention is not all you need: the complicated case of ethically using large language models in healthcare and medicine. PERSONAL VIEW, 2023, 90(APRIL 2023): 104512推荐语:本文综述了大型语言模型(Large Language Models, LLMs)应用于医疗保健服务和医药卫生领域的复杂案例,它不能取代人类而只是提供风险评估的工具,帮助人们做出合乎伦理的,科学的,人文的工作规划。 A Blasimme, E Vayena. The Ethics of AI in Biomedical Research, Patient Care, and Public Health. Patient Care and Public Health, 2019 DD Farhud, S Zokaei. Ethical Issues of Artificial Intelligence in Medicine and Healthcare. Iran J Public Health, 2021, 50(11): i–v 推荐语:两篇文章均综述了人工智能在医药领域应用中的伦理问题。第一篇文章中提出人工智能驱动的健康护理和公共卫生领域的伦理问题:比如安全问题和标准的统一问题,智能化对专业护理人员和患者的影响,个体和群体治疗与疾病预防算法决策中的公平和歧视问题等,并综述了相应的管理方法。 第二篇文章综述了人工智能广泛应用于医药领域后面临各种各样的伦理上和法律上的挑战,包括隐私和数据保护,知情同意,医疗咨询、同理心和同情心等,在促进了数据储存和卫生部门的可及性的同时却存在在许多低收入国家和发展中国家不够普及的问题。
N Rostamzadeh, D Mincu, S Roy, et al. Healthsheet: development of a transparency artifact for health datasets. FAccT ’22, 2022(June 2022): 1943–1961
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。 集智俱乐部联合西湖大学工学院AI方向助理教授吴泰霖、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣,共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。 详情请见: 人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动