查看原文
其他

Nat Genet︱郭国骥/韩晓平团队发表基于人工智能神经网络的基因组解读系统Nvwa,并揭示细胞命运决定的共性规律

郭国骥等 岚翰生命科学 2023-03-10

撰文︱郭国骥,李佳琦,王晶晶

责编︱方以一,王思珍

编辑︱杨彬薇


预测基因表达解析基因调控机制一直是基因组学的重要目标。尽管研究人员已经努力使用细胞系或组织中的各种实验特征来预测调节信号和基因表达[1-3],但在单细胞分辨率下进行生物体规模的表达预测仍然具有挑战性。如今单细胞图谱能够以统一的标准呈现物种细胞的表型[4-9],因而人类有机会使用跨物种的单细胞数据来探索进化过程中不同细胞类型的表达和调控程序。研究团队假设可以直接从基因组序列预测生物体规模的单细胞基因表达,并试图在具有巨大细胞类型多样性的后生动物中检验这一假设。


20221013日,浙江大学基础医学院/浙江省良渚实验室郭国骥教授/韩晓平教授团队在Nature Genetics上发表了题为“Deep learning of cross-species single cell landscapes identifies conserved regulatory programs underlying cell types”的研究。该研究利用自主构建的高通量单细胞测序平台Microwell-seq绘制了斑马鱼、果蝇和蚯蚓的全身单细胞转录组图谱,并探究了八种代表性后生动物细胞类型的跨物种可比性,揭示了脊椎动物细胞类型保守的调控程序。构建了深度学习模型Nvwa(女娲),首次实现了完全基于基因组序列预测单细胞分辨率下的基因表达。



斑马鱼、果蝇和蚯蚓作为后生动物重要的进化节点,全身单细胞转录组图谱的绘制将有助于解析物种进化进程中细胞命运的决定机制。研究人员首先使用其团队自主研发的高通量单细胞测序平台Microwell-seq绘制了斑马鱼、果蝇和蚯蚓的全身单细胞转录组图(图1a)其中,斑马鱼图谱收集了635228个单细胞数据,果蝇图谱涵盖了276706个单细胞数据,蚯蚓图谱包含了95,020个单细胞数据。共计定义了105个斑马鱼细胞类型和1285个细胞亚型,87个果蝇类型和1085个细胞亚类,以及62个蚯蚓细胞类型和462个细胞亚类。该研究利用这三种模式动物的单细胞图谱,并结合其他五种代表性动物的单细胞图谱(人类[4]、小鼠[5]、海鞘[10]、线虫[11]和涡虫[12]),挖掘了跨物种细胞谱系特异性的转录因子,探究了八种代表性后生动物细胞类型的跨物种可比性,揭示了脊椎动物细胞类型(图1b),特别是免疫细胞、基质细胞、神经元、上皮细胞、内皮细胞和生殖细胞的保守调节程序(图1c)


图1 斑马鱼、果蝇和蚯蚓的单细胞转录图谱的构建和跨物种分析

(图源:Jiaqi Li, et al., Nat Genet, 2022)


基于DNA序列编码基因表达模式的假设,研究人员提出了深度学习模型Nvwa(女娲),首次实现了完全基于基因组序列预测单细胞水平的基因表达,且预测准确度与实验测量精度相当(图2a)值得注意的是,Nvwa模型可以高度准确地预测几乎所有测试物种的基因表达,并且保持物种细胞图谱所描绘的细胞类型特异性除了预测基因表达,研究人员应用模型预测整个基因组的转录调控信号,模型预测与功能基因组学数据描绘的调控区域高度一致。此后,接着研究团队通过解释模型的预测能力,来分析其生物学意义,由此揭示模型识别的具有可预测性的调控模式。通过检查模型第一层卷积的序列特征Filter,团队揭示了细胞类型特异的基序,其中部分基序与转录因子结合基序具有一致性。并且在特异细胞类型中的调控模式作用与细胞类型特异性富集的转录因子基序相一致(图2b,c)。基于Nvwa模型Filter的跨物种比较,该研究还发现同源Filter倾向于保持跨物种的细胞类型特异性。该工作首次建立了物种层面基因组编码细胞图谱的整合模型,并为解码多物种基因调控程序提供了宝贵资源。


图2 深度学习模型Nvwa(女娲)

(图源:Jiaqi Li, et al., Nat Geneti 2022)


文章结论与讨论,启发与展望综上所述,该研究利用自主构建的高通量单细胞测序平台Microwell-seq绘制了斑马鱼、果蝇和蚯蚓的全身单细胞转录组图谱,并探究了八种代表性后生动物细胞类型的跨物种可比性,揭示了脊椎动物细胞类型保守的调控程序。该研究基于单细胞图谱提出了深度学习模型Nvwa(女娲),首次实现了完全基于基因组序列预测单细胞分辨率下的基因表达。该研究基于Nvwa模型学习衍生的谱系特异性基序,表征了跨物种细胞类型特异性的调节程序。值得一提的是,Nvwa模型将为组学和精准医疗研究提供强大的技术支撑。例如:基于Nvwa模型可以实现多组学大数据整合的序列建模;利用Nvwa模型可以大规模解码单细胞尺度下的疾病/肿瘤基因组,进一步开发基因组学功能预测工具;应用Nvwa模型解析基因组序列的特性,实现DNA序列突变效应的预测,有助于筛选与复杂疾病关联的突变效应等。


尽管Nvwa为研究进化过程中细胞类型特异性调控程序提供了一个新的视角,但Nvwa模型的解释和应用仍然需要谨慎。首先,超参数和模型结构,特别是第一层卷积Filter,需要权衡序列模式解释的简并性和灵敏度。其次,在本研究中,研究人员将深度学习衍生序列模式解释为转录因子的基序,存在一些新序列模式无法分配到已知数据库。另外,通过功能实验验证调节元件是非常重要的。最后,基因调控机制是复杂的,模型的结构、预测性能和调控逻辑解释仍需改进。


原文链接:https://www.nature.com/articles/s41588-022-01197-7


通讯作者:郭国骥教授(左),韩晓平教授(中),王晶晶研究员(右)

(图源:照片提供自郭国骥/韩晓平团队)


通讯作者简介(上下滑动阅读) 

郭国骥,浙江大学医学院教授,浙江省良渚实验室核心PI,博士生导师,浙江大学医学院干细胞与再生医学中心副主任,浙江大学血液学研究所副所长,浙江大学干细胞联盟副主席。2017年获“国家优秀青年基金”,2019年入选“万人计划”科技创新领军人才。曾获“树兰医学青年奖”,“霍英东青年教师奖”,“细胞生物学会青年科学家奖”等荣誉。一直致力于单细胞分析技术的开发与应用,并在细胞图谱的绘制上有突出贡献;在Nature, Cell, Nature Genetics, Cell Stem Cell等著名期刊发表多篇学术论文。


韩晓平,理学博士,浙江大学医学院教授,博士生导师,国家优秀青年科学基金获得者,浙江大学求是青年学者。主要从事单细胞分析技术方向的研究,以第一作者或通讯作者在Nature, Cell,Cell Research,Nature Genetics等顶级期刊发表多篇研究论文。


王晶晶,生物信息学博士,浙江省良渚实验室特聘研究员,主要从事单细胞组学大数据整合,细胞类型进化等研究,以第一作者或共同第一作者在Nature,Nature Genetics,Cell Reports等杂志发表多篇论文。



往期文章精选

【1】CMI︱蔡志坚团队发文揭示肿瘤细胞来源的胞外囊泡介导抗PD-L1治疗的机制

【2】Cell Death Dis︱杨美香/尹芝南团队合作揭示更年期女性阴道萎缩的新机制

【3】Protein Science︱方雷/吴喜林团队合作构建高亲和力的抗Gn单克隆纳米抗体

【4】JHLT︱宫念樵课题组发现XBP1缺失的骨髓源性树突状细胞可能抑制同种异体免疫排斥反应

【5】Transl Psychiatry︱重度抑郁患者的大脑功能存在加速老化:来自大规模中国参与者的证据

【6】Adv Sci︱林君/李春霞团队合作发现贵金属纳米酶AuPtAg-GOx通过饥饿治疗增强温和光热治疗诱导协同的肿瘤免疫治疗

【7】Cell Death Dis︱孙毅团队揭示拟素化抑制剂MLN4924的肿瘤相关免疫抑制作用机制及靶向联合用药

【8】NAR︱李根喜/张娟团队研发腙化学介导的CRISPR/Cas12a系统用于细菌分析

【9】Biophys J︱徐光魁教授课题组揭示细胞皮层非线性幂律松弛的网络动力学

【10】Sci Adv | 盛能印/毛炳宇/丁玉强团队合作发现AMPA受体泛素化在兴奋性突触功能调控中的新机制

讲座/会议/研讨会等【1】Immune Zoom Seminar︱B细胞在免疫和神经系统中的筛选(徐和平教授)【2】Immune Zoom Seminar︱B细胞在免疫和神经系统中的筛选(徐和平教授)优质科研培训课程推荐【1】单细胞测序与空间转录组学数据分析研讨会(10月29-30日 腾讯在线会议)【2】宏基因组与代谢组/脂质组学R软件数据可视化研讨会(10月29日 腾讯在线会议)欢迎加入“岚翰生命科学” ”岚翰生命科学“ 诚聘副主编/编辑/运营岗位 (在线办公)

文献(上下滑动阅读) 

1.Agarwal V, Shendure J. Predicting mRNA Abundance Directly from Genomic Sequence Using Deep Convolutional Neural Networks. Cell Rep. 2020, 31(7):107663.

2.Zhou J, Troyanskaya OG. Predicting effects of noncoding variants with deep learning-based sequence model. Nat Methods. 2015, 12(10):931-4.

3.Kelley DR, Snoek J, Rinn JL. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res. 2016, 26(7):990-9.

4.Han X, Zhou Z, Fei L, Sun H, Wang R, Chen Y, Chen H, Wang J, Tang H, Ge W, Zhou Y, Ye F, Jiang M, Wu J, Xiao Y, Jia X, Zhang T, Ma X, Zhang Q, Bai X, Lai S, Yu C, Zhu L, Lin R, Gao Y, Wang M, Wu Y, Zhang J, Zhan R, Zhu S, Hu H, Wang C, Chen M, Huang H, Liang T, Chen J, Wang W, Zhang D, Guo G. Construction of a human cell landscape at single-cell level. Nature. 2020, 581(7808):303-309.

5.Han X, Wang R, Zhou Y, Fei L, Sun H, Lai S, Saadatpour A, Zhou Z, Chen H, Ye F, Huang D, Xu Y, Huang W, Jiang M, Jiang X, Mao J, Chen Y, Lu C, Xie J, Fang Q, Wang Y, Yue R, Li T, Huang H, Orkin SH, Yuan GC, Chen M, Guo G. Mapping the Mouse Cell Atlas by Microwell-Seq. Cell. 2018, 172(5):1091-1107.e17.

6.Fei L, Chen H, Ma L, E W, Wang R, Fang X, Zhou Z, Sun H, Wang J, Jiang M, Wang X, Yu C, Mei Y, Jia D, Zhang T, Han X, Guo G. Systematic identification of cell-fate regulatory programs using a single-cell atlas of mouse development. Nat Genet. 2022, 54(7):1051-1061.

7.Ye F, Zhang G, E W, Chen H, Yu C, Yang L, Fu Y, Li J, Fu S, Sun Z, Fei L, Guo Q, Wang J, Xiao Y, Wang X, Zhang P, Ma L, Ge D, Xu S, Caballero-Pérez J, Cruz-Ramírez A, Zhou Y, Chen M, Fei JF, Han X, Guo G. Construction of the axolotl cell landscape using combinatorial hybridization sequencing at single-cell resolution. Nat Commun. 2022, 13(1):4228.

8.Liao Y, Ma L, Guo Q, E W, Fang X, Yang L, Ruan F, Wang J, Zhang P, Sun Z, Chen H, Lin Z, Wang X, Wang X, Sun H, Fang X, Zhou Y, Chen M, Shen W, Guo G, Han X. Cell landscape of larval and adult Xenopus laevis at single-cell resolution. Nat Commun. 2022, 13(1):4306.

9.Wang R, Zhang P, Wang J, Ma L, E W, Suo S, Jiang M, Li J, Chen H, Sun H, Fei L, Zhou Z, Zhou Y, Chen Y, Zhang W, Wang X, Mei Y, Sun Z, Yu C, Shao J, Fu Y, Xiao Y, Ye F, Fang X, Wu H, Guo Q, Fang X, Li X, Gao X, Wang D, Xu PF, Zeng R, Xu G, Zhu L, Wang L, Qu J, Zhang D, Ouyang H, Huang H, Chen M, Ng SC, Liu GH, Yuan GC, Guo G, Han X. Construction of a cross-species cell landscape at single-cell level. Nucleic Acids Res. 2022, gkac633.

10.Cao C, Lemaire LA, Wang W, Yoon PH, Choi YA, Parsons LR, Matese JC, Wang W, Levine M, Chen K. Comprehensive single-cell transcriptome lineages of a proto-vertebrate. Nature. 2019, 571(7765):349-354.

11.Cao J, Packer JS, Ramani V, Cusanovich DA, Huynh C, Daza R, Qiu X, Lee C, Furlan SN, Steemers FJ, Adey A, Waterston RH, Trapnell C, Shendure J. Comprehensive single-cell transcriptional profiling of a multicellular organism. Science. 2017, 357(6352):661-667.

12.Fincher CT, Wurtzel O, de Hoog T, Kravarik KM, Reddien PW. Cell type transcriptome atlas for the planarian Schmidtea mediterranea. Science. 2018, 360(6391):eaaq1736.


本文完


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存