查看原文
其他

人类细胞图谱组装的信息学路径:清华大学张学工团队NSR观点文章

The following article is from 中国科学杂志社 Author 《国家科学评论》

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

基于海量单细胞数据组装人类细胞图谱面临重大的信息学挑战。清华大学张学工教授团队近期在《国家科学评论》(National Science Review,NSR)发表观点文章“迈向细胞图谱组装的统一信息框架”(Toward a unified information framework for cell atlas assembly),系统分析细胞图谱组装的关键信息学挑战,指出了有效解决路径。


基因是生命的基本信息单元,细胞是生命的基本结构和功能单元。20年前完成的人类基因组计划(HGP),为理解生命的信息编码提供了奠基性基础参照系,使人类对自身的认识迈上了一个新台阶。而2016年由美英科学家牵头发起的国际人类细胞图谱(HCA)计划,致力于打造人类对自身生命机理探究的另一个里程碑。2017年,清华大学张学工教授团队作为唯一一个来自亚洲的团队,入选HCA第一批预研项目,重点探索图谱构建中的关键信息学问题。

人类细胞图谱的信息复杂度要远远超过人类基因组,因为在几十万亿个细胞中,每个细胞中都有一个基因组在运行,构成了每个细胞的超高维分子特性和细胞间复杂的相互作用。与HGP时代相比,当今科技形势发生了巨大变化。单细胞测序作为细胞图谱建设的核心技术,其发展和普及速度远远超过了当初的基因组测序技术,全球众多实验室针对各自的研究兴趣,利用自己可以获得的样本不断产出大量单细胞数据,一些不同规模的其他细胞图谱项目也陆续出现,大量的人类单细胞数据在公共空间中不断积累。这些数据事实上为细胞图谱构建提供了自底向上进行的新路径,但如何将散布在大量文献和不同标准、不同规模数据库中的海量细胞数据组装成人类细胞图谱,是摆在科学家面前的巨大挑战。

在这篇观点文章中,作者指出,细胞图谱的组装不应是数据文件的简单汇集,而应当是以细胞为单位的有机组装,利用细胞的高维分子特性和相互关系构建数据空间中的虚拟人体。这样组装的图谱,才能实现对不同来源数据的无缝链接、浏览、搜索和利用,进而带来未来医学研究上跨越微观与宏观、兼顾局部与全局的革命性应用。 

不论是自顶向下分解数据采集任务,还是自底向上汇集散布数据,细胞图谱组装都面临三大关键挑战,即:

  • 数据组织体系挑战,来源于人体细胞系统的多重坐标复杂性;

  • 数据标注标准化挑战,来源于细胞类型、细胞状态等的定义模糊性;

  • 存储和检索挑战,来源于细胞数目和属性的双重超大规模。

文章提出,建立统一信息框架是细胞图谱有效组装的关键,它应该包括统一的超大数据存储与快速检索系统、统一的细胞广义坐标体系、统一的多层次标注体系。

细胞图谱组装的统一信息框架 

为了验证这一观点并探索实现统一信息框架的可行路径,张学工教授团队用三年时间建立起了细胞图谱统一信息框架的原型,并通过汇集覆盖人体38个器官的百万余细胞的单细胞转录组数据,构建了第一个细胞级组装的人体集成细胞图谱human Ensemble Cell Atlas (hECA)相关成果于近期发表于期刊iScience上(https://doi.org/10.1016/j.isci.2022.104318)。

基于上述理念和成果,该团队还创造性地提出了在细胞图谱构成的虚拟人体中按照复杂逻辑进行细胞筛选分析的“数基细胞实验”(“in data” cell experiments)范式,通过用逻辑代码方式在虚拟人体中寻找CAR-T靶向治疗可能的脱靶副作用器官,初步展现了统一组装的细胞图谱能给医学研究带来革命性发展的巨大前景。


点击“阅读原文”查看原文。

扩展阅读

 

调控二维材料的“层间水路”,提升MXene储能性能 | NSR

高通量位点特异性糖蛋白质谱分析新方法及其用于肝病分子分型研究 | NSR

新型ThPy基小分子受体 → 出色的非富勒烯有机太阳能电池 | NSR

纳米化学有序/无序畴的识别与调控:Fe3Pt合金中的研究 | NSR

本文系网易新闻·网易号“各有态度”特色内容

媒体转载联系授权请看下方

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存