查看原文
其他

一文了解基因计算发展简史

华大医学BGIDx 华大医学
2024-11-08

大规模基因计算初登场

1990年,生命科学界基于“遗传信息储藏在DNA序列之中”[1]和“癌症是基因引起的疾病”[2]这一共识,开启了人类基因组计划[3]。当时的测序技术路线定为克隆重叠群 (clone contig) 法,也叫分层鸟枪 (hierarchical shotgun),即先通过人类遗传学多年的研究积累获得的遗传图和物理图定位待测片段,对连续克隆系中排定的BAC逐个进行亚克隆测序,并进行组装,这个技术的优点是准确性高,但缺点也不言而喻,费钱、费力、费时。


1999年,塞莱拉公司的创办人Venter大胆地提出全基因组鸟枪 (whole-genome shotgun) 法。这种“自下而上”的策略先将基因组DNA随机切成小片段进行测序,再将它们拼接、组装起来,获得序列结果,这个技术路线的优点是测序效率大幅提高,但缺点是准确性较差,需要通过基因计算来完善结果。


Waterston R H, Lander E S, Sulston J E. On the sequencing of the human genome[J]. Proceedings of the National Academy of Sciences, 2002, 99(6): 3712-3716. 

分层鸟枪法 (左);全基因组鸟枪法 (右)



基因计算的重要性初现

事实上,无论采用哪种策略进行测序得到的都是上千万的小片段DNA序列,最后必须要将它们组装成基因组上真实的排列顺序,这都是手工操作无法完成的,需要借助算法、数据库以及相关的软件系统。


1977年,世界首个生物信息软件由英国剑桥医学研究委员会分子生物学实验室开发和集成,并发表在NAR上,题为“利用计算机处理序列数据 (Sequencing data handling by computer)”[4]。该程序能在仅有28kb内存的小型计算机上,完成长达6000bp的DNA序列分析,属于最早期PC机模式下运行的初代桌面级软件。


人类基因完成图主要采用1993年由Phil Green实验室建立和发展的Phred-Phrap-Consed软件系统进行测序数据的分析处理,完成碱基识别、拼接序列打分和编辑写入。为完成在当时看来十分庞大的人类基因组数据,基因序列的分析和计算都在曙光3000、SUN 10K、IBM P690等巨型计算机运行[5]


基因计算模式的不断升级

基因计算架构的发展


 基因计算架构1.0——小集群模式

“炎黄一号”是华大基因结合MPH测序技术,运用“基于参考序列的组装”方法完成的第一个亚洲人个体基因组[6],核心技术就是自主设计开发,并应用于整个项目高通量测序下机的短序列比对分析的软件包——SOAP[7],可以较准确且高效的将短序列片段比对到参考序列,主要通过并行化分发reads完成序列比对,相较当时的BLAT、Eland、MAQ等软件具有较高的准确率 (90.9%) 和较短的分析时长。


表1  SOAPaligner与其他比对软件的性能比较


由于生信分析所需的计算能力快速上升,单一计算机/服务器逐渐无法负荷庞大的分析任务,需要用多台计算机通过组网和软件调试联合起来提供更高算力。为了提高基因计算能力,华大打造出第一代基因计算中心,利用多台服务器搭建本地集群,并通过调度CPU、内存等计算资源实现了初级的任务分发,基本满足了早期的科学研究需求,对于稳定性、集群规模没有太高的要求。通过小集群模式计算架构,华大基因完成了人类、动植物、微生物等领域的个体及群体多组学研究,基因组学技术得到了飞速的发展。至今还有公司机构在沿用这样的架构进行基因计算。


小集群工作模式


 基因计算架构2.0——云计算模式

随着千人基因组等项目的完成,基因数据量达到PB级别。基因分析软件领域也出现了百花争鸣的现状,其中以BWA和GATK工具发展最为迅猛,凭借较高的准确性和长期的版本更新,获得广泛的认可。这两个工具包的主要原理是将海量FASTQ测序数据匹配到基因组的对应位置,得到与参考基因组不一致的测序数据信息,最终确定样本特有的基因型。这一时期几乎所有的相关的生物信息工具发表都要引用BWA和GATK这两个工具包。但该流程分析时间较长,直到4.0版本,30×WGS人类基因组分析仍然需要30小时,当然作为一个基因计算的科研工具而言已经足够优秀。


除生物信息软件的革新外,这一时期,云计算技术也开始风起云涌。由于基因数据存在海量脉冲式数据下机的特点,需要更加灵活、弹性的计算资源,集群模式无法满足这样弹性的分析需求。2012年,华大基因基于公有云服务推出BGIonline云平台,打造出国内首创的“BT+IT”新模式,利用云平台强大、弹性的计算存储能力,实现更简单高效的自动化分析,BGIonline能在24小时完成数百人的基因组分析[8],相较于传统小集群模式而言分析效率提升达百倍。


 基因计算架构3.0——混合云架构模式

随着基因检测市场的逐步成熟,以及华大在单细胞测序、时空组学等方向技术突破,基因数据量出现了又一次爆发性增长,年产量正式向EB级别迈进,对分析软件的准确性和性能都提出了更高的要求。多年来华大人一直坚持自主研发,持续寻求数学方法和软件工程上的突破,不断追求优越性能和高精准度的平衡,目前华大自研的高性能计算工具集LUSH成功实现6分钟完成30×WGS分析任务,相较GATK最佳工作流程的1800分钟,再提速300倍。


相比于BWA和GATK,LUSH采用了全新的底层架构和算法设计,由自研的调度引擎完成任务分发,随后由加速引擎并发处理百万级任务,同时结合文件处理单元,解决经典流程高密度计算、频繁访问存储器等问题,减少中间文件的读入和写出过程,完成碱基数据流的超高速分析。经标准品测试,LUSH的结果与经典流程一致,准确度高达99.86%,获得计算结果准确性与极速性上的平衡。


LUSH全新底层架构设计


临床检测对本地性、及时性的高要求,GDPR等数据保护协议的出台,让基因计算场景变得更加多样化、专业化,BGIonline等平台已不能满足这一时期所有的基因计算需求。因此,华大基因打造出第三代基因计算解决方案——混合云模式,以GeneAn和HALOS为主要载体,一个覆盖私有云、公有云、线下IDC和一体机的云网端一体化计算综合体,在拥有更高安全性的同时,带来单一云形态所不具备的优越性和灵活性。该云平台可扩展性强,可实现基础架构的快速部署管理,满足多地快速、安全访问和计算需求。


混合云机房建设




  结  语  

从参与人类基因组计划开始到现在历时二十多年,遗传、演化、疾病机理和医学认知等科学领域取得了超越以往百年千年的进步,测序、遗传分析、基因编辑和基因组合成等技术突飞猛进地发展。正是因为生命数字化进程需要严谨的科学精神,而其应用场景主要体现在精准医疗、健康管理等与人类健康有着息息相关的领域,因此不同于其他高性能计算领域,基因组数据分析对精度有极高的要求。华大人在实现测序工具自主可控的同时,也在基因计算架构的软件和算法的自主研发和应用创新上不懈努力着,希望从核心算法的研发上助力我国精准医疗自主可控的发展进程。




拓展阅读

震撼!华大LUSH基因序列比对加速工具集再次突破计算极限!

▲ 重磅!华大基因正式发布出生缺陷防控一站式数据管理服务系统

▲ 重磅发布!华大基因百万级NIPT检测通量全自动化平台

▲ 重磅!华大基因CNV-seq智能化解读云平台全新发布

▲ 重磅!华大基因遗传病数据解读云平台正式上线

▲ 优秀!这就是全球首部跑通WGS分析的国产手机!


参考文献:

[1] Watson J D, Crick F H.1953. Genetic implications of the structure of deoxyribonucleic acids Nature, 171(4361):964-967.

[2] Dulbecco R.(1986) A turning point in cancer research: sequencing the hunman genome. Science 231:1055-6

[3] Waterston R H, Lander E S, Sulston J E. On the sequencing of the human genome[J]. Proceedings of the National Academy of Sciences, 2002, 99(6): 3712-3716.

[4] Staden R . Sequence data handling by computer[J]. Nucleic Acids Research, 1977(11):4037-4051.

[5] 王晶, 张猛, 吴清发, 等. 人类基因组北京区域 (3pter-D3S3397): 序列完成图与分析[J]. 中国科学: C 辑, 2005, 35(4): 286-303.

[6] Wang J, Wang W, Li R, Li Y#, Tian G, Goodman L, Fan W, Zhang J, Li J, Guo Y et al: The diploid genome sequence of an Asian individual. Nature. 2008, 456(7218):60-65. https://doi.org/10.1038/nature07484

[7] Li R ,  Li Y ,  Kristiansen K , et al. SOAP: short oligonucleotide alignment program.[J]. Bioinformatics, 2008.

[8] https://mp.weixin.qq.com/s/y096pgAXQzGDuHI6R7pY0w

滑动查看


继续滑动看下一个
华大医学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存