华大LUSH基因序列比对加速工具集再次突破计算极限!6分钟完成30X WGS全流程分析任务
2017年5月,19岁的世界围棋第一人柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败,这也是人类顶尖高手与这台机器之间的最后一次较量,同年10月Nature杂志发表了超过它所有之前版本的AlphaGo Zero。这一成就向世界展示了建立系统来自学完成复杂任务的可能性,而其背后所代表的是运算能力,是计算机科学的分支领域——高性能计算(High Performance Computing),其实际应用不仅成为了国家综合实力的体现,更给人们的日常生活带来了改变。目前该技术已在航空航天、核试验模拟、天气预报、生命科学、高新制造(汽车、微电子)等领域取得了广泛应用。
以生命科学领域举例,随着生命遗传密码(基因组)的不断破解,人的生老病死这一复杂事情可以用数字化的方式具体呈现,以期实现疾病的精准预测、诊断和治疗,让人们远离传感染疾病、防控出生缺陷、肿瘤和心脑血管疾病,提升人均预期寿命,并大幅度降低社会卫生总负担。
近二十年来,个人全基因组测序的成本以“超摩尔定律”的速度下降,而高性能计算在测序数据分析方向的应用也发生了翻天覆地的变化。目前全球主流的基因组测序数据分析工具是Broad Institute开发的免费开源工具集GATK(Genome Analysis Toolkit),该项生命科学领域公认的最佳工作流程完成一个人的全基因组(Whole Genome Sequencing,WGS)30X数据分析需要1800分钟。深耕于基因组学20多年的华大基因在基因组高性能计算领域再获突破性进展,于近日成功实现6分钟完成30X WGS全流程的分析任务,相较于GATK标准计算时长提速300倍。
根据NIH公布的最新资料,随着测序技术的发展,测序成本以超摩尔定律下
https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data
LUSH工具集加速的全新底层架构逻辑
LUSH工具集加速流程示意图
更优越的性能、更低的成本和更高效的检出是所有高性能计算应用领域的研发追求目标。对加速组件的持续研发源自对速度无止境的追求,正如手机芯片行业的发展是随着移动端需求的旺盛,技术才得以不断地迭代和进步。从基因组学基础研究到临床研究及应用,实现测序工具的自主可控的同时也需要实现数学方法上的自主研发,而不只是追求芯片的底层下潜开发。对后者是无止境的追求,而只有前者的完全可控才能实现从跟随模仿到真正超越的可能,从核心算法的研发上助力我国精准医疗自主可控的发展进程。
· END ·
热文推荐