癌症不再是绝症?英特尔以先进分析迎战基因组学领域重大课题
本文作者
Jason Waxman
英特尔公司副总裁
兼数据中心解决方案事业部总经理
英特尔以先进分析迎战基因组学领域重大课题
英特尔与博德研究所携手加强基因组学研究解决方案
今天我们迎来了基因组学研究领域一个重大里程碑,英特尔很高兴能够参与推动这三项重大进展:
隶属于麻省理工学院和哈佛大学的博德研究所开源了GATK4的源代码,这一全球最受欢迎的基因组分析软件,如今又实现了重大进步。
英特尔和博德研究所开发了一个名为 “博德-英特尔基因组学堆栈(BIGstack)”的突破性参考架构方案,采用英特尔处理器、Omni-Path Fabric和固态盘等技术,使得博德基因组学分析流程提升了5倍的性能。这个堆栈还包括针对即将发布的英特尔CPU+FPGA集成产品的优化。
中国基因组学研究领域的领导者华大基因宣布采用最新的GATK工具,包括博德和英特尔的优化方案。在快速发展的基因组学领域,这是迈向全球化联盟的突破性一步。
为更好地理解这些重大成就的意义,我就此展开以下解读。
首先,英特尔和博德有着共同的愿景,那就是充分发挥基因数据的威力,把这些数据广泛地提供给全球各地研究人员,推动重大科学发现。基因组学提供了有关生物体DNA内部工作原理的信息。同时,基因组学的进步推动了探索性科研工作,帮助人们更好地理解生物系统的复杂性。
几乎所有人都了解癌症给患者及其所在家庭会产生怎样灾难性的影响。通过今天的发布,我们可以进一步从分子层面理解癌症和其它疾病的诱因并加快实现精准医疗。
这就是英特尔和博德推出BIGstack的原因,它以此前版本5倍的速度运行新的GATK4 Best Practices分析流程,支持空前的海量数据,并通过生产环境就绪的脚本来简化部署。基于英特尔处理器、Omni-Path Fabric和固态盘的组合,该架构提升了性能。BIGstack还包括基于英特尔FPGA的优化,早期结果显示,有望在PairHMM算法上实现超过35倍的提升。
对基因组学分析社区来说,博德-英特尔基因组学堆栈的1.0版在支付成本方面取得了重大突破。去年11月,双方宣布五年内投入2500万美元,建立英特尔-博德基因组数据工程中心,建设基因组学分析社区也是这项合作的一部分。博德的GATK是一个广受欢迎的基因组分析工具包,超过45,000个学术、非营利机构和商业领域的GATK用户将可以使用这个堆栈。
这个新的参考架构今天在BioIT World 2017(全球生物信息会议)暨博览会上发布,此外,我们还希望分享如下内容:
博德宣布开放GATK第四版的源代码(GATK4),这对于基因组研究、生物科技和制药领域来说是重大利好消息。
华大基因宣布,将在与阿里云合作的华大基因在线平台上提供GATK4、博德的工作流管理系统Cromwell和WDL(工作流定义语言)。
华大基因此次宣布的消息令人非常兴奋,这意味着中国和美国领先的基因组研究机构将使用相同的开源软件工具。这也推动了数据标准化和共享,有助于未来进行体量更大、更好的科学研究。
近期,我有幸访问了位于剑桥的英特尔-博德基因组数据工程中心,该中心进行的重大优化已经包括在GATK4中。我希望BIGstack能成为全球领先的基因组研究机构的高级分析工作负载的通用平台,推动合作和科学突破。
最后,这套交钥匙解决方案将作为参考架构,提供给原始设备制造商(OEM)和系统集成商,其中包括联想、HPE、浪潮和Colfax等等。
长久以来,英特尔团队不断以先进技术推动科学上一个又一个的突破。这些成就让我相信,我们会在有生之年看到癌症不再成为绝症。我们十分荣幸地看到,英特尔与博德和华大基因等领先机构的合作,正让这个梦想成为现实。
展望未来,对于基因变异复杂的相互作用以及治疗如何影响分子路径的研究,需要基于对样本反复学习,而这将成为机器学习新的研究领域之一。通过全球菁英的合作,英特尔工程师正在运用人工智能来应对即将到来的重大挑战。
往期精彩