当科学狂人遇上机器学习:基因组测序竟能准确预测长相!
药明康德/报道
克莱格·文特尔(Craig Venter)博士是一名不折不扣的“科学狂人”。几十年前,他创立的Celera Genomics曾以一家公司之力,加快了“人类基因组计划”的发展。他本人也于2000年和美国NIH负责人弗朗西斯·柯林斯( Francis Collins)博士一道,共同宣布了人类基因组草图的完成。接下来的10多年里,文特尔博士还做出了许多惊世骇俗的研究:他的私人游艇在2006年完成了环游世界之旅,并在世界各地收集了水样,用于分析海洋微生物的组成;去年,他的合成生物学小组又创造了拥有最小基因组的生物,让人们重新审视哪些基因对生命才是至关重要。
▲克莱格·文特尔博士(图片来源:Forbes)
今日,这名科学狂人的一项研究再次引爆了学术圈——文特尔博士的团队发现,仅仅通过分析基因组信息,我们就能还原出人的长相。这项研究发表在了知名学术期刊《美国国家科学院院刊》(PNAS)上。
在今年于圣地亚哥举办的一场会议上,文特尔博士提出了一个观点——我们的基因组里记录了关于我们的一切。这包括我们是否容易得肺癌,对咖啡因的降解是否够快,这些信息里也包括我们的长相。
许多人对文特尔博士的观点持有保留态度。一方面来说,罹患肺癌的风险与咖啡因的降解能力背后有着明确的基因,这些信息的确可以从基因组里获得。可是长相远没有那么简单:五官尺寸,面容比例,脂肪厚度,毛发密度等一系列因素,都会极大地影响一个人的长相。难道我们还能从基因组里读出那么多的信息不成?
文特尔博士告诉你,能!
▲这项实验的设计示意图(图片来源:《PNAS》)
在一项研究中,科学家们招募了1061名来自不同种族,有着不同祖源的志愿者。这些志愿者先接受了全基因组测序,并在随后的统计中,提供了面部结构、肤色、年龄、身高、以及体重等个人数据。利用这些信息,科学家们开发了一款机器学习的模型,并教会这个算法如何将基因组中的特征序列与人类的外貌进行联系。
在经过一系列的调试后,科学家们发现,将年龄与BMI考虑进长相的模拟后,准确度有了很大的提高。而最终的模拟结果,准确得让人感到惊讶。
▲上边是真实人脸,下边是根据基因组信息预测的人脸,两者出奇一致(图片来源:《PNAS》)
“我们的这个研究表明,你的基因组编码了你的全部。尽管参与这项研究的人数有限,但它在概念上证明了这一点。我们相信,随着研究人数的不断增加,我们将能通过一个人的基因组,准确预测他的全部。”文特尔博士说。
这当然是科学上的一个重大突破。这项研究表明,基因组里编码的信息比我们想象得要多很多。关键在于,我们是否有成功解读这些信息的能力。随着机器学习技术的普及,这在未来将不会是一个难题。
另一个担忧则随之而生。近年来,面对患者和普通消费者的基因测序服务越来越多,我们的基因组信息从未如此普及。如果基因组信息能够反映一个人的一切,隐私的重要性就被提到了一个全新的高度。“我们担心公众和研究机构还没有充分意识到,在基因组学时代,我们需要更好的安全措施和政策来保护个人隐私,”文特尔博士说:“我们呼吁能有更多的分析,更好的技术解决方案,以及持续的探讨。”
▲基因组学时代,我们的医疗将由4个“P”组成,它们代表了预测、预防、个体化、人人参与(图片来源:P4 Medicine)
无论怎样,基因组学时代已经到来。我们期待在新技术的引领下,人类对自己的认识能更上一层楼。未来,每个人的基因组信息都能得到充分的保护,并能准确地反映出一个人的健康风险,让人早预防,早发现,并得到最好的治疗。
点击“阅读原文”,即可访问原始论文页面。
参考资料:
[1] Identification of individuals by trait prediction using whole-genome sequencing data
[2] Researchers From Human Longevity Use Whole Genome Sequence Data And Machine Learning To Identify Individuals Through Face And Other Physical Trait Prediction