谷歌开源DeepVariant，之前的经典检测基因变异法将被颠覆

2017-12-05 新智元

https://v.qq.com/txp/iframe/player.html?vid=f0502284pl3&width=500&height=375&auto=0

新智元AI World 2017世界人工智能大会开场视频

中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会11月8日在北京国家会议中心举行，大会以“AI 新万象，中国智能+”为主题，上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论，2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。

全程回顾新智元AI World 2017世界人工智能大会盛况：

新华网图文回顾
http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺
上午：http://www.iqiyi.com/v_19rrdp002w.html

下午：http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm

新智元编译

来源：research.googleblog.com

编译：马文

【新智元导读】今天，谷歌开源了DeepVariant深度学习模型，这是将基因组中的识别变异（variant calling）任务转换为图像分类问题的基因组学工具，在重构基因组序列方面比以前的经典方法具有更高的准确性。同时谷歌提供可扩展的基于云的解决方案，以满足大型基因组数据集的需求。

在许多科学领域，特别是在基因组学领域，重大突破通常是由新技术带来的。从使人类基因组测序成为可能的Sanger测序法，到首次实现大规模全基因组实验的微阵列技术，新的仪器和工具使我们能够更深入地了解基因组，研究的结果广泛应用于医疗、农业、生态等领域。

基因组学中最具变革性的新技术之一是高通量测序技术（ high-throughput sequencing ，HTS），该项技术在21世纪初首先实现了商业化应用。HTS让科学家和临床医生能够快速、低成本而且大规模地生成测序数据。但是，HTS仪器的输出并不是被分析个体的基因组序列——对于人类来说，这意味着30亿个碱基对（鸟嘌呤，胞嘧啶，腺嘌呤和胸腺嘧啶）组成的23对染色体。相反，这些仪器产生的是大约10亿个短序列，称为reads。每个reads仅代表30亿个碱基中的100个，每个碱基的错误率在0.1-10％的范围内。因此，将HTS输出处理成单一、准确并且完整的基因组序列是一个主要的突出挑战。这个问题在生物医学应用领域尤其重要，这促使GIAB（Genome in a Bottle Consortium）等组织的努力，他们发布了人类标准参考基因组，可用于验证和基准测试，以及precisionFDA挑战赛，这个比赛旨在促进创新，提高基于HTS的基因组测试的质量和准确性。

图：对于基因组中的任何给定位置，在大约10亿reads中有多个reads包含该位置的一个碱基。每个read与一个参考碱基对齐，然后将read中的每个碱基与该位置的参考碱基进行比较。当一个read包含一个与参考碱基不同的碱基时，它可能表示一个变异（真实序列的差异），也可能是一个错误。

今天，谷歌发布DeepVariant的开源版本（github.com/google/deepvariant），DeepVariant是一种深度学习技术，可以从HTS定序器数据中重构真正的基因组序列，比以前的经典方法具有更高的准确性。这项工作是谷歌大脑团队与Verily Life Sciences合作进行了两年多的研究的成果。DeepVariant将识别变异（variant calling）任务，即基因组中的重构问题转化为适合谷歌现有技术和专业知识的图像分类问题。

以上4个图像都是与参考基因组对齐的实际测序仪reads的可视化。一个关键的问题是如何使用这些reads来确定在两条染色体上存在变异，还是仅存在一条染色体上，还是在两条染色体上都不存在变异。有不止一种类型的变异，其中SNP和插入/缺失变异（insertion/deletion ）是最常见的。 A：一对染色体上真正的SNP；B：一条染色体上的缺失；C：两条染色体上的缺失；D：由于错误引起的变异。用这种方式进行可视化时，很容易看出这些变异的差别。

我们从GIAB参考基因组开始，因为它提供了高质量的真实值（或者当前可能的最接近的近似值）。使用这些基因组的多个重复（replicate），我们以编码HTS仪器数据的多通道张量的形式产生了数千万的训练样本，然后训练基于TensorFlow的图像分类模型，目的是从生成的实验数据中识别真实的基因组序列。尽管由此产生的深度学习模型DeepVariant没有关于基因组学或HTS的专业知识，但在一年时间里，它已经赢得了precisionFDA Truth Challenge 最高SNP准确率，超越了最优的方法。自那时起，我们进一步将错误率降低了50％以上。

DeepVariant现在作为开源软件发布，以鼓励协作及加速使用这项技术来解决现实世界的问题。为了实现这一目标，我们与Google Cloud Platform（GCP）合作，在GCP上部署了DeepVariant workflow，用户可以在当前的计算环境中探索和评估DeepVariant的功能，同时我们提供了可扩展的基于云的解决方案，以满足即使是最大的基因组数据集的需求。

DeepVariant 将利用谷歌的计算基础架构和ML专业知识来更好地理解基因组，并为研究社区提供基于深度学习的基因组学工具。这是将谷歌技术应用于医疗保健和其他科学应用，并使这些努力的结果广泛可用的目标的一部分。

原文：https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

DeepVariant ：https://github.com/google/deepvariant

NIPS 2017，新智元智库专家、CMU计算机学院副教授马坚老师和斯坦福大学AI博士生Jim Fan将在美国长滩带来现场直播，关注新智元小程序或扫描下方二维码加入直播群，参与直播互动，第一时间了解NIPS前沿资讯。

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划