GCTA | 金鑫：百万基因组时代的基因组大数据（上） | 自由微信

GCTA | 金鑫：百万基因组时代的基因组大数据（上）

2016-04-20 华大科技BGITech

昨天科技君分享了华大股份尹总的ppt后，反响热烈，也收获了很多的很多的人气。其实在这次的“第一届基因组云计算技术开发者大会”上不但有高屋建瓴的行业分析指导，还有很多基于实际应用技术的解读分享。既然大家爱看，科技君就赶紧忙着搜集整理啦。

今天带来的是华大股份研发大数据总监金鑫，会议现场的ppt精华版，和大家聊聊如何看待《百万基因组时代的基因大数据》。

由于页数比较多，我们就分为上、下两期发布。幻灯片制作的也非常精美，有不少动态效果，但是在图文分享里这样的效果就展现不出来了，是件比较遗憾的事情，所以建议大家以后有机会亲自来参会吧，一定收获满满！（ “喂，会议组委会，关于这几次会议软广的费用我们是不是可以聊一下？”）（“想得美！”）

以下奉上会议PPT原文：

说到“百万基因组”，不得不提全世界第一个人类基因组项目--这样一个"从零到一"的质变过程。

第一个人类基因组其实就是“人类基因组计划”，它耗时13年，总共花费30亿美金，但同时也创造了8000亿的产业机会。华大也是因为承担1%人类基因组计划才应运而生的。

从第一个人类基因组计划到第一个亚洲人基因组图谱，再到2010年的千人基因组项目，基因组学在这短短的十几年时间里收获了很多成就。

百万基因组是精准医学的基础，是BT与IT产生强烈化学反应的“奇点”。

无论是英国的“10万人基因组计划”，美国的“100万人基因组与精准医疗计划”还是中国“十三五”中提及的精准医疗计划都是在为个性化的“精准医学”这一大目标做数据铺垫。

事实上，华大基因在2011年就发起了名为“3M”的计划，这里的“M”表示英文中的“Million”即“百万”。3M即代表3个一百万，包括：一百万动植物，一百万微生物和一百万人。

2016年3月20日，华大基因完成了第一个“百万”的项目。它就是目前基因组学在临床上应用最普及，技术最成熟的无创产前诊断项目“NIFTY”，这一百万的样本来自全球62个国家。

与国外几家知名的基因检测公司比较，华大的检测数据量遥遥领先。

接下来仔细看看“突破百万样本量”的NIFTY数据究竟长啥样子？

首先了解下NIFTY数据的产生原理是什么？孕妈妈的 5 ml 血液样本中藏着很少量宝宝的游离DNA，通过高通量低深度的全基因组测序可以检测出宝宝的很多遗传信息。

国内的百万NIFTY样本分布，几乎覆盖了每个省和自治区，颜色的深浅代表了样本数量的多少。从图中可以看出样本最多的三个省份是：广东，四川和湖北。

我国有56个民族，目前图中标灰色的民族在我们的样本库中还是欠缺的。如果大家身边有这些民族的孕妈妈想做无创产前检测，可以推荐给华大，我们可以为她们提供免费检测。

从图中可以看出，孕妈妈的年龄分布有两个峰值，一个是在28岁，另一个是在35岁。前一个峰值说明目前我国适龄孕妇主要集中在28岁，后一个则体现了NIFTY检测的针对人群，因为孕妈妈年龄超过35岁以后，孩子患“三体”的风险会明显增加。

丰富的表型信息也为后续的信息挖掘提供了充足的数据支持。

在孕妈妈的5ml血样中，宝宝的游离DNA只占5%，而宝宝的DNA又是50%来自父亲，50%来自母亲。这样一来，每一份样本数据几乎涵盖了爸爸，妈妈和宝宝一家三口的遗传信息。因此说100万份的样本约等于300万份的数据信息。

数据的随机性也是很多人关注的问题。蓝色柱状是NIFTY样本数据的分布，红色虚线是比对基因组随机打断样品的分布趋势，两者非常一致，说明NIFTY数据在全基因组中分布的随机性很好。

后续很精彩，敬请期待吧！

【说明】PPT中部分数据来自华大基因100万NIFTY®数据分析所得（所有受检者均已签署知情同意书），不能代表整体情况，仅供参考。

可能感兴趣：

关注华大科技，尽享精彩科研！