查看原文
其他

GCTA | 金鑫:百万基因组时代的基因组大数据(上)

2016-04-20 华大科技BGITech

昨天科技君分享了华大股份尹总的ppt后,反响热烈,也收获了很多的很多的人气。其实在这次的第一届基因组云计算技术开发者大会上不但有高屋建瓴的行业分析指导,还有很多基于实际应用技术的解读分享。既然大家爱看,科技君就赶紧忙着搜集整理啦。


今天带来的是华大股份研发大数据总监 金鑫,会议现场的ppt精华版,和大家聊聊如何看待百万基因组时代的基因大数据》。


由于页数比较多,我们就分为上、下两期发布。幻灯片制作的也非常精美,有不少动态效果,但是在图文分享里这样的效果就展现不出来了,是件比较遗憾的事情,所以建议大家以后有机会亲自来参会吧,一定收获满满!( “喂,会议组委会,关于这几次会议软广的费用我们是不是可以聊一下?”)(“想得美!”)


 

以下奉上会议PPT原文:

 

说到“百万基因组”,不得不提全世界第一个人类基因组项目--这样一个"从零到一"的质变过程。


 

第一个人类基因组其实就是“人类基因组计划”,它耗时13年,总共花费30亿美金,但同时也创造了8000亿的产业机会。华大也是因为承担1%人类基因组计划才应运而生的。


 

从第一个人类基因组计划到第一个亚洲人基因组图谱,再到2010年的千人基因组项目,基因组学在这短短的十几年时间里收获了很多成就。


 

百万基因组是精准医学的基础,是BT与IT产生强烈化学反应的“奇点”。
 

无论是英国的“10万人基因组计划”,美国的“100万人基因组与精准医疗计划”还是中国“十三五”中提及的精准医疗计划都是在为个性化的“精准医学”这一大目标做数据铺垫。


 

事实上,华大基因在2011年就发起了名为“3M”的计划,这里的“M”表示英文中的“Million”即“百万”。3M即代表3个一百万,包括:一百万动植物,一百万微生物和一百万人。


 

2016年3月20日,华大基因完成了第一个“百万”的项目。它就是目前基因组学在临床上应用最普及,技术最成熟的无创产前诊断项目“NIFTY”,这一百万的样本来自全球62个国家。


 

与国外几家知名的基因检测公司比较,华大的检测数据量遥遥领先。


 

接下来仔细看看“突破百万样本量”的NIFTY数据究竟长啥样子?


 

首先了解下NIFTY数据的产生原理是什么? 孕妈妈的 5 ml 血液样本中藏着很少量宝宝的游离DNA,通过高通量低深度的全基因组测序可以检测出宝宝的很多遗传信息。


 

国内的百万NIFTY样本分布,几乎覆盖了每个省和自治区,颜色的深浅代表了样本数量的多少。从图中可以看出样本最多的三个省份是:广东,四川和湖北。


 

我国有56个民族,目前图中标灰色的民族在我们的样本库中还是欠缺的。如果大家身边有这些民族的孕妈妈想做无创产前检测,可以推荐给华大,我们可以为她们提供免费检测
 

从图中可以看出,孕妈妈的年龄分布有两个峰值,一个是在28岁,另一个是在35岁。前一个峰值说明目前我国适龄孕妇主要集中在28岁,后一个则体现了NIFTY检测的针对人群,因为孕妈妈年龄超过35岁以后,孩子患“三体”的风险会明显增加。 


 

丰富的表型信息也为后续的信息挖掘提供了充足的数据支持。
 

在孕妈妈的5ml血样中,宝宝的游离DNA只占5%,而宝宝的DNA又是50%来自父亲,50%来自母亲。这样一来,每一份样本数据几乎涵盖了爸爸,妈妈和宝宝一家三口的遗传信息。因此说100万份的样本约等于300万份的数据信息。
 

数据的随机性也是很多人关注的问题。蓝色柱状是NIFTY样本数据的分布,红色虚线是比对基因组随机打断样品的分布趋势,两者非常一致,说明NIFTY数据在全基因组中分布的随机性很好。

 

后续很精彩,敬请期待吧!
 

【说明】PPT中部分数据来自华大基因100万NIFTY®数据分析所得(所有受检者均已签署知情同意书),不能代表整体情况,仅供参考。


可能感兴趣:


关注华大科技,尽享精彩科研!


 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存