说出来可能不信,你和贝克汉姆99.9%都是相似的 | 陈科
随着历史的变迁,导致人类非自然死亡的原因也在不断变化:1900年以前,主要是饥饿、战乱;从1901年到1950年,主要是感染性疾病;从1951年到现在,主要转变为心脑血管疾病、癌症;科学家们预测,在未来,神经系统疾病将成为影响人类非自然死亡的最主要原因……伴随这个发展过程,人类医疗水平也不断发展革新,那么基于基因组研究的精准医疗未来将扮演什么样的角色?来自中国科学院北京基因组研究所的陈科博士,在SELF讲坛上为我们做出解答。
陈科
中国科学院北京基因组博士
以下内容为陈科演讲实录:
大家好,我是陈科,今天从中科院北京基因组所过来,和大家分享的主题是——生命的基因组。
小时经常会有人说,陈科你长得这么像你爸爸;也会有人说,陈科,你像你妈妈多一点。为什么会这样呢?学过生物的人都知道,因为我们的DNA,也就是碱基,一半来自爸爸,一半来自妈妈。毫无疑问,我们的面貌特征是他们结合以后的体现。实际上,不仅在面貌上,我们的身高、胖瘦,还有我们是否容易患上某种疾病,都跟我们的基因背景是密切关联的。
我们来看一张万人迷的照片。我想大部分人对他都不陌生,没错,他就是贝克汉姆。从基因组学的术语来讲,他是由1×10^14个细胞组成。每一个细胞从外到内,分别由细胞膜、细胞浆和细胞核三大部分组成。
细胞核,顾名思义就是核心,是细胞最主要的成分,细胞是构成生命世界中每一个有机体的基本单位。细胞核再往下分是什么状态呢?就是1953年人类发现的DNA双螺旋结构。由大到小观察,从细胞核、染色体,到DNA。DNA是最基本的单元,我们称之为碱基,有ATGC四种类型。换句话说,我们是由这四种结构的DNA构成的。3.2×10^9个碱基对,这就是我们人类基因组的数目。
从宏观到微观,从贝克汉姆到碱基DNA来进行观察。反过来看看是怎样的过程?首先是DNA,四种最基本成分叫ATGC,它们形成一定的序列;再往上,有功能的序列我们称之为基因,基因与包含在基因周边的蛋白质和RNA称为基因组;基因组构成了细胞核,细胞核是细胞的主要成分,细胞往上走,形成了器官,形成了系统,比如呼吸系统,血液系统,消化系统;到最后,贝克汉姆组装完毕,这是由微观到宏观的过程。
这个过程的奇妙之处在哪儿呢?大家可能会问基因是什么、有什么作用?生物学教科书里有一个所谓的“中心法则”,从DNA开始,到RNA,到蛋白质,这个过程最终的目的是形成蛋白质。孩童的微笑,情侣之间的眉目传情,我在这里讲,您在下面听,所有的动作都是我们的蛋白质在执行功能。
DNA如此重要,被称为我们生命的源代码,给予我们所有的活动。这些活动都能够回溯到DNA上去,因此我们可以从DNA中找到某种问题的原因来解释它。
正是因为基因组的重要性,人类科学家开始联合起来进行研究。在上个世纪90年代,确切来讲是1990年起,以美国和英国为首的遗传学领域科学家们联合发起了人类基因组计划,这个计划简称为HGP,由六国科学家组成。
当时计划用15年的时间测序一个人的基因组。为什么花这么长时间呢?因为我们基因组的大小是3.2×10^9个序列,其中75%以上都不是完全不同于别人的。换句话说,里面有很多的重复序列,这种重复序列的存在导致我们想把它从1到3.2×10^9的过程完全弄清楚是不太容易的。
人类基因组计划从1990年开始启动,到2000年,美国总统说我们完成了人类最伟大的计划之一,宣布草图,到2003年出来精细图,到现在为止,这个版本已经更新到了第38版,最新更新时间是2013年12月。预计它的更新还会持续,更新幅度可能越来越小,离真相越来越近。
人类基因组计划启动之后,相关测序产业也蓬勃发展,直接作用就是我们可以了解更多物种的基因组是什么样子。到现在为止,有将近一万个物种已经有了自己的基因组。
不做基因组的人可能不太清楚,总统先生和黑猩猩有多少相似度?刚才猜测60%、70%、80%、90%的人都有,事实上是99%。从基因组学角度来看,我们认为自己多么与众不同,其实是毫无意义的。我们和猩猩的差别其实只有1%。而且,从更大范围来看,人类的基因组并不是最大的,基因数目也不是最多的;最大的基因组、最多的基因数来自于日本一种植物。
这个表格中,平常不起眼的玉米大概有5万个左右的基因。中国人和美国人的基因相差只有0.1%,我和你99.9%的基因都是一样的,差别不大。但是,因为基数是3.2×10^9,乘基数之后,得到了10^4到10^5之间的差异。
我们经常听到基因突变跟某些疾病有关,肿瘤、糖尿病、心脑血管疾病等。但是请大家一定注意,很多情况只是一种关联,关联不是因果。因果是,我和我老婆的存在导致了我女儿的出生;而关联不是因果关系,只是一个随带的关系。比如我女儿碰巧上了这家幼儿园,她上这家幼儿园是一个关联,不是因果,基因突变很多时候是一个关联,并不可怕。而且刚刚提到,哪怕我们99.99%相似,只有万分之一的不同,但是基数足够大。
我们从爸爸妈妈继承的基因突变,每一代大概是72个,这是有据可循的,而且这72个里面大部分来自于父亲的贡献。有遗传学家就此认为进化的动力来自于父亲,因为它显现了更多突变,更有可能给后代带来基因的多样性,更有可能使得后代与众不同。
正是因为基因组学如此重要,在人类基因组计划之后,全世界范围的科学家并没有放弃追逐。当时的人类基因计划研究对象只有一个人,但一个人太少了,每个人都不一样。因此便有了后来的千人基因组计划,检测一下黄色人种、黑色人种、白色人种,每一个人种,不管是中国人,还是日本人,虽然差别可以缩小到十万分之一,但数目还是很大的。
千人基因组计划出台后,今后在序列比对时,可能不用再比对人类基因组计划中的HG38(人类基因组计划的第38版),而是比对我们自己的,比对中国人群的,比对中国南方人群里满足某一个亚系人群的基因组。这样才更有可能找到我突变了什么,我哪种疾病爆发的可能性更大?这就是千人基因组计划的初衷。
后来,为了把一直困扰人类的癌症解释清楚,世界范围内的两大组织,分别是加拿大领衔的国际癌症基因组联盟和美国领衔的癌症基因组图谱,用基因组学方法去测序某一个类别的肿瘤。
比如说肾癌,他们选择了500多名同一类的肾癌患者来测序基因组,分析哪些肾癌产生了突变,哪些突变跟愈后相关联,哪些药物针对哪些突变,对患者后续治疗做指导。
美国领衔的计划(TCGA)已经结束了,加拿大领衔的计划(ICGC)还未结束。但是毫无疑问,不管是白种人,黑种人,还是我们黄种人,人类最主要的肿瘤测序基本结束,产生了大量数据。
一个U盘大概有10G,乘1024倍是10T,再乘1024倍是10P。我们研究所存储的数据远高于此,因为数据无时无刻不在产生,意味着我们需要更大的容器来装它,不然我们没有办法比对,没有办法很好地使用。这也导致了生物大数据的出现,大到了T级、P级。
在应用方面,精准医学毫无疑问对大数据是最好的回馈。花了那么多的钱,十几个国家的科学家投入研究,十几年的时间,数百亿美金的投入,对我们人类产生了如此多的数据,不用它岂不变成了垃圾?
精准医学美国总统不仅在2015年和2016年的国情咨文中提及。之前,在中国科学院,很早就有人提出来精准医学。需要针对每个人的基因背景、蛋白背景做个性化的裁减与个性化的治疗,这就是精准医疗,形象点说,就是哪里坏了修哪里,这是最好的想法。
这是精准医学在癌症领域的应用。我展示的这个流程图是以肝癌为例的整个精准医疗的流程。术前影像显示有个肿块,影像结果出来之后,大部分患者会选择做手术。手术之后会进行一个病理学的判断,诊断肝癌到哪一级、哪一期;并且对手术样本进行基因组学建库,之后进行基因组学测序,测序之后进行分析,分析以后会由董事会(咨询委员会)讨论患者的基因背景是什么,哪些突变可能是致病的,哪些不是主要的突变。
董事会里包含至少四类人员:生物信息学家、遗传学家、临床大夫、病理医生。讨论结束后,我们针对这些可用的突变频谱进行验证,验证结束之后对患者进行报告。比如肝癌,已有的病理学分析到了哪个层面,基因组分析到了哪个状态,针对患者有哪些药可以用,这样的报告就是精准医学最直接的体现。
精准医疗已经在国外顶尖医院应用了5年左右的时间,但并没有完全的铺开,中国才刚刚起步。但中国人从来都是勤奋的,国外需要一个月完成的流程,我们中国10天就可以搞定。
讲一个故事,主角是华盛顿大学的助理教授,做白血病研究。不幸的是,2003年他自己得了白血病。按照以往的方法进行了化疗,但5年后病情复发,他移植了弟弟的骨髓,好景不长,三年之后他再次复发,而这个时候癌症基因组学的进展处在高峰阶段,癌症基因组学发现他有一个基因异常高表达,而且靶向药物可以治疗这个异常高表达基因。
这里有一点特别强调的是,这个靶向药物其实是治疗晚期肾癌的。换句话说,他用治疗肾癌的药物治疗了白血病。他的现状如何呢?最近的资料显示他还活着。这是一个幸运儿,从开始治疗到现在已经过去了十二三年的时间,对于白血病患者来说,这是一个奇迹,对于肿瘤基因组学应用来说也是一个非常令人振奋的消息。
另一个例子与糖尿病有关。这位长者是斯坦福大学的教授,做遗传学研究,他的故事于2012年发表在Cell期刊--这是生物学研究人员最梦寐以求发文章的地方,可以近似理解为顶级期刊。他的故事讲到,600多天的时间,他分20个时段采集自己的血液做基因组学分析,发现自己存在罹患二型糖尿病的风险,风险值大概0.5左右,这个时候他有点着急了,我们在网络上看到过,安吉丽娜·朱莉因为家族罹患乳腺癌和卵巢癌的风险过大,就把乳腺全部切除了。
这位教授知道自身血糖升高之后,开始进行行为干预,此后血糖降了下来。对于他来说精准医学是一个成功案例,因为它成功延缓了糖尿病的进展,很有可能让自己的糖尿病发生时间延后,甚至不发生。
这是两个经典例子:一个是癌症,一个是糖尿病。这么好的例子,我们大部分人支付的起吗?答案是肯定的。2000年每个人做基因组测序的花费是27亿美金,到今天(2015年)变成了一万元人民币,时间成本和人力成本直线式下降。13年变成13天,人力成本从三千人变成了三到五个人就能够搞定。
现在(2015年)一万块钱就可以测一个人的基因组,这个费用还会下降,业界最终目标是一千块钱测一个人的基因组。也许5年左右的时间,我们可以用手机APP查看自己的基因组,享受生物大数据、基因组学数据、精准医疗带给大家的普惠。
正是因为生物数据的如此复杂多样,它的层次除了DNA、RNA、蛋白质,还有更多层面,这么多数据,大夫不可能完全记得。对大部分民众来说也没有必要记,因为有人替我们去做。
以IBM为代表的商业机构推出了电脑医生平台——Doctor Watson,最大的特点就是在15秒访问时间内搜索百万级别的文献,并给出相对合理的治疗方案。其中诊断阶段,治疗阶段,每个方案都有参考文献,不是凭空而来。可能有人会担心,我们去医院看病可能医生不见了,被电脑替代了。事实上,不论怎么变,大夫必不可少,因为电脑所做的事情虽然如此强大,但这个答案仍基于已有的数据库,没有推断的能力。
当然,基于AlphaGO击败李世石这件事,可以认为人工智能存在无限可能,但至少从目前来看,电脑医生只是供人们搜索和检索的数据库,不是具有推动、推算、推演能力和逻辑思维能力的真正的人。所以大家想象的,到医院与一台机器对话,他告诉我去哪里检查,给我抽血、做按摩、做手术,这还需要很长的时间,但不能说绝对没有可能。
既然精准医疗是如此好的东西,为什么没有广泛推广?除了之前提到的费用原因,就我们国内状况来看,还有以下几个方面的壁垒需要进一步打破。
第一个方面,精准医疗是新事物,所以在监管层面还有很多东西没有理顺,没有真正的条文规定告诉我们该怎么做。
第二个方面,对于患者或者家属来说,他们非常想参与进来,但不知道有什么途径可以了解相关的信息。我把测序仪买回来,测序结果出来以后,医院不会分析,如果依靠第三方机构,问题又来了,第三方机构鱼龙混杂,难以取信。甚至我们经常在街边巷尾看到兜售行为,给孩子测基因,看他未来适合做科学家、艺术家,还是当教师。这些到现在为止,因为我们的数据库不够强大,都是一些虚假的广告。
还有一个层面,目前没有一家第三方机构能够把前面提到的四种认证专家集中起来,因为这个行业还处于起步阶段,还有很多需要完善的地方,但是曙光已经出现,今后的可能性很大。
我们人类从有史以来,死亡原因一直在变迁。100多年前我们的祖先绝大部分因为饥饿和战乱而死亡;上个世纪上半叶,感染性疾病、西班牙流感、黑死病……给人类留下巨大创伤,我们今天读教科书的时候仍然心有余悸;上个世纪下半叶,心脑血管疾病,癌症成为死亡的主要原因。一些科学家预测,当我们解决这些问题之后,在即将到来的未来,神经系统疾病将成为我们人类消亡的最主要原因。
基因组学能够解决所有问题吗?答案是否定的。每个人的基因只有一套,但基因上所修饰的、依附的、被黏附在上面的分子是多种多样的,基因上面的表观修饰可以成百上千套。这个数目仍在持续不断的增加,比如说我们的头发、面貌、骨骼、肝脏等,同一套DNA,但是不同的表现型。
时至今日,生命的天书已经被打开了,我们期待它给我们带来不一样的应用,最终造福于我们人类的健康,为我们人类谋更大的福祉,谢谢大家,感谢。
推荐阅读
点击图片直达原文
SELF讲坛全称“SELF格致论道”讲坛,是中国科学院全力推出的公益讲坛,由中国科学院计算机网络信息中心和中国科学院科学传播局联合主办。SELF是 Science, Education, Life, Future的缩写,旨在以“格物致知”的精神探讨科技、教育、生活、未来的发展,尝试打破过去纯粹以“知识传播”为主的科普形式,专注于思想的传播,力图从思想的源头上促进公众参与科学的积极性。关注微信公众号SELFtalks获取更多信息