生命科学研究的"上帝视角"——组学(Omics)
文中对组学的意义和方法进行了简单、通俗的描述,以期在当前分析技术爆炸、纷繁复杂的多组学研究中恪守一个总体的视角。
我们知道生命是由水、无机盐、糖类、脂类、蛋白质和核酸构成。地球上任何现存和曾经的生物都是以上物质的巧妙组合,并在内部和外部不断地演变。如同26个英文字母构成了所有的单词,进而衍生了无数的文学作品。在组学的研究中构成生命的六大类物质被部分地归类为DNA、RNA、蛋白质和代谢物,如下图:
理想的情况下,我们为了全面地解析一个生命过程时总是期望确切地了解上述所有物质的含量、结构和组织方式。即所谓的"上帝视角",能够以非现实的方式不受限制的描述任何事物。其中物质的"含量"往往是首要的,即:有和没有(定性),有多少(定量)。在今天,我们借助高通量测序技术和高性能计算机分析,把对DNA和RNA的时空检测能力不断地推向极致。目前DNA/RNA的测序对目标的检测覆盖率几乎100%(即拥有超高的通量),测序错误率一般低于1%(满足胚系突变、基因表达等相关研究,但不能很好地满足类似肿瘤组织稀有体细胞突变的研究)。借助色谱和质谱技术,我们可以在一个相对低的通量和准确度上检测蛋白质和代谢物。目前大多数实验室都能以可承受的资金,委托测序公司开展相应的检测。
对于组学的研究者来说,数据的分析是一个比检测更难的过程。毕竟检测是出钱由专业的设备和公司来做,相对流程化,而数据的分析是要自己把关,需要更多的数据理解能力、计算机代码能力、时间和创造性。常用的数据分析环境或工具有:1) Linux环境及bash命令:Linux服务器或者Windows的Linux子系统主要用于前期大数据的处理。一般测序公司可高质量地完成这一步(注意是前期的数据处理),研究者需要简单了解,但无需花费太多时间。对于bash命令(如awk、sed和grep等)则需重点掌握;2) R语言:主要是安装在Windows系统的R软件和Rstudio,进行具体数据的统计和绘图,此为研究者必学,并且要学地透彻。主要是大量R包的使用,如DEseq2包(差异基因分析)、Enrichr包(GO和KEGG分析)、基础绘图包及ggplot2绘图包等;3) Perl和Python:会在Linux中使用相关的软件或脚本即可;4) 数据库、软件或在线工具:Ensembl的BioMart入口(http://asia.ensembl.org/biomart/martview/),STRING蛋白-蛋白互作网路(https://string-db.org/),会下载其它数据库(如KEGG、GSEA、TargetScan)中的后台数据并被R调用。
变异(Variation)的本质是物质结构的变化。这个结构不止包含类似蛋白质三维结构或染色体三维结构,也包括DNA、RNA或蛋白的序列变化。
变异的功能我们容易理解,即:有了变化才能产生新的物质,新的组合。而变异的副作用显而易见,绝大部分是不幸的、有害的,导致混乱、无序和疾病。生命就是在变和不变之间寻求一个平衡,这种平衡是通过与自然环境的相互作用而"自然而然"地达到的。例如:地中海贫血在低纬度的热带地区高发,在高纬度地带低发,如下图:
图片来自:https://mp.weixin.qq.com/s/LoNT1pA5-g60sht0D5NRRw
中国的广东和广西的原生居民含有大量的地中海贫血人群,而北方的几个省份几乎没有。通过自然选择,曾经地中海贫血的高发与低发在各自的地域上都是"合理的",是因为在工业时代之前我们无法治疗疟疾,并且轻度的地中海贫血对疟疾有天然的抵抗(轻度地中海贫血者的红细胞被疟原虫寄生后很快破裂而导致后者无法寄生)。但相信在当前的社会,无论南方、北方,地中海贫血都是无益的,正如我们都不希望我们的孩子携带这些变异,因为从上个世纪开始人类便拥有了可有效控制疟疾的药物。有趣的是,我们可能从未改变疟原虫,而疟原虫却通过生物与生物之间的相互作用着着实实地改变了我们的基因(遗传多态性)。生命物质的结构不能一成不变,也不能改变地过于激进,结果是好是坏需要看特定的空间和时间背景,但最重要的一点是,生物需要具备变与不变的机制和能力。
在方法学上,通过基因组、外显子组、转录组和蛋白质组都可以检测遗传物质的变异。最常用的是基因组和外显子组。所涉及的Linux环境下的工具有:1)BWA、GATK、vcftools、bcftools、ANNOVAR。这些工具的组合是为了获得特定的变异位点,即从原始测序数据到VCF文件。这部分相对流程化,可按照自己的需求委托测序公司分析;2)拿到VCF文件后,遗传病的分析需要遵循ACMG(美国医学遗传学与基因组学学会)指南预测蛋白变异的致病性。常用的在线工具或软件有:PolyPhen-2软件和SIFT数据库(http://sift.jcvi.org),CADD网站(https://cadd.gs.washington.edu/)。
相互作用的本质是一种组织方式,部分地体现为遗传信息流和生物互作网络。那么研究相互作用有何意义?这里只谈两点:
1)两两互作研究。两个物质之间的相互作用(两两互作)在生命科学中主要是化学上的互作。广义的互作也包含不同生物体之间共生、寄生(例如上述疟原虫与人类的互作)关系。有互作的物质某种程度上亦可视为一个整体,如同一辆汽车,各个部分之间由齿轮和螺丝钉等部件通过不同的物理原理连接起来。例如GO和KEGG通路,每个通路含有不同的基因,其内部存在关联;不同的通路也含有个别相同的基因,但我们一般将一个通路视为一个整体去讨论。
除了同类物质的互作(如蛋白-蛋白互作、miRNA-mRNA互作),这里也包含不同类物质之间的互作(如:DNA-蛋白质,RNA-蛋白质、蛋白质-代谢物)、病理的互作(如:蛋白质-药物,核酸药物/核酸疫苗-mRNA)。一些实例例如:转录因子作为蛋白质与DNA元件的互作;格列卫(一种小化合物药,电影《我不是药神》中的"神药")通过与Bcr-Abl融合蛋白的结合而抑制后者的激酶活性,进而治疗慢性白血病。
当你研究两个物质的互作时,如果确实发生了,那么它潜在的应用前景可能是非常巨大的。而研究互作不能大海捞针,除了借助高通量的特定研究方法(如酵母双杂交+蛋白质组,Chip-Seq),也可以通过计算机直接进行预测。预测不同类物质之间的互作是极具挑战性的,但往往有很重要的应用。一些在线数据库如:STITCH(http://stitch.embl.de/)用于预测化合物-化合物、化合物-Protein的互作,数据更新快,物种多;SEA(http://sea.bkslab.org/)对于化合物-Protein互作的预测比较准确,物种也比较全(尤其是当靶标物种未知时可定位到某个物种);KEGG的物种也多,化合物-Protein的注释少但很准确;RNAInter由中国学者开发,围绕RNA收录了大量RNA-DNA、RNA-RNA、RNA-Protein、RNA-化合物的互作数据;TRRUST和JASPAR数据库给出了DNA-Protein的互作数据或依据;STRING提供了Protein-Protein互作数据及在线分析工具;Cytoscape等软件包含一些分析互作的插件,但主要用于自定义地展示互作网络。
在线数据库并不是预测生物分子互作的主要方法,实际研究中经常使用特定的软件、算法从头分析(例如PRIdictor、DeepBind、分子对接等计算机辅助药物设计方法),以及特定的湿实验技术。
2) 互作网络研究。当很多的两两互作组合在一起时,便形成了互作网络。对于一个网络便可进行基于网络的理论和方法的研究。在图论(Graph Theory)与网络分析(Network Analysis)中,中心性(Centrality)是判定网络中节点重要性的指标,是节点重要性的量化。例如度中心性(Degree Centrality)是在网络分析中刻画节点中心性的最直接度量指标。一个节点的节点度(Degree)越大就意味着这个节点的度中心性越高,该节点在网络中就越重要。例如当你有二百个差异基因时,可以先通过在线工具或数据库获得基因-基因之间的调控网络和蛋白-蛋白互作网络,然后通过Cytoscape等软件计算网络的度中心性,节点度(Degree)越大说明该差异基因的功能越重要,便是需要重点关注的基因。再根据课题需要设计qPCR、免疫印迹试验(Western Blot)和RNA干扰等实验。对于一些节点度(Degree)值很低的基因,RNA干扰实验可能效果很差,因为它在生物互作网络中是一个相对"边缘"的基因。
综上所述,组学的研究无非是解决以上三个议题:物质的含量、物质的变异,以及物质的相互作用。在这个框架下再衍生出来具体的议题,如:基因表达定量、差异分析、SNP/Indel分析、OTU (operational taxonomic units)定量、分子互作网络分析等。 但在进行所有的分析之前,问题的起源来自表型组学(Phenomics)的结果(如下图),它是指特定生物体在发育过程中产生的一系列表型(物理和生化性状),以及对基因突变和环境影响的反应。其它组学的研究只是为了回答表型组学提出的问题,而不是目的。对于"上帝视角"的更深入的讨论,我们随后再叙。
图片来自:Kerr et al. Orphanet Journal of Rare Diseases (2020) 15:107