公共数据库, SCI怎么发?(二)
上一期向大家介绍了一篇SCI论文,是看它如何利用已发表过的数据,通过再次提出新的问题,并回答问题。本期向大家推荐的一篇SCI文章[1],看它是如何利用文献中发表的结果,提出新的问题、解决问题。
与上一篇相似,本篇文章也是想探索吸烟是如何导致疾病发生的。
这里先给一个吸烟有害健康的Introduction,可能有点长,不过很有用。。。
总所周知,吸烟是一种常见的、有害的行为,能够导致一系列癌症的产生[2]。目前,三分之一的癌症可归因于吸烟,特别是肺癌、口腔癌、胰腺癌、食道癌、膀胱癌、喉癌和肾癌,最为致命的癌症是肺癌和胰腺癌。吸烟能够增加5到10倍肺癌发生的风险;在发达国家,吸烟导致的肺癌占总数的80% [3]。在妇女中,吸烟行为也导致的宫颈癌与卵巢癌的发生风险增加。相比于不吸烟者,吸烟者患宫颈癌的风险提高了4.4倍,而患卵巢癌的风险提高了2.8倍。
根据WHO报道[4]世界范围内每年由于吸烟导致的死亡人数估计达到了600万,其中主要原因是由于吸烟导致癌症产生的死亡。
到目前为止,许多的遗传关联分析研究已经揭示一定数量的遗传突变位点参与吸烟相关的癌症发生中[5-7]。但遗憾的是,目前基于遗传突变的证据还远不能解释吸烟是如何诱导癌症产生的分子机制。
鉴于遗传突变研究现在正处于瓶颈状况,许多的科研工作者将他们的工作重心转移到与吸烟相关的DNA甲基化(DNA methylation)上,希望通过表观遗传修饰这种分子机制来解释吸烟导致癌症的机理。
DNA甲基化是一个可反转的遗传修饰,是最早发现的遗传修饰途径之一。大量研究证据表明,DNA甲基化能够导致DNA构象、DNA稳定性、DNA与蛋白质之间的交互作用方式,以及染色质的结构发生改变,从而能够控制基因表达[8]、调节可变剪切[9],基因组的完整性[10]等等。
据所知,目前仍没有一个系统全面的研究来探索这些与吸烟相关的异常DNA甲基化位点是否参与癌症发生。
在本研究中,作者们提出的假设是这些已发现的与吸烟相关的异常DNA甲基化位点很可能富集在与癌症相关的基因和生物学通路上,而这些富集基因和通路在吸烟相关癌症的发生中发挥重要作用。
所以,本项研究的主要目标是系统全面的富集分析这些与吸烟相关的DNA甲基化位点发现重要基因和通路,并利用TCGA数据库中肺癌数据对其中重要的基因进行验证。
接下来向大家展示一下,作者是如何得到他们所需要的数据的。。。
为了尽可能的找到所有关于吸烟和DNA甲基化关联的研究,作者们从PubMed数据库内总共检索到了1,447个已发表的论文(检索截止时间是2015年6月13日),具体流程详见图1。所使用的关键词包括:“Smoking”、“Smoke”, “Tobacco”、“Nicotine”、“Cigarette” 和 “Methylation”。并对所有检索到的文献摘要进行阅读来寻找到可能符合入选条件的研究。另外,还人工的查询了所有合格研究的参考文献以便找到其它未被PubMed数据库索引的研究。
图1 数据收集的流程图
收集好了材料,还要设定严格的入选标准,才能保证后面结果的可靠性。。。
为了尽可能的消除或减小假阳性结果的影响,设定严格入选标准,这里只选择带有与吸烟显著关联的甲基化研究。一旦某项研究达到了入选标准,作者会仔细阅读该研究的全文以确保其结论与内容相符。通过严格系统地筛选,总共有28项甲基化关联研究符合入选条件,其中有26项研究是基于血液样本(N = 17,675)和2项研究是基于口腔组织样本(N = 1,002)。
同时,对于来自血液和口腔样本的两组基因进一步进行筛选以提高研究结果的可靠性。只有基因含有两个或者以上的证据,也即是一个基因上含有两个或者以上的显著差异甲基化位点,或者一个差异甲基化位点被独立验证,才会被纳入下一步分析。
通过设定严格的入选标准,有320个吸烟相关的差异甲基化基因从血液样本中找到。有667个吸烟相关的差异甲基化基因是来自口腔组织。
注意了:这里有个问题是,为什么基于17,675个血液样本只发现了320个基因,而基于1,002个口腔组织样本却发现了667个基因?因为这里入选标准都是一样严格的,所以只能说明基于口腔组织的基因仍有很多假阳性基因存在。所以作者选择了用320个来自血液样本的基因作为发现阶段分析,而口腔组织的基因只是用于验证。这一点的讨论很重要,应该在文章的limitation部分做讨论。不然,reviewers一定会提问的哦。
得到可靠的数据后,就要进行有效地数据分析啦。。。
首先,利用来自血液样本的甲基化基因进行通路分析以发现与吸烟相关的生物学通路。然后,利用同样的方法,对来自口腔样本的基因进行通路富集分析,以验证基于血液样本发现的通路。
这里用到的通路分析软件有三个呢。。。
为了从甲基化修饰的角度全面理解吸烟对癌症产生的影响,作者利用三种生物信息学软件,包括Ingenuity Pathway Analysis (IPA; http://www.ingenuity.com/)[11]、EnrichNet (http://www.enrichnet.org/) 和 Genetrail (http://genetrail.bioinf.uni-sb.de)[12] 权威软件,对从血液和口腔样本中收集到的两组基因进行生物通路富集分析。这里也要注意:尽管该研究使用了三种基于不同数据库的生物信息学软件进行信号通路富集分析,但是主要结果是由IPA软件产生。这一点一定要讨论或者说明一下,不然reviewers会提问,如利用三个不同软件,如何考虑权衡它们之间的结果,有没有重复结果存在,是否有Cherry-picking的可能,等等。
在发现阶段,基于血液样本,作者利用这320个差异甲基化基因进行的通路富集分析。总共找到了90条显著富集的生物学通路(FDR < 0.05),其中有57条通路是已经报道和癌症发生相关。例如,最显著的生物通路MSP-RON信号通路 (FDR = 2.2 × 10-4; 详见表1) 已经被报道参与巨噬细胞应对炎症刺激的活性调节,与上皮细胞和白细胞致癌作用相关[13]。
表1 血液样本差异甲基化基因富集的吸烟相关的癌症通路 (FDR < 0.01)
富集通路 | 基因数目 | P值 | FDR值 |
MSP-RON 信号通路 | 8 | 6.17 × 10- 07 | 0.00022 |
RAR activation信号通路 | 14 | 2.04 × 10- 06 | 0.00037 |
Rac信号通路 | 10 | 6.17 × 10- 06 | 0.00071 |
Actin cytoskeleton信号通路 | 14 | 7.94 × 10- 06 | 0.00071 |
Aryl hydrocarbon receptor信号通路 | 11 | 1.15 × 10- 05 | 0.00083 |
Rho family GTPases信号通路 | 14 | 2.51 × 10- 05 | 0.0015 |
AMPK信号通路 | 12 | 2.951 × 10- 05 | 0.0016 |
Renin-angiotensin信号通路 | 9 | 6.03 × 10- 05 | 0.0028 |
Molecular mechanisms of cancer信号通路 | 17 | 7.41 × 10- 05 | 0.0030 |
CXCR4信号通路 | 10 | 0.00017 | 0.0058 |
ERK/MAPK信号通路 | 11 | 0.00021 | 0.0058 |
HER-2 signaling in breast cancer信号通路 | 7 | 0.00021 | 0.0058 |
Thrombin信号通路 | 11 | 0.00022 | 0.0058 |
HGF信号通路 | 8 | 0.00027 | 0.0060 |
Relaxin信号通路 | 9 | 0.00028 | 0.0060 |
Role of tissue factor in cancer信号通路 | 8 | 0.00033 | 0.0063 |
Non-small cell lung cancer信号通路 | 6 | 0.00060 | 0.0096 |
为了验证基于血液样本发现的通路,作者对来自口腔样本的差异甲基化基因进行了相同的通路富集分析,找到了32条共有通路(p < 0.05)。在这些共有通路中,有11条通路与癌症相关,包括富集通路有RAR activation信号通路、actin cytoskeleton信号通路、aryl hydrocarbon receptor信号通路、rho family GTPases信号通路和 molecular mechanisms of cancer信号通路,表明这些生物通路很有可能参与了吸烟相关癌症的发病机制。
很有趣地是,许多重要的癌症相关基因,如AHRR, CYP1A1, TNF, SMARCA4, CDK6, RARA, RXRB, CDKN1A, RARG, 和NFE2L2,都富集到aryl hydrocarbon receptor信号通路中。该通路中基因的异常甲基化修饰也许触发吸烟相关癌症的发生(详见图2)。图3概况性的展示了主要致癌通路参与吸烟相关癌症发生的分子机制模型。
图2 吸烟作用于aryl hydrocarbon receptor信号通路示意图
图3 吸烟导致癌症产生的主要富集通路的分子机制图
接着,作者们又做了一系列富集分析。。。
类似于通路富集分析,作者也对来自血液和口腔样本的显著差异甲基化基因进行了GO富集分析。在血液样本中,发现了19条GO 功能性条目(FDR < 0.05。另外,在口腔样本的差异甲基化基因中发现了7条显著富集的共有GO功能性条目。
这里分析用到的软件是BiNGO和ReViGO。。。
基于Gene ontology (GO)数据库(http://www.geneontology.org/),利用the Biological Networks Gene Ontology (BiNGO; v2.44)[14] 软件进行GO富集分析。该软件通过超几何检验的方法(the hypergeometric test)[15] 计算用户自定义的基因集与GO条目之间的富集显著性。另外,还利用ReViGO软件[16]在默认参数模式下对BiNGO富集得到的GO条目进行去重复。
为了从病理学角度理解所得到的差异甲基化基因,作者分别对来自血液和口腔样本的基因进行了基于疾病的富集分析。有趣的是,他们发现这些基因最显著富集的疾病是癌症(详见图4)。此结果再次表明所发现的吸烟相关的差异甲基化基因与癌症发生相关。
图4 功能性富集分析来自血液和口腔样本的甲基化基因
接下来开始蛋白网络构建了。。。
考虑到所发现的11条共有癌症通路中含有一定数量的重复基因,作者基于它们的生物功能和在通路中出现频率选出48个重要基因,并用它们进行吸烟相关癌症蛋白网络构建。
如图5所示,这48个基因之间存在相互作用,说明所找到的这些基因可能共同作用参与癌症发生。如位于该蛋白-蛋白互作网络的中心位置的基因NOTCH1、CDKN1A、EGR1、AKT3、TNF、MMP9和 SMARCA4已被广泛报道与癌症相关,这一结果进一步说明该蛋白网络可能在吸烟导致癌症发生过程中发挥着重要作用。
图4 基于来自11条共有癌症通路的48个基因构建蛋白-蛋白作用网络
到这里以上所有的结果都是基于健康人的数据分析。。。是不是似曾相识。。。对的,好像有点印象。。。是的,就是上一期的关于“公共数据库, SCI怎么发?(一)”的分析模式。以下是上一期的原话:“因为上面的研究都是基于健康者血液中的基因表达和DNA甲基化差异,来反映吸烟相关疾病发生的分子机制。所以这一部分,作者利用已经发表的基于病人血液样本的数据对以上发现进行验证。这里选用了与吸烟有很强关联的两种疾病:肺癌和冠心病”。
相似地,本文作者为了验证在健康人群中发现的吸烟相关的致癌基因,他们从TCGA大型癌症数据库(http://cancergenome.nih.gov/) [17] 中下载了肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)的DNA甲基化3级数据(JHC_USC HumanMethylation450K)[18, 19] 和RNA表达3级数据(UNC IlluminaHiSeq_RNASeqV2)[18, 19] 进行了相关验证分析。 结果显示在健康人群中发现的甲基化改变,在肺癌病人中也有相似的改变; 并且通过一系列的公共数据挖掘,发现了一些很重要的基因,如DUSP4、AKT3、NOTCH1、SMAD6和SMARCH4,它们可能是很重要的研究吸烟导致癌症发生的分子靶标。
老马小结:
本文通过系统地收集文献报道的吸烟相关的差异甲基化基因,并对这些基因进行严格筛选,这种做法要做到全面性的同时还要考虑可靠性,只有这样才能得到很好的、很有意义的结果。通过血液样本发现、口腔样本验证,作者们发现了11条与吸烟导致癌症发生的富集通路,这些通路包含了48个重要基因,它们构建了一个致病蛋白互作网络。最后作者利用TCGA公共数据库中的肺癌样本数据验证了健康人群中发现的结果。
参考文献:
1.Ma, Y. and M.D. Li, Establishment of a Strong Link Between Smoking and Cancer Pathogenesis through DNA Methylation Analysis. Sci Rep, 2017. 7(1): p. 1811.
2.Vineis, P., et al., Tobacco and cancer: recent epidemiological evidence. J Natl Cancer Inst, 2004. 96(2): p. 99-106.
3.CDC, Racial/Ethnic disparities and geographic differences in lung cancer incidence --- 38 States and the District of Columbia, 1998-2006. MMWR Morb Mortal Wkly Rep, 2010. 59(44): p. 1434-8.
4.WHO, WHO Tobacco Fact sheet N°339 (http://www.who.int/mediacentre/factsheets/fs339/en/). World Health Organization, 2014.
5.Amos, C.I., et al., Genome-wide association scan of tag SNPs identifies a susceptibility locus for lung cancer at 15q25.1. Nat Genet, 2008. 40(5): p. 616-22.
6.Thorgeirsson, T.E., et al., A variant associated with nicotine dependence, lung cancer and peripheral arterial disease. Nature, 2008. 452(7187): p. 638-42.
7.Hung, R.J., et al., A susceptibility locus for lung cancer maps to nicotinic acetylcholine receptor subunit genes on 15q25. Nature, 2008. 452(7187): p. 633-7.
8.Bell, J.T., et al., DNA methylation patterns associate with genetic and gene expression variation in HapMap cell lines. Genome Biol, 2011. 12(1): p. R10.
9.Laurent, L., et al., Dynamic changes in the human methylome during differentiation. Genome Res, 2010. 20(3): p. 320-31.
10.Law, J.A. and S.E. Jacobsen, Establishing, maintaining and modifying DNA methylation patterns in plants and animals. Nat Rev Genet, 2010. 11(3): p. 204-20.
11.Kramer, A., et al., Causal analysis approaches in Ingenuity Pathway Analysis. Bioinformatics, 2014. 30(4): p. 523-30.
12.Backes, C., et al., GeneTrail--advanced gene set enrichment analysis. Nucleic Acids Res, 2007. 35(Web Server issue): p. W186-92.
13Yao, H.P., et al., MSP-RON signalling in cancer: pathogenesis and therapeutic potential. Nat Rev Cancer, 2013. 13(7): p. 466-81.
14.Maere, S., K. Heymans, and M. Kuiper, BiNGO: a Cytoscape plugin to assess overrepresentation of gene ontology categories in biological networks. Bioinformatics, 2005. 21(16): p. 3448-9.
15.Berkopec, A., HyperQuick algorithm for discrete hypergeometric distribution. Journal of Discrete Algorithms, 2007. 5(2): p. 341-347.
16.Supek, F., et al., REVIGO summarizes and visualizes long lists of gene ontology terms. PloS one, 2011. 6(7): p. e21800.
17.Tomczak, K., P. Czerwinska, and M. Wiznerowicz, The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge. Contemp Oncol (Pozn), 2015. 19(1A): p. A68-77.
18.Network, C.G.A.R., Comprehensive genomic characterization of squamous cell lung cancers. Nature, 2012. 489(7417): p. 519-525.
19.Network, C.G.A.R., Comprehensive molecular profiling of lung adenocarcinoma. Nature, 2014. 511(7511): p. 543-550.