公共数据库,SCI怎么发?(一)
据WHO统计,目前吸烟每年会带走至少六百万人的生命。照这个趋势下去,本世纪会有超过10亿烟草相关的死亡。从流行病学角度,吸烟与至少17种人类癌症相关,但直到现在,还没有人找到吸烟导致癌症发生的背后机制。多年来,科学研究发现吸烟可以对身体不同器官造成的灾难性的基因损伤,并不断试图寻找吸烟导致疾病发生的病理机制。
下面我们向大家介绍一篇SCI论文(Georgiadis, Hebels et al. 2016),看它如何利用已有的数据,通过再次提出新的问题,并回答问题。
本文利用的组学数据包括三种:gene expression (Agilent 4 × 44K human whole genome microarray platform), CpG methylation (Illumina Infinium HumanMethylation450 platform), miRNA expression profiling [Agilent Human miRNA Microarray (Release 19.0, 8 × 60K), representing 2006 human miRNAs]. 这些数据基于649个健康人的血液样本,详情请见图1,处理方法已经在已发表的文章描述过 (Hebels, Georgiadis et al. 2013, Coonen, Theunissen et al. 2015)。
图1. 样本的基本信息
之前的研究主要关注于发现与吸烟暴露相关的生物标记(Biomarker)。本文整合这些已发表的数据,回答科学问题:基于健康者血液样本,这些发现的与吸烟相关的转录组和甲基化组改变是否与吸烟相关的疾病发生有关。为了这一目的,他们进行一系列生物信息学分析如下:
1. 吸烟诱导基因表达、DNA甲基化及miRNA表达的改变
首先,作者们分别对基因表达、DNA甲基化和miRNA表达数据进行了常规的差异分析,发现了一些差异基因。
A. 吸烟者 VS. 非吸烟者,作者们发现了350个差异表达转录本(FDR<0.1,其中231 FDR<0.05),这些转录本可以定位到271个差异表达的基因上,且大部分基因是低表达基因。
B. 吸烟者 VS. 非吸烟者,作者们发现了1,273个差异CpG位点(FDR <0.05),这些差异甲基化位点在吸烟者中是低甲基化的,它们定位到了725个基因上。其中最显著的基因是AHRR,它上面有27个CpG位点显著(FDR<0.05)。这是很重要的结果,因为这个基因是吸烟甲基化研究中证据最多,结果最有力的。这里发现了它,可以有力的证明了结果的可靠性。不然就不好解释啦。
C. 吸烟者 VS. 非吸烟者,作者们发现了34个差异表达的miRNA,其中26个高表达和8个低表达。
2. 疾病关联分析
第一部分的分析发现了一系列的与吸烟相关的差异基因,这一部分作者们想建立这些发现的差异基因与疾病之间的关系。这里用到了一个很好用的数据库:The Comparative Toxicogenomic Database (http://ctdbase.org)。这个数据库包涵了许多信息:chemical-gene/protein interactions, chemical-disease 和 gene-disease关系(如图2)。
图2. The Comparative Toxicogenomic Database首页
通过这个数据库的疾病富集分析,可以找到差异基因富集的疾病List。这里作者们分别对差异表达基因集、差异甲基化基因集及它们的合并基因集进行了疾病富集分析(如图3)。这里大家一定会意识到通过这样的疾病数据库分析,会有许多的疾病被富集,其中有一些疾病在流行病学研究中没有任何证据与吸烟相关。这个时候就要考虑到有可能是假阳性富集导致的这一现象产生。所以作者们就想到了一个解决办法:利用已有的流行病学知识进行有效排除,即对那些有充足流行病学证据的疾病作进一步研究。这里他们用到两个数据来源:the US Surgeon General’ s report on the health consequences of smoking和the latest IARC Monograph on tobacco。整合比较后找到一些较为可靠地富集疾病List,如一系列吸烟相关的癌症 (详见图4)
图3. 通过不同的基因集富集相关的疾病List
图4. 总结从the Comparative Toxicogenomic Database富集的疾病list与the US Surgeon General’s Report on the health consequences of smoking和 the IARC Monograph on tobacco比较的结果。
3. 生物信息学分析
1. 信号通路富集分析
为了进一步研究吸烟相关的这些差异表达(DEG)/甲基化(DMG)基因在吸烟相关疾病中发挥作用的分子机制,他们进行了通路富集分析。这里使用的通路富集分析软件是:ConsensusPathDB(http://consensuspathdb.org/)。该软件是利用DEG基因集、DMG基因集和合集进行富集分析,总共有894个基因。通过通路富集分析,发现了97个显著富集的信号通路(FDR<0.05),这些通路都是与多种疾病相关,包括癌症与心血管疾病(如图5)。
图5. 信号通路富集结果
2. hub基因的鉴定(identification of hub DEGs/DMGs)
因为作者们发现了大量的基因(n=894),很难进行重点研究。所以可以利用生物信息学软件GORevenge进行鉴定hub基因,减少gene list的复杂度。对于GORevenge软件:用户提供gene list, 软件利用Gene ontology(GO)进行富集分析,并根据GO条目的多少进行排序打分。通过这样的分析,本文总发现了40个基因是hub基因,关联的条目在30到120之间。
这个时候,作者想看看这些hub基因之间的关联关系,并通过网络构建作了一个全局性的展示。这里用到的软件是STRING。发现它们之间存在一定的关联关系,并找到了几个重要的hub基因,方便后续研究。如下图6。
图6. 基于STRING构建Hub基因之间的网络图
接着利用the Comparative Toxicogenomic Database数据库,对这40个hub基因做了疾病关联分析,结果发现同样富集了与吸烟相关的疾病,如肺癌和心血管疾病(图7)。
4. 对健康人群中发现的结果在疾病人群中做验证
因为上面的研究都是基于健康者血液中的基因表达和DNA甲基化差异,来反映吸烟相关疾病发生的分子机制。所以这一部分,作者利用已经发表的基于病人血液样本的数据对以上发现进行验证。这里选用了与吸烟相关证据较多的两种疾病:肺癌 (Rotunno, Hu et al. 2011, Zander, Hofmann et al. 2011) 和冠心病 (Joehanes, Ying et al. 2013)。通过比较分析,发现在健康者中发现的差异基因也可以在病人的数据中发现(如下表),这一结果证明了本文发现的结果具有一定的可靠性。
老马小结:本文总体构思直截了当,通过组学数据的疾病富集与流行病学证据结合,找到与吸烟相关的疾病list。并通过一系列的生物信息学分析,发现与吸烟相关疾病发生的重要生物学通路和hub基因。再结合健康人与病人之间的结果一致性比较,证明发现结果的可靠性。总体来说,本文发表在Scientific Reports上是够了,但是可能仍有许多不足,需要改进,例如,本文采用了mRNA/DNA methylation/miRNA三种类型的数据,但通篇没有讨论他们之间是否有什么联系,而只是简单的把它们的结果合并在一起。
参考文献:
Coonen, M., D. H. Theunissen, J. C. Kleinjans and D. G. Jennen (2015). "MagiCMicroRna: a web implementation of AgiMicroRna using shiny." Source Code Biol Med 10: 4.
Georgiadis, P., D. G. Hebels, I. Valavanis, I. Liampa, I. A. Bergdahl, A. Johansson, D. Palli, M. Chadeau-Hyam, A. Chatziioannou, D. G. Jennen, J. Krauskopf, M. J. Jetten, J. C. Kleinjans, P. Vineis, S. A. Kyrtopoulos and c. EnviroGenomarkers (2016). "Omics for prediction of environmental health effects: Blood leukocyte-based cross-omic profiling reliably predicts diseases associated with tobacco smoking." Sci Rep 6: 20544.
Hebels, D. G., P. Georgiadis, H. C. Keun, T. J. Athersuch, P. Vineis, R. Vermeulen, L. Portengen, I. A. Bergdahl, G. Hallmans, D. Palli, B. Bendinelli, V. Krogh, R. Tumino, C. Sacerdote, S. Panico, J. C. Kleinjans, T. M. de Kok, M. T. Smith, S. A. Kyrtopoulos and C. EnviroGenomarkers Project (2013). "Performance in omics analyses of blood samples in long-term storage: opportunities for the exploitation of existing biobanks in environmental health research." Environ Health Perspect 121(4): 480-487.
Joehanes, R., S. Ying, T. Huan, A. D. Johnson, N. Raghavachari, R. Wang, P. Liu, K. A. Woodhouse, S. K. Sen, K. Tanriverdi, P. Courchesne, J. E. Freedman, C. J. O'Donnell, D. Levy and P. J. Munson (2013). "Gene expression signatures of coronary heart disease." Arterioscler Thromb Vasc Biol 33(6): 1418-1426.
Rotunno, M., N. Hu, H. Su, C. Wang, A. M. Goldstein, A. W. Bergen, D. Consonni, A. C. Pesatori, P. A. Bertazzi, S. Wacholder, J. Shih, N. E. Caporaso, P. R. Taylor and M. T. Landi (2011). "A gene expression signature from peripheral whole blood for stage I lung adenocarcinoma." Cancer Prev Res (Phila) 4(10): 1599-1608.
Zander, T., A. Hofmann, A. Staratschek-Jox, S. Classen, S. Debey-Pascher, D. Maisel, S. Ansen, M. Hahn, M. Beyer, R. K. Thomas, B. Gathof, C. Mauch, K. S. Delank, W. Engel-Riedel, H. E. Wichmann, E. Stoelben, J. L. Schultze and J. Wolf (2011). "Blood-based gene expression signatures in non-small cell lung cancer." Clin Cancer Res 17(10): 3360-3367..