meQTL分析,你分析过吗?
meQTL分析,你分析过吗?
DNA甲基化是一个调控基因表达的重要的手段之一。该过程是DNA甲基转移酶催化CpG位点上的胞嘧啶转化为5’-甲基胞嘧啶,通过调节转录水平、调控可变剪切或影响染色体组构像,从而影响基因的表达,导致疾病。目前研究发现除了年龄、性别以及疾病等环境因素会影响个体的甲基化水平, DNA序列水平也会对甲基化产生影响,尤其是特异性的SNP的改变,也可以引起DNA甲基化的改变。并且有研究发现某些位点的甲基化水平在亲属中展示出很强的相关性。基于以上发现,很多研究深入探讨SNP-CpG之间的关系,绘制Methylation Quantitative Trait Loci (meQTLs)的图谱。
在甲基化研究的早期,由于技术水平的限制,候选基因区域甲基化水平是研究的重点。随着技术不断发展,全基因组水平的DNA甲基化水平的研究不断被开展。最先研究人员使用Illumina Infinium 27K芯片对全基因组甲基化情况进行研究。随后Illumina公司推出了Illumina Infinium 450K 芯片。相比于27K芯片只能覆盖27,000个甲基化位点,450K 芯片可以检测450,000的甲基化位点,大大提高了研究范围和精确性。然而,在人类常染色体上,大约有27,000,000个甲基化位点,450K芯片只能覆盖到1/60的甲基化位点。全基因组甲基化测序技术(Whole genome bisulfite sequencing, WGBS)可以帮助我们解决这一问题,使我们可以更加全面地检测到全基因组范围内的甲基化位点,了解基因组调控基因表达水平的潜在机制。随着WGBS技术的快速应用,以及大密度芯片和第二代高通量测序的普及,并结合基因型填充技术,极大地帮助了我们全基因组范围内研究meQTLs。
meQTL分析常用软件
根据我们研究的不同需要,我们选择不同的软件来处理数据。1. 对于数据量比较小的候选基因研究来,将甲基化水平当做数量性状,和基因型进行关联分析。由于数据较少,PLINK软件完全可以满足研究的需要。2.对于现在更加普遍的大数据来说,我们就需要更加有效的软件进行处理了,如MatrixEQTL这款软件了。各种软件的分析效率参见表1所示。
下面我们主要介绍MatrixEQTL这款软件的使用:
首先我们要整理文件格式。该软件一共需要5个矩阵的文件。
1. SNP信息(表2)
5. 协变量信息(表6)
其次,在代码中设定好Threshold_cis和trans的阈值,如果关联分析的研究结果大于该阈值,则结果不会保留在最终文件中。最后,把cis和trans的距离设定好,这里没有固定的阈值,但是,一般会把cis的最大距离设为以SNP为中心的上下游各1Mb范围。这样,你就可以在样品中寻找到meQTLs了。