查看原文
其他

配对差异分析与非配对差异分析的区别

生信阿拉丁 生信阿拉丁 2022-05-16

配对差异分析经常应用在肿瘤配对样本的差异分析中。在肿瘤研究中,通常需要进行肿瘤组织与相邻正常组织之间的差异分析,以便研究肿瘤组织的特异性。那么在差异分析时,配对和非配对的差异分析有何区别,该如何选择?经查阅文献,一篇名为Differential Expression of miRNAs in Colorectal Cancer: Comparison of Paired Tumor Tissue and Adjacent Normal Mucosa Using High-Throughput Sequencing的文章或许会给大家带来一些新的思路。




背景介绍




MicroRNA (miR) 是长度为 18-25 个核苷酸的小型非编码 RNA 分子,于 1990 年代初首次在秀丽隐杆线虫中发现。它们通过改变不同细胞过程(如分化、增殖、存活和凋亡)中的基因表达来维持体内平衡 。据估计,超过 10% 的编码人类基因的蛋白质可能受这些机制的调控 。miRBase 数据库中记录的人类 miR 数量超过一千 。研究表明,miRs 可能在不同的人类癌症中失调,因此充当肿瘤抑制基因或癌基因。它们可能是诊断或预后的潜在生物标志物,并作为癌症特异性治疗的潜在靶点。




材料与方法




01

样本选择


使用 Illumina 高通量测序技术研究 miR 表达的肿瘤特异性变化从8个患者的手术标本中收集正常粘膜和肿瘤组织,从而产生一组独特的成对样品,7个患者的肿瘤细胞含量大于60%,其中一例为非典型神经内分泌肿瘤 (NET),其他为腺癌。


02

数据分析


  1. 数据处理:获得高通量测序的fastq数据,使用FASTX-Toolkit去接头。测序数据与 hg18 基因组参考比对,允许一个错误匹配。使用 miRanalyzer 进一步处理测序数据。该工具允许从 miRBase数据库中识别经过验证的 miR,并包括用于预测新 miR 的机器学习算法。

  2. miR差异分析:使用edgeR与Deseq进行miR差异分析,两种工具都利用负二项式分布对每个miR的读取计数进行建模,并实现了对计数进行归一化的方法。

  • 非配对差异分析:Deseq

  • 配对差异分析:edgeR




主要结果




通过韦恩图可以看出,在两种方法中,有37个miR在配对和非配对分析中共同检出,有 81 个 miR 在非配对分析中未鉴定,证明非配对差异分析相比配对分析更保守,它不需考虑患者之间的基线差异。





差异分析R代码




1、加载R包和数据

library(DESeq)
library(edgeR)
setwd("/Users/Julian/Documents/Prosjekt/PLOS/Dataset/")

2、数据处理

targets <- read.delim(file="Targets.txt", stringsAsFactors=FALSE#读取数据
cts <- readDGE(targets) 
countsTable <- cts$counts #读取count
colnames(countsTable) <- c("T1""T2""T3""T4""T5""T6""T7""T8""N1""N2""N3""N4""N5""N6","N7""N8"#列为样本
conds <- c("Ne","Ac","Ac","Ac","Ac","Ac","Ac","Ac","No","No","No","No","No","No","No","No"#分组信息
cds <- newCountDataSet(countsTable, conds) #构建cds对象
cds <- estimateSizeFactors(cds) #归一化
cds <- estimateVarianceFunctions(cds) #方差估计

3、使用 DESeq 计算正常黏膜 (No) 与腺癌 (Ac) 中失调的 miRs

resNoAc <- nbinomTest(cds, "No""Ac"#对负二项模型进行T检验
resNoAcSig <- resNoAc[resNoAc$padj<.1,] #设置显著阈值,padj值小于0.1
resNoAcSig <- resNoAcSig[order(resNoAcSig$padj),] 
subset(resNoAcSig, select=c(1,5,6,8))

4、使用 DESeq 计算正常黏膜 (No) 与神经内分泌肿瘤 (Ac) 中失调的 miRs

resNoNe <- nbinomTest(cds, "No""Ne")
resNoNeSig <- resNoNe[resNoNe$padj<.1,]
resNoNeSig <- resNoNeSig[order(resNoNeSig$padj),]
subset(resNoNeSig, select=c(1,5,6,8))

5、方差函数拟合

diagForT <- varianceFitDiagnostics (cds1, "T")
smoothScatter( log10(diagForT$baseMean), log10(diagForT$baseVar) )
lines( log10(fittedBaseVar) ~ log10(baseMean), diagForT[ order(diagForT$baseMean), ], col="red" )
abline(0,1,lty=2)

6、在配对的正常粘膜与腺癌中使用 edgeR 计算失调的 miR

targetsPaired <- read.delim(file="TargetsPaired.txt", stringsAsFactors=FALSE)
d <- readDGE(targetsPaired)
colnames(d) <- c("T2""T3""T4""T5""T6""T7""T8""N2""N3""N4""N5""N6""N7""N8")
patient <- factor(c(23456782345678)) #设置配对信息,相同数字为配对样本
design <- model.matrix(~patient + d$samples$group)
rownames(design) <- rownames(d$samples)
design[,8] <- c(1,1,1,1,1,1,1,0,0,0,0,0,0,0# 设置分组信息
colnames(design)[8] <- "tumor"
d <- estimateGLMCommonDisp(d, design)
glmfit.d <- glmFit(d, design, dispersion = d$common.dispersion)
lrt.d <- glmLRT(d, glmfit.d, coef = 8)
options(digits = 4)
topTags(lrt.d, n=118)

7、上调/下调 miR 统计

sum(lrt.d$table$logFC > 0)
sum(lrt.d$table$logFC < 0)
top <- topTags(lrt.d,n=118)
sum(top$table$logFC > 0)
sum(top$table$logFC < 0)




总结




  • edgeR配对分析模型中省略了回归交互项。配对差异分析时,对单个患者的比较组不感兴趣,相反,感兴趣的是一组患者的比较组的平均差异。

  • 配对样本进行配对差异分析或非配对差异分析,结果大不相同,所以在选择差异分析方法时,需要考虑实验设计的目的。

  • Deseq2和edgeR两种R包都可以进行配对差异分析,Deseq则无法进行配对差异分析。


参考资料

1. edgeR: differential expression analysis of digital gene expression data;
2. http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html#can-i-use-deseq2-to-analyze-paired-samples;
3. Hamfjord J, Stangeland AM, Hughes T, Skrede ML, Tveit KM, Ikdahl T, Kure EH. Differential expression of miRNAs in colorectal cancer: comparison of paired tumor tissue and adjacent normal mucosa using high-throughput sequencing. PLoS One. 2012;7(4):e34150. doi: 10.1371/journal.pone.0034150. Epub 2012 Apr 17. PMID: 22529906; PMCID: PMC3328481.;
4. Roukos DH (2010) Novel clinico-genome network modeling for revolutionizing genotype-phenotype-based personalized cancer care. Expert Rev Mol Diagn 10: 33–48.

作者:oct

审稿:童蒙

编辑:amethyst



往期回顾


Pacbio文库如何加上barcode


如何NCBI上传Genbank数据


单体型组装入门介绍

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存