菜鸟团一周文献推荐(No.12)
写在前面:
不知不觉,我们的「每周文献推荐」栏目已经走过了11期。不知道其中有没有哪些对你有所启发,欢迎在留言中说说你对这个栏目有没有什么进一步的期待和更好的建议。
同时,欢迎大家阅读完毕之后在文章最后选出你认为最感兴趣的文章,就可能在下一周看到这篇文章更详细的解读和测评哈,赶紧动手转发推荐给你的朋友一起投票参与,笔芯
供稿人:Lakeseafly
一句话评价
图谱基因组是未来基因组的趋势
文章信息
题目:Fast and accurate genomic analyses using genome graphs
杂志:Nature Genetics
时间:Jan 2019
链接:
https://www.nature.com/articles/s41588-018-0316-4
Figure:
图谱的基因组架构与其计算资源需求
文章介绍:
摘要
人类参考基因组的构建的完成是人类遗传学的一项里程碑式的成就。该参考基因组为所有的研究者构建了一个标准的标尺去注释人类的基因组成成分和比较不同人种之间的基因组。目前的人参考基因组表示为线性单倍体DNA序列,但是由于人群中遗传多样性的普遍存在,使用单一线性的基因组具有局限性。比如,与参考基因组相对比,任何给定的人类基因组,平均都具有3.5-4.0百万个SNP或插入缺失和大约2,500个结构变异(SV)。这种结构变异可能会导致reads无法比对到参考基因组上,特别是当这些reads跨越结构变异breakpoints的时候。因此会导致,reads比对准确度在给定样本中的基因组区域之间有着显着差异。并且错位比对上的reads可能反过来,导致错过的真实变异的发现(假阴性)或者错误地的报告假的变异(假阳性),更会妨碍依赖于准确reads比对的应用程序的使用。
最近的大规模重测序工作已经全面地探索了多个基因组中共有的遗传变异,利用好这些信息将能够有效地减少比对中产生的误差。尽管如此,目前可用的多基因组图谱式的参考基因组要比基于线性的参考基因组的方法慢一个数量级,并且只能用于小的基因组中,又或者大的基因组中的一小部分。该文章提出了一个基于一个群体的图谱基因组的流程,包括构建,延长,存储,查询和变异发现。研究者发现图谱基因组通过多个互补基准测量,能够有效的提高二代数据比对和变异发现的准确性(对比传统的BWA-GATK的线性变异发现流程)。通过将断点分辨的SV多态性包含在图基因组中,我们证明了SV可以以统一的方式快速准确地进行基因分型。随着新的遗传变异数据在图谱基因组中累积,可以实现reads比对和变异发现的准确性的逐步改进。这将使我们的方法能够通过扩展遗传变异目录,进一步扩展和改进。
一个参考基因组并不能满足我们日后研究各种生物基因秘密的需求,使用图谱式的基因组必定会成为以后研究的新趋势。
供稿人:鲍志炜
一句话评价
利用动态贝叶斯网络预测纵向时间队列数据以重新整合数据
文章信息
题目:Dynamic interaction network inference from longitudinal microbiome data
杂志:Microbiome
时间:2 April 2019
链接:
https://doi.org/10.1186/s40168-019-0660-3
figure
上图为整个计算流程的示意图。展示了来自肠道数据集的五个样品的变形菌门的变化。
a 图:输入的是每个样本在非均匀间隔内的变形菌门相对丰度值。
b 图:每个样本的三次B样条曲线。1 号样本(深蓝色点)包含的测量时间点小于预定的阈值,从进一步的分析中去除。剩余的平滑曲线允许原则地估计未观察到的时间点,并在均匀间隔内插。
c 图:每个样品与选定的参考样品对齐(48 号样本,橙色点)。
d 图:若对齐的误差高于预定阈值,则样本会被过滤(5 号样本,灰色点)。
e 图:训练动态贝叶斯网络(DBN)的结构和参数。令节点(T1,T2,T3,T4)表示微生物类群,(C1,C2,C3)代表分别表示为圆形和菱形的临床表型。该图示出了两个连续的时间点 ti 和 ti+1,其中虚线连接来自同一时间片的节点,称为内边(intra edges),而实线则连接不同时间片之间节点,称为间边(inter edges)。从训练的动态贝叶斯网络中边的参数推断生物学关系,其可以是正相关(绿色)或负相关(红色)。
f 图:对比 48 号样本四类菌群的原始相对丰度和预测的相对丰度。
文章介绍
现在已经有越来越多关于微生物组的研究,在许多研究中,研究人员除了收集不同样本单个时间点的数据,还收集了纵向时间队列数据,他们不仅是想了解微生物组的组成,还可以研究不同菌群之间的相互作用。然而,对于这些数据的分析目前仍颇具挑战,比如这些数据集有的可能会发生丢失或产生噪声数据亦或是非均匀采样。此外,处理纵向时间队列数据时的关键问题是时间影响微生物组的快慢,因为来自不同个体的纵向样本,个体的不同时间点之间菌群变化的速率并非完全相同,年龄,性别,外部环境等等因素都可能会导致个体微生物组之间更快或更慢的变化速率。
为了更好地处理纵向数据,作者提出了一种新的计算流程来整合个体的不同时间点的数据,以重建模型。首先采用统计样条估计(spline estimation)和动态时间扭曲技术(dynamic time-warping techniques)对时间序列微生物数据进行比对,以整合数据。接着,使用比对好的数据训练动态贝叶斯网络(Dynamic Bayesian Network),其中节点(nodes)表示微生物分类群、临床条件或其他人群统计表型,边(edges)代表这些实体之间的因果关系。作者使用了多个数据集来评估模型,这些数据集包括了人体胃肠道、泌尿生殖道和口腔。并且证明,对于这些系统的模型能够准确地预测分类群的变化,大大改进了之前的方法所建立的模型。
供稿人:曾健明
一句话评价
病人样本量不够,公共数据库来凑
文章信息
题目:Germline and somatic variations influence the somatic mutational signatures of esophageal squamous cell carcinomas in a Chinese population
杂志:BMC Genomics
时间:2018
链接:
https://doi.org/10.1186/s12864-018-4906-4
figure
文章介绍:
现在做肿瘤队列研究,纳入病人数量不过百都不好意思出来交流了,但是,并不意味着你的样本数量少,你的研究就没有意义,当然,部分稀有癌症本来就不可能是样本量大。
但是假如你做的并不是稀有癌症,又的确没有经费或者其它条件不允许,只能说是不到10个病人,数据也出来了,仍然是想发出去肿么办?
这里有个例子:
BMC Genomics 2018
https://doi.org/10.1186/s12864-018-4906-4
文章里面写的是:
We analyzed the somatic mutational signatures in 302 paired whole-exome sequencing data of ESCC in a Chinese population for potential regulators of the mutational processes.
起初我还很意外, 什么时候有了这样一个食管癌队列,我居然不知道,而且为什么这么大的队列发一个 BMC Genomics , 后来我仔细看:
In this study, we used paired whole-exome sequencing (WES) data to identify the regulators of the somatic mutational processes in ESCC in a Chinese population by combining evidences from both germline and somatic levels
The rest of 293 pairs of WES data sets were collected from published studies
也就是说,其实研究团队就9个病人的自有数据,其余的都是公共数据库,而且因为人家是大队列,原创数据,所以都发的很不错的杂志。
然后也是走标准的肿瘤外显子流程咯:
We identified 13,854 single nucleotide variants (SNVs) and 2274 insertions and deletions (InDels) from 302 paired exonic sequences of ESCC. The median rate of the mutations is 1.11 per megabase
供稿人:kaopubear
一句话评价
适用于两组转录组数据的自动分析流程
文章信息
题目:RNASeqR: an R package for automated twogroup RNA-Seq analysis workflow
杂志:bioRxiv
时间:May. 27, 2019
链接:
https://doi.org/10.1101/641324
figure
文章介绍:
每周都要过不少文章,似乎现在生物信息的文章越来越没有什么东西可写了。具体到每一个步骤和功能都有各种各样的软件,越来越多的人开始做的工作是整合与优化。如何把已经门槛已经不高的生物信息变得门槛再一点。这篇发布在 bioRxiv 的文章更像是一篇详细的教程,然后他们把写好的教程打包成了一个 R 包,有些类似于发布在 bioconductor 的 workflow。不过这样的流程大多数有先天性缺陷,基本上你要想真的完成一个数据从原始数据到可用结果的分析,少不了性能很强的电脑甚至是服务器。
“RNASeqRParam” S4 Object Creation
Environment Setup
Quality Assessment of FASTQ sequence data
Read Alignment and Quantification(hisat2+stringtie)
Gene-level Differential Analysis
“ballgown” Analysis Based on FPKM Value
“DESeq2” Analysis Based on Read Count
“edgeR” Analysis Based on Read Count
Functional Analysis
GO Enrichment Analysis
KEGG Pathway Analysis
bioconductor
https://bioconductor.org/packages/release/bioc/html/RNASeqR.html
供稿人:kaopubear
一句话评价
十分推荐的全能多组学数据可视化 R 包
文章信息
题目:trackViewer: a Bioconductor package for interactive and integrative visualization of multi-omics data
杂志:Nature Methods
时间:27 May 2019
链接:
https://doi.org/10.1038/s41592-019-0430-y
figure
文章介绍:
一个 R 包能发表在 nature methods 一定是有原因的,即便只是一篇 correspondence。截止到今天为止,我们在文章里看到的绝大多数高通量数据可视化的展示都是 IGV 截图。如果这个包能够得到很好的「推广」,这个情况会逐渐改观。
这个包可以展示哪些数据呢,包括但不限于 ChIP-seq, RNA-seq, miRNA-seq, DNA-seq, SNPs 和 methylation data。
可以接受的输入数据格式包括 BED, WIG, bedGraph, BigWig 和 bam 文件。如果你今后有在文章里可视化高通量数据的需求,不妨试一试这个可视化 R 包。
bioconductor
https://bioconductor.org/packages/release/bioc/html/trackViewer.html
大侠,投完票再走