菜鸟团一周文献推荐(No.5)
今后如果没有特殊情况,生信菜鸟团成员将每周为大家带来一期文献速递,推荐我们过去一周看到的好文献。所有的推荐完全不独立公正第三方,只是根据个人喜好推荐,希望对你有所帮助。
从这一期开始,我们将推出一个全新的读者投票互动环节,阅读完毕之后在文章最后选出你认为最感兴趣的文章,就可能在下一周看到这篇文章更详细的解读和测评哈,赶紧动手转发推荐给你的朋友一起投票参与,笔芯
供稿人:lakeseafly
一句话评价
一文带你了解人类基因组中主要的结构变异
文章信息
题目:Characterizing the Major Structural Variant Alleles of the Human Genome
杂志:Cell
时间:Jan 2019
链接:
https://www.cell.com/cell/fulltext/S0092-8674(18)31633-7
figure
一张图片就把该文章的主要研究内容表达了出来:
文章介绍:
摘要:
为了提供人类结构变异(SV)的综合资源,研究者使用长读序列数据来分析了15个人类基因组的SV。并对所发现基因组中共有的99,604个插入,缺失和倒位(包括2,238(1.6 Mbp))进行了序列分析。额外的13,053(6.9 Mbp)存在大多数的基因组中(15个中的大多数),表明参考基因组中存在少量等位基因或错误。 通过440个额外的基因组中的基因分型分析,证实了独特的常染色质中最常见的SV是可通过序列来分辨的。研究者报告了9倍SV偏差存在于人类染色体最后5 得Mbp中,其中近55%的VNTR(可变数目的串联重复序列)比对到基因组的这一部分。研究者鉴定了影响编码和非编码调控基因座的SV,进一步改进了变异的注释和功能解释。这些数据提供了构建规泛人类参考基因组的框架,用于开发能够捕获等位基因多样性的资源。
个人评价:
随着测序价格的降低和技术的进步,未来三代测序定将成为主流。现在动植物的泛基因组研究大多数都是停留在二代的水平,本文通过人类的数据提供了一个很好的例子,未来动植物SV的研究定会变得越来越popular。
供稿人:冰糖
一句话评价
增强子等顺式调控元件的预测结果的评估流程
文章信息
题目:Computational enhancer prediction: evaluation and improvements
杂志:BMC Bioinformatics
时间:5 April 2019(Published)
链接:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2781-x
figure
True:预测算法SCRMshaw 使用的29个真实训练集;
Random:随机选取序列信息的62个数据集;
Expectation:随机期望值。
预测结果的三个参数Recovery、Sensitivity、Precision要好于随机数据,存在较好的准确性。
文章介绍:
后基因组注释一直是费时费力的事情,众多的物种、庞大的基因组,如果单靠实验来完成注释确实是一个及其繁琐的工程,所以机器注释一直都是发展的方向,虽然目前的预测结果往往差强人意。
本文介绍了一个对黑腹果蝇基因组的顺式调控元件(CRM)的预测结果的评估工具——pCRMeval,它使用RedFly中已知的24,000个CRM作为已知数据以及构建模型时的训练集(training set)用于评估各预测方法的准确性和灵敏性。主要的评估参数有三个:REDfly recovery、Training set sensitivity、Expression pattern precision 。(1)REDfly recovery是指的使用当前预测方法去预测REDfly中已知的CRM位点,其成功预测的百分比称为REDfly recovery;(2)Training set sensitivity是说如果当前预测方法是根据有监督机器学习算法,那么它就存在一个训练集,而训练集的序列和CRM位点都是已知的,计算此预测方法成功预测到的CRM位点的比例就是Training set sensitivity;(3)Expression pattern precision,REDfly的CRM数据存在有发育阶段和组织特异性的信息,这些信息称为Expression pattern,如果一个预测算法包含这些信息,那么就可以对这些数据的准确性进行计算,也就是Expression pattern precision。
供稿人:鲍志炜
一句话评价
一种用于宏基因组物种注释及定量的新方法。
文章信息
题目:Microbial abundance, activity and population genomic profiling with mOTUs2
杂志:Nature Communications
时间:04 March 2019
链接:https://doi.org/10.1038/s41467-019-08844-4
figure
文章介绍:
一般来说,我们定量宏基因组产生的 reads 无非有以下两种方法:一种是直接把测序的 reads 比对到已知物种的参考基因组上,然后根据基因组的长度来进行标准化,以确定物种丰度,这种方法效率较低;另一种更灵活的方法是使用特定可以分辨进化距离的序列(clade-specific)来进行物种注释和定量[1],这是 MetaPhlAn2 软件所用的方法,速度是前一种方法的 >50 倍。但以上两种方法的缺陷都在于只能根据已知的物种来定量,而丢失了未知物种的数量,这就导致了丰度定量的误差。为了解决目前宏基因组物种丰度统计的这一不足,本文中作者基于物种间广泛存在的单拷贝发育标记基因(mOTUs)进行原核物种丰度分析,这些标记基因具有良好的进化特异性或进化保守性,在大部分基因组中以单拷贝的形式存在,很少会发生水平基因转移,是环境样本中物种丰度分析的理想候选基因[2]。mOTUs 在之前第一版软件的基础上,最近又推出了第二版,更新扩展了原有的 mOTU 数据库,新版数据库从已知参考基因组和宏基因组数据中提取更新合并了>7,700个 mOTU,显著改善人类相关和海洋微生物物种的代表性。mOTUs2 除了适用于宏基因组数据的微生物分类分析,还可以应用于宏转录组数据的微生物转录活性分析及微生物群体的 SNV 分析。
[1] Segata, N., Waldron, L., Ballarini, A., Narasimhan, V., Jousson, O., & Huttenhower, C. (2012). Metagenomic microbial community profiling using unique clade-specific marker genes. Nature Methods, 9(8), 811–814. https://doi.org/10.1038/nmeth.2066
[2] Sunagawa, S., Mende, D. R., Zeller, G., Izquierdo-Carrasco, F., Berger, S. A., Kultima, J. R., … Bork, P. (2013). Metagenomic species profiling using universal phylogenetic marker genes. Nature Methods, 10(12), 1196–1199. https://doi.org/10.1038/nmeth.2693
供稿人:大吉
一句话评价
无门槛细菌基因组分析流程TORMES介绍
文章信息
题目:TORMES: an automated pipeline for whole bacterial genome analysis
杂志:Bioinformatics
时间:08 April 2019
链接:
https://doi.org/10.1093/bioinformatics/btz220
figure
文章介绍:
TORMES是一个友好的细菌全基因组分析流程,包含对原始序列的质控过滤,从头拼接,参考基因组比对,基因组注释,多基因座序列分型 (MLST),寻找抗药性和致病基因及泛基因组比较。
TORMES基于GUN bash v.4.2.46及R v.3.4.3编写,支持conda自动安装。github地址如下: https://github.com/nmquijada/tormes。代码如下:
$ tormes --metadata salmonella_metadata.txt
--output Salmonella_TORMES_2018 --reference
S_enterica-CT02021853.fasta --threads 32 --genera Salmonella
相较于之前开发的相关工具 PATRIC和 MicroScope,TORMES支持用户自定义分析(比如设定“埃希氏菌”或“沙门氏菌”能获得更详细的信息),且不需要提交自己的数据至相关的服务器。TORMES集成了Prokka,支持自有注释库完善对细菌基因组注释,并覆盖泛基因组分析,核心基因组距离分析,检测点突变及亚型分析(包括MLST, 血清分型和fimH基因分型)。
总体而言,TORMES有助于生信小白快速获得细菌基因组的生物信息,默认参数下,20C 100 ~3.5 Mbp length genomes数据在124GB RAM 32 cores的计算机需要16小时。可以一试。
供稿人:Sunshine
一句话评价
通过相似性融合的方法预测疾病之间的关系
文章信息
题目:Understanding and predicting disease relationships through similarity fusion
杂志:Bioinformatics
时间:01 April 2019
链接:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6449746/
figure
文章介绍:
建立疾病之间的关系增加了我们对疾病生物学的理解,帮助确定共享机制或开发新的治疗方法,例如通过药物再利用。因此,鉴定疾病之间的新关系具有很大的生物学和药理学意义。
文章中作者提出了一种相似性融合方法,该方法考虑了不同数据类型之间信息内容的差异,允许以平衡的方式组合每种数据类型。将多种生物水平的疾病关系结合起来可以帮助我们理解疾病中发生的共同过程,这同时也可能表明药物有共享的机会。作者将这种方法应用于84种疾病的六种不同类型的生物学数据(ontological, phenotypic, literature co-occurrence, genetic association, gene expression and drug indication data),以创建一种“疾病图谱”:一种疾病网络连接在一起或更多的生物水平。除了重建已知的疾病关系外,疾病图谱中15%的链接是跨越传统本体论类别的新颖链接,例如牛皮癣和炎症性肠病之间。疾病图中62%的链接代表药物共享关系,说明了相似性融合方法与潜在治疗关系识别的相关性。
github地址如下: https://github.com/e-oerton/disease-similarity-fusion。
供稿人:kaopubear
一句话评价
难得一篇植物DNA甲基化分析方法综述
文章信息
题目:DNA methylation analysis in plants: review of computational tools and future perspectives
杂志:Briefings in Bioinformatics
时间:09 April 2019
链接:
https://doi.org/10.1093/bib/bbz039
figure
不同工具性能和分析结果的差异
文章介绍:
在这篇综述中,作者概述了分析DNA甲基化数据(特别是亚硫酸氢盐测序数据)最常用的生物信息学工具,也分析了这些工具的性能并且比较了计算拟南芥以及小麦甲基数据的计算时间和一致性。同时举例说明了作物中DNA甲基化数据分析的应用。从软件上看,BSMap 用是最短,尤其是当线程数上去之后,但是内存则是Bismark 最省。
如果你想学习DNA甲基化的分析方法,这篇文章可以给你一个非常好的指引。
另外一篇文章,Strategies for analyzing bisulfite sequencing data 。
快来投票,选出你最感兴趣且计划阅读的一篇文献,就可能会在下周看到相关更详细的解读。周末愉快~