菜鸟团一周文献推荐(No.13)
写在前面:
不知不觉,我们的「每周文献推荐」栏目已经走过了 12 期。不知道其中有没有哪些对你有所启发,欢迎在留言中说说你对这个栏目有没有什么进一步的期待和更好的建议。
同时,欢迎大家阅读完毕之后在文章最后选出你认为最感兴趣的文章,就可能在下一周看到这篇文章更详细的解读和测评哈,赶紧动手转发推荐给你的朋友一起投票参与,笔芯
供稿人:lakeseafly
一句话评价
简单易用的最新 TE 注释流程
文章信息
题目:Benchmarking Transposable Element Annotation Methods for Creation of a Streamlined, Comprehensive Pipeline
杂志:Biorxiv
时间:June 2019
链接:
https://www.biorxiv.org/content/10.1101/657890v1.full
Figure
该工具的工作流程:
文章介绍:
简介
随着测序技术和组装算法的日益成熟,许多大型重复基因组都能够开展高质量的从头组装,并且现在越来越多的工具也允许我们进行TE的注释。这里研究者使用已经发表的水稻TE数据,对现有TE注释的程序进行了基准测试,这里的测试使用六个度量(灵敏度,特异性,准确度,精度,FDR和F 1,分别对LTR元素,SINE,LINE,TIR元素和Helitrons 进行结构注释,根据其结果去表征由各程序创建的测试库的注释性能。根据这个测试,研究者选取了表现最好的工具,将其融合组建起来,创建了一个名为Extensive de-novo TE Annotator(EDTA)的综合TE分析流程。这个工具会生成一个压缩的TE库,用于TE完整的结构注释和碎片元素的注释。EDTA流程包含LTRharvest,LTR_FINDER的并行版本,LTR_retriever,TIR-Learner,MITE-Hunter,HelitronScanner和RepeatModeler以及自定义过滤脚本,LTR,TIR,MITE和Helitron候选序列的基本过滤器与前面部分中用于基准程序的那些相同,并控制最小序列长度并去除串联重复。高级过滤器使用在阶段0候选中识别的高质量TE来去除错误分类的序列。阶段0结果的性能指标显示LTR元素,TIR元素和MITE注释的灵敏度非常低(<65%),Helitron注释的次优特异性(~70%)和准确度(~70%),这是由于嵌套的TE,捕获的TE或Helitron候选中的错误发现导致组合阶段0库中的注释性能受损。在相互去除每个类别中错误分类的TE之后,最终EDTA管道注释的性能指标很高(如上图)。对于所有四个TE亚类和总重复序列,注释灵敏度范围为81%-96%,特异性范围为85%-99%,准确度范围为89%-97%。
个人评价
该工具提供了非常简单易用,并且准确度高的TE分析流程,其github地址为:https://github.com/oushujun/EDTA。从事基因组组装,或者TE相关研究的小伙伴,可以好好读读该文章,然后可以进一步研究测试一下该工具。
供稿人:Christine
一句话评价
高分癌症分子亚型Meta-Analysis
文章信息
题目:Second-generation molecular subgrouping of medulloblastoma: an international meta-analysis of Group 3 and Group 4 subtypes
杂志:Acta Neuropathologica (IF=15.876)
时间:10 May 2019
链接:
https://link.springer.com/article/10.1007%2Fs00401-019-02020-0
figure
文章介绍:
成神经管细胞瘤(MB)是一种高度恶性的脑肿瘤,主要发生在儿童中,一般分成4类亚型:WNT, SHH, Grp3, Grp4。近年来的研究逐渐发现Grp3和Grp4组内的临床特征和预后结果都存在严重的异质性,需要更深入地理解其分子异质性,以改进亚型分类。
作者从3个数据集中获得了1501个含有甲基化数据的样本,其中852个含有基因表达数据,用之前文献使用的几种算法(t‑SNE/dbSCAN、NMF、SNF)独立地对全部样本进行分类,综合各种分组后得到8个稳定的亚型,然后描述了它们的临床病理和分子特征,最后开发了一个可以在线使用的分类器。
这篇文章相当于是在更大的数据集中重新验证了别人的分类方法,做得分析并不是特别复杂,可能是因为结果具有临床意义,而且能直接实现在线分类,比较有实用价值。作为纯生信的Meta Analysis,这篇文章的影响因子已经很高了,思路可以知道一下。
供稿人:鲍志炜
一句话评价
用于训练机器学习模型的微生物组标准数据库
文章信息
题目:Microbiome Learning Repo (ML Repo): A public repository of microbiome regression and classification tasks
杂志:GigaScience
时间:26 April 2019
链接:
https://doi.org/10.1093/gigascience/giz042
figure
文章介绍
目前,机器学习已被广泛用于进行数据分类和预测,其在人类健康中的应用越来越多,特别是在微生物组研究领域中机器学习的应用呈指数增长。然而,对于大规模荟萃分析仍存在一些挑战,因为我们通常需要手动重新处理元数据(metadata)和标准化处理原始序列数据,这也会导致一些研究结果的差异。
本文整理了 Microbiome Learning Repo(ML Repo,https://knights-lab.github.io/MLRepo/ )数据库,包括了 15 篇文章中的 33 个人类微生物组数据集(12 个扩增子数据集和 3 个鸟枪测序数据集)。这些数据集有着不同的测序平台,16s 可变区和实验设计,以帮助开发人员确保跨数据类型的算法的鲁棒性。其中 8 个数据集过滤后的测序数据下载自 QIITA 数据库,另外 7 个数据集的原始数据下载自公共数据库。将这些数据统一使用 SHI7 或 QIIME 进行质控,接着用 BURST 比对至 NCBI RefSeq 16S rRNA 数据库和 Greengenes 97 数据库以得到 OTU 和物种丰度表。用户可按类浏览下载这些数据,用于进一步挖掘和方法评估。
供稿人:kaopubear
一句话评价
真实 WGS 数据全面评估 69 种各类结构变异工具
文章信息
题目:Comprehensive evaluation of structural variation detection algorithms for whole genome sequencing
杂志:Genome Biology
时间:3 June 2019
链接:
https://doi.org/10.1186/s13059-019-1720-5
figure
文章介绍:
结构变异(SV)或拷贝数变异(CNV)极大地影响基因组中编码基因的功能并且和多种疾病有关。尽管许多现有的 SV 检测算法可以使用全基因组测序(WGS)数据检测多种类型的 SV,但是没有一种算法能够以高的 precision 和 recall 鉴定每种类型的 SV。
本文作者使用多个模拟和真实的 WGS 数据集评估了 69 个现有 SV 检测算法的表现。分析结果显示有一组算法根据 SV 的特定类型和大小范围准确鉴别 SV,并可以准确地确定 SV 的断点,大小和基因型。文中列举了针对每类 SV 优秀算法,其中 GRIDSS,Lumpy,SVseq2,SoftSV,Manta 和 Wham 是 deletion 或 duplication 这类 SV 更好的算法。
供稿人:kaopubear
一句话评价
植物近似基因组间基因错误注释情况分析
文章信息
题目:Using multiple reference genomes to identify and resolve annotation inconsistencies
杂志:biorxiv
时间:May 30, 2019.
链接:
https://doi.org/10.1101/651984
figure
文章介绍:
大家越来越有钱,各种基因组测序结果越来越多。例如在植物中,往往一个物种就会存在很多个不同品种的基因组序列。虽然这些新基因组每一个都在彼此之间有很多共线性部分,但这些区域内的基因的注释结构却通常存在各种不同。有一种情况是 split-gene 的错误注释,也就是一个基因被错误地注释为两个不同的基因或两个基因被错误地注释为一个基因。这些错误注释可能对功能预测、定量分析以及许多下游分析产生重大影响。
本文作者开发了一种基于两两比较注释的高通量分析方法,可以检测潜在的分裂基因情况并评估不同基因是否应该合并为单个基因。文章使用来自玉米(B73,PH207 和 W22)的三个参考基因组的基因注释证明了方法的实用性。在每个两两比较中发现数百个潜在的分裂基因错误注释情况,对应于3-5%的注释基因。同时还利用来自 10 种组织的 RNAseq 数据确定生物学上支持哪种状态。
大侠,别忘了先投票再转发
好学你的,在看吗?
↓↓↓