菜鸟团一周文献推荐(No.9)
今后如果没有特殊情况,生信菜鸟团成员将每周为大家带来一期文献速递,推荐我们过去一周看到的好文献。所有的推荐完全不独立公正第三方,只是根据个人喜好推荐,希望对你有所帮助。
欢迎大家阅读完毕之后在文章最后选出你认为最感兴趣的文章,就可能在下一周看到这篇文章更详细的解读和测评哈,赶紧动手转发推荐给你的朋友一起投票参与,笔芯
供稿人:鲍志炜
一句话评价
宏基因组分类器 Kraken 的进化版 —— KrakenUniq
文章信息
题目:KrakenUniq: confident and fast metagenomics classification using unique k-mer counts
杂志:Genome Biology
时间:16 November 2018
链接:
https://doi.org/10.1186/s13059-018-1568-0
figure
文章介绍
宏基因组学即研究一个环境中全部微生物遗传物质的总和,解读微生物群体的多样性与丰度,探求微生物与环境,微生物与宿主之间的关系。而宏基因组分类器则为数据集中的每条reads分配分类学标识进行物种注释。由于宏基因组数据通常包含数千万条reads,因此通常使用短的k-mers来进行精确匹配而不是直接进行比对来进行分类,这也导致速度较慢。而且分类的结果不考虑reads在基因组上的位置。同时实验室的试剂盒及取样环境都可能造成污染。鉴定并剔除这些假阳性的数据对于宏基因组学分类十分重要。
Kraken 是 2014 年发表于 Genome Biology 杂志上用于宏基因组 DNA 序列分类的软件,相比于此前的软件, Kraken 通过 exact alignment of k-mers 的方法,极大地降低了运行时间。四年后,在 Genome Biology 杂志上新发表的 KrakenUniq 相比于 2014 年发表的 Kraken 同样是基于 exact match of k-mers,不同的是 KrakenUniq 在此基础上添加了一个用于评估数据集中每一个物种 unique k-mers 的覆盖度的算法,来提高物种鉴定的准确性和降低分类器的假阳性。在测试中,KrakenUniq 在分类宏基因组数据方面比 Blast,Diamond,MetaFlow 和 CLARK 等 11 个现有方法表现更好。并且由于代码的改进,KrakenUniq 比 Kraken 运行的更快,约提高了 50%,而内存需求则几乎一样。除此之外,KrakenUniq 还实现了菌株水平或更细级别的菌株鉴定,且提高了对病毒序列的识别能力,同时还可以对多个数据库进行分层搜索。
供稿人:lakeseafly
一句话评价
结合研究热点讲解水稻的进化历史
文章信息
题目:The Genomics of Oryza Species Provides Insights into Rice Domestication and Heterosis
杂志: Annual Review of Plant Biology
时间:April 2019
链接:
https://www.annualreviews.org/doi/full/10.1146/annurev-arplant-050718-100320
figure
野生和驯化水稻种系的系统发育树和水稻驯化的单源模型
文章介绍:
分享原因
这篇文章是近期来一篇由各路大牛共同写的一篇综述,系统的介绍了水稻的进化历史,同时结合了各种研究的热点(泛基因,选择进化,杂种优势)等等(具体可以看看我下面列出的文章结构)。如果你是从事动植物群体遗传的生信工作者,这会是一篇你必须要读的一篇文章,让你从各个角度去理解进化遗传。如果你从事人类方面的研究,不妨把阅读该文章看成读一本故事书,让你了解我们日常吃得最多的水稻进化遗传的故事。
文章摘要
在这里,韩斌大牛等和我们回顾了水稻多样性的遗传和基因组研究的最新进展。近年来,解开稻属物种的遗传多样性的秘密,为水稻驯化,杂种优势和复杂性状的基因组学的研究提供了坚实的知识基础。对许多野生稻(Oryza rufipogon)和亚洲栽培稻(Oryza sativa)种质进行基因组测序和分析,现在可以确定水稻驯化的全基因组特征和解锁亚洲栽培稻的起源。此外,对非洲水稻(Oryza glaberrima)品种的基因组变异及其密切相关的野生祖先Oryza barthii种质的类似研究为支持非洲水稻独立驯化理论提供了有力证据。整合的基因组方法已经有效地研究了杂交水稻中许多杂种优势位点,从而进一步了解与水稻杂种优势相关的基因组结构。总之,深入解释稻属物种间的遗传变异将进一步促进水稻育种。
文章结构
背景介绍
稻属物种的进化
稻属物种的自然多样性
粳稻,籼稻之间的分化
水稻的驯化
驯化的相关性状
亚洲栽培稻的起源
非洲稻的独立进化
杂草稻的进化
植物的多样性与其适应性
水稻泛基因组研究
水稻的基因关联分析
水稻的杂种优势
基于基因组未来的水稻育种方法
复杂农艺性状下水稻QTL的特征分析
杂交水稻与亚种间杂种不相容性
作物的基因编辑
自然变体和全基因组设计
总结
供稿人:冰糖
一句话评价
RNA-seq 的预处理一条龙工具
文章信息
题目:FastqPuri: high-performance preprocessing of RNA-seq data
杂志:BMC Bioinformatics
时间:3 May 2019(Published)
链接:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2799-0
figure
FastqPuri的工作流程。
文章介绍:
FastqPuri是一个用于RNA-seq质控和过滤的预处理一条龙工具,可以完成QC、过滤低质量Read、去接头、去污染序列,支持压缩fastq文件,支持单端测序和双端测序。
作者在开始就diss了众多工具,然后秀了一下优越感:
FastQC是被广泛使用的RNA-seq QC的工具,但是它是设计用于基因组数据的,有一些特性对RNA-seq并没有什么用,如overrepresented sequences, sequence duplication level, GC content。RSeQC、RNA-SeQC:只接受BAM文件,对于不需对比获得Counts的工具kallisto、salmon,它就无能为力了。AfterQC:可以执行QC和全局过滤,它不是设计用于RNA-seq数据,所以strand bias detection、overlapping pair analysis对RNA-seq数据没什么用,而且它也不支持去污染序列。RNA-QC-Chain:它虽然致力于成为一个综合性的序列预处理工具,但是深度还不够,缺少图表输出,并且只能如初rRNA污染。fastp:也是一个综合性的预处理工具,并且改进了运行速度,但是它同样不能去除其他来源的序列污染。BioBloom、 FastQ Screen:过滤工具,仅仅是过滤工具。
供稿人:大吉
一句话评价
超高速细菌、病毒基因组的序列搜索方法
文章信息
题目:Ultrafast search of all deposited bacterial and viral genomic data
杂志:Nature Biotechnology
时间: 04 February 2019
链接: https://www.nature.com/articles/s41587-018-0010-1/
figure
Fig. Sequence matching methods.
文章介绍:
随着技术的发展,细菌和病毒的测序数据大量积累,常规的数据搜索工具(比如blast)已不能满足如此规模的数据比对,只能得到单个读取中的匹配。在此,作者使用单核苷酸多态性(SNP)和等位基因的 k-mers 作为搜索的 terms,并将其改为固定长度的二进制标记(BItsliced Genomic Signature Index,BIGSI),较Sequence Bloom Tree (SBT) 及 Split Sequence Bloom Tree15 (SSBT)方法,BIGSI 保证搜索精度及速度的情况下,需要的储存空间更小。BIGSI 数据围绕基因、SNP、质粒及大肠杆菌多基因组类型(MLST),并支持后续的索引添加。目前,BIGSI 包含截至2016年12月中欧洲核酸数据库(ENA)上所有的细菌和病毒基因组数据(总共447833个)。
该算法旨在提供一个新管理数据的模式,并加速基因或者质粒在传染病中的研究。在文中,作者使用该算法,快速搜索定位耐药基因 MCR-1,MCR-2和MCR-3,得到2827个宿主质粒,并量化了其耐药性,是一个极有意义的开发项目。
github地址: https://github.com/phelimb/BIGSI
大侠别走,留下投票,我们下周再见