查看原文
其他

菜鸟团一周文献推荐(No.7)

生信菜鸟团 生信菜鸟团 2022-06-07

今后如果没有特殊情况,生信菜鸟团成员将每周为大家带来一期文献速递,推荐我们过去一周看到的好文献。所有的推荐完全不独立公正第三方,只是根据个人喜好推荐,希望对你有所帮助。

从这一期开始,我们将推出一个全新的读者投票互动环节,阅读完毕之后在文章最后选出你认为最感兴趣的文章,就可能在下一周看到这篇文章更详细的解读和测评哈,赶紧动手转发推荐给你的朋友一起投票参与,笔芯


供稿人:冰糖

一句话评价

联合同源推断和SVM获得蛋白质的亚核定位。


文章信息

题目:Detailed prediction of protein sub-nuclear localization

杂志:BMC Bioinformatics

时间:23 April 2019(Published)

链接: https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2790-9


figure

SVM:支持向量机预测亚核定位;

Homology(with hit):Blast成功的同源推断亚核定位;

Homology:同源推断预测亚核定位;

Random:随机预测亚核定位;

Combinded:联合Homology和SVM预测亚核定位。


文章介绍:

核蛋白质可以以完整构型穿越核孔复合体,这种转运一般是依赖于“核转运蛋白”来完成的。由于“核转运蛋白”是通过识别特定的“核定位信号”来完成对穿核蛋白质的识别的,因此似乎预测蛋白质的亚细胞核定位是比较容易的事情,只需要检测一个蛋白质序列是否含有“核定位信号序列”即可。但是实际上,由于“核定位信号“序列的特异性太差,它和很多非穿核蛋白质存在交叉,因此无法直接通过”核定位信号“序列来完成对蛋白质亚核定位的预测。

LocNuclei是一个用于预测蛋白质的亚细胞核定位的方法,它包括两个预测方向:分别命名为Q13和Q2,其含义为Q13是用于预测一个蛋白质位于13个亚核位置的哪一个位置,Q2用于预测一个蛋白质是否位于13个亚核定位。

其具体的实现是通过一个组合方法,最终获得的准确率是Q13:62% 、Q2:72% 。简单来说,就是通过组合同源推断(homology-based inference,HB)以及支持向量机(profile kernel SVMs, SVM)两个方法来完成的。

同源推断是通过PSI-BLAST来对目标蛋白质进行Blast,然后将其压核定位设置为Blast出来的最匹配的目标蛋白质的亚核定位,Blast成功的蛋白质(with hit)使用HB可以获得最高68%的Q13准确率,此准确率出现在Blast E-value为e-50,但是由于有没有匹配成功的蛋白质,因此如果合并匹配成功和不成功的所有蛋白质的亚核定位结果则Q13准确率只有38%(E-value e-50)。SVM没有同源性的区分,它的预测准确率在59%。因此可以通过两个方法实现更高的准确率:有匹配的蛋白质则使用同源推断,无匹配则使用SVM结果。当选取E value的Cutoff值为e-20时(也就是有达到e-20的blast记录则使用同源推断,无则使用SVM),可以获得最大的Q13准确率为62%。

Q2的结果同理也是选用的联合同源推断和SVM的方法,最大准确率为72%。




供稿人:鲍志炜

一句话评价

可快速部署的宏基因组注释流程。


文章信息

题目:MGS-Fast: Metagenomic shotgun data fast annotation using microbial gene catalogs

杂志:GigaScience

时间:03 April 2019

链接:https://doi.org/10.1093/gigascience/giz020


figure

文章介绍:

MGS-Fast 是一种直接利用 Bowtie2 将宏基因组测序数据比对到注释好的综合参考基因数据库,从而实现对宏基因组数据的快速注释的流程。该流程包括使用 FastQC 和 Trimmomatic 进行数据质控,通过 Bowtie2 比对到人类参考基因组以去除宿主基因污染,使用 MetaPhlAn 进行菌群丰度注释,以及基于 IGC(人类肠道基因组)的 KEGG 功能注释等过程。因为不用进行组装等计算耗时的步骤,所以该流程在效率上进一步提高,测试数据的结果比 HumanAn2 和 Kraken 都快。同时,使用 Bowtie2 比对可以保证序列相似性在 90% 以上,因此注释结果的可靠性也比较高。更方便的是,该流程提供了 docker 镜像,一行命令就可以安装好整个流程:https://hub.docker.com/r/bcil/metagenome/tags/(bcil/metagenome:nyu_4.0) 。




供稿人:大吉

一句话评价

TransLiG:一个高性能的RNA-seq de novo软件


文章信息

题目:TransLiG: a de novo transcriptome assembler that uses line graph iteration

杂志:Genome Biology

时间:23 April 2019

链接: https://doi.org/10.1186/s13059-019-1690-7


figure



文章介绍:


RNA-seq是一种检测基因表达量的有效手段,但是由于每一个测序读段通常只有50-150bp,这对于转录组拼接重构提出了巨大挑战。主要有以下几方面,不同的转录本表达丰度不一致导致的覆盖度不均匀;可变剪切可能共用外显子使拼接更为复杂;RNA-seq也存在测序错误。有参组装较从头拼接更为准确,但是并不是所有的物种都拥有注释良好的基因组信息。


目前,De novo组装中表现较好的程序有 Trinity 及 Bridger。Trinity引入 K-mer extension strategy 将测序读段连接成较长的contig后构建 de bruijn graph,Bridger将cufflinks的minimum path-cover 模式移植到de nove组件,有效的避免因枚举带来的假阳性,但是这两者方法都没有将考虑到测序深度的影响,因此可能会导致验证的假阳性。


因此,we introduce a new de novo assembler TransLiG developed by phasing paths and iteratively constructing weighted line graphs starting from splicing graphs. (分段和加权的方法)。能够在测试数据中,所有的测试程序中 (BinPacker (version 1.0), Bridger (version r2014-12-01), Trinity (version 13.02.25), IDBA-Tran (version 1.1.1), and SOAPdenovo-trans (version 1.0.3)) ,TransLiG 保持最高精确度及最高灵敏度。


TransLiG is freely available at https://sourceforge.net/projects/transcriptomeassembly/files/




供稿人:lakeseafly

一句话评价

一文带你了解DNA40年来的发展历史


文章信息

题目:DNA sequencing at 40: past, present and future

杂志:Nature

时间:Oct 2017(Published)

链接: https://www.nature.com/articles/nature24286#dna-sequencing-as-the-new-microscope

figure

DNA 测序的相关应用


文章介绍:


文章摘要

这篇综述主要的内容是讲述了DNA过去,现在还有未来的发展历史,用以纪念DNA测序40周年,我们已经目睹了多个技术革命和从几千碱基到第一个人类基因组的规模增长,现在已经发展到了数百万人类和无数其他物种的基因组。DNA测序已被广泛和创造性地利用,包括作为广泛分子现象的“反击”证据。我们预测,从历史的长远来看,DNA测序的影响将与显微镜发现影响相当。

个人体会

这篇文章并不是最新发表的一篇文章,但是我觉得这是一篇很有意义的文章,所以给大家推荐。DNA是生命的基础,了解其发展历史,现在的状况还有其未来的走向与应用,是我们每个生信工作者都需要了解的。以我个人的阅读体验,该文章思路清晰简洁,不同与往常的研究论文复杂难懂,阅读该文章就像读一本故事书一样,畅游在DNA发展历程当中,以此该文章不失为周末放松的读物之一。



上周最欢迎的文章是开心果测序文章,由于文章已经给更加专业的测序公司进行解读(他们参与了其中的分析),这里就附上他们的链接让感兴趣的各位去更深入了解一下。开心果重测序文章解读


最后大家快来投票,选出你最感兴趣且计划阅读的1-2篇文献,就可能会在下周看到相关更详细的解读。周末愉快~




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存