菜鸟团一周文献推荐(No.6)
今后如果没有特殊情况,生信菜鸟团成员将每周为大家带来一期文献速递,推荐我们过去一周看到的好文献。所有的推荐完全不独立公正第三方,只是根据个人喜好推荐,希望对你有所帮助。
从这一期开始,我们将推出一个全新的读者投票互动环节,阅读完毕之后在文章最后选出你认为最感兴趣的文章,就可能在下一周看到这篇文章更详细的解读和测评哈,赶紧动手转发推荐给你的朋友一起投票参与,笔芯
供稿人:冰糖
真菌基因组完整性的评估工具
题目:FGMP: assessing fungal genome completeness
杂志:BMC Bioinformatics
时间:15 April 2019(Published)
链接:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2782-9
FGMP的工作流程
高通量测序获得的基因组完整性会严重影响后期的比较、分析和注释。在对基因组数据进行分析之前,先对其基因组的完整性进行评估就可以提高数据的稳定性:一个序列片段缺失可能是进化的重要信息,然而这个信息很可能只是基因组不完整所带来的的错误信息。
目前有100多个基因组完整性评估参数,其中的绝大部分都需要参考基因组、基因图谱等信息,少数几种工具可以不使用这些信息直接给出基因组完整性数据,这些工具在应用到缺乏参考基因组的物种时尤为有用,这几个工具包括:CEGMA,评估248个单拷贝基因的缺失情况来计算基因组的完整性,目前这个工具已经停止更新,作者建议更换工具;BUSCO,使用编码基因clade-focused 数据集;FUNYBASE,使用另外246个单拷贝基因用于预测基因组完整性。
本文提出一个新的基因组完整性评估工具FGMP(Fungal Genome Mapping Project ),它不只是使用单拷贝基因组,也使用特选的非编码序列集(200bp)和多拷贝基因集用于评价基因组完整性。作者从25个真菌基因组中获得了593个单拷贝编码基因作为评估参数,根据在基因组的缺失情况计算基因组的完整性。而用于衡量基因组完整性的多拷贝基因则通过衡量这些基因的拷贝数变化来实现。(如需要使用本工具,使用conda安装,conda install -c bioconda fgmp即可)
供稿人:鲍志炜
宏基因组入门必读
题目:Best practices for analysing microbiomes
杂志:Nature Reviews Microbiology
时间:23 May 2018
链接:https://doi.org/10.1038/s41579-018-0029-9
这篇综述系统总结了这些年微生物组的研究方法和技术路线,几乎涉及了我们研究中的方方面面,强烈推荐研究宏基因组领域的同学仔细阅读。在文章中,作者从实验设计、分子分析技术选择、数据分析方法以及整合多种组学数据等方面,讨论了如何实现最佳的微生物组学研究。
比如,对于微生物组的测序数据,一般包括 16s rRNA 标记基因、宏基因组以及宏转录组测序,针对不同的微生物组研究我们使用不同的方法,从而产生不同的结果。作者讨论了这些方法的优缺点,对标记基因、宏基因组以及宏转录组的测序成本、合理性、分辨率、以及难易程度等多方面进行综合比较。宏基因组测序可以通过分析样品中的总 DNA 而获得更多的细节,可以在菌株的水平上加以辨别,并提供功能注释信息。对于宏转录组测序,则更多地用于描述微生物群落中的基因表达。除了基于以上三种方法的基本分析,接下来亦可进行高级分析,如 α, β 多样性,物种组成、机器学习等,进一步挖掘微生物组数据。
供稿人:lakeseafly
通过结合基因组,基因家族研究,转录组,比较组学,群体遗传和表型组学去研究开心果
题目:Whole genomes and transcriptomes reveal adaptation and domestication of pistachio
杂志:Genome Biology
时间:18 April 2019(Published)
链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1686-3
Figure
驯化的开心果和其野生种的群体关系
背景
开心果(Pistacia vera)是世界上最重要的商业化坚果作物之一,其具能够适用各种非生物胁迫,特别耐受干旱和盐胁迫。
结果
在这里,研究者通过开心果的从头基因组组装以及大规模基因组重测序,并且通过比较基因组分析,发现了开心果的应激适应可能归因于扩大的细胞色素P450和几丁质酶基因家族。特别是,比较转录组学分析表明,茉莉酸(JA)生物合成途径在开心果的耐盐性中起重要作用。此外,我们重新测序了93个品种和14个野生P.rara基因组和35个密切相关的野生黄连木基因组,以提供对其种群结构,遗传多样性和驯化的更深入的解。研究者发现在不同的野生黄连木中发生了频繁的遗传混合种类。比较群体基因组分析显示,开心果在大约8000年前被驯化,并且表明与树木和种子大小相关的驯化的关键基因经历了人工选择。
结论
该研究提供了开心果适应性,驯化的遗传基础的深入了解。该黄连木基因组序列的组装应有助于未来的研究,了解沙漠作物与农学和环境相关性状的遗传基础。
个人评价
短短一篇文章就结合了基因组,基因家族,转录组,比较组学,群体遗传和表型组学多个方向的研究。文章的分析方法,研究思路值得每个生信初学者仔细的研究,有条件的同学如果能重复出文章内容,将会对多个方面的研究有更深入的了解。
供稿人:kaopubear
植物中假基因的进化起源与调控关联
题目:Evolutionary Origins of Pseudogenes and Their Association with Regulatory Sequences in Plants
杂志:The Plant Cell
时间:April 16, 2019
链接:
https://doi.org/10.1105/tpc.18.00601
假基因(Ψs)一般是和功能基因的序列相近的非功能性基因,通过复制或逆转录方式形成,通常会含有各种突变导致基因功能的丧失。在这篇文章中,作者检查了七种被子植物(拟南芥,短柄草,大豆,苜蓿,水稻,杨树和高粱)假基因的起源,进化和表达模式及其与非编码序列的关系。作者鉴定了大约 250,000 个假基因,发现非常大比例的非转座因子调控非编码RNA(microRNA和lncRNA)起源于假基因近端上游区域的转录。还发现与随机基因间区相比转录因子结合位点优先发生在假基因近端上游区域,这表明假基因可能通过提供用作启动子和增强子的转录因子结合位点来调节基因组进化。
主要鉴定步骤
identify intergenic regions (masked genic and transposon regions) with sequence similarity to known proteins using exonerate;
quality control, identity ≥ 20%, match length ≥ 30 amino acids, match length ≥ 5% of the query sequence, and only the best match is retained;
link homologous segments into contigs (set I Ψs);
realign using tfasty to identify features that disrupt contiguous protein sequences
distinguish WGD-derived Ψs and set II Ψs.
供稿人:大吉
大型动物miRNA数据集比较流程
题目:Automatic Curation of Large Comparative Animal MicroRNA Data Sets
杂志:Bioinformatics
时间:2019 Apr 16
链接:
https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btz271/5472340?redirectedFrom=fulltext
miRNA作为一类重要的调控子参与多个生命过程,miRBase和Rfam数据库提供了丰富的信息,包括pre-miRNA及其成熟体。由于这些数据依赖用户上传,因此miRNA家族的覆盖度及完整性不一致,因此miRNA进化定量研究 (Quantitative studies of miRNA evolution) 很难开展。
作者开发了一个流程 MIRfix 能够使得miRNA比对结果具有前体结构的一致末端,有利于miRNA进化中的定量研究,能够筛选获得验证目标miRNA。但是分析对象仅适用于“规范”的动物miRNA,不包括非经典的其他类型ceRNA,比如mirtrons。同时,MIRfix支持能够通过集成到大型的工作流程中,比如与RNAlien、RNAmicro,其分析比对的结果亦可用作机器https://docs.qq.com/doc/DY3BSQldzaE9Pcm9n的训练资源。
MIRfix can be downloaded from https://github.com/Bierinformatik/MIRfix.
快来投票,选出你最感兴趣且计划阅读的1-2篇文献,就可能会在下周看到相关更详细的解读。周末愉快~