菜鸟团一周文献推荐(No.3)
今后如果没有特殊情况,生信菜鸟团成员将每周为大家带来一期文献速递,推荐我们过去一周看到的好文献。所有的推荐完全不独立公正第三方,只是根据个人喜好推荐,希望对你有所帮助。
所推荐的文献绝大多数都来自推送之日起近两周的文献,如果你发现哪个人推荐的内容比较久,那应该是这个孩子最近偷懒了。
供稿人:大吉
文章信息
题目:ScanNeo: identifying indel derived neoantigens using RNA-Seq data
杂志:Bioinformatics
时间:2019 Mar 18
链接:
https://doi.org/10.1093/bioinformatics/btz193
figure
文章介绍:
插入和缺失(indels)已被认为是产生肿瘤特异性突变肽(新抗原)的重要来源,这些片段可能具有高度的免疫原性,可用作个体化癌症免疫治疗。目前,indel衍生的新抗原鉴定大多使用DNA测序,比如全外显子组测序,而RNA-seq的报道较少。因此,作者开发了 ScanNeo用于预测RNA-seq中的indel。大致流程如下:
indel发现
首先HISAT2用于call indels,Picard用于删除重复读段,sambamba用于去除比对结果中并不带indel的剪切读段。使用BWA-MEM重新比对,并报告 'SA' tag。通过transIndel判断indel片段的大小。
注释及过滤
这一步首先通过参考和替代等位基因判断鉴定的indel,过滤掉短串联重复序列和均聚物(homopolymer),并通过 Variant Effect Predictor (VEP)注释。最后根据用户自定义阈值删除大于设定值频率的等位基因变异。
新抗原预测
这一步主要通过 yara aligner和 Optitype工具推断的HLA类型或者由用户输入HLA等位基因信息,使用 NetMHC 和 NetMHCpan预测能够和HLA I结合的多肽,并基于结合能力、等位基因变异频率和表面活性指数对新抗原进行描述。
ScanNeo 能够弥补低由低覆盖度WES数据导致的漏检,能够作为基于DNA-seq新抗原鉴定的补充工具,文中作者也有对应的前列腺癌细胞系及黑色素瘤免疫治疗的验证案例,有兴趣的小伙伴可以详读哟。ScanNeo地址: https://github.com/ylab-hi/ScanNeo.
供稿人:冰糖
文章信息
题目:Predicting enhancers in mammalian genomes using supervised hidden Markov models
杂志:BMC Bioinformatics
时间:27 March 2019(Published)
链接:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2708-6
figure
用于训练模型的数据来源于已发表的ChiP-seq、ATAC-seq及MeDIP-seq数据。
文章介绍:
本文提出一种有监督隐马尔科夫模型来预测哺乳类动物的基因组增强子的方法。
真核基因调控是一种复杂的过程,涉及到增强子和启动子的相互作用。近年来,启动子的相关研究越来越多,对启动子的特征、注释以及预测也越来越多。相比之下,有关于增强子的特征和定位的研究却乏善可陈。由于二代测序的发展,ChIP-seq、ATAC-seq等数据可以大量获得,那么就可以根据这些高通量测序结果使用一个监督的隐马尔可夫模型用于进一步建模和研究启动子和增强子的特征。有监督的机器学习需要先使用一个增强子和启动子的特征与位置相对应的数据,然后以此数据为基础,构建和训练模型,然后再用此模型用于预测启动子或增强子的位置。这些训练数据正是来自于已发表的ChIP-seq、ATAC-seq数据。
本文使用启动子或增强子的生物学特征有两个:中央是舒展的accessible DNA ,两翼是特定类型组蛋白修饰的核小体。隐马尔科夫模型可以用于建模不可观测的隐藏变量,它假定观测值(因变量)是来源于一种隐藏的不可观测的变量,因此它是理想的使用组蛋白修饰类型用于预测染色质状态的工具。本文获得的模型与当前在用的隐马尔科夫模型ChromHMM、 EpiCSeg等预测工具相比,本文的预测工具准确率更高0.947 -0.971。
供稿人:lakeseafly
文章信息
题目:A pan-transcriptome analysis shows that disease resistance genes have undergone more selection pressure during barley domestication
杂志:BMC Genomics
时间:Jan 2019
链接:
https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-018-5357-7#Sec2
figure
用于构建大麦的反转录组的流程
文章介绍:
背景知识
近年来研究者开始意识到,对于一个植物的材料,它的基因并不都存在单一的基因组中。使用单一的基因组会给我们研究不同材料之间的差异,带来很多困难。所以,为了能够在一个更大更深刻的角度去研究该物种的多样性,这里我们需要研究泛基因组、泛转录组(包含了该物种的所有基因)。
文章结果概述
在这项研究中,研究者通过从32种栽培大麦基因型和31种野生大麦基因,从头组装288组RNA-seq数据,构建了大麦的泛转录组。泛转录组由756,632个转录物组成,平均N50长度为1240bp。其中,与参考基因组Morex相比,新发现的转录有289,697个(38.2%)。新的转录物富含与对不同应激和刺激的反应相关的基因。在泛转录水平上,野生大麦的基因型具有比培育基因型更高的抗病基因比例。最后,研究者证明使用泛转录组的,能显着提高了检测大麦变异的效率。分析泛转录组还发现,与其他类别的转录组相比,抗病基因在驯化过程中经历了更强的选择压力。
个人评价
该文章并不是什么很高分的文章,但是确实一篇基于已发表的数据,关于纯生信分析数据挖掘的典范。其思路能很容易的复制到其它作物中,又或者用于研究其它基因家族中。对某些需要评职称发文章的老师,是一个很好的选择。
供稿人:鲍志炜
文章信息
题目:Structural variation in the gut microbiome associates with host health
杂志:Nature
时间:27 March 2019
链接:https://doi.org/10.1038/s41586-019-1065-y
figure
SVs与微生物生长速率和特定功能相关联
文章介绍:
在文章中作者借用基因拷贝数多态概念,从887份人肠道菌群基因组中鉴别出了 7479 个结构变异(SV),发现它们在人体肠道菌群中普遍存在,并在不同的队列中重现。这些 SVs 与微生物适应性相关,与CRISPR、产抗生素相关的 SVs 数量多,与管家基因相关的 SVs 数量少,这表明它们在微生物适应中起重要的作用。作者发现 SVs 与宿主疾病风险因素之间存在多种关联,有 124 个 SVs 与人类血压、血糖、胆固醇、腰围、体重和年龄相关,其中 40 个 SVs 与健康指标的相关性在人群队列中得到证实。 通过分析SV上的基因,可推测共生菌群与宿主互作的机制。文章中,作者揭示了 Anaerostipes hadrus 中编码复合肌醇分解代谢-丁酸盐生物合成途径的区域,其存在与宿主代谢相关疾病风险较低相关。该研究提出的概念和研究方法,在一个新的水平阐释了共生菌群与宿主的相互作用,对目前的共生菌群研究有重要参考价值。
供稿人:kaopubear
文章信息
题目:Relative Abundance of Transcripts (RATs): Identifying differential isoform abundance from RNA-seq
杂志:F1000Research
时间:24 Feb 2019
链接:
https://doi.org/10.12688/f1000research.17916.1
figure
文章介绍
在 F1000Research 发表的这篇文章介绍一个利用 alignment-free RNA-seq quantifications 结果进行差异分析的工具,主要是用来对转录本进行差异定量分析。在日常的分析中我们进行差异分析最常见的是对差异基因进行定量分析,这里没有考虑到每个基因内部转录本的情况。
在这篇文章中提到了一个三种差异分析的方法,分别是:
differential gene expression (DGE)
differential transcript expression (DTE)
differential transcript usage (DTU)
根据需求的不同,这三种方法会分析出非常不同的结果。在DTU中,即便是两个表达总量没有差异的基因其也可能发生isoform switching,及dominant isoform的改变。而文章中作者发表的R包即可进行DTU的分析,其输入数据可以是 Kallisto 或者 Salmon 的定量结果
R包地址:https://github.com/bartongroup/Rats
下周再见