菜鸟团一周文献推荐(No.14)
写在前面:
不知不觉,我们的「每周文献推荐」栏目已经走过了 13 期。不知道其中有没有哪些对你有所启发,欢迎在留言中说说你对这个栏目有没有什么进一步的期待和更好的建议。
同时,欢迎大家阅读完毕之后在文章最后选出你认为最感兴趣的文章,就可能在下一周看到这篇文章更详细的解读和测评哈,赶紧动手转发推荐给你的朋友一起投票参与,笔芯
供稿人:lakeseafly
将训练的机器学习算法与测序质量信息相结合的变异过滤方法
题目:ForestQC: quality control on genetic variants from next generation sequencing data using random forest
杂志:bioRxiv
时间:Oct 2018
链接:
https://www.biorxiv.org/content/biorxiv/early/2019/06/11/444828.full.pdf
该工具工作流程:
随着新一代测序技术(NGS)的迅速发展,让我们可以发现基因组中存在的所有遗传变异。然而,由于测序技术或遗传变异调用算法的限制,这些变异的集合种可能含有一些测序质量不好的变异位点。在分析大量测序个体的遗传学研究中,检测和去除质量较差的变体至关重要,因为它们可能会导致错误的解析重要的生物学问题。在本文中,研究者提出了一种统计方法,通过结合传统的过滤方法和机器学习方法,对从NGS数据中识别的变异进行质量控制。他们使用的方法使用与测序质量相关的信息,例如测序的深度,基因分型质量和GC含量来预测某种变体是否可能包含错误。为了评估他们的方法,他们将其应用于两个全基因组测序数据集,其中一个数据集由来自与一个家族相关个体组成,而另一个数据集由不相关的个体组成。结果表明,这里提出的方法优于广泛使用的方法,通过显着提高分析中包含的变异的质量,对诸如GATK的VQSR等变异进行质量控制。该方法运行起来速度非常快,因此可以应用于大型测序数据集。这里研究者得出结论,将训练的机器学习算法与测序质量信息和过滤方法相结合是对来自测序数据的遗传变异进行质量控制的有效方法。
ForestQC具有以下功能:高效,模块化和灵活。 首先,允许用户根据需要来更改过滤器的阈值。 这很重要,因为对于一个数据集严格的过滤器可能对另一个数据集不严格。 例如,来自具有非常小的样本大小(例如<100)的序列数据的变体可能不具有具有显着HWE p值的统计功效,因此与具有较大样本量的研究相比,可能需要使用更高的p值阈值。 如果过滤器不够严格,可能会有许多假阳性变体,相反,如果过滤器过于严格,那么好的变体或不良变体就会太少,这会降低我们寻找变异的准确性。
该工具详细的使用指南可以参考其github网站:https://github.com/avallonking/ForestQC。安装可以通过conda来快速进行,里面提供了详尽的测试数据,如果你有做与SNP相关的研究可以去耍耍这个工具,看看能不能适用到你的SNP filtering的步骤中。
供稿人:六六
单细胞ATAC-seq分析的算法和工具包
题目:APEC: An accesson-based method for single-cell chromatin accessibility analysis
杂志:bioRxiv
时间:May 23,2019
链接:
https://www.biorxiv.org/content/early/2019/05/23/646331.full.pdf
ATAC-seq技术广泛用于研究不同生物过程的转录调控机制,如干细胞分化、胚胎发育、肿瘤细胞迁移等,最近单细胞层面捕获染色质可及性的技术也不断涌现,如single-cell ATAC-seq(scATAC-seq),single-nucleus ATAC-seq (snATAC-seq), 以及single-cell combinatorial indexing ATAC-seq (sci-ATAC-seq)等,促进了研究者从单细胞层面揭示表观上的差异和基本机制。但是单细胞ATAC-seq相关的分析方法仍然面临挑战。scATAC-seq由于信号矩阵非常稀疏,很多scRNA-seq的方法并不能直接应用于scATAC-seq。
中科大 Qu Kun实验室开发了scATAC-seq分析的工具包——APEC(accessibility pattern-based epigenomic clustering),他们将所有单细胞间具有相同信号波动的峰组合成峰群,称为“访问子(accessons)”,并将原始稀疏的细胞峰矩阵转换为密集得多的细胞访问子矩阵,用于细胞分型等。与以前的基于motif的方法(如chromVAR)相比,该方法不需要先验知识(如TF基序)就可以将染色质可及性区域聚类,提供了一个用于scATAC-seq分析的更加高效、准确和快速的细胞聚类方法。同时,APEC整合了ATAC-seq分析的必要流程,包括:原始数据的比对、过滤,细胞聚类,motif富集分析,拟时间轨迹分析等。
该工具的详细使用指南:https://github.com/QuKunLab/APEC
供稿人:六六
不同形式的单细胞数据整合策略
题目:Comprehensive Integration of Single-Cell Data
杂志:Cell
时间:June 13,2019
链接:
https://doi.org/10.1016/j.cell.2019.05.031
随着单细胞技术的蓬勃发展,目前不仅可以在基因序列和转录组层面分析细胞间的差异和生命活动的调节,也实现了在单细胞水平上探索免疫表型、谱系起源、DNA甲基化、染色质可及性以及空间定位。但是不同技术有各自的优缺点,只能检测细胞单一层面的特性。整合不同形式的单细胞数据有助于更全面地理解细胞发育、疾病发展等机制。因此,不同形式的单细胞数据整合策略将是未来发展的一个趋势。
这篇文章提出了一个用于转录组、表观基因组、蛋白质组和空间单细胞数据参考组装和转移学习的统一策略。他们通过识别不同数据集的单个细胞之间的对应关系(称为“锚点”),将数据集转换为共享空间。这使得能够在组织或个体上构建协调的参考集,以及有效地将离散或连续的数据从参考传输到查询数据集。同时,他们在开源R工具包Seurat的更新版本3中实现了该功能。
6月13日Cell 同时发表了3篇单细胞数据整合的文章,另外两篇的链接如下:
Integration of Single-Cell Genomics Datasets:
https://doi.org/10.1016/j.cell.2019.05.034
Single Cell Multi-omic Integration Compares and Contrasts Features of Brain Cell Identity :
https://doi.org/10.1016/j.cell.2019.05.006
供稿人:曾健明
TCGA数据库临床资料官方大全,以后的数据挖掘请使用这个数据源!
题目:An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics
杂志:Cell
时间:2018
链接:
https://www.ncbi.nlm.nih.gov/pubmed/29625055
因为TCGA计划跨时太长,纳入研究的病人数量太多, 或多或少有点资料继续错误或者不完整,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的公布了权威的临床资料,包括33种癌症的11160病人的4种生存时间:OS, PFI, DFI, and DSS。
还评价了这些指标在不同癌症的生物学意义,绝对是数据挖掘的好帮手,金标准!
简称为: TCGA Pan-Cancer Clinical Data Resource (TCGA-CDR)
供稿人:鲍志炜
机器学习在宏基因组数据中的应用 —— 跨越人群的结直肠癌肠道菌群特征和诊断标志物
题目:Metagenomic analysis of colorectal cancer datasets identifies cross-cohort microbial diagnostic signatures and a link with choline degradation
杂志:Nature Medicine
时间:01 April 2019
链接:
https://doi.org/10.1038/s41591-019-0405-7
目前已有一些研究研究了肠道微生物组和结肠直肠癌(CRC)之间的关联性,但对于找到的生物标记物是否在不同人群中具有可重复性仍存质疑。本文利用了 5 个已发表的 CRC 宏基因组公共数据集和 2 组新增人群的数据进行了荟萃分析,并使用额外的两个队列来验证结果。总计有 969 个粪便宏基因组样本参与了分析。与其他胃肠道综合征相关的微生物组移位不同,CRC 中的肠道微生物组显示出比对照组更高的丰富度(P <0.01),一部分原因可能是由于口腔中的微生物向肠道扩展。除此之外,对于微生物组功能的荟萃分析表明糖原异生和腐败和发酵通路与 CRC 相关,同时水苏糖和淀粉的降解通路与健康对照相关。从多个数据集训练得到的 CRC 特征,在训练数据和验证数据上都展现了很高的准确性(平均 AUC 0.84)。对原始宏基因组的汇总分析表明,胆碱三甲胺基酶基因在 CRC 中显著增加(P = 0.001),这也确定了胆碱代谢与 CRC 之间的关联性。这项针对来自不同人群的 CRC 队列的组合分析不但鉴定了可重复的微生物组生物标志物,还建立了准确的疾病预测模型,对于临床预后研究和机制研究具有重大意义。
大侠,别忘了先投票再转发