菜鸟团一周文献推荐（No.23）

生信菜鸟团生信菜鸟团 2022-06-07

写在前面：

我们的「每周文献推荐」栏目已经来到了第 23 期。上期精彩文献回顾

菜鸟团一周文献推荐（No.22)

欢迎你在文章最后选出最感兴趣的文章并转发推荐给你的朋友一起投票参与。

供稿人：lakeseafly

一句话评价

HUPAN：构建人类或者大型真核生物的泛基因组的可靠工具

文章信息

题目：HUPAN: a pan-genome analysis pipeline for human genomes

杂志：Genome Biology

时间：Aug 2019

链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1751-y

Figure

人类泛基因组构建分析流程：

文章介绍：

人类全基因组测序数据的爆炸性增长为研究特定人群的泛基因组带来了巨大挑战和巨大机遇。然而，从数百个个体中基因组构建泛基因组序列是一个巨大的挑战。最近，该文章的作者也报道了一种基于“map-to-pan”策略的EUPAN工具，并将其应用于3000多种水稻基因组。然而，由于人类基因组的比较大，EUPAN不适用于人类泛基因组分析，因为从头组装步骤需要大量的内存大小（需要超过500 Gb的内存来组装人类基因组，至少30倍测序数据)。一些以前的研究报道了使用伪从头组装的策略，而不是使用所有的reads，只有比对到的reads，提取出来再进行从头组装。在该文章中，作者提出了一个人类泛基因组分析（HUPAN）工具，使用所有的reads与模拟测序数据比较组装结果，并将其应用于分析275个汉族基因组，包括185个新测序和90个组装基因组。HUPAN还可以应用于具有与人类相似的大基因组大小的其他真核生物。

HUPAN可在http://cgm.sjtu.edu.cn/hupan/和https://github.com/SJTU-CGM/HUPAN免费获取。好了介绍到这里，我准备去下载来测试啦，你呢有兴趣读读这篇文章吗？

供稿人：鲍志炜

一句话评价

「Pipeline」使用未知微生物组的数据来提高模型的准确性。

文章信息

题目：MicroPro: using metagenomic unmapped reads to provide insights into human microbiota and disease associations

杂志：Genome Biologyvolume

时间：06 August 2019

链接：

https://doi.org/10.1186/s13059-019-1773-5

figure

文章介绍

现在已经有很多研究使用机器学习算法对菌群丰度信息进行建模，从而分析微生物组对疾病的发生发展的影响。众所周知，目前微生物组的菌群分类研究方法主要分为两类，一种就是直接从一些宏基因组参考数据集中进行菌群鉴定，另一种则是基于从头组装的方法。这两种方法各有优劣，比如基于参考数据集的方法速度快，效率高，但其只能注释数据库中存在的分类，而不能分析一些还未鉴定的菌群；而从头预测的方法则对计算资源的要求较高，需要的时间也比较长。为了同时兼顾两种方法的优点，同时提高模型的准确性，本文的作者开发了一个宏基因组预测流程 MicroPro，它主要包括以下三个步骤：（1）基于已有的参考基因组分析已知微生物丰度; （2）基于组装-分箱的方法分析未知微生物；（3）使用机器学习算法进行预测分析。结果表明，MicroPro 与仅基于参考方法相比提高了预测精度，同时比基于 de novo 的方法更节约计算资源。GitHub 地址：https://github.com/zifanzhu/MicroPro

供稿人：思考问题的熊

一句话评价

一文阐述DNA甲基化在哺乳动物发育和疾病中的不同作用

文章信息

题目：The diverse roles of DNA methylation in mammalian development and disease

杂志：Nature Reviews Molecular Cell Biology

时间：09 August 2019

链接: https://doi.org/10.1038/s41580-019-0159-6

figure

DNA 甲基化机制

文章介绍：

DNA甲基化对哺乳动物的胚胎发育至关重要。DNA甲基化具有许多功能，传统观点认为其涉及转座子和基因抑制，但有研究表明其也与活跃转录的基因有关，且在某些情况下与基因本身活性相关。近年来，已经开发出灵敏的检测技术，允许使用少量细胞研究DNA甲基化模式。这些技术的使用极大地提高了我们对胚胎和特定组织中DNA甲基化动力学和异质性的认识。

结合遗传分析，越来越多的证据表明DNA甲基化擦除和（重新）建立的调节在不同发育阶段之间显着不同。在本综述中，作者讨论了CpG富集的启动子、基因体和转座子在小鼠和人体中DNA甲基化和去甲基化的机制和功能。强调了胚胎，种系和体细胞发育中DNA甲基化的动态擦除和重建过程。

供稿人：Christine

一句话评价

把TCGA的参考基因组换成hg38后的影响

文章信息

题目：Before and After: Comparison of Legacy and Harmonized TCGA Genomic Data Commons’ Data

杂志：Cell Systems

时间：July 24, 2019

链接:

https://linkinghub.elsevier.com/retrieve/pii/S2405471219302017

figure

文章介绍：

The Cancer Genome Atlas（TCGA）是癌症研究中最常用到的数据库之一，包含了33种癌症类型超过11,300样本，但是绝大部分数据是基于GRCh37 (hg19) 参考基因组，随着近些年来人类参考基因组不断完善，更准确高效的生物信息学分析软件也层出不穷，我们想知道：用以前的方法得到的结果足够“准确”吗？与新方法差别有多大呢？

本文用新的参考基因组、软件、流程及注释重新分析了TCGA的mRNA、miRNA、单核苷酸变异（SNV）、DNA甲基化及拷贝数变异，比较了hg19及hg38版本参考基因组得到的结果，结论是：整体上一致度非常高，新方法在涉及基因组位置和基因注释信息的数据中表现确实更好。除了这个结论，我们还可以从这篇文章中学到5种组学数据目前较受认可的分析及注释流程，比较新旧版本数据的方法。

另外，这篇文章也提醒我们：虽然TCGA计划的测序工作已经结束了，但数据分析还在更新，不同的TCGA下载平台间（GDC, UCSC xena, firehouse, 各种R包等等）的数据很可能是有差别的，虽然对结果整体影响不大，但用的时候最好还是留心一下版本信息。

选出感兴趣的文献

全国巡讲约你

第1-11站北上广深杭，西安，郑州，吉林，武汉，成都，港珠澳（全部结束）

一年一度的生信技能树单细胞线下培训班（已结束）

全国巡讲第13站-杭州（生信技能树爆款入门课）(下一站甘肃兰州，火热报名)

全国巡

全国巡讲约你

讲约

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

菜鸟团一周文献推荐（No.23）

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

生成图片，分享到微信朋友圈

菜鸟团一周文献推荐（No.23）

您可能也对以下帖子感兴趣

你手放哪呢，出生啊