查看原文
其他

【神器分享】自从用了这个神器,大规模RNA-seq数据挖掘我也可以

生信宝典 2022-03-28

The following article is from an unnamed Official Account. Author 白介素2

点击蓝字关注我们

大家好,我是白介素2同学,想必小伙伴们早已开工了,白介素同学这个春节实在是没怎么学习呀(所谓人在江湖,身不由己,容我甩个锅),惭愧惭愧,悟已往之不谏,知来者之可追。新的一年,我们都是追梦人!


追梦,分享一个神器,向科研更深处探索

咱不来虚的,只分享干货,不谈枯燥的理论,只来通俗易懂的操作。先来看一张图:



通过这张图展示的是 GEO数据库中的 RNA-seq数据与芯片数据积累随时间的变化,很显然测序数据从2015年开始就已经超过了芯片数据的累积 (生信宝典注:这里没有统计物种信息,芯片能应用的物种少,测序能应用的物种多。现在临床数据分析还是基于芯片的数据量更大一些,有兴趣一起易生信GEO/TCGA专题课程 - 挖掘公共数据,发表自己文章,同时适合GEO和测序数据)。大批量的数据产生固然是个好事,同时也带来了一个问题,公开的RNA-seq数据大多提供的是原始数据,这样就对数据的重新挖掘使用带来了很大困难。为啥嘞,数据量太大,临床医生,小实验室你确定做得了,就连测序数据从原始数据开始的分析都会遇到很多困难?


今天要介绍的神器呢叫做 ARCHS4,它的诞生呢就是为了解决这个问题,过程讲的比较复杂,简单讲就是西奈山医学院的Mayan实验室设计有效的算法把 GEO/SRA的 原始数据整合,分析,预处理成方便后续分析的矩阵格式。而且发了一篇Nature communication。就像 TCGA那样的数据库,之所以应用广泛,数据整理的格式就是原因之一呀。该数据库包括人和鼠的sample 187,946 , 其中人84,863,鼠103,083。接下来就看下具体这个神器有哪些功能吧:


数据下载功能Download


https://amp.pharm.mssm.edu/archs4/download.html (后台回复 转录组 获取链接)



可供下载的数据包括:




这里只列举了部分,甚至还包括了 GTEx/TCGA的数据,数据都整理为 H5格式数据包括原始的 read count数据和 meta data信息,简单讲这些数据都整理成了方便后续分析的矩阵格式,可以这样全部下载。


当然也可以挑选自己感兴趣的下载,可以挑选自己感兴趣的组织,细胞系,也可以手动选择,基因集,Download部分会自动产生下载数据的 R代码,放到 Rstudio运行即可。



这里白介素同学,随便测试下载了一个代码,可以看看长啥样,有R基础的小伙伴应该更容易理解 (ggplot2高效实用指南 (可视化脚本、工具、套路、配色)):



大概就是这样,运行下就可以啦。


https://amp.pharm.mssm.edu/archs4/data.html#

此外数据下载后,就是做数据解析了,H5文件格式的解析,批次效应移除等,都有提供相应的代码 (DESeq2差异基因分析和批次效应移除):



提供代码链接:https://amp.pharm.mssm.edu/archs4/help.html


查询功能


按 meta data信息查询,可以看下自己感兴趣的组织, 细胞系等的 (这个T-SNE聚类很有意思)。



查找 signature,输入数据为上调和下调基因,寻找match这些基因的sample。



富集查询,找到富集某些基因集的sample然后下载,可以从8个基因集库中选择感兴趣的,比如KEGG库,GO库,其实这是一个反向的操作,与咱们通常的差异分析得到基因集进行富集不同,这是一种通过感兴趣的通路,基因集来找sample。



基因查询功能,遇到一个感兴趣的基因,这时候这个功能就派上用场啦,比如案例给出的 FOXM1基因



点击下就可以得到很多信息:




主要功能就是这些啦,提供处理过的数据下载和查询功能。然后就是了解下这个数据库的背景,文章在2018年4月发表在 Nature Communcations上。


内容就分享到这儿啦,白介素同学祝大家学习愉快!


附上网址:

https://amp.pharm.mssm.edu/archs4/index.html

参考资料:

https://www.nature.com/articles/s41467-018-03751-6


转录组研究

NGS基础和软件应用

生信宝典之傻瓜式


易生信群体和单细胞转录组培训

上述网站帮大家完成了人和小鼠公共数据中原始数据到reads count/FPKM的转换,假如你是自己测序的数据,或者是其它物种,或者有自己学习分析的需求,或者想学习更多分析,那么来易生信的群体和单细胞转录组分析培训班吧。

每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。

编号主题简介
11转录组概述转录组设计、应用、批次效应等
12转录组分析流程简介基于/不基于比对的分析流程讲演
13Salmon定量实战不基于比对直接定量基因和转录本的表达
14差异基因分析 DEseq2样本聚类热图、PCA、火山图、差异热图
15GO、KEGG富集分析和可视化R包,Cytoscape,泡泡图,网络图
16GSEA富集分析,enrichMapGSEA时间序列或相关性富集分析
17R基础数据读写、处理和可视化
21二代三代测序原理介绍建库测序过程及注意事项
22转录组软件安装Linux下一键配置转录组分析环节
23STAR比对拼装差异剪接和差异基因分析
24WGCNA基因加权共表达共表达网络、Hub基因和性状关联热图
25

Cytoscape绘制 PPI互作

KEGG调控通路网络图+基因表达
26常见生信图表解读Illustrator进行CNS修图和排版
27Linux基础详细解释代码和文件格式转换
31单细胞转录组特点介绍不同技术比较、适用性和注意事项
32单细胞数据分析和预处理Cellranger分析,细胞和基因筛选
33单细胞分型Seurat, Scater, PCA, TSNE, SC3聚类
34单细胞发育演化分析Pseudotime, Monocle,细胞周期鉴定
35单细胞Marker基因鉴定Scran, 差异分析,功能分析
36考试、圆桌论坛自评学习效果、知识点回顾
41答疑-线上答疑、考试内容串讲

教程内容简介如下:

转录组的应用、设计和案例分享

  1. 转录组学研究技术介绍

  2. 转录组学实验设计和测序原则、注意事项

  3. 二代、三代测序过程和原理解析

  4. 转录组学文章案例分析

  5. 在线基因表达资源数据库

转录组分析流程实战

  1. 转录组分析流程评估

  2. 测序数据质量评估和清洗

  3. 不基于比对的差异基因分析

  4. 基于比对的差异基因分析

  5. 转录本组装和选择性剪接分析

  6. 目标基因GSEA/GO富集分析

转录组高级分析

  1. WGCNA基因共表达分析

  2. WGCNA基因、表型关联分析

  3. Cytoscape 共表达网络绘制

  4. 转录组常见图形在线绘制

  5. KEGG/Reactome通路图绘制,表达映射

  6. 基因互作的文献挖掘和数据库挖掘展示

单细胞转录组分析

  1. 单细胞数据预处理和校正

  2. 细胞分型,PCA,  TSNE,  SC3聚类

  3. 单细胞发育演化分析

  4. 转录组常见图形在线绘制

  5. 单细胞Marker基因鉴定,差异分析和功能分析

  6. 别人的电子书,你的电子书,都在bookdown中有一本不错的单细胞分析教材

常见图表解读和图形编辑排版

在培训上,结合发表高水平文章,进一步讲解16种常用分析图的原理和使用范围,让你不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。

针对大家使用R语言绘图学习时间成本较高的问题,易生信团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。

成果发表是科研过程中不可缺的一部分,发表成果又少不了图形展示。文章图表排版是否整齐规范、协调一致、重点突出对一篇文章的发表也是有不少贡献的。之前推出的文章发表图的修改和排版讲演了部分图形编辑和排版操作,本次培训也会实践从原始图形、到细节修饰再到排版发表的整个过程和注意事项。

基因组浏览器用于多组学数据的可视化和关联分析,本地有IGV,在线有UCSC genome BrowserEpigenomebrowser,各有特色。

生信基础知识

  1. Linux/Windows下Rstudio和Linux命令的使用

  2. Linux/Windows下转录组分析流程的搭建

生物学家必要掌握的ShellR语言基础知识。

(如果基础薄弱,报名付款成功后,可免费领取基础程序课,做好准备工作, 让程序成为我们的得力工具而不是学习新知识的绊脚石。)

定制内容

如果您看到文章中有哪些图或分析工作需要重现,也请提出,一起讲述。

如果您有其它关注的问题,也请报名时提出,把这次课程变成您的定制讲解

  1. 120分的转录组试题(第一份答案)

  2. 120分的转录组试题(第二份答案)

  3. 120分的转录组试题(第三份答案)

授课模式

本课程以讲解流程和实际操作为主,采用独创四段式教学,封装好的代码全部分享,随处可用:

  • 第一阶段 3天集中授课;

  • 第二阶段 自行练习2周;

  • 第三阶段 在线直播答疑;

  • 第四阶段 培训视频继续学习;

  • 实现教-练-答-用四个环节的统一协调。

培训时间

2019-5-3 到 2019-5-5 (线下讲解实战)
每天早9点到晚6点,半封闭式教学 (最后1小时为集中讨论时间,最后一天会稍微提前一些,多留出时间讨论,也方便老师乘车返回)
报到时间:提前一天或者当天都可以

授课地点 (暂定,鼓楼附近)

北京市西城区鼓楼附近(鼓楼地铁站周边1公里)。

课程价格

  1.  截止2019-04-26 4500 元/人 (报名官网查看更多优惠)

  2. 名额有限,每次课程报名满40人后自动关闭报名通道

  3. 提供易汉博基因科技实习机会或工作机会

课程福利

  1. 座位按报名并缴费或预付款成功顺序从前到后龙摆尾式排序

  2. 赠送程序基础课一份 (http://bioinfo.ke.qq.com)

  3. 多人 (N,10>N>1) 组团报名并同时缴费,每人还可减免N-1百元 (最高500)

  4. 赠送金士顿U盘一个(32G含培训数据和脚本)

  5. 附推荐语分享对应的招生信息到朋友圈,截图发到train@ehbio.com 可获总额200元腾讯课堂代金券。

复制以下链接
http://www.ehbio.com/Training/ 跳转报名页


百味科研芝士

一个有内容的科研公众号


更多阅读

画图三字经 生信视频 生信系列教程 

心得体会 TCGA数据库 Linux Python 

高通量分析 免费在线画图 测序历史 超级增强子

生信学习视频 PPT EXCEL 文章写作 ggplot2

海哥组学 可视化套路 基因组浏览器

色彩搭配 图形排版 互作网络

自学生信

后台回复“生信宝典福利第一波”获取教程合集

听说分享到朋友圈的朋友会在公众号周年庆时中奖 (大家还记得去年的大放送吧,不记得查查历史)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存