查看原文
其他

公共数据库挖掘视频学习心得体会

生信技能树 生信技能树 2022-06-06

耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费!在B站看了看,大家学的热火朝天, 接下来我们就一个个知识点进行专题介绍,主要是一些优秀学生的笔记分享,希望大家在学习的过程中也能吸收到我传达的学习经验,人生感悟,只要你发给我笔记(邮箱 jmzeng1314@163.com),就有惊喜!专题历史目录:3个学生的linux视频学习笔记
生信人应该这样学R语言系列视频学习心得笔记分享一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)
接下来介绍公共数据库挖掘:

【生信技能树】公共数据库挖掘实例

(基于R语言)

公共数据库挖掘 -1- 导论

生物信息的公共数据库有哪些?

GEO、TCGA的数据挖掘是指什么?

开篇第一节,jimmy介绍了GEO和TCGA数据挖掘的概念以及一些数据库背景知识。

们在谈数据挖掘时,通常指的是找到合适数量的基因集,通过各种统计学方法注释和解释基因集的意义。

当然,听完这个课,大概需要1.5小时,但要真正掌握数据挖掘,还需要大家自行练习一些案例,如此才能更好地学会公共数据库数据挖掘。


公共数据库挖掘 -2- 下载GEO数据库数据

视频详细介绍了如何使用R语言进行GEO数据的下载,得到基因表达矩阵以及样本信息。

在进行GEO数据挖掘时,找到文章中的GSE号,使用GEOquery包中的getGEO()函数下载数据,用exprs()函数得到基因表达矩阵,用pData()函数来获得样本信息。

本课程中,jimmy还讲解了如何查看、理解R里面的数据对象的方法,比如用str()、class()、help() 等来帮助大家更好地理解数据特点,明白为什么要这样做。

另外,课程中的代码都是已经写好的,大家只需跟着教程一步步做,就能得到自己需要的数据。


公共数据库挖掘 -3- 表达矩阵过滤

视频介绍了如何对已经从GEO下载的基因表达矩阵进行过滤。需要注意的是,我们从GEO得到的表达矩阵中的gene ID是基因探针,因此我们需要进行gene ID的转换,找到探针对应的gene symbol。

具体来讲,在进行gene ID转换时,jimmy介绍了2种方法:

一种是通过GPL平台相对应的bioconductor包来找到匹配探针的gene symbol。

另一种方法是使用GEOquery包中的getGEO()函数下载探针信息,并用Table()函数获取探针的gene symbol。

转换gene ID后,我们就得到了过滤后的表达矩阵。视频还介绍了如何对表达矩阵进行可视化,来探究表达量数据的特点。

值得一提的是——jimmy在整个视频的录制过程中,保留了真实的代码演示过程,包括遇到问题后,如何分析问题和解决问题,全程真实回放,期间还讲解了ls()、table()、unique()、%in%、apply()等函数的使用,相信学习掌握这些思路后,将会对大家日后的学习大有裨益。


公共数据库挖掘 4- 差异分析

得到基因表达矩阵后,接着就需要做差异分析。

jimmy详细讲解了差异分析的统计学原理,包括pvalue、p.adj、log2FC等结果指标的计算。在进行差异分析时,我们可以使用t.test()函数,也可以使用limma包进行差异分析,或者其他统计学检验方法。

在GEO数据挖掘中,我们常用limma包进行差异分析。


公共数据库挖掘 -5- 使用R语言进行科研绘图

大部分生物信息的绘图,基本思路就是:先理解那个图,接着找到相应的代码,使用自己的数据,得到自己想要的图。

本视频中,jimmy介绍了生物信息中常见绘图,并在案例中演示绘图过程,包括箱式图、散点图、火山图等。仅仅能绘图是不够的,理解图形给我们展示的信息,是十分重要的。

jimmy在视频中还介绍了如何根据图形来发现数据中可能存在的信息。使用R语言绘图并不难,只要会从网上找到你想要画的图和相应的代码,学会调试代码,用自己的数据就可以做出你想做的图。


公共数据库挖掘 -6 - 生信技能树学徒文献导读

视频中,jimmy带领大家浏览生信领域的一些重要文献,介绍了我们在做生物信息时需要学习、了解的一些背景知识。

这些文献涵盖了GEO数据挖掘、TCGA数据挖掘、string数据库、共表达网络、ceRNA网络、转录组分析、CHIP-seq、全基因组测序、全外显子测序等各种组学分析的背景知识。

通过这系列课程的学习,相信大家会有很多收获。

最后,祝愿大家能在生信学习中,收获满满,学业有成!


1. 导论

生物学背景知识

  • 公共数据库有哪些

  • 通常我们说的是GEO和TCGA

    • GEO为表达芯片数据 NGS数据

    • TCGA为NGS数据,一点芯片数据,肿瘤学数据

    • 技术分析有限,很少挖掘突变信息

  • 实际上是3大国际数据中心的了解,NCBI, ENSEMBL, UCSC

  • 我们谈挖掘的时候指的是什么

  • 基因集的概念(找基因集)

    • 通过各种统计学分析方法得到合适数量大小的基因集

    • 通过各种统计学方法注释和解释这个基因集的意义

    • MSigDB collections 上调/下调

    • 多看文章,找临床意义,可以发表文章的点

  • GEO部分

  • 选择GSE号-表达矩阵-差异分析得到基因集(limma)-五大数据库的注释-PPI等网络

  • TCGA部分

  • 扩展的统计学方法得到基因集

  • 背景介绍+阅读文献

  • 介绍TCGA项目纳入的不同组学数据

    • 有参组学的NGS数据分析的异同点分析

  • TCGA数据挖掘的文章思路

    • TCGA可以辅助证明我们自己的实验数据

    • Oncotarget, 2018: 作者自己单细胞转录组分析得到GSEA-enriched ECM-associated基因集,可以去TCGA里面获取表达量矩阵,做聚类热图,条形图看差异

    • 绘图美化:survminer R package

    • 载入ariway练手

    • 临床信息,理解

    • 导入R

    • 文章礼包

    • 差异分析

    • Principle component analysis (PCA)

    • Partial least squares (PLS)

    • Least Absolute shrinkage selection operator (lasso)

    • 芯片表达矩阵和测序表达矩阵

    • signature

    • 整合多少种数据

    • 使用多少种统计学方法

    • 预测哪个生物学意义(预后,生存,分期)

    • 甚至横跨多少种癌症

    • WGCNA

    • miRNA-mRNA配对或者ceRNA等其他

    • TCGA数据探索最基本的三个需求

    • 根据各种指标(某基因突变与否,肿瘤分期)把样本分组来比较感兴趣基因的表现情况

    • 看某个感兴趣基因的重要性,如生存分析,差异分析等

    • 下载及理解TCGA数据

    • GDC

    • UCSC的XENA

    • 文章框架及还原

    • 使用R根据TCGA表型数据制作临床三线表

    • 差异基因(表达数据,表达矩阵归一化,DESeq2)

    • 各种注释,GO/KEGG, GSEA

    • 使用多种统计算法定位

    • 生存分析

    • WGCNA

    • FAQs

    • lincRNA提取问题

  • 补充材料

    • 上游数据分析流程

    • 转录组

    • 肿瘤外显子组

    • 甲基化

    • 蛋白质组

    • 多组学数据整合

    • 其他网页工具

    • GEO2R

    • http://mexpress/be/

    • 基因甲基化和表达数据库MethHC

    • lncRNA功能研究神器:TANRIC数据库

    • TCGA可视化网站GEPIA

    • 免疫:The cancer immune atlas

    • 生存分析

  • 值得听六遍的视频

2. 下载GEO数据库数据

string()

class()

ExpressionSet()

view()

head()

samplenames()

3. 表达矩阵过滤

对象要用函数取

找每个平台对应的R包

没有的话用GEOquery, 通用代码

toTable

找规律

dim()

True or false 用来过滤

不同代码殊路同归

多个探针对应一个基因需要筛选,可以选用最大值,最小值,平均值,得到新的表达矩阵

看高还是低,boxplot()看一下,看管家基因表达高还是低

对着代码都打一遍,了解一下参数

pData()

字符串处理函数,学分割

class()

apply()

需要确定探针是如何对应探针的

a=c(1,2,3,3,2)
unique(a)
legnth(unique(a))
[13
table(a)  # 频率

1:3 %in%  1:5
[1TRUE TRUE TRUE

4. 差异分析

得表达矩阵,后续分析

画图看有基因对应的探针有多少boxplot()

过滤后得到处理好的表达矩阵,进行下游分析

理解数据之后代表的生物学意义

差异分析最简单的是T检验 t.test

写循环 apply()

得到p值,t.test(exprSet[4,]~group_list)$p.value.

class()

str()

火山图形容差异分析的结果

  • 矫正p值,看统计学原理,先学会用

5. 使用R语言进行科研绘图

大部分生物信息学绘图是理解图的含义之后找到相应代码

生物信息学常用的图的类型就二十多种

load()  # 首先载入数据
view()
table()
fivenum(dat$gene)  #gene 表达量
fivenum(dat[dat$stage=='i',1])
写循环
plot()一下p.value
上调下调,标基因名——找现成的代码
借助AI, PI后期修饰
每个通路都可以注释一个p_value
  • ggpubr

  • 看懂代码,调参数

  • GenID

6. 生信技能树学徒文献导读

需要零星去查的概念及好的文献学习

■   ■   ■


生信基础知识大全系列:生信基础知识100讲   

史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。   

如果需要组装自己的服务器;代办生物信息学服务器

如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?

如果需要线下辅导及培训,看招学徒 

如果需要个人电脑:个人计算机推荐

如果需要置办生物信息学书籍,看:生信人必备书单

如果需要实习岗位:实习职位发布

如果需要售后:点我

如果需要入门资料大全:点我

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存