查看原文
其他

转录组测序数据分析公益视频学习笔记分享

HM 生信技能树 2022-06-06

耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费!

在B站看了看,大家学的热火朝天, 接下来我们就一个个知识点进行专题介绍,主要是一些优秀学生的笔记分享,希望大家在学习的过程中也能吸收到我传达的学习经验,人生感悟,只要你发给我笔记(邮箱 JMZENG1314@163.COM),就有惊喜!

专题历史目录:3个学生的linux视频学习笔记
生信人应该这样学R语言系列视频学习心得笔记分享一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)
公共数据库挖掘视频学习心得体会
生信小技巧系列第一季完结版视频教程学习笔记分享
接下来介绍转录组实战;

【生信技能树】转录组测序数据分析




写在前面


1. 生物信息学背景知识

2. 转录组破冰之旅

3. 转录组文献解读

4. 软件安装

5. sratoolkit下载数据

6. Qc-1

7. alignment

8. 表达矩阵探索

9. DEG

10. 当数据传输偶遇断电正确自救姿势



“ 生物信息学背景知识   ”

  • 常识训练

    • Linux, 数据库,ID, 参考基因组,测序原理

    • Linux

      • 系统认知

        • 开源,多任务,多用户,多线程,稳定性和高效性、安全、极简、酷炫

        • 马哥linux运维

        • 登陆服务器,比较windows和linux

        • linux书推荐

      • 去可视化

        • 归纳命令+参数+文件的模式

        • 基础知识:cd-. Cd.., history, !5, /home/,/tmp/, >.&, jobs, nohup

        • 文件目录操作df, du, top, free, ps, ifconfig, netstat, ssh, scp

        • 用户权限:chown, chgro, groups, ls

      • 文本处理

        • 主要是实战awk, grep, sed, paste, cat, diff, wc, vi命令

        • 处理fastq, fasta, sam, bam, vcd, gff, bed, MAF等格式

        • 下载meta.txt

      • 软件安装

        • 生物信息学常见1000个软件安装的代码

        • 软件安装分为三类

          • 二进制可执行程序,直接下载软件包解压缩

          • 所有语言的代码,perl, R, python,java, Matlab, ruby, c

          • 系统或者语言自带的各种软件中心安装器,apt-get, yum, bioconda, cran, brew, pip, conda

          • conda好用

      • 脚本编程

      • 环境变量

      • 作业

      • 编程基础

        • linux持续学习,看马哥视频➕练习题

        • R语言持续学习,视频➕练习题

        • python或者perl选学一个脚本语言——生信编程实战


    • 生信基础知识掌握

      • 生物芯片和测序技术分类、原理、历史,自行查找归纳

        • 主要测序平台

        • 主要芯片平台

      • 3大国际数据中心了解,NCBI, ENSEMBL, UCSC

      • 数据格式的整理和书籍,fastq, fasta, sam, bam, vcf, gtf, bed, MAF

      • 参考基因组的熟悉及其基因组注释新文件下载和摸索

      • 从基因开始理解生物信息学

      • 组学技术应用等第一篇文章及最新综述文章收集整理

      • 各个组学数据分析等结题报告阅读及整理

      • 数据库收集整理

        • eg检索UCSC database filetype: pdf


    • NGS多组学

      • 有参NGS组学数据分析的异同

      • 最简单的WEG测序数据分析

      • 最简单的RNA-seq测序数据分析

      • 最简单的CHIP-seq数据分析

  • 转录组背景知识获得

    • 收集整理2010-2018年RNA-seq技术综述

    • 阅读超过5个公司的RNA-seq数据分析结题报告

    • 阅读超过15个应用RNA-seq数据的文章(IF>10, 5-10,<5)

    • 了解含有RNA-seq数据大计划

    • 提取RNA-seq数据分析主干,绘制流程图,并安装对应软件

    • 提取RNA-seq数据分析侧枝,了解更多扩展分析,并安装对应软件

  • 了解RNA-seq技术环节

    • 实验设计细节

    • RNA提取及质量控制

    • cDNA合成

    • 文库构建

  • 了解RNA-seq应用

    • 蛋白质编码基因结构

    • 新型蛋白质编码基因

    • 基因表达的量化和比较

    • 表达数量性状基因座

    • 单细胞RNA-seq

    • 融合基因

    • 基因变异

    • 长的非编码RNA

    • 非编码小RNA

    • 扩增产物测序

  • 了解RNA-seq项目设计的一般原则

    • 推荐100-200M的PE75以上的reads, 重复大于6

  • 根据测序测量及各个分组是否有重复来实战

    • SE50无重复

    • PE150有重复

  • 了解一些实战导读

    • 一个RNA-seq实战,超级简单,2小时搞定

    • 一个植物转录组项目的实战

  • 数据处理的流程(安装之前先搜索一下名称是否对)

    • 数据资源下载,参考基因组及参考转录组

      • gtf, genome, fa

    • 质控

      • Fastqc, multiqc, trimmodia, cutadape, trim_galore

    • 比对

      • Star, hisat2, tophat2, bowtie2, subhead, bra

    • 计数

      • featurecounts, htseq-counts

    • 归一化

      • DEseq2, edgeR, limma(voom)

    • 差异分析

  • 可视化

    • IGV等浏览器

    • ggplot2+ggplur包

  • 意义不大的课程

    • 开启WSL

    • 基本设置

    • 安装bioconda

    • 安装常用生物软件

    • RNA-seq分析案例

    • 下载数据

    • hisa比对stringTie重构转录本

    • ballgown差异表达分析及可视化




“ 转录组破冰之旅   ”

  • 了解基因测序

  • 了解基因测序技术

  • 了解基因测序应用(推荐做应用)

  • 高通量测序方案的选择

    • 转录调控研究

      • 转录组测序

      • 表达谱测序

      • Small RNA测序

      • circRNA测序

      • LncRNA测序

      • 全长转录组测序

      • 甲基化测序

    • 微生物组学研究

      • 环境微生物多样性检测

      • 宏基因组de novo测序

      • 宏转录组测序

    • 基因组学研究

      • 全基因组de novo测序

      • 简化基因组测序

      • 基因组重测序

      • 外显子组测序

      • 扩增子测序

  • RNA解读基因组的关键

    • 数据深度挖掘(信息分析自动化)

  • 完善的项目流程

    • 售前咨询

      • 实验设计

      • 科研预约

    • 样品提取

      • RNA提取

      • RNA检测

    • 文库构建

      • illumina试剂盒

    • 上机测序

      • 平台选择

      • 数据量选择

    • 信息分析

      • 数据深度挖掘

      • 高级信息分析自动化

    • 技术答疑

      • 结题报告讲解

      • 文章润色

  • 测序平台

  • 转录组分析说测序深度重要还是生物学重复重要

    • 生物学重复对实验结果影响大的多

  • 转录组分析多少生物学重复合适?重复少会出现什么直接后果?

    • 经费充足>=30

    • 经费紧张>=6

    • 自己说了不算>=老板指示

    • 重复越少,假阴性率越高,筛选到的差异表达基因越少,但筛选到的基因还是可信

  • 转录组分析重复不足(n<6)时,会有哪些后果

    • 如果筛选的差异基因很少,当实验设计多于两个condition时,会产生一定问题

    • 用更严格的分析方法,如DESeq2, edgeR, sleuth等

    • 差异倍数较大的基因(FC>=4)被遗漏的风险较小

  • 一定看的综述  2016-a survey of best practices for RNA-seq data analysis

  • 看软件说明书,看imput, output啥

  • 统计学知识很重要



“ 转录组文献解读   ”

  • 看五本编程书,每本书看5遍以上

  • 补充背景知识,看综述

    • 综述

      • A comprehensive evaluation of normalization methods for illuminating high-thoughput RNA sequencing data analysis

      • Methods to study splicing from high-throughput RNA sequencing data

      • A survey of best practices for RNA-seq data analysis

      • hppRNA-a snakelike-based handy parameter-free pipeline for RNA-seq analysis of numerous samples

      • Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis

  • 转录组搜 hg38 ftp ucsc/ncbi/ensembl

    • ftp服务器

    • 复制下载链接

    • 用linux下载

    • 有参转录组:下载参考基因组文件



“ 软件安装   ”

大部分的数据分析最重要的是学习各种各样的软件,一般生物信息学软件发布的时候会提供多种形式下载sratoolkit (有源代码下载源代码)

又或者NCBI的blast

  • 二进制软件(预编译版本)

    • 检验大家根据自己电脑操作系统下载预编译版本软件,直接解压可以使用了

    • 用linux系统,用代码安装即可使用

  • 源码软件

    • 一般开源软件发布的时候会把源代码放出来,在linux系统下以源代码方式安装软件,一般自己的linud系统要有gcc编译器,还需要有一些库文件,这也是大多数新手被坑的地方。

    • 源代码安装三部曲:

      • 配置 ./configure

      • 编译 make

      • 安装 sudo make install

    • 这时候需要对计算机操作系统有一定了解,第一个步骤可以设置——prefiex=安装路径,参数指定软件编译后的可执行文件放在具体哪个路径下,默认的路径需要有root权限。

      而第二步经常会遇到库文件缺失,比如安装bwa软件的zlib,安装samtools的等等

    • 总之遇到的坑越多,学到的知识越多。

    • 直接用bioconda来管理生物信息学软件,这些坑就可以避免了。

  • 系统自带软件中心(#soft-repositories)

    • 操作系统只是一个生态环境,没有上面的软件,用处有限。做生物信息学分析也是如此。

    • 不同的系统,安装方式不一样,windows基本没有自带软件中心,mac有appstore, 生物信息学的很少,linux根据发行版不一样,安装命令不一样,ubuntu用apt-get, centos用yum, 其余的自己搜索了解一下。

    • 一般新的unbuntu系统一般会出现缺失安装bwa/samtools等软件的库,而且安装一下R语言包会面临库文件缺失的情况。

  • conda软件管理(# soft-conda)

    • 对于生信初学者而言,最困难的在于安装各种生信软件。目前最强的非root软件管理器-conda

    • 什么是conda

      • 先了解什么是anaconda

        • 是python的科学发行版,将各种科学计算工具整合到一个安装包之中,从而使得python变强大,像linux本身只是内核,通过整合不同软件之后才变得实用

        • anaconda为了避免python原生pip安装软件会出现的问题,比如windows下安装科学计算必备的numpy和pandas时非常麻烦,就自己编译好了一些安装包,仅仅使用conda install就能下载编译好的二进制包。conda最开始是anaconda提供的python包安装管理工具

    • 为什么用conda

      • 最开始是anaconda用于管理python包的工具,为了避免python包安装时出现的依赖库不全的问题,相当于又安装了一个虚拟系统,所以能管理的软件越来越多。

      • 生物信息软件官方频道:bioconda

      • 使用conda优势

        • 第一个好处是安装方便。基本上大部分能想到的软件都可以用conda安装,若这些软件还不能的话,可以基础conda环境进行编译,像docker, mysql这类系统级软件,无法使用conda管理。

        • 第二个好处是环境容易管理。使用conda专门建立一个虚拟环境,相当于重开了一台电脑工作,不用担心python版本冲突,想试用最新版本工具时,完全可以新建一个环境,不用担心软件不好用无法返回原先版本。

        • 第三个好处是不需要root权限,当没有管理员或者处于系统安装安全不能安装某一个软件时,conda这类不需要root权限的软件包管理器是最好的选择。也可以选择自己编译,解决不断出现的依赖包缺失问题。

    • 如何安装conda

      • 生信分析基本都在linux系统下完成,以linux为例,不区分ubuntu和centOS, 仅区分32和64位

      • 步骤

        • 第一步 下载miniconda3

          注1:miniconda是anaconda的简化版,包括最核心的一些功能,如conda

          注2:选择miniconda2和miniconda3任一即可,通过虚拟环境创建另一个版本python环境

        • 第二步 安装miniconda3

          • -b: 自动安装模式

          • -p: 软件安装到何处

        • 第三步 将miniconda3保存到环境路径并启用

          • 到此为止,若没有出现报错就完成了conda的安装

    • conda的基本操作

      • 基本配置,安装完conda之后,最重要的一步是添加清华源的镜像,提高下载速度,配置环境需要用到conda config

        • 还可以用conda config --show查看已有的配置

      • 虚拟环境管理:conda比较好用的是建立起多个互不干扰的分析环境。目前,只设置一个默认环境,root。之前安装的时候是python3, 这次建立一个python2环境,安装比对软件bwa

      • 安装完之后,启动环境

        source activate biostar

        # 列出当前已经安装的软件

        Conda list

      • 安装和卸载生信软件,或可以用conda search检索生信工具或者python包

        # 可以用search先进行检索
        conda search sratools

  • 语言类软件(模块、包)

    • 比如perl, R, python, java, Matlab, ruby, C等等

      • 其中C的源代码是  ./configure,make,make install, 也有的是make, 取决于readme, 也是报错最多的,一般是没有权限,缺库。  Bra/samtools/perl/python

      • perl和python软件,主要是模块依赖问题

      • R, 和java软件很简单, Haploview/fastqc/Trimmomatic

      • matlab软件推荐在windows中用而非linux

      • ruby 少用



“ sratoolkit下载数据   ”

  • 一个RNA-seq实战-超级简单-2小时搞定

  • 一个植物转录组项目的实战

  • 学好linux

    • 进阶了解软件开发的基本常识,软件用法

  • 文章

    • 有参有重复

    • 有参无重复

    • RNA-seq transcriptome profiling identified CRISPLD2 as a glucocorticoid responsive gene that modulates cytokine function in airway smooth muscle cells



“ Qc-1   ”

  • 查看质量质量报告

  • 精简代码

  • clean之后再看fastQC的报告,前后一对比,软件做了啥。如果觉得不够好,可以再调调参数



“ alignment   ”

  • 五个比对软件hisat2, subjunctive, star, bwa, bowtie2这五个比对工具,

  • 比对最重要的是对参考基因组构建索引(查一下各个软件构建的索引)

  • 文件的后缀没有任何意义,真正决定他的是他的内容

  • 学批量跑

  • 学比对

  • 下载IGV

  • 过滤

  • shell简单脚本,学习

  • 看软件说明书



“ 表达矩阵探索   ”

rm(list = lis())
options(stringAsFactors = F)
a = read.table('all.id.txt', header = T)
temp = a[1:14, 1:7]

  • 转录组上游分析用linux

  • 转录组下游分析用R

  • 看懂代码,学会更多代码,去处理数据



“ DEG   ”

  • 修改代码知道代码含义,什么是有意义的什么是没有意义的

  • 会R语言

  • 稀有物种python

  • 参考GEO数据挖掘课程


“ DA当数据传输偶遇断电正确自救姿势   ”

  • 重跑一遍

  • 写代码解决

  • 做linux 20题

  • 批量处理

  • 学shell循环

  • 代码校验

■   ■   ■


生信基础知识大全系列:生信基础知识100讲   

史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。   

如果需要组装自己的服务器;代办生物信息学服务器

如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?

如果需要线下辅导及培训,看招学徒 

如果需要个人电脑:个人计算机推荐

如果需要置办生物信息学书籍,看:生信人必备书单

如果需要实习岗位:实习职位发布

如果需要售后:点我

如果需要入门资料大全:点我

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存