转录组测序数据分析公益视频学习笔记分享
耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费!
在B站看了看,大家学的热火朝天, 接下来我们就一个个知识点进行专题介绍,主要是一些优秀学生的笔记分享,希望大家在学习的过程中也能吸收到我传达的学习经验,人生感悟,只要你发给我笔记(邮箱 JMZENG1314@163.COM),就有惊喜!
专题历史目录:3个学生的linux视频学习笔记生信人应该这样学R语言系列视频学习心得笔记分享一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)
公共数据库挖掘视频学习心得体会
生信小技巧系列第一季完结版视频教程学习笔记分享
接下来介绍转录组实战;
【生信技能树】转录组测序数据分析
写在前面
1. 生物信息学背景知识
2. 转录组破冰之旅
3. 转录组文献解读
4. 软件安装
5. sratoolkit下载数据
6. Qc-1
7. alignment
8. 表达矩阵探索
9. DEG
10. 当数据传输偶遇断电正确自救姿势
“ 生物信息学背景知识 ”
常识训练
Linux, 数据库,ID, 参考基因组,测序原理
Linux
系统认知
开源,多任务,多用户,多线程,稳定性和高效性、安全、极简、酷炫
马哥linux运维
登陆服务器,比较windows和linux
linux书推荐
去可视化
归纳命令+参数+文件的模式
基础知识:cd-. Cd.., history, !5, /home/,/tmp/, >.&, jobs, nohup
文件目录操作df, du, top, free, ps, ifconfig, netstat, ssh, scp
用户权限:chown, chgro, groups, ls
文本处理
主要是实战awk, grep, sed, paste, cat, diff, wc, vi命令
处理fastq, fasta, sam, bam, vcd, gff, bed, MAF等格式
下载meta.txt
软件安装
生物信息学常见1000个软件安装的代码
软件安装分为三类
二进制可执行程序,直接下载软件包解压缩
所有语言的代码,perl, R, python,java, Matlab, ruby, c
系统或者语言自带的各种软件中心安装器,apt-get, yum, bioconda, cran, brew, pip, conda
conda好用
脚本编程
环境变量
作业
编程基础
linux持续学习,看马哥视频➕练习题
R语言持续学习,视频➕练习题
python或者perl选学一个脚本语言——生信编程实战
生信基础知识掌握
生物芯片和测序技术分类、原理、历史,自行查找归纳
主要测序平台
主要芯片平台
3大国际数据中心了解,NCBI, ENSEMBL, UCSC
数据格式的整理和书籍,fastq, fasta, sam, bam, vcf, gtf, bed, MAF
参考基因组的熟悉及其基因组注释新文件下载和摸索
从基因开始理解生物信息学
组学技术应用等第一篇文章及最新综述文章收集整理
各个组学数据分析等结题报告阅读及整理
数据库收集整理
eg检索UCSC database filetype: pdf
NGS多组学
有参NGS组学数据分析的异同
最简单的WEG测序数据分析
最简单的RNA-seq测序数据分析
最简单的CHIP-seq数据分析
转录组背景知识获得
收集整理2010-2018年RNA-seq技术综述
阅读超过5个公司的RNA-seq数据分析结题报告
阅读超过15个应用RNA-seq数据的文章(IF>10, 5-10,<5)
了解含有RNA-seq数据大计划
提取RNA-seq数据分析主干,绘制流程图,并安装对应软件
提取RNA-seq数据分析侧枝,了解更多扩展分析,并安装对应软件
了解RNA-seq技术环节
实验设计细节
RNA提取及质量控制
cDNA合成
文库构建
了解RNA-seq应用
蛋白质编码基因结构
新型蛋白质编码基因
基因表达的量化和比较
表达数量性状基因座
单细胞RNA-seq
融合基因
基因变异
长的非编码RNA
非编码小RNA
扩增产物测序
了解RNA-seq项目设计的一般原则
推荐100-200M的PE75以上的reads, 重复大于6
根据测序测量及各个分组是否有重复来实战
SE50无重复
PE150有重复
了解一些实战导读
一个RNA-seq实战,超级简单,2小时搞定
一个植物转录组项目的实战
数据处理的流程(安装之前先搜索一下名称是否对)
数据资源下载,参考基因组及参考转录组
gtf, genome, fa
质控
Fastqc, multiqc, trimmodia, cutadape, trim_galore
比对
Star, hisat2, tophat2, bowtie2, subhead, bra
计数
featurecounts, htseq-counts
归一化
DEseq2, edgeR, limma(voom)
差异分析等
可视化
IGV等浏览器
ggplot2+ggplur包
意义不大的课程
开启WSL
基本设置
安装bioconda
安装常用生物软件
RNA-seq分析案例
下载数据
hisa比对stringTie重构转录本
ballgown差异表达分析及可视化
“ 转录组破冰之旅 ”
了解基因测序
了解基因测序技术
了解基因测序应用(推荐做应用)
高通量测序方案的选择
转录调控研究
转录组测序
表达谱测序
Small RNA测序
circRNA测序
LncRNA测序
全长转录组测序
甲基化测序
微生物组学研究
环境微生物多样性检测
宏基因组de novo测序
宏转录组测序
基因组学研究
全基因组de novo测序
简化基因组测序
基因组重测序
外显子组测序
扩增子测序
RNA解读基因组的关键
数据深度挖掘(信息分析自动化)
完善的项目流程
售前咨询
实验设计
科研预约
样品提取
RNA提取
RNA检测
文库构建
illumina试剂盒
上机测序
平台选择
数据量选择
信息分析
数据深度挖掘
高级信息分析自动化
技术答疑
结题报告讲解
文章润色
测序平台
转录组分析说测序深度重要还是生物学重复重要
生物学重复对实验结果影响大的多
转录组分析多少生物学重复合适?重复少会出现什么直接后果?
经费充足>=30
经费紧张>=6
自己说了不算>=老板指示
重复越少,假阴性率越高,筛选到的差异表达基因越少,但筛选到的基因还是可信
转录组分析重复不足(n<6)时,会有哪些后果
如果筛选的差异基因很少,当实验设计多于两个condition时,会产生一定问题
用更严格的分析方法,如DESeq2, edgeR, sleuth等
差异倍数较大的基因(FC>=4)被遗漏的风险较小
一定看的综述 2016-a survey of best practices for RNA-seq data analysis
看软件说明书,看imput, output啥
统计学知识很重要
“ 转录组文献解读 ”
看五本编程书,每本书看5遍以上
补充背景知识,看综述
综述
A comprehensive evaluation of normalization methods for illuminating high-thoughput RNA sequencing data analysis
Methods to study splicing from high-throughput RNA sequencing data
A survey of best practices for RNA-seq data analysis
hppRNA-a snakelike-based handy parameter-free pipeline for RNA-seq analysis of numerous samples
Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis
转录组搜 hg38 ftp ucsc/ncbi/ensembl
ftp服务器
复制下载链接
用linux下载
有参转录组:下载参考基因组文件
“ 软件安装 ”
大部分的数据分析最重要的是学习各种各样的软件,一般生物信息学软件发布的时候会提供多种形式下载sratoolkit (有源代码下载源代码)
又或者NCBI的blast
二进制软件(预编译版本)
检验大家根据自己电脑操作系统下载预编译版本软件,直接解压可以使用了
用linux系统,用代码安装即可使用
源码软件
一般开源软件发布的时候会把源代码放出来,在linux系统下以源代码方式安装软件,一般自己的linud系统要有gcc编译器,还需要有一些库文件,这也是大多数新手被坑的地方。
源代码安装三部曲:
配置 ./configure
编译 make
安装 sudo make install
这时候需要对计算机操作系统有一定了解,第一个步骤可以设置——prefiex=安装路径,参数指定软件编译后的可执行文件放在具体哪个路径下,默认的路径需要有root权限。
而第二步经常会遇到库文件缺失,比如安装bwa软件的zlib,安装samtools的等等
总之遇到的坑越多,学到的知识越多。
直接用bioconda来管理生物信息学软件,这些坑就可以避免了。
系统自带软件中心(#soft-repositories)
操作系统只是一个生态环境,没有上面的软件,用处有限。做生物信息学分析也是如此。
不同的系统,安装方式不一样,windows基本没有自带软件中心,mac有appstore, 生物信息学的很少,linux根据发行版不一样,安装命令不一样,ubuntu用apt-get, centos用yum, 其余的自己搜索了解一下。
一般新的unbuntu系统一般会出现缺失安装bwa/samtools等软件的库,而且安装一下R语言包会面临库文件缺失的情况。
conda软件管理(# soft-conda)
对于生信初学者而言,最困难的在于安装各种生信软件。目前最强的非root软件管理器-conda
什么是conda
先了解什么是anaconda
是python的科学发行版,将各种科学计算工具整合到一个安装包之中,从而使得python变强大,像linux本身只是内核,通过整合不同软件之后才变得实用
anaconda为了避免python原生pip安装软件会出现的问题,比如windows下安装科学计算必备的numpy和pandas时非常麻烦,就自己编译好了一些安装包,仅仅使用conda install就能下载编译好的二进制包。conda最开始是anaconda提供的python包安装管理工具
为什么用conda
最开始是anaconda用于管理python包的工具,为了避免python包安装时出现的依赖库不全的问题,相当于又安装了一个虚拟系统,所以能管理的软件越来越多。
生物信息软件官方频道:bioconda
使用conda优势
第一个好处是安装方便。基本上大部分能想到的软件都可以用conda安装,若这些软件还不能的话,可以基础conda环境进行编译,像docker, mysql这类系统级软件,无法使用conda管理。
第二个好处是环境容易管理。使用conda专门建立一个虚拟环境,相当于重开了一台电脑工作,不用担心python版本冲突,想试用最新版本工具时,完全可以新建一个环境,不用担心软件不好用无法返回原先版本。
第三个好处是不需要root权限,当没有管理员或者处于系统安装安全不能安装某一个软件时,conda这类不需要root权限的软件包管理器是最好的选择。也可以选择自己编译,解决不断出现的依赖包缺失问题。
如何安装conda
生信分析基本都在linux系统下完成,以linux为例,不区分ubuntu和centOS, 仅区分32和64位
步骤
第一步 下载miniconda3
注1:miniconda是anaconda的简化版,包括最核心的一些功能,如conda
注2:选择miniconda2和miniconda3任一即可,通过虚拟环境创建另一个版本python环境
第二步 安装miniconda3
-b: 自动安装模式
-p: 软件安装到何处
第三步 将miniconda3保存到环境路径并启用
到此为止,若没有出现报错就完成了conda的安装
conda的基本操作
基本配置,安装完conda之后,最重要的一步是添加清华源的镜像,提高下载速度,配置环境需要用到conda config
还可以用conda config --show查看已有的配置
虚拟环境管理:conda比较好用的是建立起多个互不干扰的分析环境。目前,只设置一个默认环境,root。之前安装的时候是python3, 这次建立一个python2环境,安装比对软件bwa
安装完之后,启动环境
source activate biostar
# 列出当前已经安装的软件
Conda list安装和卸载生信软件,或可以用conda search检索生信工具或者python包
# 可以用search先进行检索
conda search sratools语言类软件(模块、包)
比如perl, R, python, java, Matlab, ruby, C等等
其中C的源代码是 ./configure,make,make install, 也有的是make, 取决于readme, 也是报错最多的,一般是没有权限,缺库。 Bra/samtools/perl/python
perl和python软件,主要是模块依赖问题
R, 和java软件很简单, Haploview/fastqc/Trimmomatic
matlab软件推荐在windows中用而非linux
ruby 少用
“ sratoolkit下载数据 ”
一个RNA-seq实战-超级简单-2小时搞定
一个植物转录组项目的实战
学好linux
进阶了解软件开发的基本常识,软件用法
文章
有参有重复
有参无重复
RNA-seq transcriptome profiling identified CRISPLD2 as a glucocorticoid responsive gene that modulates cytokine function in airway smooth muscle cells
“ Qc-1 ”
查看质量质量报告
精简代码
clean之后再看fastQC的报告,前后一对比,软件做了啥。如果觉得不够好,可以再调调参数
“ alignment ”
五个比对软件hisat2, subjunctive, star, bwa, bowtie2这五个比对工具,
比对最重要的是对参考基因组构建索引(查一下各个软件构建的索引)
文件的后缀没有任何意义,真正决定他的是他的内容
学批量跑
学比对
下载IGV
过滤
shell简单脚本,学习
看软件说明书
“ 表达矩阵探索 ”
rm(list = lis())
options(stringAsFactors = F)
a = read.table('all.id.txt', header = T)
temp = a[1:14, 1:7]
转录组上游分析用linux
转录组下游分析用R
看懂代码,学会更多代码,去处理数据
“ DEG ”
修改代码知道代码含义,什么是有意义的什么是没有意义的
会R语言
稀有物种python
参考GEO数据挖掘课程
“ DA当数据传输偶遇断电正确自救姿势 ”
重跑一遍
写代码解决
做linux 20题
批量处理
学shell循环
代码校验
■ ■ ■
生信基础知识大全系列:生信基础知识100讲
史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。
如果需要组装自己的服务器;代办生物信息学服务器
如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?
如果需要线下辅导及培训,看招学徒
如果需要个人电脑:个人计算机推荐
如果需要置办生物信息学书籍,看:生信人必备书单
如果需要实习岗位:实习职位发布
如果需要售后:点我
如果需要入门资料大全:点我