生信分析的本手妙手俗手
“本手、妙手、俗手”是围棋的三个术语。
本手是指合乎棋理的正规下法; 妙手是指出人意料的精妙下法; 俗手是指貌似合理,而从全局看通常会受损的下法。
对于初学者而言,应该从本手开始,本手的功夫扎实了,棋力才会提高。一些初学者热衷于追求妙手,而忽视更为常用的本手。本手是基础,妙手是创造。一般来说,对本手理解深刻,才可能出现妙手;否则,难免下出俗手,水平也不易提升。
其实各行各业都有自己的“本手、妙手、俗手”,我们拿生物信息学数据分析举例跟大家探讨一下:
生物信息学基础功(本手)
本手就是基础功啦, 再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
当然了,如果仅仅是专注于计算机基础知识很容易走偏,成为了IT技术人员,虽然这里我们拿Linux的shell语言和R语言举例来说明编程能力,但其实所谓的编程能力就是解决问题的能力。
有了计算机基础知识还不够,还需要一些数据库,数据资源,测序等杂项知识,才能过渡到各种ngs数据的处理,包括但不限于Microarray, RNA-Seq, ATAC-Seq, Chip-Seq, and single cell RNA-Seq,现在是多组学时代,其实这些技术流程的视频教程好几年前我就全部免费共享在b站,目前,已经组建了微信交流群的有下面这些(节选):
也为每个组学视频课程,设置了练习题,不知道大家是否有学习呢?
一个有灵魂的工程师(妙手)
哪怕是你掌握了再多的ngs流程,计算机编程知识再牛,但是一直都是做基础分析,比如:
在转录组方面,就是拿到fastq文件后选择参考基因组和配套注释信息进行定量,拿到表达量矩阵进行差异分析,生物学注释。 在单细胞方面,就是降维聚类分群,以及看看不同分组的表达量差异,不同单细胞亚群的比例差异。 在肿瘤外显子方面,就是走GATK流程拿到somatic的snv和indel,以及其它流程拿到CNV 和SV,或者看看突变全景图,特征频谱 在临床数据挖掘方面,根据关键基因集去对病人进行分子分型,看预后,构建模型,评价和验证模型
仍然只是一个兢兢业业的合格的打工人,咱们的生物信息学技能目前绝大部分都是为科研打辅助,而常规分析大多被自动化流程给纳入了,大家可以做,但是没有竞争力。不过这确实适合初学者打基础,所以我们《生信技能树》也有类似的的明码标价的生物信息学数据分析服务:
主要是给我们大量的实习生和学徒准备的,在他们完成小项目的过程中我就发现不同的人的悟性,态度,潜力,千差万别。
要成为一个有灵魂的工程师,不仅仅是上面提到的基础分析,也不是我们常规所认知的高级分析,比如转录组方面的融合基因,可变剪切,单细胞的转录因子,拟时序,细胞通讯,而是解释数据的能力,以及创造性的组合多种分析结果并且个性化展示数据的可能性。无论我们跑多少软件多少工具包得到多少图表,都是可以轻松的被替代。
比如文章《CD177 modulates the function and homeostasis of tumor-infiltrating regulatory T cells》的 Fig. 4 为了说明 CD177 is a marker for a subpopulation of TI Treg cells. 就对拟时序分析进行了一些自定义的展现,如果你是一直看我们的教程而且仅仅是会帮助文档的那些常规分析,就只能是望洋兴叹。
套路化批量数据挖掘(俗手)
前面我们提到了,一个普通的二分组的表达量差异,实际上是超级简单的标准分析,同理,一个基于生物学基因集的在某个预后模型也是如此,它就应该是学生们的作业,不该成为一个课题一个文章。但是偏偏是有大量的俗不可耐的类似的成果被发表,比如我在 25张图带你玩转表达量差异分析思路, 列出来过:
图1:表达芯片的质量控制 图2,3,4 差异分析火山图和热图 图5,6,7,8 挑选到的上下调基因各自的PPI网络图 图9,10 上下调PPI网络图的子网络 图11,12,13, 14 上下调基因与各自的MiRNA关系图和转录因子关系图 图15,16 上下调核心基因的生存分析 图17,18 上下调核心基因的肿瘤和对照表达差异 图19,20 上下调核心基因的肿乳腺癌亚型表达差异 图21 看核心基因的突变全景图 CbioPortal 网页工具 图22 看核心基因的蛋白表达情况 human protein atlas (HPA)网页工具 图23 看核心基因的TNBC亚型生存情况 图24 看核心基因的quantitative PCR实验验证 图25 看核心基因与免疫浸润关系
它可以让你系统性的学到生物信息学常见图表制作以及其生物学意义,但是它确实不应该是一个文章。其它大家耳熟能详的套路化批量数据挖掘策略有;
差异分析+PPI网络+hub基因 WGCNA+hub基因 诊断模型构建 预后模型构建 肿瘤免疫,CIBERSOFT计算的LM22比例分组,以及ESTIMATE算法等等 m6A等生物学功能基因集 药敏信息
(mRNA,lncRNA,miRNA,甲基化,蛋白)均可走上述流程,也就是说33种癌症乘以5种亚型,乘以5种分子,乘以15个策略就已经是过万篇数据挖掘课题了,而且你仔细搜索一下就发现,真的是已经有了过万篇数据挖掘文章了哦!
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
数据挖掘(GEO,TCGA,单细胞)2022年5~6月场,快速了解一些生物信息学应用图表 生信入门课-2022年5~6月场,你的生物信息学第一课