其他
期待单细胞工具的大浪淘沙,洗尽铅华
任何技术在流行的时候,都是一大堆人开发一大堆工具,但是到最后,大浪淘沙,只有一两个优秀工具被大家广为传颂!比如450K等甲基化芯片数据处理,我看到发表在Methods. 2015 Jan 的文章:Analysis pipelines and packages for Infinium HumanMethylation450 BeadChip (450k) data,就列出来了一大堆工具,如下:
工具确实一大把,但是它们的流程都是大同小异的,如下:
现在是2020年,如果大家再看我的教程,就会发现,大多数工具我压根就不会提:
我写的甲基化数据处理教程目录如下:
01-甲基化的一些基础知识.pdf 02-甲基化芯片的一般分析流程.pdf 03-甲基化芯片数据下载的多种技巧.pdf 04-甲基化芯片数据下载如何读入到R里面.pdf 05-甲基化芯片数据的一些质控指标.pdf 06-甲基化信号值矩阵差异分析哪家强.pdf 07-甲基化芯片信号值矩阵差异分析的标准代码.pdf 08-TCGA数据库的各个癌症甲基化芯片数据重新分析.pdf 09-TCGA数据库的癌症甲基化芯片数据重分析.pdf 10-TCGA数据辅助甲基化区域的功能研究.pdf 11-按基因在染色体上的顺序画差异甲基化热图.pdf 850K甲基化芯片数据的分析.pdf 使用DSS包多种方式检验差异甲基化信号区域.pdf
单细胞领域也是如此,我这里推荐两个非常的总结:
https://github.com/mdozmorov/scRNA-seq_notes https://github.com/seandavi/awesome-single-cell
就是不知道啥时候才能把这么多的工具精简成为一个一条龙服务的工具包。
做单细胞相关教程三年多了,也顺便开了一个《单细胞天地》的公众号,但是到后期,就感觉一直是在“炒冷饭”。翻来覆去就一直是单细胞基础10讲相关内容而已:
01. 上游分析流程 02.课题多少个样品,测序数据量如何 03. 过滤不合格细胞和基因(数据质控很重要) 04. 过滤线粒体核糖体基因 05. 去除细胞效应和基因效应 06.单细胞转录组数据的降维聚类分群 07.单细胞转录组数据处理之细胞亚群注释 08.把拿到的亚群进行更细致的分群 09.单细胞转录组数据处理之细胞亚群比例比较
还有一些个性化汇总。
我也很无奈,其实大家在自己的单细胞数据分析课题遇到的问题,本质上是基础知识的不够扎实。再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
了解常量和变量概念 加减乘除等运算(计算器) 多种数据类型(数值,字符,逻辑,因子) 多种数据结构(向量,矩阵,数组,数据框,列表) 文件读取和写出 简单统计可视化 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余、查找、切割、替换、合并、补齐,熟练掌握awk、sed、grep这文本处理的三驾马车。 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘! 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。 第5阶段:任务提交及批处理,脚本编写解放你的双手。 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。