生信初学者不要拿一套垃圾测序数据入门

Original 生信技能树生信技能树 2022-06-07

做生物信息学也有七八个年头了，早在五六年前，我刚开始写教程的时候，那个时候还是个人博客《生信菜鸟团》就提到过一个观点：给初学者的忠告，不要拿一套垃圾数据入门！原贴见：http://www.bio-info-trainee.com/2321.html

垃圾数据对初学者的伤害真的很可怕！

首先，七八年前的测序仪产出的数据，碱基质量值很差，GC不平衡，还有接头，PCR重复也很多，kmer值也很诡异，时间都耗在QC上面了，结果几个月下来，你一个流程都没搞明白，各种查资料，还是在原地打转。

做个转录组类似的找差异基因的项目呢，发现傻X实验设计者没有设计重复，一个case，一个control，搞毛线呀！即使有重复，组内相关性极差，还不如对照。而且各个样本量测序极其不一致，头大。比对效率低的惊人，让你怀疑人生，是不是参考基因组用错了？更有甚者，垃圾物种，连个参考都找不到，入什么门，晕在外面了。好不容易比对了，发现找不到全面的参考基因注释，又累个半死。好不容易挑选了一个合适的找差异基因的方法，发现就那么几个显著差异的，或者一万多个都显著，哭晕！

做个ChIP-seq类似的找peaks的项目呢，说好20M~50M数据量的，结果还分成批次，一次10M,一次7M，你分开比对分开call吧，一个样本是几千的peaks，另一个是几万的peaks，蒙圈。合并起来call吧，peaks的个数即便是合并也不是折中，只好去看MACS2的源代码，继续蒙圈。调整一下mfold吧，加上--lambda吧，peaks数量犹如过山车。在IGV也看的傻眼。有control的，发现control和case的peaks一模一样~~~~oh my god！杀了我吧！

做个外显子类似的找变异位点项目吧，发现有一些肿瘤研究居然仅仅是测肿瘤样品本身，没有血液或者正常组织样品作为对照。或者大量reads都是多比对情况，或者近一半的测序数据在线粒体基因？excuse me，我是外显子啊并不是单细胞转录组。

最好的入门方式

如果你也想开启自己的生物信息学数据处理生涯，但是自学起来困难重重，还等什么呢，赶快行动起来吧！参加我们生信技能树官方举办的学习班：

数据挖掘学习班第8期（线上直播3周，马拉松式陪伴，带你入门），原价4800的数据挖掘全套课程，疫情期间半价即可抢购。
生信爆款入门-第10期（线上直播4周，马拉松式陪伴，带你入门），原价9600的生信入门全套课程，疫情期间3.3折即可抢购。

生信技能树的粉丝都知道我们有一个全国巡讲的良心学习班，口碑爆棚，生物信息学入门省心省时省力！先看看大家的反馈吧：

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

“占坑式辩护”，侵犯了谁？

突发！一小学门口发生撞人事件

52岁孟晚舟参加毕业典礼，穿2万多羊绒衫显贵气，演讲内容惹争议

大老虎！落马了

生信初学者不要拿一套垃圾测序数据入门

垃圾数据对初学者的伤害真的很可怕！

更多踩坑经验欢迎分享

最好的入门方式

您可能也对以下帖子感兴趣

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

“占坑式辩护”，侵犯了谁？

突发！一小学门口发生撞人事件

52岁孟晚舟参加毕业典礼，穿2万多羊绒衫显贵气，演讲内容惹争议

大老虎！落马了

生成图片，分享到微信朋友圈

生信初学者不要拿一套垃圾测序数据入门

垃圾数据对初学者的伤害真的很可怕！

更多踩坑经验欢迎分享

最好的入门方式

您可能也对以下帖子感兴趣