关于这个话题我早就想吐槽下了。
大家都知道
三流企业卖产品
二流企业卖服务
一流企业卖标准
最近华为拿到了5G通讯的部分标准,确实让人振奋。
回到生物信息中,目前生物信息学中的数据格式标准还是可以的。比如标准的fa、fastq、gff3、bam等,这些标准格式用起来还是可以的。
今天小编主要想吐槽的就是生信分析中阈值这个点。
首先吐槽就是相似性,目前大家在做同源比对的时候,大多会选择80%的区域相似,我们就认为这两个序列同源。这里这个80%是怎么来的呢,我想大多情况下是大家的经验之谈。
第一个吃螃蟹的人说用筷子夹着吃好吃,跟随者自不必尝试下用勺子的好处。
还有就是E value,在blast的时候,大家都默认物种内是-10,物种间是-5,这些又是经验之谈了。
当然这些在处理一般的问题的时候没有什么问题。但是在处理特殊的物种的情况下就会出现很多的问题。比如这个物种整体就是和参考相差太多,变异较多。你还固守参数的话,结果肯定惨不忍睹。
我相信这里举的例子只是一个简单的代表,靠阈值来卡好坏结果的例子在生信中遍地都是。
但是目前生信分析对于这里木有固定的标准,素质稍微高的分析人员会稍微考虑下物种的特异性,调整下标准,更多的人就是根据固定的经验值去筛,TM的爱是啥是啥。
既然行业没有标准,说明这里确实不好订标准,甚至连固定的方法都没有。
小编又想起来得吐槽下,目前很多公司都在做三代全长转录组。大家在全长建库的时候更多的是参考高粱和玉米的转录本的比例。建库策略一般是:小于1K,1K-3K,3K-6K等等,比例也较为固定2:3:3。但是这里如果其之前测过转录组,或者存在近缘,是不是利用其数据简单的评估下,选择适合这个物种的建库策略呢。
吐槽回来,小编其实想说如果存在行业标准,我们应该按照标准来说,但是同时要兼顾物种的特异性。既然标准是经验,经验就有失效的时候。还有就是应该从问题出发,然后设定标准。
大于1是正选择,但是这个物种超级保守,是不是选择那些大于0.6的就可以了呢。
这里小编有三个想法
1、从问题本身出发,生物信息分析其实就是一个初步筛选的过程,这里标准的设定其实不是最重要的,哪怕你通过抓阄、扔鞋决定出来的基因,被证明有意义,都可以。这里研究的是生物问题,不是生信方法。
2、没有标准,是否可以从统计学分布出发。目前这些所谓的标准其实也是基于统计学分析而来的,当这个物种比较特殊的时候,我们应该从物种本身的分布上去研究。举例:在做正选择基因筛选的时候,整体没有大于1的,那这时我们应该绘制下这个物种基因受选择压力的整体分布图,看下位于右5%,10%的基因。这些所谓的离群的点,最有可能就是有意义的点。这样总比一刀切好的多。
3、 学生信的都弄过机器学习,这种问题完全可以机器模拟,学习搞定。将目前的所有的发布的数据整合下,构建下数据库,提取下特征,构建分类器,然后研究新的物种的时候,运行下这个分类器,让他给一个标准。这个绝对比你手一抖给的标准,可靠的多的多的多的多。
想起刚入学的时候,一个老师说的话,给大家安利下。
按照预定的方案和计划去实施,只能得到预定的结果,而无法实现超越。
欢迎关注生信人