从生信分析标准说起

查看原文

其他

原创： sxr 2018-05-23

关于这个话题我早就想吐槽下了。

大家都知道

三流企业卖产品

二流企业卖服务

一流企业卖标准

最近华为拿到了5G通讯的部分标准，确实让人振奋。

回到生物信息中，目前生物信息学中的数据格式标准还是可以的。比如标准的fa、fastq、gff3、bam等，这些标准格式用起来还是可以的。

今天小编主要想吐槽的就是生信分析中阈值这个点。

首先吐槽就是相似性，目前大家在做同源比对的时候，大多会选择80%的区域相似，我们就认为这两个序列同源。这里这个80%是怎么来的呢，我想大多情况下是大家的经验之谈。

第一个吃螃蟹的人说用筷子夹着吃好吃，跟随者自不必尝试下用勺子的好处。

还有就是E value，在blast的时候，大家都默认物种内是-10，物种间是-5，这些又是经验之谈了。

当然这些在处理一般的问题的时候没有什么问题。但是在处理特殊的物种的情况下就会出现很多的问题。比如这个物种整体就是和参考相差太多，变异较多。你还固守参数的话，结果肯定惨不忍睹。

我相信这里举的例子只是一个简单的代表，靠阈值来卡好坏结果的例子在生信中遍地都是。

但是目前生信分析对于这里木有固定的标准，素质稍微高的分析人员会稍微考虑下物种的特异性，调整下标准，更多的人就是根据固定的经验值去筛，TM的爱是啥是啥。

既然行业没有标准，说明这里确实不好订标准，甚至连固定的方法都没有。

小编又想起来得吐槽下，目前很多公司都在做三代全长转录组。大家在全长建库的时候更多的是参考高粱和玉米的转录本的比例。建库策略一般是：小于1K，1K-3K，3K-6K等等，比例也较为固定2：3：3。但是这里如果其之前测过转录组，或者存在近缘，是不是利用其数据简单的评估下，选择适合这个物种的建库策略呢。

吐槽回来，小编其实想说如果存在行业标准，我们应该按照标准来说，但是同时要兼顾物种的特异性。既然标准是经验，经验就有失效的时候。还有就是应该从问题出发，然后设定标准。

大于1是正选择，但是这个物种超级保守，是不是选择那些大于0.6的就可以了呢。

这里小编有三个想法

1、从问题本身出发，生物信息分析其实就是一个初步筛选的过程，这里标准的设定其实不是最重要的，哪怕你通过抓阄、扔鞋决定出来的基因，被证明有意义，都可以。这里研究的是生物问题，不是生信方法。

2、没有标准，是否可以从统计学分布出发。目前这些所谓的标准其实也是基于统计学分析而来的，当这个物种比较特殊的时候，我们应该从物种本身的分布上去研究。举例：在做正选择基因筛选的时候，整体没有大于1的，那这时我们应该绘制下这个物种基因受选择压力的整体分布图，看下位于右5%，10%的基因。这些所谓的离群的点，最有可能就是有意义的点。这样总比一刀切好的多。

3、学生信的都弄过机器学习，这种问题完全可以机器模拟，学习搞定。将目前的所有的发布的数据整合下，构建下数据库，提取下特征，构建分类器，然后研究新的物种的时候，运行下这个分类器，让他给一个标准。这个绝对比你手一抖给的标准，可靠的多的多的多的多。

想起刚入学的时候，一个老师说的话，给大家安利下。

按照预定的方案和计划去实施，只能得到预定的结果，而无法实现超越。

欢迎关注生信人

女人不管有钱没钱，都别买这3类外套，不仅臃肿显胖，看着还廉价

三个亿！文儿被爆对D！邓紫棋退赛！阿哲表态，颜王词秀放话决赛！

柚柚爆阿哲聊天记录！刘一手官宣KS首播！徐梦尧发圈晒照！

给阿哲当小三！电母专场被爆！“哲旭”再合体，宝哥喊话阿哲！潘宏停播，举报虐G登热搜！

太BT了！4分钟10万+，陈伯开干科技票！QJY嘲抖音“某主播”！