我在MSnbase里做了什么?
蛋白质组学蛋很疼,缺少开源工具,多半都是质谱仪自带的软件,而且只能跑在windows上,所以做数据分析也是很蛋疼,分析处理数据上落后NGS非常多。MSnbase是第一个R包可以做蛋白质组学的,是Laurent Gatto的成名作,在2010年他加入剑桥的时候着手开发的,当然主要是基础性的东西,他们有开发一系列的R包来做后续分析,而且着力点在于蛋白质的定位,即所谓的空间蛋白质组学:
我觉得这个定位非常好,要是只是蛋白质组定量,非常圈内人士爱标榜自己测的是自己的功能功能蛋白质表达量,而不是RNA和真实的蛋白表达有出入,在两者相关性非常好的情况下,你直接测其实意义不会大太多,所以我觉得他们着力于定位分析是非常好的。
这个2010年开发的包,我2011年开始关注,当时读了所有的代码,当时Laurent说有篇文章他有参与,可以给我原始数据,问我能不能实现里面做质控的图。
这图长这样,相似图谱之间的质量差应该是一个氨基酸,所以统计质量差,并做出分布图,单个氨基酸的质量应该有较大的密度,这个如图A,而图B中,氨基酸质量的分布被背景所掩盖,并且常见的污染物peg非常多,那么这就是一次很差的实验。
这事做起来并不难,于是我写了plotMzDelta函数,画出来的图是这样的(可以说这是我第一次完美画出和文章里一模一样的图)。
完成这个指派任务之后,我自己着手在写mgf文件的解析,质谱的RAW文件只能由质谱供应商提供的软件来读,但可以导出为mgf文件,解析mgf文件显然是为质谱数据的后续分析提供便利,于是我贡献了MSnbase里读写mgf文件的最初版本,每次谱图存入Spectrum对象,而整个实验存入MSnExp对象,并且支持其它来源的数据输出为mgf文件。
讲点题外活,当年在School of Biological Science的时候,被我抄掉的前导师,说要我分析质谱数据,他自己听了合作者说用某某软件之后,如果我没记错的话应该是proteinpilot,站在我面前跟我说你下载安装来看一下,我说这是windows版,实验室没有机器跑windows,他说你就给我下,我下了之后,在他的指点下,点击安装,系统不认,他才放弃说:“嗯,你可以去仪器中心用他们的电脑”,我说我知道怎么做,我有经验,结果他就怒了,说:“你凭什么说你是专家,我才是这里的专家”,这事过后,学生们背地里都叫他专家。这货后来,那个蛋白质组数据啥都没给人做,大家又是一个系里,楼上楼下的,人家不好意思,给他在中间某个可有可无的位置是挂了名,每次想到专家,我都好想818.。。。。
如果你想申HKU生物系,记得问我谁是专家,一定要避开,一定要避开,一定要避开......