文章发表:Using meshes for MeSH term enrichment and semantic analyses
Medical Subject Headings (MeSH) is the NLM controlled vocabulary used to manually index articles for MEDLINE/PubMed. MeSH provides unique and comprehensive annotations for life science. The meshes package implements measurement of the semantic similarity of MeSH terms and gene products to help using MeSH vocabulary in knowledge mining. Enrichment analysis to extract the biological meanings from gene list, expression profile and genomic regions is also provided using MeSH annotation. Meshes supports more than 70 species and provides high quality visualization methods to help interpreting analysis results.
这篇文章只有我自己一个作者,我花在上面的时间非常少,大家可以说我又“灌水”了一篇。你会发现和DOSE
包比较像,可以做语义相似性度量,又可以做富集分析。只不过DOSE
包针对的是疾病相关的注释,而这个meshes
针对的是MeSH
。
我早在10年前就开始做语义度量,2010年我发表了GOSemSim:GO语义相似性度量,目前在google scholar上已经被引用了>390次。
这篇文章后来还被抄袭了,有人恶意抄袭代码,假装是自己开发,我和BMC杂志社掐了两年,BMC保护抄袭(详情请点击这个《裤衩都不要的故事》),最后只让对方发ERRATUM了事:
2012年在暨大发表了个做富集分析的软件clusterProfiler
,可能是我在国内最为人所知的一个包,早期没什么人引用,但由于我坚持更新,不断增加新功能,被许多网友称之为业界最有良心的富集软件,近两年突然引用多了起来,2018年的引用次数已经>370,目前总的被引次数已经>700,明年很容易破千的。
当我看到上面这两篇文章的时候,我觉得做得实在比我差远了,我何不支持一下MeSH
,让我的软件有更大的应用范围,让更多的人受益于更好的实现,于是我“灌水”了meshes
这篇文章,花的时间很短,但时间不是这么看的,这其实是多年的积累,这也是做生信尴尬的地方,与人合作的时候,如果是做实验的,时间和金钱上的付出,很容易算,而做生信的人,你长年累月积累的能力,反而会给人一种,你一下子就搞出来了,合作者经常会downgrade你的付出。而事实上,有些时候就是,我就是搞得快,但你换个人试试!
MeSH是个体量比GO还大的生物医学注释库,所以啊,大家不要总盯着GO看,有好多很好的注释库,都没什么人在用啊。可以给大家提供不同的角度,挖掘不同的信息,你不防试试。一般做知识库挖掘的,无非是富集分析和语义分析两种手段最为常见,而这个包都支持。你换个知识库说你写了个富集分析的包去投Bioinformatics
试试,正常都是Editor直接就拒了,因为富集分析是比较容易实现又有大量实现,且比较老的东西了,没有创新性。当然其实富集分析好的软件非常少,主要问题不在于算法,而在于能够保持更新/维护(主要是知识库)的软件实在是太少,大多数是发了文章“灌水”之后就不了了之。我这个meshes
包能够发表在Bioinformatics
上主要还是靠语义度量,这是比较少软件实现,而我又是生信圈子里做语义度量比较早的人。
GOSemSim
第一版本写完之后,我便将其提交到Bioconductor
,被接收之后,进入Bioconductor
软件仓库的时间是2008年12月9号,这篇meshes
的文章,就权当是十周年纪念吧,致《过去的岁月》, past is past & move forward.
往期精彩