其他
生物信息学技能面试题(第6题)-下载最新版的KEGG信息,并且解析好
很简单一件事,参见我的博客:
下载得到文本文件,可以看到里面的结构层次非常清楚
C开头的就是kegg的pathway的ID所在行,D开头的就是属于它的kegg的所有的基因
A,B是kegg的分类,总共是6个大类,42个小类
需要写脚本变成:
代码如下:
perl -alne
'{if(/^C/){/PATH:hsa(\d+)/;$kegg=$1}else{print "$kegg\t$F[1]" if /^D/ and $kegg;}}'
hsa00001.keg >kegg2gene.txt
上面得到的基因是ID,pathway也是ID,其实 你可以得到它们的ID与name的对应表格,请发挥自己的代码能力吧!
收集整理了最新的KEGG信息,就是什么基因对应什么通路,什么通路对应那些基因!
就可以去做富集分析了~
就可以回答下面两个问题了:
人类有多少基因是有KEGG数据库注释信息的呢?
人类有多少基因是有GO数据库注释信息的呢?
微信里面无法发链接,点击阅读原文可以查看具体信息!
也可以查看历史题目:
生物信息学技能面试题(第1题)-人类基因组的外显子区域到底有多长
生物信息学技能面试题(第4题)-多个同样的行列式文件合并起来
生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构
这些题目都是有配套的python和perl视频讲解的,部分还有R和shell的视频讲解,不过,我觉得这些题目本身才是最重要的!