其他
生信编程直播第9题-根据指定染色体及坐标得到参考碱基
还不知道怎么回事的先查看历史题目:
生物信息学技能面试题(第1题)-人类基因组的外显子区域到底有多长
生物信息学技能面试题(第4题)-多个同样的行列式文件合并起来
生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构
生物信息学技能面试题(第6题)-下载最新版的KEGG信息,并且解析好
现在开始第9题咯:
参考基因组,假设是hg19吧!
指定染色体及坐标,假设是"chr5","8397384"
那么如何写程序得到 这个坐标以及它上下一个碱基呢?
print &get_context("chr5","8397384");
可以看到我写的这个函数,做到了取第五条染色体的8397384位点的上下一个碱基,在UCSC里面也可以验证一下。
当然,要做出批量的!
因为我们是根据vcf文件来做这件事情。
而VCF文件里面记录了所有的变异位点的坐标,我们需要知道上下文来做mutation signature的分析。
我把这个需求拆解开来,希望对你们有帮助!
当然,考虑到很多人的机器hold不住hg19这个大基因组,可以用一个小的fasta文件作为例子:
比如,基因组是:
>
chr_
1
ATCGTCGaaAATGAANccNNttGTA
AGGTCTNAAccAAttGggG
>
chr_
2
ATCGAATGATCGANNNGccTA
AGGTCTNAAAAGG
>
chr_
3
ATCGTCGANNNGTAATggGA
AGGTCTNAAAAGG
>
chr_
4
ATCGTCaaaGANNAATGANGgggTA
指定坐标是 3号染色体的第6个碱基,用程序算,是什么碱基,不允许用肉眼看!