如何获取目标基因的转录因子(上)——Biomart下载基因和motif位置信息
科研过程中我们经常会使用Ensembl(http://asia.ensembl.org/index.html) 网站来获取物种的参考基因组,其中BioMart工具可以获取物种的基因注释信息,以及跨数据库的ID匹配和注释等。
在参考基因组和基因注释文件一文中有详细介绍如何在Ensembel数据库中获取参考基因组和基因注释文件。(点击蓝字即可阅读)
生信分析中,想要找到感兴趣基因的转录因子结合位点,该怎么做呢?
1. 文件准备
首先需要准备以下3个文件,后面两个文件可以在ensembl网站中下载:
感兴趣基因的名称列表(1列基因名即可)
基因组中各基因位置信息列表(6列的bed文件)
基因组中各转录因子结合位点信息列表(5列的bed文件)
2. 什么是bed文件?
bed格式文件提供了一种灵活的方式来定义数据行,以此描述基因注释的信息。BED行有3个必须的列和9个可选的列。 每行的数据格式要求一致。
关于bed文件格式的介绍,在https://genome.ucsc.edu/FAQ/FAQformat.html#format1中有详细说明。
我们需要下载的基因位置信息列表是一个6列的bed文件,每列信息如下:
Chromosome/scaffold name | Gene start (bp) | Gene end (bp) | Gene stable ID | Gene name | Strand |
---|---|---|---|---|---|
染色体的名称(例如chr3) | Gene起始位点 | Gene终止位点 | Gene stable ID | Gene name | 定义基因所在链的方向,+或- |
注:起始位置和终止位置以0为起点,前闭后开。
转录因子结合位点列表是一个5列的bed文件,每列信息如下:
Chromosome/scaffold name | Start (bp) | End (bp) | Score | Feature Type |
---|---|---|---|---|
染色体的名称(例如chr3) | TF起始位点 | TF终止位点 | Score | 转录因子的名字 |
具体内容见后面示例,更方便理解。
3. BioMart数据下载
1. 进入Ensembl主页后点击BioMart
2. 使用下拉框-CHOOSE DATASET
- 选择数据库,我们选则Ensembl Genes 93;这时出现新的下拉框-CHOOSE DATASET
- ,选择目的物种,以Human gene GRCh38.p12为例。如果自己实际操作,需要选择自己的数据常用的基因组版本。如果没有历史包袱,建议选择GRCh38最新版。
3. 选择数据库后,点击Filters对数据进行筛选,如果是对全基因组进行分析可不用筛选, 略过不填。
4. 点击Attributes,在GENE处依次选择1-6列的内容,勾选顺序便是结果矩阵中每列的顺序。
5. 如上图中所示,点击results后跳转下载页面,中间展示了部分所选的数据矩阵,确定格式无误后点击GO即可下载。
6. 转录因子结合位点矩阵的下载类似上面,不过在下拉框-CHOOSE DATASET- 选择数据库时,我们选则Ensembl Regulation 93,再选择Human Binding Motif (GRCh38.p12)
7. 在Attributes处选择需要的信息列,点击Results和GO进行数据下载
将上述下载的两个文件分别命名为 GRCh38.gene.bed
和 GRCh38.TFmotif_binding.bed
,在Shell中查看一下:
基因组中每个基因所在的染色体、位置和链的信息,以及对应的ENSG编号和Gene symbol。
Chromosome/scaffold name Gene start (bp) Gene end (bp) Gene stable ID Gene
3 124792319 124792562 ENSG00000276626 RF00100 -1
1 92700819 92700934 ENSG00000201317 RNU4-59P -1
14 100951856 100951933 ENSG00000200823 SNORD114-2 1
22 45200954 45201019 ENSG00000221598 MIR1249 -1
1 161699506 161699607 ENSG00000199595 RF00019 1
第五列为人中的转录因子,每一行表示每个转录因子在基因组范围的结合位点分布,即其可能在哪些区域有结合motif。这些区域是与TF的结合motif矩阵相似性比较高的区域,被视为潜在结合位点。有程序MEME-FIMO
或Homer-Findmotifs.pl
可以完成对应的工作。
Chromosome/scaffold name Start (bp) End (bp) Score Feature Type
14 23034888 23034896 7.391 THAP1
3 10026599 10026607 7.054 THAP1
10 97879355 97879363 6.962 THAP1
3 51385016 51385024 7.382 THAP1
16 20900537 20900545 6.962 THAP1
下期预告: 如何在Shell中用Linux命令处理以上矩阵,以此来找到目标基因的转录因子。
更多相关推文见: