如何获取目标基因的转录因子（上）——Biomart下载基因和motif位置信息

Original lingludi 生信宝典 2022-03-28

收录于话题 #Linux学习 67个

科研过程中我们经常会使用Ensembl（http://asia.ensembl.org/index.html）网站来获取物种的参考基因组，其中BioMart工具可以获取物种的基因注释信息，以及跨数据库的ID匹配和注释等。

在参考基因组和基因注释文件一文中有详细介绍如何在Ensembel数据库中获取参考基因组和基因注释文件。（点击蓝字即可阅读）

生信分析中，想要找到感兴趣基因的转录因子结合位点，该怎么做呢？

1. 文件准备

首先需要准备以下3个文件，后面两个文件可以在ensembl网站中下载：

感兴趣基因的名称列表（1列基因名即可）
基因组中各基因位置信息列表（6列的bed文件）
基因组中各转录因子结合位点信息列表（5列的bed文件）

2. 什么是bed文件？

bed格式文件提供了一种灵活的方式来定义数据行，以此描述基因注释的信息。BED行有3个必须的列和9个可选的列。每行的数据格式要求一致。

关于bed文件格式的介绍，在https://genome.ucsc.edu/FAQ/FAQformat.html#format1中有详细说明。

我们需要下载的基因位置信息列表是一个6列的bed文件，每列信息如下：

Chromosome/scaffold name	Gene start (bp)	Gene end (bp)	Gene stable ID	Gene name	Strand
染色体的名称（例如chr3）	Gene起始位点	Gene终止位点	Gene stable ID	Gene name	定义基因所在链的方向，+或-

注：起始位置和终止位置以0为起点，前闭后开。

转录因子结合位点列表是一个5列的bed文件，每列信息如下：

Chromosome/scaffold name	Start (bp)	End (bp)	Score	Feature Type
染色体的名称（例如chr3）	TF起始位点	TF终止位点	Score	转录因子的名字

具体内容见后面示例，更方便理解。

3. BioMart数据下载

1. 进入Ensembl主页后点击BioMart

2. 使用下拉框-CHOOSE DATASET- 选择数据库，我们选则Ensembl Genes 93；这时出现新的下拉框-CHOOSE DATASET- ，选择目的物种，以Human gene GRCh38.p12为例。如果自己实际操作，需要选择自己的数据常用的基因组版本。如果没有历史包袱，建议选择GRCh38最新版。

3. 选择数据库后，点击Filters对数据进行筛选，如果是对全基因组进行分析可不用筛选, 略过不填。

4. 点击Attributes，在GENE处依次选择1-6列的内容，勾选顺序便是结果矩阵中每列的顺序。

5. 如上图中所示，点击results后跳转下载页面，中间展示了部分所选的数据矩阵，确定格式无误后点击GO即可下载。

6. 转录因子结合位点矩阵的下载类似上面，不过在下拉框-CHOOSE DATASET- 选择数据库时，我们选则Ensembl Regulation 93，再选择Human Binding Motif (GRCh38.p12)

7. 在Attributes处选择需要的信息列，点击Results和GO进行数据下载

将上述下载的两个文件分别命名为 GRCh38.gene.bed和 GRCh38.TFmotif_binding.bed ，在Shell中查看一下：

基因组中每个基因所在的染色体、位置和链的信息，以及对应的ENSG编号和Gene symbol。

Chromosome/scaffold name        Gene start (bp) Gene end (bp)   Gene stable ID  Gene
3       124792319       124792562       ENSG00000276626 RF00100 -1
1       92700819        92700934        ENSG00000201317 RNU4-59P        -1
14      100951856       100951933       ENSG00000200823 SNORD114-2      1
22      45200954        45201019        ENSG00000221598 MIR1249 -1
1       161699506       161699607       ENSG00000199595 RF00019 1

第五列为人中的转录因子，每一行表示每个转录因子在基因组范围的结合位点分布，即其可能在哪些区域有结合motif。这些区域是与TF的结合motif矩阵相似性比较高的区域，被视为潜在结合位点。有程序MEME-FIMO或Homer-Findmotifs.pl可以完成对应的工作。

Chromosome/scaffold name        Start (bp)      End (bp)        Score   Feature Type
14      23034888        23034896        7.391   THAP1
3       10026599        10026607        7.054   THAP1
10      97879355        97879363        6.962   THAP1
3       51385016        51385024        7.382   THAP1
16      20900537        20900545        6.962   THAP1

下期预告： 如何在Shell中用Linux命令处理以上矩阵，以此来找到目标基因的转录因子。

更多相关推文见：

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

如何获取目标基因的转录因子（上）——Biomart下载基因和motif位置信息

1. 文件准备

2. 什么是bed文件？

3. BioMart数据下载

生信宝典之傻瓜式

更多阅读

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

Dior变色唇膏59元两只限量抢！一抹玻璃唇，秒变时尚girl！

林志玲终于晒娃，3岁儿子也太帅气了！网友：有孩子的，都来学学

生成图片，分享到微信朋友圈

如何获取目标基因的转录因子（上）——Biomart下载基因和motif位置信息

1. 文件准备

2. 什么是bed文件？

3. BioMart数据下载

生信宝典之傻瓜式

更多阅读

您可能也对以下帖子感兴趣