如何寻找circRNA基因两翼的ALU序列
欢迎个人转发到朋友圈,公众号、自媒体、网站等媒体转载请联系授权,circRNA@163.com。
声 明
Alu重复序列是哺乳动物基因组中SINE家族的一员,长约300bp,SINE指短散在核重复序列(short interspersed nuclear elements, SINE),平均4~6 kb中就有一个Alu序列,约有50万份拷贝。随着研究的深入,大量证据表明,Alu在基因转录调控,环状RNA形成机制方面起着非常重要的作用。具体可参考历史微信文章“环状RNA研究之“神雕侠侣””,“Nature文章揭示DHX9与环状RNA形成的关系”。
如何查询环状RNA侧翼序列中的Alu元件?
下面以2016年黄胜林老师(Circular RNA profiling reveals an abundant circHIPK3 that regulates cell growth by sponging multiple miRNAs)报道的 circHIPK3 为例,介绍如何寻找基因两翼的ALU序列,首先查看文章发现文中提到的circHIPK3 是指的HIPK3基因的第二外显子来源的一个环状RNA,长度为1099bp。
1 首先进入circBse数据库,点击list search 按钮。http://www.circbase.org/
2 收入关注的基因名字 比如HIPK3,如果明确了circRNA的 ID号也可以直接输入ID号码。
3 输入宿主基因HIPK3,点击search后出来界面出现多个环状RNA信息如下图,那么circ-HIPK3对应的应该是那个,通过文章反应的信息应该是ID为hsa_circ_0000284的分子;由于开始的时候我们并不知道文章中研究的circ-HIPK3对应的circBase数据库的登录号到底是哪一个,所以通过输入母基因名字HIPK3,在circBase中查到了文章中提到的circ-HIPK3具体的ID号为hsa_circ_0000284。
4 根据ID号hsa_circ_0000284查找circ-HIPK3准确的详细序列,还是返回circBase主页名,这次输入ID号hsa_circ_0000284。
点击search后出来界面
点击左上角第二栏中fasta按钮后出现界面
备注:这里要选择spliced选项,是要找到剪切成熟的环状RNA序列。
最后获得了准确的circ-HIPK3的序列如下:
>hsa_circ_0000284|NM_005734|HIPK3
GTATGGCCTCACAAGTCTTGGTCTACCCACCATATGTTTATCAAACTCAGTCAAGTGCCTTTTGTAGTGTGAAGAAACTCAAAGTAGAGCCAAGCAGTTGTGTATTCCAGGAAAGAAACTATCCACGGACCTATGTGAATGGTAGAAACTTTGGAAATTCTCATCCTCCCACTAAGGGTAGTGCTTTTCAGACAAAGATACCATTTAATAGACCTCGAGGACACAACTTTTCATTGCAGACAAGTGCTGTTGTTTTGAAAAACACTGCAGGTGCTACAAAGGTCATAGCAGCTCAGGCACAGCAAGCTCACGTGCAGGCACCTCAGATTGGGGCGTGGCGAAACAGATTGCATTTCCTAGAAGGCCCCCAGCGATGTGGATTGAAGCGCAAGAGTGAGGAGTTGGATAATCATAGCAGCGCAATGCAGATTGTCGATGAATTGTCCATACTTCCTGCAATGTTGCAAACCAACATGGGAAATCCAGTGACAGTTGTGACAGCTACCACAGGATCAAAACAGAATTGTACCACTGGAGAAGGTGACTATCAGTTAGTACAGCATGAAGTCTTATGCTCCATGAAAAATACTTACGAAGTCCTTGATTTTCTTGGTCGAGGCACGTTTGGCCAGGTAGTTAAATGCTGGAAAAGAGGGACAAATGAAATTGTAGCAATCAAAATTTTGAAGAATCATCCTTCTTATGCCCGTCAAGGTCAAATAGAAGTGAGCATATTAGCAAGGCTCAGTACTGAAAATGCTGATGAATATAACTTTGTACGAGCTTATGAATGCTTTCAGCACCGTAACCATACTTGTTTAGTCTTTGAGATGCTGGAACAAAACTTGTATGACTTTCTGAAACAAAATAAATTTAGTCCCCTGCCACTAAAAGTGATTCGGCCCATTCTTCAACAAGTGGCCACTGCACTGAAAAAATTGAAAAGTCTTGGTTTAATTCATGCTGATCTCAAGCCAGAGAATATTATGTTGGTGGATCCTGTTCGGCAGCCTTACAGGGTTAAAGTAATAGACTTTGGGTCGGCCAGTCATGTATCAAAGACTGTTTGTTCAACATATCTACAATCTCGGTACTACAG
核对一下接口序列确实是文章中报道的测序峰图对应的序列,现在已经准确找到了文章中报道的circ-HIPK3的成熟序列1099bp。
5 下面是进入UCSC http://genome.ucsc.edu/数据库寻找查看目标环状RNAcirc-HIPK3两翼的ALU序列情况。
点击BLAT功能选项,输入上述检索到的序列
点击submit选项,出现如下界面
选择第一个browser选项,出现如下界面
由于我们关注的是一个片段两侧的ALU序列情况,那么我们要手动改动显示出来一些基因的位置信息,显示出来两翼的序列,比如我们上下游延长1000bp;那么我们将图片中的位置信息chr11:33,286,413-33,287,511左右延长1000bp改成chr11:33,285,413-33,288,511,然后点击左上角的go按钮,显示如下界面。界面中最下面的显示SINE对应的右边两个黑色的方框就是表示在circ-HIPK3上下游两侧各有一个ALU序列(Alu重复序列是哺乳动物基因组中SINE家族的一员,SINE(short interspersed nuclear elements)),这里只举例子选择了circ-HIPK3的上下游1000bp,如果关注更长的区域可以人为选择。
备注:UCSC的界面有很多信息显示,我们可以把我们不关注的信息隐藏掉,只显示我们关注的信息。
6 那么怎么找到ALU的具体序列呢?需要点双击上面图片上的SINE右边对应的黑色方框,会显示出来如下界面:
点击View DNA for this feature按钮找出来此ALU的详细序列如下:
>hg38_rmsk_AluSz range=chr11:33285781-33286053 5'pad=0 3'pad=0 strand=- repeatMasking=none
CCTGTAATCCTAGCACTTTGAGAGGCTGAGGCAGTTGGATCACTTGAGGTCAGGAGTCCAAGACCAGCCTGGCCAACACGGTGAAGAAATCCCAACTCTACTAATAATGCAAAAATTAGCTGGGGATGGTGGTGCATGCCTGTGGTCCCAGCTACTCGGGAGGCTGAGGGAGGAGAATCGCTTGAACCTGGGAGGTGGAGGTTGCAGTGAGCCGAGATTGCACCACTGCACTTCAGCCTGTGAGACAGAG
CAAGACTCTGTCTCAAAAAAAAA
备注 :寻找基因组中的Alu序列还有其它方法,我们暂时介绍此种方法。
近
期
热
文
2
3
4
5
6
circRNA
最新研究进展 分享科研干货
环状RNA交流群
分享研究技巧 经验交流平台
点击“阅读原文”,查看场景秀,在线报名第三届环状RNA研究论坛。