查看原文
其他

hpv病毒基因研究调研

jimmy 生信技能树 2022-06-07


2015年有一篇文献中提到了hpv的研究现状


As of May 30, 2015, 201 different HPV types had been completely sequenced and officially recognized and divided into five PV-genera: Alpha-, Beta-, Gamma-, Mu-, and Nupapillomavirus.

文献地址: http://www.ncbi.nlm.nih.gov/pubmed/26086163

根据文献,我找到了hpv所有已知测序种类的参考基因组网站:http://www.hpvcenter.se/html/refclones.html

截至到2015年7月已经有了205种,我爬取它们的genebank ID号,然后用python程序批量下载了它们的序列,能下载的序列共179条,都是8K左右的碱基序列。



根据genebank ID或者其它ID号批量下载核酸序列的脚本如下

  1. import sys

  2. import time

  3. import random

  4. from Bio import Entrez

  5. ids=[]

  6. infile=sys.argv[1]

  7. for line in open(infile,'r'):

  8. line=line.strip()

  9. ids.append(line)

  10. for i in range(1,len(ids)):

  11. #  t = random.randrange(0,5)

  12. handle =

  13. Entrez.efetch(db="nucleotide", id=ids[i],rettype="fasta",email="jmzeng1314@163.com")

  14. #  time.sleep(t)

  15. print handle.read()

脚本的使用很简单,保持输入文件是一行一个ID号即可。同时,根据文献我们也能得到hbv病毒提取方法当然,我当年居然写过python???



同样,拿到下载的178条序列我们可以做一个进化树,在那篇文章中已经做好了,我就不做了。

下载179条hpv序列,每条序列都是8KB左右。我还用了R脚本批量下载

  1. library(ape)

  2. a=read.table("hpv_all.ID") #输入文件是一行一个ID号即可

  3. for (i in 1:nrow(a)){

  4. tmp=read.GenBank(a[i,1],seq.names = a[1,1],as.character = T)

  5. write.dna(tmp,"tmp.fa",format="fasta", append=T,colsep = "")

  6. }

然后用muscle做比对,比对过程相对比较简单,大家感兴趣可以参照我之前的几篇笔记。

  • Muscle进行多序列比对

    http://www.bio-info-trainee.com/?p=659

  • Figtree的把进化树文件可视化

    http://www.bio-info-trainee.com/?p=660

  • 用phyML对多重比对phy文件来构建进化树

    http://www.bio-info-trainee.com/?p=626

  1. muscle -in mouse_J.pro -out mouse_J.pro.a

  2. muscle -maketree -in mouse_J.pro.a -out mouse_J.phy

貌似时间有点长呀,最后还莫名其妙的挂掉了,可能是我的这个测试服务器配置有点低。

(非常经典的 segmentation fault )


进化树如下所示:





猜你喜欢

工作资讯 | 学习课程 | 好书分享


菜鸟入门

Linux | Perl | R语言


数据分析

ChIP-seq(上)ChIP-seq(下)RNA-seq

WGS,WES,RNA-seq组与ChIP-seq之间的异同


编程实践

第0题 | 探索人类基因组序列


直播基因组分析

我的基因组 | 解惑帖

一个标准的基因检测报告目录

生信技能树


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存