查看原文
其他

进化树专题(五)| 密码子分区软件介绍

曾哥 凌恩生物 2023-06-15

核苷酸序列在不同位点有不同的突变速率。核苷酸序列又分为编码基因和非编码基因。编码基因中,密码子第一第二位往往较为稳定,第三位往往变异速率较高。非编码基因因为受到的选择压力一般较小,所以往往可保留更多突变。不同基因以及不同位点的突变速率不同,可能对所推断进化树的稳定性有很大影响。所以,在多基因建立进化树过程中,设置分隔模型就显得很重要。

RAxML、MrBayes、BEAST等常用系统发育软件都支持分隔模型,但并不能帮忙确定最优化的分隔模型设定方案。设置的分隔模型过多,则拟合的参数会过多, 造成结果的不准确。设置的分隔模型过少,不设置分隔模型,设置的不合理,也会造成进化树不准确。很多学者已经意识到这个问题,但是一直苦于没有很好的应对方法

针对上述问题,PartitionFinder的作者从理论上解决了以上的问题, 并通过Python语⾔实现了相应的算法 ( Lanfear et al., 2012)。2012年,PartitionFinder的论文发表后,已经被引用了3512次,2016年作者更新到PartitionFinder2。该论文发表后已经被引用768次。

PartitionFinder2是目前对大中型数据集(数据类型包括:核苷酸、氨基酸和形态数据)同时检测最合适的分区方案和每个分区方案所对应的最优进化模型的最理想的程序

PartitionFinder2所推演的最优进化模型结果与使用 jModelTest2(检测核苷酸数据)和ProTest3(检测氨基酸数据)所推演的最优进化模型结果是比较接近的

下面我们介绍密码子分区软件最新版PartitionFinder2.21的安装和使用

下载

http://www.robertlanfear.com/partitionfinder/


×

安装:


PartitionFinder2需要 Python 2.7.10 或者更高版本才能运行,但是不是 Python3.x版本

配置python2.7包:numpy;pandas;pytables;pyparsing;scipy;sklearn

安装PartitionFinder2

双击以.zip为后缀的文件,它将自动解压。自动解压以后,用户可以得到一个文件夹,例如,PartitionFinder2.1.1

把这个文件夹移动到用户想要存放PartitionFinder2的地方即可


使用:
输入文件格式:test.phy phylip格式的序列数据文件

文件格式说明:4: 序列数量2208:序列长度spp1:    序列名称和具体序列信息...partition_finder.cfg(输入程序运行的配置文件和对应参数,格式如下)

注意:该配置文件的文件名是固定不变的,请不要更改它;配置文件里面除了注释和方括号所在行的末尾不用分号结束,其他行的末尾要以分号结束;序列数据文件必须partition_finder.cfg配置文件放在同一个文件夹里面,并且必须是正确的PHYLIP格式配置文件格式说明:# ALIGNMENT FILE # 指定phylip格式的比对文件# BRANCHLENGTHS # 在优化进化树枝长⽤于Likelihood计算时,是否各枝长⼀起优化。# MODELS OF EVOLUTION # 模型筛选的指标,推荐⽤aicc值 # DATA BLOCKS # 设定基因的起始和编码位置;[data_blocks]Gene1_pos1 = 1-789\3;Gene1_pos2 = 2-789\3;Gene1_pos3 = 3-789\3;Gene2_pos1=790-1449\2;...# SCHEMES # [schemes] 模型筛选的算法search = greedy;


输出:
best_scheme.txt这个最佳分区方案文件有关于发现最佳分区方案的信息,以及用于找到最佳分区方案的设置。这包括该方案的详细描述,以及该方案中每个子集选择的分子进化模型。它还包含每个方案在 RAxML和NEXUS格式的一个描述schemes folder这个文件夹包含分析方案的详细信息。每一个方案分别在一个以.txt为扩展名的独立文件里面,很像best_scheme.txt文件。subsets folder这个子集文件夹包含每个子集模型选择的分析结果。它们都是以.txt为扩展名的文件,其中,用户纳入分析的每个模型以AICc增序的方式列成表(即最好的模型在顶部)。


程序使用:
DNA数据:python partitionfinder-2.1.1/PartitionFinder.py /path/dna/ --raxml --force-restart /path/dna   :partition_finder.cfg文件存放路径蛋白数据python partitionfinder-2.1.1/PartitionFinder.py /path/aminoacid/ --raxml --rcluster-max 100形态学数据python partitionfinder-2.1.1\PartitionFinderProtein.py path/morpholgy -- raxml


注意:
搜寻策略[schemes]search: all | greedy | rcluster | rclusterf | hcluster | kmeans | usersearch = greedy  ~100个基因座search = rcluster  ~1000个基因座默认的命令对用户的数据集来说仍然太慢,请从默认的至少rcluster-max = 1000减少到例如rcluster-max = 100search = rclusterf 只适⽤于RAxML选项开启时,尤其适用于有若干分析需要数据很大, 同时ML需要优化很长时间时, 可以减少等待的时间。⽤用户自定义进化树在simulation研究中, 可能假设已知进化树的结构,用来做进一步计算。此时可以指定进化树。在之后的分析中, 进化树的拓扑结构被保留, 但是枝长会根据GTR+I+G模型重新估计。# ALIGNMENT FILE #alignment = test.phy;user_tree_topology = tree.phy 输出导入其他进化树:raxmlHPC-PTHREADS-AVX -N 100 -f a -T 64 --no-bfgs -p 1111 -x 2222 -m GTRGAMMA -s gene.phy -n all -q multiplemodule.txtmultiplemodule.txt 分区格式文件DNA, Subset1 = 3091-3882\3, 1-651\3DNA, Subset2 = 2-651\3DNA, Subset3 = 5934-6897\3, 3-651\3DNA, Subset4 = 652-888\3DNA, Subset5 = 653-888\3, 654-888\3DNA, Subset6 = 889-2424\3...


凌恩生物成立于2014年,专注组学技术在科研领域的应用与研究。公司成立以来,技术团队参与的项目成果成功发表在《Nature》《Cell》《PNAS》等国际顶端学术期刊。

秉承“以客户需求为本,为客户创造价值”的服务宗旨;以高品质、高效率的技术服务,用心打造凌恩品牌,助力您的成功。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存