通义千问开源模型在PAI灵骏的最佳实践

王明、李鹏、黄俊阿里云大数据AI平台 2024-01-28

引言

12月1日，通义千问再次宣布重磅开源，目前通义千问已推出1.8B、7B、14B、72B 四款不同尺寸的开源大语言模型。阿里云PAI灵骏智算服务，是面向大规模深度学习场景的智算产品，一站式提供异构算力底座及AI工程平台。本实践将展示如何基于阿里云PAI灵骏智算服务，在通义千问开源模型之上进行高效分布式继续预训练、指令微调、模型离线推理验证以及在线服务部署。

本文将以Qwen-7B为例展示基于Megatron-LM的训练流程，在保证模型效果和Huggingface对齐的前提下，支持了数据并行、算子拆分、流水并行、序列并行、选择性激活重算、Zero显存优化、BF16混合精度、梯度检查点、Flashattention等技术，可以大幅提升大模型分布式训练效率。该流程也适用于Qwen-14B和Qwen-72B模型。

资源开通和运行环境配置

阿里云PAI灵骏智算服务资源开通和管理请参考官网文档

https://help.aliyun.com/zh/pai/user-guide/create-and-manage-intelligent-computing-lingjun-resources

资源和配置推荐

模型参数量	全参数训练资源	推理资源（最低）	Megatron训练模型切片
7B	8*gu7xf、gu7ef	1V100-32G、1A10-22G	TP1、PP1
14B	8*gu7xf、gu7ef	2V100-32G、2A10-22G	TP2、PP1
72B	（48）gu7xf、gu7ef	6V100-32G、2gu7xf	TP8、PP2

LLM统一镜像

请在用户自定义镜像栏填写统一镜像地址：

pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:1.12-ubuntu20.04-py3.10-cuda11.3-megatron-patch-llm

PAI-DSW单机交互式多人协同开发

DSW单机环境可以用来处理数据并测试单机多卡分布式程序。DSW是灵骏自带的交互式代码开发环境，集成了Jupyter，WebIDE，Terminal等开发工具。在LLM的训练过程中，DSW通常用于训练数据的处理，实际的大模型训练（预训练，微调等）在下一步阐述。点击“交互式建模（DSW）”进入DSW概览页，然后点击“创建实例”创建自己的DSW实例，进入DSW后，打开terminal，在/mnt/workspace/下面处理后续流程所需要的数据集。同时也可以在/mnt/workspace/下面存放训练代码。同时下载Pai-Megatron-Patch代码（注：PAI-Megatron-Patch是基于Nvidia原生Megatron-LM框架开发的开源大模型实现示例库，提供了主流开源大模型的Megatron-LM实现和训练/推理/评估脚本，下载链接见本文末尾的相关资料部分）到工作目录/mnt/workspace/下。创建DSW实例，填写实例名称，选择资源组，填写统一镜像URL的实例，如下图所示。有几点需要额外注意：

内存至少需要1024GB
CPU核数最大可用是96
共享内存需与内存保持一致
GPU卡数至少为8

创建好DSW实例后，点击进入DSW工作空间准备开发

PAI-DLC运行分布式任务配置

DLC环境可以用来运行多机多卡分布式程序。在LLM的训练过程中，DLC通常用于大模型训练。点击“容器训练”进入DLC概览页，然后创建自己的DLC实例，填写任务名称，选择资源组，填写统一镜像URL的实例，如下图所示：

执行命令里填写运行分布式任务所需的信息（具体命令可见下文），如下图所示：

配置任务资源，然后提交job，注意CPU核数不能大于96。

同时，共享内存应与内存保持一致。

模型准备

下面分别给出从ModelScope社区，huggingface社区以及OSS对象存储下载Qwen-7B模型的指引：

从ModelScope社区下载模型

进入DSW工作空间，安装ModelScope：

# pip设置全局镜像与相关modelscope包安装# pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/pip install modelscope

Qwen系列模型可通过ModelScope社区下载：

https://modelscope.cn/organization/qwen

进入python环境，根据上述列表中的模型名称、版本信息，通过如下代码实现模型下载，以及加载模型、tokenizer：

以下给出了7B模型的下载代码，14B和72B请参考上述表格中网页上的代码

# ### Loading Model and Tokenizerfrom modelscope.hub.snapshot_download import snapshot_downloadmodel_dir = snapshot_download('qwen/Qwen-7B', 'v1.1.4')# model_dir = snapshot_download('qwen/Qwen-14B', 'v1.0.4')# model_dir = snapshot_download('qwen/Qwen-72B')# 获取下载路径print(model_dir)# /root/.cache/modelscope/hub/qwen/Qwen-7B

退出python环境，将下载的ckpt移动到对应文件夹

mkdir -p /mnt/workspace/qwen-ckpts/${后缀为hf的ckpt文件夹}# mkdir -p /mnt/workspace/qwen-ckpts/qwen-7b-hfcp -r ${在此处填写获取的模型路径}/* /mnt/workspace/qwen-ckpts/${后缀为hf的ckpt文件夹}# cp -r /root/.cache/modelscope/hub/qwen/Qwen-7B/* /mnt/workspace/qwen-ckpts/qwen-7b-hf

用户还可以通过Huggingface来下载Qwen的模型（需要VPN），命令如下所示：

mkdir /mnt/workspace/qwen-ckptscd /mnt/workspace/qwen-ckptsgit clone https://huggingface.co/Qwen/Qwen-7Bgit clone https://huggingface.co/Qwen/Qwen-7B-Chatgit clone https://huggingface.co/Qwen/Qwen-14Bgit clone https://huggingface.co/Qwen/Qwen-14B-Chatgit clone https://huggingface.co/Qwen/Qwen-72Bgit clone https://huggingface.co/Qwen/Qwen-72B-Chat

用户还可以通过wget方式直接下载我们预先放置在oss对象存储系统上的qwen的模型，命令如下所示：

mkdir /mnt/workspace/qwen-ckptscd /mnt/workspace/qwen-ckpts

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/qwen-ckpts/qwen-7b-hf-to-mg-tp1-pp1.tgz

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/qwen-ckpts/qwen-7b-hf.tgz

数据准备

建议在PAI灵骏智算服务中的DSW实例中准备预训练数据，以下以中文wudao2.0数据集的准备流程为例，给出数据预处理指引：

下载WuDaoCorpora2.0开源数据集到/mnt/workspace/qwen-datasets工作目录下，我们提供了部分样例数据作为示例，用户可通过以下命令下载和解压：

wget https://atp-modelzoo.oss-cn-hangzhou.aliyuncs.com/release/datasets/WuDaoCorpus2.0_base_sample.tgztar zxvf WuDaoCorpus2.0_base_sample.tgz

假设解压后的文件夹命名为wudao_200g，该文件夹中的原始wudao数据集的格式和大小如下截图所示：

我们为Megatron-LM训练准备了数据预处理流程，您可以根据自己的需要选择不同的处理方式。

Megatron-LM训练数据准备

mmap数据是一种预先执行tokenize处理的数据格式，可以极大减少训练微调过程中等待数据读入的时间，当数据量极大时，优势显著。

对Wudao数据执行数据集清洗并进行文件格式转换，具体流程可参考如下的bash脚本，最终生成汇总的merged_wudao_cleaned.json。

#! /bin/bashset -ex# 请在此处设置原始数据所在路径data_dir=/mnt/workspace/qwen-datasets/wudao_200g

#开始数据清洗流程dataset_dir=$(dirname $data_dir)mkdir -p ${dataset_dir}/cleaned_wudao_datasetcd ${dataset_dir}/cleaned_wudao_dataset

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama2-codes/preprocess_wudao2.py

# 此处与上一节不同，增加了key参数设为textpython preprocess_wudao2.py -i ${data_dir} -o ${dataset_dir}/cleaned_wudao_dataset -k text -p 32

# 合并清洗后的数据mkdir ${dataset_dir}/wudaocd ${dataset_dir}/wudaofind ${dataset_dir}/cleaned_wudao_dataset -name "*.json" -exec cat {} + > ${dataset_dir}/wudao/merged_wudao_cleaned.jsonrm -rf ${dataset_dir}/cleaned_wudao_dataset

脚本执行完成后，qwen-datasets内部文件结构如下，新增一个wudao文件夹：

qwen-datasets├── wudao_200g └── wudao └── merged_wudao_cleaned.json

利用第一节生成的merged_wudao_cleaned.json文件，将数据拆分成若干组并压缩，便于后续实现多线程处理：

apt-get updateapt-get install zstd

# 此处设置分块数为10，如数据处理慢可设置稍大NUM_PIECE=10

# 对merged_wudao_cleaned.json文件进行处理mkdir -p ${dataset_dir}/cleaned_zst/# 查询数据总长度，对数据进行拆分NUM=$(sed -n '$=' ${dataset_dir}/wudao/merged_wudao_cleaned.json)echo "total line of dataset is $NUM, data will be split into $NUM_PIECE pieces for processing"NUM=`expr $NUM / $NUM_PIECE`echo "each group is processing $NUM sample"split_dir=${dataset_dir}/splitmkdir $split_dirsplit -l $NUM --numeric-suffixes --additional-suffix=.jsonl ${dataset_dir}/wudao/merged_wudao_cleaned.json $split_dir/

# 数据压缩o_path=${dataset_dir}/cleaned_zst/mkdir -p $o_pathfiles=$(ls $split_dir/*.jsonl)for filename in $filesdo f=$(basename $filename) zstd -z $filename -o $o_path/$f.zst &donerm -rf $split_dirrm ${dataset_dir}/wudao/merged_wudao_cleaned.json

脚本执行完成后，qwen-datasets内部文件结构如下，新增一个cleaned_zst文件夹，每个子文件夹里有10个压缩文件：

qwen-datasets├── wudao_200g├── wudao└── cleaned_zst ├── 00.jsonl.zst │ ... └── 09.jsonl.zst

制作MMAP格式预训练数据集。

前往Pai-Megatron-Patch开源网站获取Megatron模型训练工具Pai-Megatron-Patch源代码并拷贝到工作目录/mnt/workspace/下。

https://github.com/alibaba/Pai-Megatron-Patch

# 开源网站获取训练代码git clone --recurse-submodules https://github.com/alibaba/Pai-Megatron-Patch.git# wget获取训练代码https://atp-modelzoo.oss-cn-hangzhou.aliyuncs.com/release/models/Pai-Megatron-Patch.tgz

在DSW的Terminal中进入代码目录：/mnt/workspace/Pai-Megatron-Patch/toolkits/pretrain_data_preprocessing。查看run_make_pretraining_dataset.sh脚本内容。里面有6个启动参数需要在运行时输入，具体参数列表如下：

MEGATRON_PATH=$1 # 设置开源Megatron的代码路径MEGATRON_PATCH_PATH=$2 # 设置Megatron Patch的代码路径input_data_dir=$3 # 打包后的wudao数据集的文件夹路径tokenizer=$4 # qwenbpeoutput_data_dir=$5 # 输出到bin和idx文件目录 load_dir=$6 # tokenizer_config.json文件路径

运行示例如下所示：

# 安装qwen依赖的tokenizer库包pip install tiktoken# 请在此处设置数据集路径和工作路径export dataset_dir=/mnt/workspace/qwen-datasetsexport WORK_DIR=/mnt/workspace

# 分别为训练集、验证集生成mmap格式预训练数据集cd ${WORK_DIR}/Pai-Megatron-Patch/toolkits/pretrain_data_preprocessingbash run_make_pretraining_dataset.sh \../../Megatron-LM-23.04 \${WORK_DIR}/Pai-Megatron-Patch/ \${dataset_dir}/cleaned_zst/ \qwenbpe \${dataset_dir}/wudao/ \${WORK_DIR}/qwen-ckpts/qwen-7b-hfrm -rf ${dataset_dir}/cleaned_zst

脚本执行完成后，qwen-datasets内部文件结构如下，wudao文件夹里有2个名字相同后缀不同的mmap文件：

qwen-datasets├── wudao_200g└── wudao ├── wudao_qwenbpe_content_document.bin └── wudao_qwenbpe_content_document.idx

小规模预处理数据下载试用

为方便用户试用，我们也提供了已经处理好的小规模数据，可直接下载使用

cd /mnt/workspace/qwen-datasets

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/qwen-datasets/alpaca_zh-qwen-train.json

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/qwen-datasets/alpaca_zh-qwen-valid.json

mkdir -p /mnt/workspace/qwen-datasets/wudaocd /mnt/workspace/qwen-datasets/wudao

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/qwen-datasets/wudao_qwenbpe_text_document.bin

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/qwen-datasets/wudao_qwenbpe_text_document.idx

Megatron训练流程

前往Pai-Megatron-Patch开源网站获取Megatron模型训练工具Pai-Megatron-Patch源代码并拷贝到工作目录/mnt/workspace/下。

https://github.com/alibaba/Pai-Megatron-Patch

模型格式转换

使用我们提供的模型转换脚本，将huggingface格式的模型文件转换为megatron格式：

MEGATRON_PATH=$1 # Megatron路径SOURCE_CKPT_PATH=$2 # Megatron格式模型路径，具体到iter_*TARGET_CKPT_PATH=$3 # 转换为Huggingface格式模型后保存的路径TP=$4 # 张量切片数量，与训练保持一致PP=$5 # 流水切片数量，与训练保持一致MN=$6 # 模型名称：qwen-7b,qwen-14b,qwen-72bEXTRA_VOCAB_SIZE=$7 # 额外词表大小mg2hf=$8 # 是否为Megatron转Huggingface

以下是不同参数量下模型切片的推荐使用组合，在转换模型时需进行针对性修改：

模型参数量	Megatron训练模型切片
qwen-7B	TP1、PP1
qwen-14B	TP2、PP1
qwen-72B	TP8、PP2

# 获取模型cd /mnt/workspace/qwen-ckpts

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/qwen-ckpts/qwen-7b-hf.tgz

tar -zxf qwen-7b-hf.tgz

# 转换模型cd /mnt/workspace/Pai-Megatron-Patch/toolkits/model_checkpoints_convertor/qwensh model_convertor.sh \../../../Megatron-LM-main \/mnt/workspace/qwen-ckpts/qwen-7b-hf \/mnt/workspace/qwen-ckpts/qwen-7b-hf-to-megatron-tp1-pp1 \1 \1 \qwen-7b \0 \false

为方便用户试用，我们也提供了转好格式的模型，可直接下载使用：

cd /mnt/workspace/mkdir qwen-ckptscd qwen-ckpts

wget https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/qwen-ckpts/qwen-7b-hf-to-mg-tp1-pp1.tgz

tar -zxf qwen-7b-hf-to-mg-tp1-pp1.tgz

继续预训练

DSW调试继续预训练脚本

DSW的Terminal中运行run_pretrain_megatron_qwen.sh脚本，需要传入的参数列表如下：

ENV=$1 # 运行环境: dlc, dswMEGATRON_PATCH_PATH=$2 # 设置Megatron Patch的代码路径MODEL_SIZE=$3 # 模型结构参数量级：7B, 14B, 72BBATCH_SIZE=$4 # 每卡训练一次迭代样本数: 4, 8GLOBAL_BATCH_SIZE=$5 # 全局batch sizeLR=$6 # 学习率: 1e-5, 5e-5MIN_LR=$7 # 最小学习率: 1e-6, 5e-6SEQ_LEN=$8 # 序列长度PAD_LEN=${9} # Padding长度：100EXTRA_VOCAB_SIZE=${10} # 词表扩充大小：7B使用85，14B和72B模型填213PR=${11} # 训练精度: fp16, bf16TP=${12} # 模型并行度PP=${13} # 流水并行度AC=${14} # 激活检查点模式: sel, fullDO=${15} # 是否使用Megatron版Zero-1降显存优化器: true, falseFL=${16} # 是否使用Flash Attention: true, falseSP=${17} # 是否使用序列并行: true, falseTE=${18} # 是否开启Transformer-engine加速技术，需H800显卡SAVE_INTERVAL=${19} # 保存ckpt的间隔DATASET_PATH=${20} # 训练数据集路径PRETRAIN_CHECKPOINT_PATH=${21} # 预训练模型路径TRAIN_TOKENS=${22} # 训练token数WARMUP_TOKENS=${23} # 预热token数OUTPUT_BASEPATH=${24} # 训练输出文件路径

DSW单机运行示例如下：

注意：EXTRA_VOCAB_SIZE，7B使用85，14B和72B模型使用213

export WORK_DIR=/mnt/workspacecd ${WORK_DIR}/Pai-Megatron-Patch/examples/qwensh run_pretrain_megatron_qwen.sh \dsw \${WORK_DIR}/Pai-Megatron-Patch \7B \1 \8 \1e-5 \1e-6 \2048 \2048 \85 \fp16 \1 \1 \sel \true \false \false \false \100000 \${WORK_DIR}/qwen-datasets/wudao/wudao_qwenbpe_content_document \${WORK_DIR}/qwen-ckpts/qwen-7b-hf-to-megatron-tp1-pp1 \100000000 \10000 \${WORK_DIR}/output_megatron_qwen/

PAI-DLC启动分布式继续预训练任务

单机开发调试完成后，就可以在DLC环境中配置多机多卡分布式任务。注意设置正确的数据集挂载路径WORK_DIR以及运行环境ENV，使用和DSW相同的训练脚本run_pretrain_megatron_qwen.sh来运行

export WORK_DIR=/mnt/workspacecd ${WORK_DIR}/Pai-Megatron-Patch/examples/qwensh run_pretrain_megatron_qwen.sh \dlc \${WORK_DIR}/PAI-Megatron-Patch \7B \1 \8 \1e-5 \1e-6 \2048 \2048 \85 \fp16 \1 \1 \sel \true \false \false \false \100000 \${WORK_DIR}/qwen-datasets/wudao/wudao_qwenbpe_content_document \${WORK_DIR}/qwen-ckpts/qwen-7b-hf-to-megatron-tp1-pp1 \100000000 \10000 \${WORK_DIR}/output_megatron_qwen/

有监督微调

在微调开始之前，请跳转到“小规模预处理数据下载试用”章节获取json文件。

DSW调试微调脚本

DSW的Terminal中运行run_finetune_megatron_qwen_withGA.sh脚本，需要传入的参数列表如下：

ENV=$1 # 运行环境: dlc, dswMEGATRON_PATCH_PATH=$2 # 设置Megatron Patch的代码路径MODEL_SIZE=$3 # 模型结构参数量级: 7B, 14B, 72BBATCH_SIZE=$4 # 每卡训练一次迭代样本数: 1, 2, 4, 8GLOBAL_BATCH_SIZE=$5 # 微调总迭代样本：64, 96, 128LR=$6 # 学习率: 1e-5, 5e-5MIN_LR=$7 # 最小学习率: 1e-6, 5e-6SEQ_LEN=$8 # 序列长度PAD_LEN=$9 # Padding长度：100EXTRA_VOCAB_SIZE=${10} # 词表扩充大小：7B使用85，14B和72B模型填213PR=${11} # 训练精度: fp16, bf16TP=${12} # 模型并行度PP=${13} # 流水并行度AC=${14} # 激活检查点模式: sel, fullDO=${15} # 是否使用Megatron版Zero-1降显存优化器: true, falseFL=${16} # 是否使用Flash Attention: true, falseSP=${17} # 是否使用序列并行: true, falseTE=${18} # 是否开启Transformer-engine加速技术，需H800显卡SAVE_INTERVAL=${19} # 保存模型的步数DATASET_PATH=${20} # 训练数据集路径VALID_DATASET_PATH=${21} # 验证数据集路径PRETRAIN_CHECKPOINT_PATH=${22} # 预训练模型路径TRAIN_ITERS=${23} # 训练迭代轮次LR_WARMUP_ITERS=${24} # 学习率增加值最大的步数OUTPUT_BASEPATH=${25} # 训练输出文件路径

DSW单机运行示例如下：

注意：EXTRA_VOCAB_SIZE，7B使用85，14B和72B模型使用213

export WORK_DIR=/mnt/workspacecd ${WORK_DIR}/Pai-Megatron-Patch/examples/qwensh run_finetune_megatron_qwen_withGA.sh \dsw \${WORK_DIR}/Pai-Megatron-Patch \7B \1 \96 \1e-5 \1e-6 \2048 \2048 \85 \bf16 \1 \1 \sel \true \false \false \false \1000 \${WORK_DIR}/qwen-datasets/wudao_train.json \${WORK_DIR}/qwen-datasets/wudao_valid.json \${WORK_DIR}/qwen-ckpts/qwen-7b-hf-to-megatron-tp1-pp1 \2000 \10 \${WORK_DIR}/output_megatron_qwen/

PAI-DLC启动分布式微调任务

单机开发调试完成后，就可以在DLC环境中配置多机多卡分布式任务。注意设置正确的数据集挂载路径WORK_DIR以及运行环境ENV，使用和DSW相同的训练脚本run_finetune_megatron_qwen.sh来运行

export WORK_DIR=/mnt/workspacecd ${WORK_DIR}/Pai-Megatron-Patch/examples/qwensh run_finetune_megatron_qwen_withGA.sh \dlc \${WORK_DIR}/Pai-Megatron-Patch \7B \1 \96 \1e-5 \1e-6 \2048 \2048 \85 \bf16 \1 \1 \sel \true \false \false \false \1000 \${WORK_DIR}/qwen-datasets/wudao_train.json \${WORK_DIR}/qwen-datasets/wudao_valid.json \${WORK_DIR}/qwen-ckpts/qwen-7b-hf-to-megatron-tp1-pp1 \2000 \10 \${WORK_DIR}/output_megatron_qwen/

模型格式转换

训练完成的Megatron格式模型可以通过一下脚本转换为huggingface格式模型，方便使用huggingface和VLLM分别进行离线和在线推理。

注意：

“${路径}”为“${WORK_DIR}/output_megatron_qwen/checkpoint/”目录下文件夹名称(训练时自动创建)，如“dlc-pretrain-megatron-gpt3-34B-lr-1e-6-bs-1-seqlen-2048-pr-bf16-tp-8-pp-1-ac-sel-do-true-sp-true-tt--wt-/”
如果使用预训练模型进行转换，需要删除模型路径下所有distrib_optim.pt文件

参数介绍

MEGATRON_PATH=$1 # Megatron路径SOURCE_CKPT_PATH=$2 # Megatron格式模型路径，具体到iter_*TARGET_CKPT_PATH=$3 # 转换为Huggingface格式模型后保存的路径TP=$4 # 张量切片数量，与训练保持一致PP=$5 # 流水切片数量，与训练保持一致MN=$6 # 模型名称：qwen-7b, qwen-14b, qwen-72bEXTRA_VOCAB_SIZE=$7 # 额外词表大小mg2hf=$8 # 是否为Megatron转Huggingface

运行命令

export WORK_DIR=/mnt/workspacecd /mnt/workspace/Pai-Megatron-Patch/toolkits/model_checkpoints_convertor/qwensh model_convertor.sh \../../../Megatron-LM-main \${WORK_DIR}/output_megatron_qwen/checkpoint/${路径}/iter_0001000 \/mnt/workspace/qwen-ckpts/qwen-7b-mg-to-hf-tp1-pp1/ \1 \1 \qwen-7b \0 \true

模型和tokenizer文件

将开源Huggingface模型文件夹路径下的.json (pytorch_model.bin.index.json除外)、.py和.tiktoken文件拷贝至“/mnt/workspace/qwen-ckpts/qwen-7b-mg-to-hf-tp1-pp1”目录下，以保证模型可以正常使用。

模型离线推理

模型训练完成后，可以进行离线推理，评估模型效果。不同参数格式的模型可以使用HuggingFace和Megatron-LM两种格式的推理链路。

HuggingFace推理

huggingface离线推理，可以参考如下一些链接：

Huggingface通用文本生成教学：

https://huggingface.co/blog/how-to-generate

Belle文本生成示例：

https://huggingface.co/BelleGroup/BELLE-7B-2M

Qwen文本生成示例：

https://huggingface.co/Qwen/Qwen-14B-Chat

以下给出推理参考代码（代码来自Qwen）：

https://huggingface.co/Qwen/Qwen-14B-Chat

#!/usr/bin/env python#encoding=utf-8from transformers import AutoTokenizer, LlamaTokenizerfrom transformers import LlamaForCausalLMimport torchfrom transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = '/mnt/workspace/latest/qianwen/qwen-7b-hf'print(checkpoint)device = "cuda"tokenizer = AutoTokenizer.from_pretrained(checkpoint, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained(checkpoint,device_map="auto", trust_remote_code=True)

prompt = f"Human:写一个快速排序算法"print(prompt)inputs = tokenizer.encode(p, return_tensors="pt").to(model.device)outputs = model.generate(inputs,max_new_tokens=512)print(tokenizer.decode(outputs[0]))

Megatron-LM离线推理

对于Megatron-LM训练的模型，可以直接用Megatron-LM框架进行推理。

调试推理脚本

ENV=$1 # 运行环境: dlc, dswMEGATRON_PATCH_PATH=$2 # 设置Megatron Patch的代码路径CHECKPOINT_PATH=$3 # 模型微调阶段的模型保存路径MODEL_SIZE=$4 # 模型结构参数量级: 7B, 14B, 72BTP=$5 # 模型并行度BS=$6 # 每卡推理一次迭代样本数: 1, 4, 8SEQ_LEN=$7 # 序列长度: 256, 512, 1024PAD_LEN=$8 # PAD长度：需要将文本拼接到的长度EXTRA_VOCAB_SIZE=${9} # 词表扩充大小：7B使用85，14B和72B模型填213PR=${10} # 推理采用的精度: fp16, bf16TOP_K=${11} # 采样策略中选择排在前面的候选词数量(0-n): 0, 5, 10, 20INPUT_SEQ_LEN=${12} # 输入序列长度: 512OUTPUT_SEQ_LEN=${13} # 输出序列长度: 256INPUT_FILE=${14} # 需要推理的文本文件: input.txt, 每行为一个样本OUTPUT_FILE=${15} # 推理输出的文件: output.txt# TOP_K和TOP_P必须有一个为0TOP_P=${16} # 采样策略中选择排在前面的候选词百分比(0-1): 0, 0.85, 0.95TEMPERATURE=${17} # 采样策略中温度惩罚: 1-nREPETITION_PENALTY=${18} # 避免生成是产生大量重复，可以设置为(1-2)默认为1.2

此处提供一个离线推理输出的文件，推理的数据组织形式需要与微调时的保持一致。

测试样本：

https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/pai-megatron-patch/llama2-datasets/pred_input.jsonl

注意：

模型保存的路径下缺少tokenizer依赖的文件，需要将微调前模型路径下所有json和tiktoken文件拷贝至保存模型的路径下（位于{OUTPUT_BASEPATH }/checkpoint），与latest_checkpointed_iteration.txt同级。

以下有监督微调过程保存模型的推理代码，需要将run_text_generation_megatron_qwen.sh脚本中CUDA_VISIBLE_DEVICES参数设置为0；GPUS_PER_NODE参数设置为1；同时使用下列代码进行推理。此时使用单卡进行推理。注意：此处模型tp为1，可使用单卡推理；如果tp>1，则需使用相应卡数进行推理。

export WORK_DIR=/mnt/workspacecd ${WORK_DIR}/Pai-Megatron-Patch/examples/qwenbash run_text_generation_megatron_qwen.sh \dsw \${WORK_DIR}/Pai-Megatron-Patch \../../../llama2-train \7B \1 \1 \1024 \1024 \85 \fp16 \10 \512 \512 \${WORK_DIR}/pred_input.jsonl \${WORK_DIR}/qwen_pred.txt \0 \1.0 \1.2

在线服务部署

完成离线推理并评估完模型效果以后，可以用PAI-EAS产品将模拟部署成在线服务。

准备工作

开通阿里云PAI服务，了解PAI-EAS基本概念；
相同region开通阿里云OSS服务，并创建用于存储模型文件的OSS bucket，将模型文件上传到相应目录；

部署步骤

准备PAI-EAS资源组

在PAI控制台->模型在线服务（EAS）->资源组，新建资源组，并购买合适规格的实例。以7B参数规模的模型为例，使用fp16数值精度推理情况下，可以使用A10(24GB显存)或者V100(32GB显存)规格的单卡GPU实例进行部署。

部署方式一：使用PAI控制台页面

在PAI控制台->模型在线服务（EAS）->推理服务，选择“部署服务”，在新建服务界面配置如下信息：

服务名称：根据实际需求填写
部署方式：镜像部署服务
镜像选择：镜像地址，例如：

pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/llm-inference:vllm-0.2.1-v4

注：目前镜像只支持乌兰察布

模型配置：选择保持模型文件的OSS路径(例如oss://my_bucket/qwen-7b)，并指定挂载后的路径(例如/qwen-7b)
运行命令：

nohup python -m fastchat.serve.controller > tmp1.log 2>&1 & python -m fastchat.serve.gradio_web_server_pai --model-list-mode reload > tmp2.log 2>&1 & python -m fastchat.serve.vllm_worker --model-path /mnt/model/qwen_7b --tensor-parallel-size 1 --trust-remote-code

注1: --tensor-parallel-size指的是模型张量切分的数量，需要根据GPU的卡数调整，7b模型在单卡就可以放下设置1，如72b模型需要4卡A800才可运行需要设置4

注2：运行命令的端口号应与服务配置的端口号一致

资源组种类：选择之前准备的资源组
实例数：根据模型和资源组情况填写(以7b模型为例，可以使用CPU：16，内存：64000MB，GPU：1)

确认信息正确后，点击“部署”。

部署方式二：使用命令行工具eascmd

参考 eascmd使用说明，安装并配置后，使用类似如下命令创建服务：

eascmd64 create ./service.json

配置文件service.json示例：

{ "name": "qwen_server", // 服务名称 "containers": [ { // 镜像和命令 "image": "pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/llm-inference:vllm-0.2.1-v4",

            "command": "nohup python -m fastchat.serve.controller > tmp1.log 2>&1 & python -m fastchat.serve.gradio_web_server_pai --model-list-mode reload > tmp2.log 2>&1 & python -m fastchat.serve.vllm_worker --model-path /qwen-14b-chat --tensor-parallel-size 1 --trust-remote-code",

"port": 7860 } ], "storage": [ { // 模型地址 "mount_path": "/qwen-7b", "oss": { "path": "oss://my-bucket/qwen-7b" } } ], "metadata": { "instance": 1, "memory": 64000, // 内存，单位是 MiB "cpu": 16, "gpu": 1, "enable_webservice": true, "resource": "eas-r-xxxxxx" // 资源组ID }}

管理服务

创建服务后，可以通过PAI控制台页面、或者eascmd命令行工具，查看服务状态。注意：服务启动过程会进行下载镜像、加载模型等操作，需要等待一段时间。在服务日志中可以看到详细的启动过程记录。

调用服务

点击查看webui应用，即可使用模型服务

相关资料

通义千问系列模型：

https://modelscope.cn/organization/qwen

阿里云PAI灵骏智算服务：

https://www.aliyun.com/product/bigdata/learn/pailingjun

阿里云PAI灵骏智算服务资源开通和管理文档：

https://help.aliyun.com/zh/pai/user-guide/create-and-manage-intelligent-computing-lingjun-resources

PAI-Megatron-Patch 项目开源地址：

https://github.com/alibaba/Pai-Megatron-Patch

阿里云PAI-EAS模型在线服务：

https://www.aliyun.com/product/bigdata/learn/eas

eascmd使用文档：

https://help.aliyun.com/zh/pai/user-guide/eascmd-client/

/ END /

更多推荐

点击「阅读原文」，了解更多阿里云PAI灵骏最佳实践相关消息！

继续滑动看下一个

通义千问开源模型在PAI灵骏的最佳实践

王明、李鹏、黄俊阿里云大数据AI平台

阿里云大数据AI平台

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

通义千问开源模型在PAI灵骏的最佳实践

Megatron-LM训练数据准备

小规模预处理数据下载试用

DSW调试继续预训练脚本

PAI-DLC启动分布式继续预训练任务

DSW调试微调脚本

准备PAI-EAS资源组

部署方式一：使用PAI控制台页面

部署方式二：使用命令行工具eascmd

通义千问开源模型在PAI灵骏的最佳实践

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

生成图片，分享到微信朋友圈

通义千问开源模型在PAI灵骏的最佳实践

Megatron-LM训练数据准备

小规模预处理数据下载试用

DSW调试继续预训练脚本

PAI-DLC启动分布式继续预训练任务

DSW调试微调脚本

准备PAI-EAS资源组

部署方式一：使用PAI控制台页面

部署方式二：使用命令行工具eascmd

通义千问开源模型在PAI灵骏的最佳实践

您可能也对以下帖子感兴趣