元象推出 70 亿参数通用大模型 XVERSE-7B,保持高性能、全开源、免费可商用
元象推出 70 亿参数通用大模型 XVERSE-7B 底座与对话版,保持高性能、全开源、免费可商用,让海量中小企业和 AI 开发者能以低成本用上高性能大模型,推动中国大模型生态建设。
与 8 月开源的 XVERSE-13B 相比,7B 版本主打“小而美”:它支持在单张消费级显卡部署运行,推理量化后最低只需 6GB 显存,大幅降低开发门槛和推理成本;继续保持高性能,在多个权威基准测评中表现出色,中英文能力超越了 Llama-2 、Baichuan2 等同尺寸开源模型代表,部分能力还“跳级”赶超了13B、16B等更大尺寸模型。
使用 5 shot 方法测试
在多项权威测试中表现出色
● XVERSE-7B 是在 2.6 万亿 tokens 高质量多语言数据上从头训练的底座模型,具有强大的认知、规划、推理和记忆能力。其上下文窗口长度为 8192 ,支持中、英、俄、法等40多种语言。
● XVERSE-7B-Chat 是底座模型经 SFT 指令精调后的中英文对话模型,大幅提升了理解和生成内容的准确度,也更符合人类的认知偏好。
元象通用大模型目前有 7B 与 13B 两个系列,基本满足了中小企业、科研机构和个人开发者的主流应用和迭代需求;元象也持续追求其高性能表现,进一步提高小尺寸模型的能力上限,为不同行业应用赋予广阔可能。我们期待多方携手,共同开创大模型商用新纪元!
元象通用大模型 XVERSE 系列
加入元象大模型团队
简历发送至:join@xverse.cn
商业合作
请微信添加:muyixuanlin
媒体沟通
请联系:万琳 linwan@xverse.cn
多平台下载
https://github.com/xverse-ai/XVERSE-7B
Hugging Face
https://huggingface.co/xverse/XVERSE-7B
https://huggingface.co/xverse/XVERSE-7B-Chat
魔 搭 社 区
https://modelscope.cn/models/xverse/XVERSE-7B/summary
https://modelscope.cn/models/xverse/XVERSE-7B-Chat/summary
联 系 邮 箱
opensource@xverse.cn
快速使用
环境安装
下载本仓库:
git clone https://github.com/xverse-ai/XVERSE-7B
cd XVERSE-7B
使用 pip 安装依赖:
pip install -r requirements.txt
Transformers 加载方式
通过以下代码加载 Chat 版模型对话:
>>> import torch
>>> from transformers import AutoTokenizer, AutoModelForCausalLM
>>> from transformers.generation.utils import GenerationConfig
>>> model_path = "xverse/XVERSE-7B-Chat"
>>> tokenizer = AutoTokenizer.from_pretrained(model_path)
>>> model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
>>> model.generation_config = GenerationConfig.from_pretrained(model_path)
>>> model = model.eval()
>>> history = [{"role": "user", "content": "1955年谁是美国总统?他是什么党派?"}]
>>> response = model.chat(tokenizer, history)
>>> print(response)
1955年的美国总统是德怀特·D·艾森豪威尔,他是共和党的成员。
>>> history.append({"role": "assistant", "content": response})
>>> history.append({"role": "user", "content": "他任职了多少年"})
>>> response = model.chat(tokenizer, history)
>>> print(response)
德怀特·D·艾森豪威尔在1953年到1961年担任美国总统,所以他任职了8年。
网页 Demo
通过以下代码启动一个 web server,在浏览器输入访问地址后,可使用 Chat 版模型对话:
python chat_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/'
模型量化
支持两类量化来大幅降低模型加载所需显存。
INT8 量化:
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-7B-Chat", torch_dtype=torch.bfloat16, trust_remote_code=True)
model = model.quantize(8).cuda()
INT4 量化:
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-7B-Chat", torch_dtype=torch.bfloat16, trust_remote_code=True)
model = model.quantize(4).cuda()
下表对比了不同量化等级下模型的显存占用以及 MMLU 准确率:
模型微调
支持微调来达到更好性能表现。比如尝试 LLaMA Efficient Tuning 与 XVERSE-7B 兼容性微调训练,并在8 * Nvidia A800 80 GB + DeepSpeed 环境下测试,以下为模型全量微调具体方法。
环境准备
下载 LLaMA Efficient Tuning 项目并按其要求安装依赖。
启动训练
训练启动脚本:
其中 model_path 请替换为自己的模型路径。
XVERSE-7B 和 XVERSE-7B-Chat 都是基于 bfloat16 训练的,建议选用 bfloat16 做微调训练。
deepspeed --num_gpus=8 src/train_bash.py \
--stage sft \
--model_name_or_path model_path \
--do_train \
--dataset alpaca_gpt4_en \
--template default \
--finetuning_type full \
--output_dir output_model_path \
--overwrite_cache \
--per_device_train_batch_size 4 \
--per_device_eval_batch_size 4 \
--gradient_accumulation_steps 4 \
--preprocessing_num_workers 16 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 200 \
--eval_steps 200 \
--learning_rate 2e-5 \
--max_grad_norm 0.5 \
--num_train_epochs 2.0 \
--evaluation_strategy steps \
--load_best_model_at_end \
--plot_loss \
--bf16 \
--padding_side right \
--deepspeed deepspeed.json
deep_speed.json 参数配置:
{
"train_micro_batch_size_per_gpu": "auto",
"gradient_accumulation_steps": "auto",
"gradient_clipping": "auto",
"zero_allow_untested_optimizer": true,
"bf16": {
"enabled": true
},
"zero_optimization": {
"stage": 2,
"allgather_partitions": true,
"reduce_scatter": true,
"overlap_comm": false,
"contiguous_gradients": true
}
}
关于我们
元象 XVERSE 于 2021 年初在深圳成立,是国内领先的 AI 与 3D 技术服务公司,致力于打造 AI 驱动的 3D 内容生产与消费一站式平台,愿景为“定义你的世界”。
元象累计融资金额超过 2 亿美元,投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和CPE源峰等。元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。
在 3D 与 AI 技术领域,元象拥有深厚积累与完整布局(见下图)。在 3D 领域,已自主研发出行业引领性的“端云协同” 3D 互动技术,开创零门槛(轻)、一站式(快)、高品质(美)全新 3D 体验;在 AI 领域,开源百亿参数多语言通用大模型,为同尺寸效果最佳,并可免费商用,旨在推动大模型国产可替代与行业应用发展。
文本 | 语音 | 图片 | 3D场 | 3D人 | 3D物 |
---|---|---|---|---|---|
物体生成 | |||||
手势生成 |
元象已为多家龙头企业提供一站式技术服务,包括:澳门大三巴、南京大报恩寺、腾讯音乐、央视、一汽大众、阿迪达斯、邮储银行等。
官网:www.XVERSE.cn