元象推出 70 亿参数通用大模型 XVERSE-7B，保持高性能、全开源、免费可商用

元象XVERSE 2023-12-09

元象推出 70 亿参数通用大模型 XVERSE-7B 底座与对话版，保持高性能、全开源、免费可商用，让海量中小企业和 AI 开发者能以低成本用上高性能大模型，推动中国大模型生态建设。

与 8 月开源的 XVERSE-13B 相比，7B 版本主打“小而美”：它支持在单张消费级显卡部署运行，推理量化后最低只需 6GB 显存，大幅降低开发门槛和推理成本；继续保持高性能，在多个权威基准测评中表现出色，中英文能力超越了 Llama-2 、Baichuan2 等同尺寸开源模型代表，部分能力还“跳级”赶超了13B、16B等更大尺寸模型。

使用 5 shot 方法测试

在多项权威测试中表现出色

● XVERSE-7B 是在 2.6 万亿 tokens 高质量多语言数据上从头训练的底座模型，具有强大的认知、规划、推理和记忆能力。其上下文窗口长度为 8192 ，支持中、英、俄、法等40多种语言。

● XVERSE-7B-Chat 是底座模型经 SFT 指令精调后的中英文对话模型，大幅提升了理解和生成内容的准确度，也更符合人类的认知偏好。

元象通用大模型目前有 7B 与 13B 两个系列，基本满足了中小企业、科研机构和个人开发者的主流应用和迭代需求；元象也持续追求其高性能表现，进一步提高小尺寸模型的能力上限，为不同行业应用赋予广阔可能。我们期待多方携手，共同开创大模型商用新纪元！

元象通用大模型 XVERSE 系列

加入元象大模型团队

简历发送至：join@xverse.cn

商业合作

请微信添加：muyixuanlin

媒体沟通

请联系：万琳 linwan@xverse.cn

多平台下载

Github

https://github.com/xverse-ai/XVERSE-7B

Hugging Face

https://huggingface.co/xverse/XVERSE-7B

https://huggingface.co/xverse/XVERSE-7B-Chat

魔搭社区

https://modelscope.cn/models/xverse/XVERSE-7B/summary

https://modelscope.cn/models/xverse/XVERSE-7B-Chat/summary

联系邮箱

opensource@xverse.cn

快速使用

环境安装

下载本仓库：

git clone https://github.com/xverse-ai/XVERSE-7Bcd XVERSE-7B

使用 pip 安装依赖：

pip install -r requirements.txt

Transformers 加载方式

通过以下代码加载 Chat 版模型对话：

>>> import torch>>> from transformers import AutoTokenizer, AutoModelForCausalLM>>> from transformers.generation.utils import GenerationConfig>>> model_path = "xverse/XVERSE-7B-Chat">>> tokenizer = AutoTokenizer.from_pretrained(model_path)

>>> model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')

>>> model.generation_config = GenerationConfig.from_pretrained(model_path)>>> model = model.eval()>>> history = [{"role": "user", "content": "1955年谁是美国总统？他是什么党派？"}]>>> response = model.chat(tokenizer, history)>>> print(response)1955年的美国总统是德怀特·D·艾森豪威尔，他是共和党的成员。>>> history.append({"role": "assistant", "content": response})>>> history.append({"role": "user", "content": "他任职了多少年"})>>> response = model.chat(tokenizer, history)>>> print(response)德怀特·D·艾森豪威尔在1953年到1961年担任美国总统，所以他任职了8年。

网页 Demo

通过以下代码启动一个 web server，在浏览器输入访问地址后，可使用 Chat 版模型对话：

python chat_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/'

模型量化

支持两类量化来大幅降低模型加载所需显存。

INT8 量化：

model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-7B-Chat", torch_dtype=torch.bfloat16, trust_remote_code=True)

model = model.quantize(8).cuda()

INT4 量化：

model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-7B-Chat", torch_dtype=torch.bfloat16, trust_remote_code=True)

model = model.quantize(4).cuda()

下表对比了不同量化等级下模型的显存占用以及 MMLU 准确率：

模型微调

支持微调来达到更好性能表现。比如尝试 LLaMA Efficient Tuning 与 XVERSE-7B 兼容性微调训练，并在8 * Nvidia A800 80 GB + DeepSpeed 环境下测试，以下为模型全量微调具体方法。

环境准备

下载 LLaMA Efficient Tuning 项目并按其要求安装依赖。

启动训练

训练启动脚本：

其中 model_path 请替换为自己的模型路径。

XVERSE-7B 和 XVERSE-7B-Chat 都是基于 bfloat16 训练的，建议选用 bfloat16 做微调训练。

deepspeed --num_gpus=8 src/train_bash.py \ --stage sft \ --model_name_or_path model_path \ --do_train \ --dataset alpaca_gpt4_en \ --template default \ --finetuning_type full \ --output_dir output_model_path \ --overwrite_cache \ --per_device_train_batch_size 4 \ --per_device_eval_batch_size 4 \ --gradient_accumulation_steps 4 \ --preprocessing_num_workers 16 \ --lr_scheduler_type cosine \ --logging_steps 10 \ --save_steps 200 \ --eval_steps 200 \ --learning_rate 2e-5 \ --max_grad_norm 0.5 \ --num_train_epochs 2.0 \ --evaluation_strategy steps \ --load_best_model_at_end \ --plot_loss \ --bf16 \ --padding_side right \ --deepspeed deepspeed.json

deep_speed.json 参数配置：

{ "train_micro_batch_size_per_gpu": "auto", "gradient_accumulation_steps": "auto", "gradient_clipping": "auto", "zero_allow_untested_optimizer": true, "bf16": { "enabled": true }, "zero_optimization": { "stage": 2, "allgather_partitions": true, "reduce_scatter": true, "overlap_comm": false, "contiguous_gradients": true }}

关于我们

元象 XVERSE 于 2021 年初在深圳成立，是国内领先的 AI 与 3D 技术服务公司，致力于打造 AI 驱动的 3D 内容生产与消费一站式平台，愿景为“定义你的世界”。

元象累计融资金额超过 2 亿美元，投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和CPE源峰等。元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。

在 3D 与 AI 技术领域，元象拥有深厚积累与完整布局（见下图）。在 3D 领域，已自主研发出行业引领性的“端云协同” 3D 互动技术，开创零门槛（轻）、一站式（快）、高品质（美）全新 3D 体验；在 AI 领域，开源百亿参数多语言通用大模型，为同尺寸效果最佳，并可免费商用，旨在推动大模型国产可替代与行业应用发展。

文本	语音	‍图片	3D场	3D人	3D物
大模型	空间音频	文生图	大世界	视频动捕	物体生成
	歌声合成	图生图	路网	歌生舞蹈
			NeRF	手势生成

元象已为多家龙头企业提供一站式技术服务，包括：澳门大三巴、南京大报恩寺、腾讯音乐、央视、一汽大众、阿迪达斯、邮储银行等。

官网：www.XVERSE.cn

继续滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

元象推出 70 亿参数通用大模型 XVERSE-7B，保持高性能、全开源、免费可商用

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

生成图片，分享到微信朋友圈

元象推出 70 亿参数通用大模型 XVERSE-7B，保持高性能、全开源、免费可商用

您可能也对以下帖子感兴趣