手机就能运行，1万亿训练数据！StableLM-3B-4E1T来啦

Original AIGC开放社区 AIGC开放社区 2023-10-20

收录于合集

专注AIGC领域的专业社区，关注OpenAI、百度文心一言等大语言模型（LLM）的发展和应用落地，关注LLM的基准评测和市场研究，欢迎关注！

美东时间10月2日，著名开源平台Stability.ai在官网宣布，推出开源大语言模型StableLM-3B-4E1T。（开源地址：https://huggingface.co/stabilityai/stablelm-3b-4e1t）

据悉，Stable LM 3B是一款主要面向手机、笔记本等移动设备的基础大语言模型，在保证性能的前提下，极大降低了算力资源的要求。

Stable LM 3B支持生成文本/代码、总结摘要、数据微调、常识推理、解答数学题等功能，全局上下文长度为4096。（简称“Stable LM 3B”）

随着ChatGPT的火爆出圈，全球掀起了轰轰烈烈的“大模型开发热潮”。但多数模型皆需要耗费大量算力资源才能预训练、微调，同时对开发的生成式AI应用的运行环境也有很高的要求。高通更是发布了专门针对移动端的生成式AI芯片，以解决算力问题。

Stability.ai希望通过开源Stable LM 3B，帮助那些没有庞大算力资源的开发者，也能打造小巧精悍的生成式AI产品，可以安全、稳定地在移动端运行。

Stable LM 3B训练数据集

虽然该模型只有30亿参数，却使用了一个包含文本、代码、维基百科、ArXiv、图书、C4等多种数据的1万亿tokens庞大的训练数据集。

该数据集由多个开源的大规模数据集经过筛选混合而成，包括Falcon RefinedWeb、RedPajama-Data、The Pile以及 StarCoder等。

这使得Stable LM 3B以更少的资源，性能却超越同等规模模型，甚至比一些70亿、100亿参数的大模型更强。

Stable LM 3B训练流程

Stable LM 3B以bfloat16精度训练972k起步，全局上下文长度为 4096，而不是像 StableLM-Alpha v2 那样从 2048 到 4096 进行多阶段提升。

Stability.ai使用了AdamW进行性能优化，并在前4800步使用线性预热，然后采用余弦衰减计划将学习率降至峰值的4%。

早期的不稳定性归因于在高学习率区域的长期停留。由于模型相对较小，没有采用dropout。

在训练过程中，Stability.ai评估自然语言基准，并在学习率衰减计划的尾声阶段，观察到训练带来的稳步提升。基于这个原因，开发人员决定将学习率线性降低至0，类似于Zhai等人的做法，以期获得更好的性能。

此外，在预训练的初始阶段依赖于 flash-attention API及其开箱即用的三角因果屏蔽支持。这迫使模型以类似的方式处理打包序列中的不同文档。

在冷却阶段，Stability.ai在并发实验中凭经验观察到样本质量提高（即：减少重复）后，为所有打包序列重置 EOD 标记处的位置ID和注意掩码。

硬件方面，StableLM-3B是在Stability AI的算力集群上训练的。该集群包含256个NVIDIA A100 40GB显卡。训练开始于2023年8月23日，大约消耗了30天完成。

性能测试方面，StableLM-3B在零样本的lm-evaluation-harness评估框架中，进行了性能测试。结果显示，性能完全不输70亿参数的模型，甚至比一些100亿参数的更强。

本文素材来源Stability.ai官网，如有侵权请联系删除

END