今天,阶跃星辰正式发布万亿MoE大模型|甲子光年
国产大模型跑出了“阶跃速度”。
作者|赵健
今年的世界人工智能大会(WAIC),“大模型”含量极高,既有已发布模型的集中展示,也有大模型的首发亮相。
其中,阶跃星辰是模型更新迭代最大的大模型公司之一。
这家在今年3月才浮出水面的国产大模型公司,一口气发布了三款大模型,包括:Step-2万亿MoE语言大模型正式版、 Step-1.5V多模态大模型、Step-1X图像生成大模型。阶跃星辰的Step系列通用大模型荣获WAIC 2024 SAIL之星奖项。
同时,阶跃星辰还与上影合作,在WAIC现场发布了《大闹天宫》AI 互动体验——“测测你是哪路神仙”。
如此一来,阶跃星辰成为国内极少数同时布局大语言模型与多模态大模型,并且模型产品已经正式发布的AI公司,多模态理解和生成的统一布局,也被包括阶跃星辰在内的很多AI从业者看作是通往AGI的必经之路。
从公司亮相至今短短100多天的时间里,阶跃星辰跑出了“阶跃速度”,迅速跻身于国产大模型的第一梯队。
1.万亿模型俱乐部
阶跃星辰本次发布的万亿参数大模型是一个重头戏,放眼全球也屈指可数。
今年3月阶跃星辰首次亮相的Step-1是一个千亿参数的稠密(Dense)模型,而本次发布了Step-2则是一个万亿参数的MoE模型。
“稠密”与“MoE”是描述大模型参数的两种技术路径。稠密模型的参数量与实际运行参数是1:1的关系,在推理时输入的token会把所有参数都运行一遍;而MoE模型的实际运行参数只有总参数的1/4或者1/8,以此来提高推理的效率。
关于两者的更细微的区别,不妨直接问一下阶跃星辰推出的对话助手产品「跃问」:
今天,在Scaling Law的指导下,大模型的参数量越做越大已经是一个确定性的趋势。但是从千亿到万亿的跨越,到底应该采用稠密模型还是MoE模型?
阶跃星辰CEO姜大昕认为,想把模型参数扩大到万亿的话,MoE几乎是一个必选项。就像做科研或者做工程,很多决策就是各个维度之间的最佳平衡,MoE也是在性能、参数量、训练成本、推理成本这些维度权衡下的最佳选择。
法国的Mistral,马斯克的xAI,都发布了MoE架构的千亿级别大模型。今年3月,黄仁勋在GTC大会上披露了OpenAI最大的模型参数为1.8万亿,侧面证实了GPT-4的参数,该参数量也意味着GPT-4是一个MoE架构的大模型。
如何训练MoE模型?目前业内主要有两种方式,一种是基于已有模型通过upcycle(向上复用)开始训练,一种是完全从0开始训练。
第一种upcycle的方式对算力的需求更低、训练效率更高,但上限更小。比如基于拷贝复制得到的MoE模型容易造成专家的同质化严重;如果选用第二种方式从头开始训练,虽然训练难度高,但能获得更高的模型上限。
姜大昕此前在接受「甲子光年」采访时表示,从千亿模型到万亿模型,所遇到的挑战是前所未有的。万亿MoE模型的训练方法是一个蓝海,几乎没有公开的资料可以参考。阶跃星辰在训练万亿MoE模型时,算法与Infra的团队几乎是7x24小时在线,以第一时间处理遇到的任何问题。
阶跃星辰团队在设计Step-2 MoE架构时候选择了迎难而上,完全自主研发从头开始训练。通过部分专家共享参数、异构化专家设计等创新MoE架构设计,Step-2中的每个“专家模型”都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分稠密模型。
Step-2万亿参数大模型在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近GPT-4,迈入了国际顶尖模型的行列。
2.多模态是通往AGI的必经之路
除了语言大模型之外,阶跃星辰还发布了两款多模态大模型,同样表现出色。
Step-1.5V是一款千亿参数多模态大模型。相比于三个月前发布的Step-1V,Step-1.5V不仅在图像感知与理解能力上全面提升,还具备了出色的视频理解能力。目前,业内除了OpenAI的GPT-4o、谷歌Gemini之外,鲜少有大模型具备视频理解能力。
不同于只用图像数据做训练,Step-1.5V采用了图文混排的训练方法,使其能够理解复杂图表、流程图、准确感知物理空间复杂的几何位置,同时也能够处理高分辨率和极限长宽比的图像。
在视频理解能力上,Step-1.5V不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪。
Step-1.5V大幅提升的推理能力,原因在于将万亿参数的语言大模型作为老师。Step-1.5V可以根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。
除了升级版的Step-1.5V,阶跃星辰还首次发布了图像生成大模型Step-1X,补齐了理解之外的生成能力。
Step-1X图像生成大模型采用全链路自研的DiT(Diffusion Models with transformer)模型架构,该架构也是OpenAI的视频大模型Sora采用的技术路线。
Step-1X支持600M、2B、8B三种不同的参数量,满足不同场景的需求。600M模型适合对于速度敏感的轻量级场景;2B模型是日常的主力模型,做到了效果和速度的完美平衡;8B模型是追求更高效果的更极致的模型。
Step-1X有更好的文本prompt和生成图片的语义对齐能力、指令跟随能力,同时针对中国元素的深度优化,更适合国人的审美风格。在WAIC现场,阶跃团队还针对中国动画风格《大闹天宫》进行了视频生成能力的展示。
在互动中,用户需要上传一张个人照片并与大模型生成的剧情进行选择和交谈,算法会识别照片的特征,将特征结合《大闹天宫》的画风和角色进行风格迁移生成新的肖像,同时根据用户的选择和回答进一步分析用户的“MBTI”人格,给用户在天庭“安排”一个差事,整体交互过程有趣且极具个人特色。
《大闹天宫》AI互动体验的背后调用了多个阶跃星辰自研的Step系列大模型,融合了图像理解、风格迁移、图像生成、剧情创作等多种能力。例如,在初始角色生成时,系统首先会判断用户上传的照片是否符合‘捏脸’要求,然后用非常《大闹天宫》的语言风格灵活给予反馈。这里就体现了模型的图片理解能力和大语言模型的能力。
阶跃星辰联合上海电影共同推出的这款AI互动游戏,将最先进的AI大模型技术与《大闹天宫》情境深度融合,用当代全新视角领略中国传统文化的魅力、回顾经典动画作品艺术成就,同时也为广大创作者打开无线的想象空间。
基于Step系列大模型,阶跃星辰通过自研产品和生态合作产品逐渐形成丰富的产业应用生态圈,除了内容领域,阶跃星辰在金融、网络文学、知识服务、游戏、数字人、影视等领域已与合作伙伴达成深度合作,共同探索面向C端用户的创新应用。
通过自研产品与生态合作,阶跃星辰正在走出一条独具特色的国产AGI之路。
(封面图来源:阶跃星辰)
END.