叮!你有一封大模型直播训练邀请函!
夏始春余,叶嫩花初。时光来到2022年的初夏,宜居家,宜潜心科研,在忙碌的工作之余,不妨劳逸结合,来看一场当下最火热话题的直播——一场开源大模型训练直播。
说到大模型,你会想起什么?
我们会想起大模型令人惊艳的效果,我们会想起2020年Open AI推出千亿级参数的GPT3、2021年英伟达与微软联合发布了5300亿参数的Megatron-Turing、2022年5月Meta推出可以开放下载的大模型OPT……
- GPT3展示Demo
我们也会想起大模型的训练过程所需要昂贵的算力与成本,多机通信、并行计算所带来的挑战与考验,尚未完全探明的大模型理论与工作原理……越来越高的算力与人才要求,让大模型逐渐成为大公司和科研机构的角力场。
置身大模型时代的火热浪潮中,我们每个人又能做些什么?
诚然,目前大模型的训练过程仍然依赖集中的大规模算力与数据,呈现出一定的“中心化”。但通过提示学习、持续学习、知识继承相关技术,我们可以通过监督模型训练进度,实时调整模型的训练数据、训练任务甚至参数规模,借助开源开放的倡议形式,我们每个人的意见都有可能融入到模型的持续学习过程中,在训练过程中发挥更加重要的作用。
为此,OpenBMB将依托开源社区开展一场实验性的模型直播训练,即开源大模型CPM-Live直播训练。我们已经初步做好了前期准备工作,在这里希望和你一道,共同经历充满未知的科研之旅。旅途的最终目的地,由我们共同来定义,沿途遇到的种种挑战,让我们一起来面对。
CPM-Live训练将使用OpenBMB开源的大模型全流程加速工具包。简单介绍一下这些“神器”:
综合考虑数据和算力规模,CPM-Live将以10B模型训练为起点,我们将其命名为CPM-Ant 🐜。“蚂蚁”虽小,五脏俱全,虽然现在的模型还不是“巨无霸”,但我们有信心在大家的共同努力下,CPM-Live后续模型成长为Panda(熊猫 🐼)、Elephant(大象 🐘)、乃至Dinosaur(恐龙 🦖)。
我们将尽可能地提供初期的运行算力、进行基础的模型设计、准备充足的训练数据,让CPM-Ant有一个较好的“冷启动”。而CPM-Ant最终将去向何方,将由社区内的每一名成员共同决定。
- 社区共同决定CPM-Ant的训练之旅
进入我们的官方网站 https://live.openbmb.org,开始CPM-Live的探索之旅!
- CPM-Live官方网站
CPM-Ant训练将于5月29日正式开启,如果想了解更多内容,不妨看看我们的计划书吧!
CPM-Live注定会是一次开放而多彩的旅途,希望感兴趣的你能够加入,我们将珍视每一份意见与反馈。我们会直面训练过程中遇到的困难与挑战,不管最后成果如何,我们坚信这都会是一次大模型民主化的有效尝试,大模型时代浪潮中翻卷的一朵浪花。
最后,感谢你的耐心阅读,让我们和CPM-Live一起成长!