科大讯飞刘聪:假如对大模型算法没把握,错一个东西,三个月就过去了
丨谭婧在现场
10月24日上午,坐标安徽合肥体育中心,2023全球1024开发者节开幕。可容纳万人的主体育场里座无虚席,观众们聚精会神,像关注体育赛事一样观看一场科技盛会。
会上,科大讯飞正式发布讯飞星火认知大模型V3.0,和华为共同推出的大模型算力平台也揭开面纱——“飞星一号”,同时启动更大参数规模的星火大模型训练,预计2024年上半年实现对标GPT-4。
自始至终,无论是科大讯飞董事长刘庆峰,还是科大讯飞研究院院长刘聪,他们都在强调一个事实:
目前,国内与国际顶尖大模型对比还存在综合实力、平台能力等差距,要正视差距,并且以最先进水平为目标,奋起直追。
比起在C-Eval榜单排名靠前,且把GPT-4“挤出”榜单前十,并对此特意宣传的团队来说,科大讯飞两位重量级演讲人都表现出开诚布公与推诚相待。
刘庆峰董事长的原话是:“跟GPT-4比,我们还有要学习的地方,还有一个奋斗努力的过程。”
“奋斗努力”这件事,字越少,事越大。
而“亲爱的数据”在与刘聪院长的进一步交流中,他谈道:“假如对大模型算法没把握,错一个东西,三个月就过去了。”
在他这句表达的背后隐含着对训练技巧关键所在的熟悉与了解。
据谭老师了解,因训练周期天然属性使然,刘聪院长谈到的数字是确数,不是一个夸张的比喻。
他的话很清楚地表达出大模型训练中的高风险,以及走错路后要付出的高昂代价。从一个侧面反映出训练大模型的真实难度;也反映出按既定时间节点如期完成任务的挑战性。
再则,大模型高水平实战经验等于直接省大钱,毫不为过。
发布会现场,除了坦诚之外,刘庆峰董事长的演讲充满激情,显得对明年上半年追上GPT-4胸有成竹。
(一)最先进的底座模型(LLM)
“哪有什么百模大战?(反问语气)”是谭老师一直以来的观点。
“百模大战”是停留在新闻标题上的一个有误导性说法。从技术角度,将底座模型(LLM),开源微调模型,行业垂直模型等不同类型大模型放在一起比较。相当于把不在一个难度级别的事物强拉在一起比较。
这种“有名字都算”的盘点办法,让“百模大战”最后谁能取胜,成为一个伪命题。
殊不知,一部分模型可能是用基础性开源模型微调而来,尤其是模型在不开放测试,或者不开源代码,只有新闻通稿和市场发布会的情况下。
为什么不适合放在一起PK?
有的是历经大语言模型构建的四个主要阶段(预训练、有监督微调、奖励建模和强化学习)的大模型。
还有的是在开源大模型上“微调”。
从头预训练大模型的经验会积累大量训练技巧,这是持续创新的基础,十分珍贵。而直接用现成大模型加行业数据微调,本质上,相对缺少研发过程,还是在使用别人的现成产品。
这两种类型的大模型的较量,从技术角度讲不是一个量级。
然而,不能矫枉过正的是,技术含量上虽有高低之分,但模型使用价值又是另外一回事,面对不同的市场业务需求,需要不同的对应方法。比如,讯飞联合行业龙头共同发布12个行业大模型,加速产业落地。
关键在于,企业级技术服务服从于市场需求,仅强调技术单一维度并不可取。
现在处于稳定竞争阶段,也是基座模型比拼的重要阶段,我们聊回到技术。
“百模大战”这种说法给人一种误导,看样子上上下下干得热闹,似乎有重复建设,用力过猛,努力过剩之嫌。实际上,真正下决心和有实力“炼”大模型的厂商屈指可数。
竞争在头部高度集中,其他选手连陪跑都算不上。
那些“号称在炼”的厂家,有夸大自身技术实力、刷存在感的嫌疑。
更有甚者在优秀的开源大模型LLAMA2“问世”后已经默默放弃了。“百模大战”不如说是“起名大赛”,典谟训诰的书页都被翻烂了。
发布大模型广而告之,谁放弃了会张扬?
一条少有人走的路,有人假装在走。
而一些愿意参与大模型生态的开发者,更被误导到一条歪路上。
技术圈存在一种风气,觉得除了“卷”大模型,此外其他东西都没有技术含量,没有深度,不屑于做;
而美国的一些开发者反应快速而务实,比如大模型知名工具LangChain,将提示词(Prompt)的管理和编排做得很好,是个“拼接”小能手,并且LangChain还有很多实用的玩法,就不一一展开。
一些轻巧创新的“小部件”推动大模型的生态向繁荣发展,并且能够更好更快地探索大模型的用处,而大模型的用处急需各行各业的“脑洞”和“奇思妙想”。
科大讯飞董事长刘庆峰在讨论大模型真正价值时候,就指出:“面向社会刚需,应用为王。”
说到底,全球范围内比拼的是:在技术不落后于人的基础上,大模型用处越多越好。
真正地训练一个千亿或者万亿参数规模的的国产大模型,是异常艰难的长途跋涉,尤其是在当下的外部资源条件恶劣的情况下。
混淆令那些真正在探索国产技术路线、敢于投入的人损失了应有的尊重。尊严倒是其次。这种误导会增加交易成本,资源需流动到急用之处。
在这一点上,刘聪院长的观点是,“所谓”的百模大战,真正做通用大模型(讯飞的提法是1),再加N(大模型落地领域N)的参赛选手,肯定没有那么多。大浪淘沙,最后只会剩下极少数头部玩家。
底座能力在头部玩家中比拼。
从2023年2月开始,竞争形势几经变化,这个阶段竞争的里程碑在哪里?
刘聪院长给出的答案是:“从现在到年底,或者再往后推,最终会逐步产生分化。从真正的,全面对标GPT-3.5到对标GPT-4,哪家国产大模型最先做到,这是一个关键节点。”
他的语气特别强调:“不是单点达到GPT-3.5的单项指标,单点到达没有意义。”
极力提高模型能力是头部厂商一致追求,而对大模型能力维度的理解,头部厂商之间会有所不同。
另一家头部厂商的“定义”则是用理解、生成、逻辑和记忆能力四大维度作为衡量指标。科大讯飞的定义是七大能力:文本生成,语言理解,知识问答,逻辑推理,数学能力,代码能力,多模态能力。
为什么讯飞的定义相对更详细呢?
刘聪院长谈道:“就以多语言这个维度为例,做通用人工智能,我们曾反复强调不是只做中文大模型。你连英文能力都不具备,那叫什么通用?未来大模型能力肯定会拓展到其他多语种。”
从未来发展大趋势来讲,
第一个最重要是底座模型,第二个是算力,第三个是应用落地,第四个是生态。
真正的竞争,存在于真正的竞争对手之间。
(二)多模态技术路线
两个月前的8月15日,也就是讯飞星火认知大模型V2.0升级发布之日,代码能力和多模态能力升级。
当时,多模态这个技术路线,很多人还没有意识到其重要性,虽然多位业内顶级专家均表态过:多模态是通用人工智能必经之路。
而在9月25日,微软公布GPT-4V (ision) 的166页技术报告,才消除一些业界争论。大语言模型预训练方法整体上趋于稳定,而多模态技术路线仍有很多“未解之谜”。
虽然GPT-4V (ision)给出了一些参考答案,但是若要在此后再跟进多模态技术的团队,也彻底丧失了先机。更糟糕的是,依然面临较多不确定性,更不要谈多模态训练数据规模可能10倍于文本数据。
技术维度分,刘聪院长把模型类型分为四种:
第一类,认知大模型。ChatGPT先以语言大模型为核心, 从底座模型衍生出行业大模型。语义为主,视觉为辅。这类参数规模较大。
第二类,做视觉大模型,文生图是较为广泛的应用。参数规模不如第一类大。
第三类,语音大模型,讯飞已经在做了,会在合适的时间给大家揭晓。
第四类,说法较多,存在争议,个别模型较为出名,比如天气预报大模型,蛋白质结构预测大模型。这类模型的处理的数据跟前几类数据不大一样,比如,天气预报数据的维度特别高。
刘聪把第四类叫做“特定任务”大模型。
这四类全部都叫大模型。
回顾讯飞的历程,5月6日星火大模型发布的时候,只简单展示了一些多模态能力。而在8月15日发布V2.0那个阶段,讯飞已经形成统一框架,把多模态信息有机地组织起来。
刘聪院长谈道:“星火大模型第一次发布的时候,有人会质疑,讯飞又没做图像,怎么能做得到?其实在五月份的时候就对多模态有一定预判。”
可以看到,讯飞8月15日多模态能力的发布早于GPT-4多模态进展信息的披露。
刘聪院长的观点在我看来,即便是10月24日这个时间段,多模态技术也还在起步阶段,即使是GPT-4V(ision)拥有细颗粒度的理解能力,也有很大提升空间。
这个空间是兵家必争之地。
可以观察到,在多模态这一块的布局,讯飞较早起步,并且预判准确。多模态技术给星火大模型带来效果和能力的加持。
(三)算力和算力平台
大模型对算力极为依赖。
云计算是一种选择,国产AI芯片也是一种选择。但无论选择哪种形式,“大算力”是确定性的。
在这方面,刘聪院长谈道:“客观来说,一两千张卡不够,训练GPT-4需要3000-4000P的算力,也就说万卡级别。
这是准入门槛。
因此,这体现出和跟华为共同发布这个飞星一号平台的一个重要意义”。
刘庆峰董事长则对讯飞与华为攻关团队亲切称呼——联合特战队。
他还谈到一些双方团队合作的细节,两支团队高强度同期配合,通宵彻夜加班也是同步,成了真正意义上的“并肩作战”;
华为团队久在合肥支援,讯飞直接把员工家属接到合肥团聚……
所以,才这次有基于昇腾生态的“飞星一号”平台正式发布。
头部玩家一定会按照既定目标向更大参数规模前进。
并且,算力平台作为大模型基础设施是保障。合作分工上,华为负责底座能力层面,而科大讯飞则更多投入于应用和算法。
预训练新范式兴起,大模型新的软件栈正在形成之中,而算力平台是承上启下的重要一层。
早期尤其需要专门的算力团队提供保障性服务,能为整个研发进程,加速提效,这种合作是非常难得的。
谭老师直言而论,谁和华为合作的早,谁就越早拥有这种优势。
并且,华为新一代昇腾芯片性能参数,星火大模型训练和推理的效率值均属于商业机密,市场上也并无公开参考的先例和数据。
国产算力平台从不好用到好用需要过程。刘庆峰董事长谈道:“算法在新硬件上跑,需要验证结果。”他认为:“如果谁都不往前走一步,且没有能坚定地提供底座的厂商,那始终无法自立自强。”
讯飞对这一投入拿出了一种“非干不可”的态度。
大模型训练到达某个阶段,才有资格迎接下个阶段的挑战,而不是以前的直接复用上一阶段的核心经验,有些难题只有遇到了才知道。
并且,更好效果的小一些的模型会来自大模型的Scale Down。
显然,人工智能老牌玩家在人才和组织研发方面的经验是长期积累而来的,主力研发团队稳定,相互探讨,高效配合,有着精进技术的氛围。
刘聪院长谈到这一点时,颇为轻松,“研究院一千多号人里面有算法、平台、工程,还有一些资源相关的团队,各个方向之间的协同性很好,大家没有内耗。这个东西我觉得它不是短期形成的,是长期的,是讯飞十几年以来积累和传承。”
回到大模型的真正价值点应用上。
这一次,科大讯飞进一步升级智能编程助手iFlyCode2.0,代码能力超越ChatGPT;向科研人员推出了星火科研助手;在擅长的教育领域,发布心理伙伴“小星”,关爱青少年心理健康应用;发布启发互动式英语AI答疑辅学讯飞AI学习机;发布讯飞星火医疗大模型,讯飞晓医APP为个人和家庭提供AI健康助手。此外,讯飞机器人超脑平台升级,并推出大模型+具身智能的人形机器人。
(完)
更多阅读
AI大模型与ChatGPT系列: