查看原文
其他

科大讯飞刘聪:假如对大模型算法没把握,错一个东西,三个月就过去了

亲爱的数据 亲爱的数据 2024-03-26

丨谭婧在现场

1024日上午,坐标安徽合肥体育中心,2023全球1024开发者节开幕。可容纳万人的主体育场里座无虚席,观众们聚精会神,像关注体育赛事一样观看一场科技盛会。

会上,科大讯飞正式发布讯飞星火认知大模型V3.0,和华为共同推出的大模型算力平台也揭开面纱——“飞星一号”,同时启动更大参数规模的星火大模型训练,预计2024年上半年实现对标GPT-4

自始至终,无论是科大讯飞董事长刘庆峰,还是科大讯飞研究院院长刘聪,他们都在强调一个事实:

目前,国内与国际顶尖大模型对比还存在综合实力、平台能力等差距,要正视差距,并且以最先进水平为目标,奋起直追。

比起在C-Eval榜单排名靠前,且把GPT-4“挤出”榜单前十,并对此特意宣传的团队来说,科大讯飞两位重量级演讲人都表现出开诚布公与推诚相待。

刘庆峰董事长的原话是:“跟GPT-4比,我们还有要学习的地方,还有一个奋斗努力的过程。

“奋斗努力”这件事,字越少,事越大。

而“亲爱的数据”在与刘聪院长的进一步交流中,他谈道:“假如对大模型算法没把握,错一个东西,三个月就过去了。

在他这句表达的背后隐含着对训练技巧关键所在的熟悉与了解。

据谭老师了解,因训练周期天然属性使然,刘聪院长谈到的数字是确数,不是一个夸张的比喻。

他的话很清楚地表达出大模型训练中的高风险,以及走错路后要付出的高昂代价。从一个侧面反映出训练大模型的真实难度;也反映出按既定时间节点如期完成任务的挑战性。

再则,大模型高水平实战经验等于直接省大钱,毫不为过。

发布会现场,除了坦诚之外,刘庆峰董事长的演讲充满激情,显得对明年上半年追上GPT-4胸有成竹。

(一)最先进的底座模型(LLM

“哪有什么百模大战?(反问语气)”是谭老师一直以来的观点。

“百模大战”是停留在新闻标题上的一个有误导性说法。从技术角度,将底座模型(LLM),开源微调模型,行业垂直模型等不同类型大模型放在一起比较。相当于把不在一个难度级别的事物强拉在一起比较。

这种“有名字都算”的盘点办法,让“百模大战”最后谁能取胜,成为一个伪命题。

殊不知,一部分模型可能是用基础性开源模型微调而来,尤其是模型在不开放测试,或者不开源代码,只有新闻通稿和市场发布会的情况下。

为什么不适合放在一起PK

有的是历经大语言模型构建的四个主要阶段(预训练、有监督微调、奖励建模和强化学习)的大模型。

还有的是在开源大模型上“微调”。

从头预训练大模型的经验会积累大量训练技巧,这是持续创新的基础,十分珍贵。而直接用现成大模型加行业数据微调,本质上,相对缺少研发过程,还是在使用别人的现成产品。

这两种类型的大模型的较量,从技术角度讲不是一个量级。

然而,不能矫枉过正的是,技术含量上虽有高低之分,但模型使用价值又是另外一回事,面对不同的市场业务需求,需要不同的对应方法。比如,讯飞联合行业龙头共同发布12个行业大模型,加速产业落地。

关键在于,企业级技术服务服从于市场需求,仅强调技术单一维度并不可取。

现在处于稳定竞争阶段,也是基座模型比拼的重要阶段,我们聊回到技术。

“百模大战”这种说法给人一种误导,看样子上上下下干得热闹,似乎有重复建设,用力过猛,努力过剩之嫌。实际上,真正下决心和有实力“炼”大模型的厂商屈指可数。

竞争在头部高度集中,其他选手连陪跑都算不上。

那些“号称在炼”的厂家,有夸大自身技术实力、刷存在感的嫌疑。

更有甚者在优秀的开源大模型LLAMA2“问世”后已经默默放弃了。“百模大战”不如说是“起名大赛”,典谟训诰的书页都被翻烂了。

发布大模型广而告之,谁放弃了会张扬?

一条少有人走的路,有人假装在走。

而一些愿意参与大模型生态的开发者,更被误导到一条歪路上。

技术圈存在一种风气,觉得除了“卷”大模型,此外其他东西都没有技术含量,没有深度,不屑于做

而美国的一些开发者反应快速而务实,比如大模型知名工具LangChain,将提示词(Prompt)的管理和编排做得很好,是个“拼接”小能手,并且LangChain还有很多实用的玩法,就不一一展开。

一些轻巧创新的“小部件”推动大模型的生态向繁荣发展,并且能够更好更快地探索大模型的用处,而大模型的用处急需各行各业的“脑洞”和“奇思妙想”。

科大讯飞董事长刘庆峰在讨论大模型真正价值时候,就指出:“面向社会刚需,应用为王。”

说到底,全球范围内比拼的是:在技术不落后于人的基础上,大模型用处越多越好。

真正地训练一个千亿或者万亿参数规模的的国产大模型,是异常艰难的长途跋涉,尤其是在当下的外部资源条件恶劣的情况下。

混淆令那些真正在探索国产技术路线、敢于投入的人损失了应有的尊重。尊严倒是其次。这种误导会增加交易成本,资源需流动到急用之处。

在这一点上,刘聪院长的观点是,“所谓”的百模大战,真正做通用大模型(讯飞的提法是1),再加N(大模型落地领域N)的参赛选手,肯定没有那么多。大浪淘沙,最后只会剩下极少数头部玩家

底座能力在头部玩家中比拼。

20232月开始,竞争形势几经变化,这个阶段竞争的里程碑在哪里?

刘聪院长给出的答案是:“从现在到年底,或者再往后推,最终会逐步产生分化。从真正的,全面对标GPT-3.5到对标GPT-4,哪家国产大模型最先做到,这是一个关键节点。”

他的语气特别强调:“不是单点达到GPT-3.5的单项指标,单点到达没有意义。”

极力提高模型能力是头部厂商一致追求,而对大模型能力维度的理解,头部厂商之间会有所不同。

另一家头部厂商的“定义”则是用理解、生成、逻辑和记忆能力四大维度作为衡量指标。科大讯飞的定义是七大能力:文本生成,语言理解,知识问答,逻辑推理,数学能力,代码能力,多模态能力。

为什么讯飞的定义相对更详细呢?

刘聪院长谈道:“就以多语言这个维度为例,做通用人工智能,我们曾反复强调不是只做中文大模型。你连英文能力都不具备,那叫什么通用?未来大模型能力肯定会拓展到其他多语种。”

从未来发展大趋势来讲,

第一个最重要是底座模型,第二个是算力,第三个是应用落地,第四个是生态。

真正的竞争,存在于真正的竞争对手之间。

(二)多模态技术路线

两个月前的815日,也就是讯飞星火认知大模型V2.0升级发布之日,代码能力和多模态能力升级。

当时,多模态这个技术路线,很多人还没有意识到其重要性,虽然多位业内顶级专家均表态过:多模态是通用人工智能必经之路。

而在925日,微软公布GPT-4V (ision) 166页技术报告,才消除一些业界争论。大语言模型预训练方法整体上趋于稳定,而多模态技术路线仍有很多“未解之谜”。

虽然GPT-4V (ision)给出了一些参考答案,但是若要在此后再跟进多模态技术的团队,也彻底丧失了先机。更糟糕的是,依然面临较多不确定性,更不要谈多模态训练数据规模可能10倍于文本数据。

技术维度分,刘聪院长把模型类型分为四种:

第一类,认知大模型。ChatGPT先以语言大模型为核心, 从底座模型衍生出行业大模型。语义为主,视觉为辅。这类参数规模较大。

第二类,做视觉大模型,文生图是较为广泛的应用。参数规模不如第一类大。

第三类,语音大模型,讯飞已经在做了,会在合适的时间给大家揭晓。

第四类,说法较多,存在争议,个别模型较为出名,比如天气预报大模型,蛋白质结构预测大模型。这类模型的处理的数据跟前几类数据不大一样,比如,天气预报数据的维度特别高。

刘聪把第四类叫做“特定任务”大模型。

这四类全部都叫大模型。

回顾讯飞的历程,56日星火大模型发布的时候,只简单展示了一些多模态能力。而在815日发布V2.0那个阶段,讯飞已经形成统一框架,把多模态信息有机地组织起来。

刘聪院长谈道:“星火大模型第一次发布的时候,有人会质疑,讯飞又没做图像,怎么能做得到?其实在五月份的时候就对多模态有一定预判。”

可以看到,讯飞815日多模态能力的发布早于GPT-4多模态进展信息的披露。

刘聪院长的观点在我看来,即便是1024日这个时间段,多模态技术也还在起步阶段,即使是GPT-4Vision)拥有细颗粒度的理解能力,也有很大提升空间。

这个空间是兵家必争之地。

可以观察到,在多模态这一块的布局,讯飞较早起步,并且预判准确。多模态技术给星火大模型带来效果和能力的加持。

(三)算力和算力平台

大模型对算力极为依赖。

云计算是一种选择,国产AI芯片也是一种选择。但无论选择哪种形式,“大算力”是确定性的。

在这方面,刘聪院长谈道:“客观来说,一两千张卡不够,训练GPT-4需要3000-4000P的算力,也就说万卡级别。

这是准入门槛。

因此,这体现出和跟华为共同发布这个飞星一号平台的一个重要意义”。

刘庆峰董事长则对讯飞与华为攻关团队亲切称呼——联合特战队。

他还谈到一些双方团队合作的细节,两支团队高强度同期配合,通宵彻夜加班也是同步,成了真正意义上的“并肩作战”;

华为团队久在合肥支援,讯飞直接把员工家属接到合肥团聚……

所以,才这次有基于昇腾生态的“飞星一号”平台正式发布。

头部玩家一定会按照既定目标向更大参数规模前进。

并且,算力平台作为大模型基础设施是保障。合作分工上,华为负责底座能力层面,而科大讯飞则更多投入于应用和算法。

预训练新范式兴起,大模型新的软件栈正在形成之中,而算力平台是承上启下的重要一层。

早期尤其需要专门的算力团队提供保障性服务,能为整个研发进程,加速提效,这种合作是非常难得的。

谭老师直言而论,谁和华为合作的早,谁就越早拥有这种优势。

并且,华为新一代昇腾芯片性能参数,星火大模型训练和推理的效率值均属于商业机密,市场上也并无公开参考的先例和数据。

国产算力平台从不好用到好用需要过程。刘庆峰董事长谈道:“算法在新硬件上跑,需要验证结果。”他认为:“如果谁都不往前走一步,且没有能坚定地提供底座的厂商,那始终无法自立自强。”

讯飞对这一投入拿出了一种“非干不可”的态度。

大模型训练到达某个阶段,才有资格迎接下个阶段的挑战,而不是以前的直接复用上一阶段的核心经验,有些难题只有遇到了才知道。

并且,更好效果的小一些的模型会来自大模型的Scale Down

显然,人工智能老牌玩家在人才和组织研发方面的经验是长期积累而来的,主力研发团队稳定,相互探讨,高效配合,有着精进技术的氛围。

刘聪院长谈到这一点时,颇为轻松,“研究院一千多号人里面有算法、平台、工程,还有一些资源相关的团队,各个方向之间的协同性很好,大家没有内耗。这个东西我觉得它不是短期形成的,是长期的,是讯飞十几年以来积累和传承。”

回到大模型的真正价值点应用上。

这一次,科大讯飞进一步升级智能编程助手iFlyCode2.0,代码能力超越ChatGPT;向科研人员推出了星火科研助手;在擅长的教育领域,发布心理伙伴“小星”,关爱青少年心理健康应用;发布启发互动式英语AI答疑辅学讯飞AI学习机;发布讯飞星火医疗大模型,讯飞晓医APP为个人和家庭提供AI健康助手。此外,讯飞机器人超脑平台升级,并推出大模型+具身智能的人形机器人。

(完)

更多阅读

AI大模型与ChatGPT系列:

1. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?
2. ChatGPT:绝不欺负文科生
3. ChatGPT触类旁通的学习能力如何而来? 
4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进
5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将
6. ChatGPT大模型用于刑侦破案只能是虚构故事吗?
7. 大模型“云上经济”之权力游戏
8.  云从科技从容大模型:大模型和AI平台什么关系?为什么造行业大模型?
9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场?
10. 深聊京东科技何晓冬丨一场九年前的“出发”:奠基多模态,逐鹿大模型
11. 老店迎新客:向量数据库选型与押注中,没人告诉你的那些事
12. 抢滩大模型,抢单公有云,Databricks和Snowflake用了哪些“阳谋”?
13. 大模型“搅局”,数据湖,数据仓库,湖仓选型会先淘汰谁?
14. 微调真香,漫画科技博主竟然在用国产大模型生成系列漫画女主角
15. 美国大模型风向速报(一)为何重视提示工程?
16. AI咆哮后,一个赚大钱的AI+Data公司估值居然430亿美元?
17. 跳槽去搞国产大模型,收入能涨多少?

AI大模型与学术论文系列:
1. 开源“模仿”ChatGPT,居然效果行?UC伯克利论文,劝退,还是前进?
2. 深聊王金桥丨紫东太初:造一个国产大模型,需用多少篇高质量论文?(二)
3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文(一)


漫画系列
1. 是喜,还是悲?AI竟帮我们把Office破活干完了
2. AI算法是兄弟,AI运维不是兄弟吗?
3. 大数据的社交牛气症是怎么得的?
4. AI for Science这事,到底“科学不科学”?
5. 想帮数学家,AI算老几? 
6. 给王心凌打Call的,原来是神奇的智能湖仓
7. 原来,知识图谱是“找关系”的摇钱树?
8. 为什么图计算能正面硬刚黑色产业薅羊毛?
9. AutoML:攒钱买个“调参侠机器人”?
10. AutoML:你爱吃的火锅底料,是机器人自动进货
11. 强化学习:人工智能下象棋,走一步,能看几步?
12. 时序数据库:好险,差一点没挤进工业制造的高端局
13. 主动学习:人工智能居然被PUA了?
14. 云计算Serverless:一支穿云箭,千军万马来相见
15. 数据中心网络数据还有5纳秒抵达战场
16.  数据中心网络:迟到不可怕,可怕的是别人都没迟到
17.  漫画:大模型用于腾讯广告,难在哪?

AI框架系列:
1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)
2.搞AI框架那帮人丨燎原火,贾扬清(二)
3.搞 AI 框架那帮人(三):狂热的 AlphaFold 和沉默的中国科学家
4.搞 AI 框架那帮人(四):AI 框架前传,大数据系统往事
注:(三)和(四)仅收录于《我看见了风暴》。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存