查看原文
其他

百度公开12个月打造AI原生应用思路!李彦宏再谈开源大模型!百度智能计算OS万源亮相,百度内部移动生态大变天!

51CTO技术栈
2024-09-06

2024,大家不再卷参数卷测评了,开始卷应用了。但,谁又知道AI原生应用什么样?怎么做?这个学费不好交。

令人兴奋地是,AI大佬李彦宏今天终于现身说法。

4月16日,李彦宏轻装上阵,在百度AI开发者大会一股脑将百度过去一年实践出来的、开发AI原生应用的具体思路和工具全都放出来了。

Robin一口气接连放出了百度三大AI原生应用的开发利器:ModelBuilder、AgentBuilder、AppBuilder,可以说这三个Builder完美弥合了从大模型到应用诞生的鸿沟。一时间现场掌声不断。

“我相信文心大模型将成为中国AI创业者和开发者的首选!”作为国内首发且大模型综合能力极为靠前的文心一言,在应用层面也是布局最早最全面的,李彦宏自信满满:越来越多的应用会建立在文心大模型之上,也期待更多的创业者和开发者加入我们一起去创造未来。


百度第一剑,先斩开源大模型

李彦宏开场致辞,首先亮出了文心一言的成绩单。
 
据介绍,文心一言于去年3月16日正式发布,截至目前用户数已经突破2亿,每天API的调用量突破2亿,服务客户数达到8.5万,利用千帆平台开发的AI原生应用数超过19万。


回顾过往一年,文心4.0的发布是一道分水岭。
 
李彦宏表示,文心4.0之后,百度可以根据需要,剪裁出适合各种场景的更小尺寸模型,并且支持精调和post-pretrain。
 
post-pretrain是一种模型预训练策略,是指基础模型预训练后,继续使用无标记数据对模型进行预训练,旨在提升模型通用语言表达能力。
 
在同等尺寸下,通过post-pretrain的模型,会比直接开源的模型效果更好;在同等效果下,其成本会会更低。
 
在这一参照下,李彦宏给定结论:“开源模型会越来越落后”。


大小模型混用才是王道,开发应用会像拍短视频一样简单

对于大模型本身,李彦宏曾放言:大模型已经够多了,没有必要卷大模型,应该卷应用。
 
如今,他也依然坚持自己的判断:大模型本身并不能直接创造价值,基于其开发的AI原生应用才是市场需求所在。
 
在此前提下,李彦宏重点提到了三个行业关键词。
 
其一,MoE。此处的MoE并非狭义上的机器学习领域的概念“混合专家模型”,指的是更广义上的大小模型的混用。通常来说,只有5%-10%的情景需要大模型,其余30%-40%的情况需要中小模型。
 
李彦宏预判,未来大型的AI原生应用基本都是MoE的。针对不同的应用场景,不依赖一个模型来解决所有问题,判断如何调用大小模型,就形成了MoE混用模式。
 
其二,小模型。小模型推理成本低,响应速度快,在一些特定场景中,经过精调后的小模型,其使用效果甚至可以媲美大模型。通过大模型压缩蒸馏出一个基础模型,然后再用数据去训练。这比从头开始训小模型,效果要好很多,也比基于开源模型训出来的模型,效果、速度和成本表现都更好。
 
目前,百度已经发布了ERNIE Speed,ERNIE Lite、ERNIE Tiny三个轻量级大模型,并将其内置于Model-Builder中,以便为开发者提供更高效灵活的大模型应用方案,以此适应不同场景的需求。

其三,智能体。智能体指的是能够感知环境、进行决策和执行动作的智能实体。在大模型驱动下,以自然语言为交互,可以自主完成复杂任务,在环境中持续学习、实现自我迭代和自我进化。它们可以更大程度地释放人员精力,让人更专注于创造性和决策性的事务。

李彦宏称,大模型和生成式AI将彻底改变开发者群体,“过去开发者用代码改变世界,未来自然语言将成为通用编程语言。”
 
基于文心大模型的智能代码助手Comate,可以推荐代码、生成代码注释、查找代码缺陷、给出优化方案,还可以解读代码库、关联私域知识生成新的代码。

官方信息显示,百度每天新增的代码中,已经有27%是由Comate自动生成的;Comate还与喜马拉雅、三菱电梯等上万家企业合作,生成的代码采纳率达到46%。
 
“今天,你不会写代码,也可以做出一个应用;不用编程,也可以做出一个智能体“,李彦宏表示,未来开发应用就会像拍短视频一样简单,人人都是开发者。


百度已经不满足只做基座,而是要打造一个智能体平台

“人人可开发、人人经营、人人可获益”,其实百度早在去年秋天就在内部投入精力去打造智能体构建平台AgentBuilder,主打高效便捷。

提及智能体(Agent),市面上有许多讨论,李彦宏这次直接点名了Agent,并认为Agent可能是未来离每个人最近、最主流的大模型使用方式,基于强大的基础模型,智能体可以批量生成,应用在各种各样的场景。

作为基于文心大模型的智能体构建平台,AgentBuilder为开发者提供了零代码和低代码两种模式。无论是专业人员还是编码小白,都能快速上手。
 
此外,AgentBuilder不止是开发平台,开发者还可以通过百度生态矩阵分发路径,做到“开发+分发+运营+变现”一体化赋能。
 
开发者的智能体可以通过百度搜索、小度、文心一言、百度地图、车机等多场景、多设备实现分发,未来还将接入商业插件功能,进一步实现商业闭环。

截至目前,已经有3万多个智能体被创建、5万多名开发者和上万家企业入驻。

“打造国内最完整的智能体生态”,百度正当其时!

除了AgentBuilder,李彦宏还介绍了另外两大开发利器AppBuilder和ModelBuilder。它们同样支持开发者开箱即用。
 

早在去年三月,百度推出“千帆大模型平台”时就囊括了AppBuilder和ModelBuilder两部分。
 
如今,AppBuilder工具组件扩增至55个,并上线了“三步生成应用”功能。
 
作为产业级AI原生应用开发平台,AppBuilder封装和预置了开发AI原生应用所需的各种组件和框架,最快只需三步,开发者就可以用自然语言开发出一个AI原生应用。
 
目前大量的开发者已通过AppBuilder生成丰富的AI原生应用,包括智能导购客服、心理咨询助手、营销素材生成、智能数据分析等等。
 
而适用于模型定制的ModelBuilder则是更适合专业开发者使用的工具。
 
ModelBuilder提供了包括文心大模型系列在内的77款精选大模型,内置业内最多的47个数据集和119个产业级Prompt模板。还设置了模型精调样板间,开发者只需要跟着样板间一步一步精调,就能做出一模一样的专业模型。

多模型智能计算OS万源亮相,云原生系统危险了

本次百度AI开发者大会上,还有一个重磅炸弹。

百度集团执行副总裁、百度智能云事业群总裁沈抖冷不防就来了一个大招:智能计算操作系统万源,而且同时支持包括文心一言、第三方大模型在内的77个大模型。

在AI原生时代,算力是至关重要的新质生产力。但是,在运营和管理过程中,智算中心也面临重重挑战:异构算力资源纳管困难、算力调度能力不足、利用率低等等。

沈抖提到,基于国内芯片供应的不确定性,在进行单一任务训练时往往会面临多芯局面。为了更好地调度算力资源、减少性能损耗,百度推出了“万源”。

这是一个强大的操作系统,可以把现有的算力资源发挥到极致来支撑大模型,以有效应对目前国内GPU等算力不确定性的问题。

据沈抖介绍,万源是百度全新发布的一个单一任务一云多芯大模型训练解决方案,解决了当下百卡甚至千卡混合训练场景下性能损耗太大的问题,同时昆仑芯、昇腾、Intel、NVIDA等多种型号的主流芯片,让他们高效绑定在一起就像一块芯片一样工作!

万源OS在框架层面,一手以文心大模型、百舸AI异构计算平台为内核(万卡集群有效训练时长占比高达98.8%,线性加速比95%),一手以ModelBuilder、AgentBuilder、AppBuilder为Shell/Toolkit,让这些极简易用的设计取代云原生系统的复杂性,从而推动加速AI原生应用的爆发。


不得不说,简单是终极的复杂!万源系统做到了!

百度移动大变天,该改名叫AI原生应用部门了

一个时代有一个时代的印记。在AI原生应用时代,百度移动已经焕然一新,百度搜索、百度文库、百度地图在今天的大会上也给出了全新的智能化进展。

百度移动生态部门在今年也化身百度智能体浪潮的先锋官,勇立潮头为业界做了一次最佳示范。

比如全场景语音指令可随时随地高效创作的新文库(据悉,已经有累计1亿+AI用户数,功能使用次数达8亿+),再比如文心一言App升级成了万能搭子(为宝妈宝爸哄娃讲睡前故事,练习英语等,目前已经有30万创作者,40万的智能体,8亿调用量)。

下面是一些精彩画面:


对了,据悉百度营销这块还推出了商家智能体,可以商家全天候地获得线索并服务用户,获得线索的成本直降29%。具体都有哪些行业呢?目前看最受欢迎是教育培训、房产家居、机械设备、商务服务等30多家行业。

同时,百度集团资深副总裁何俊杰还重点推荐了一个电商直播智能体:慧播星,拥有了它简直就像拥有了一支风格各异、舌灿莲花的主播天团。智能问答、智能脚本、智能场控,可谓一站式全天候在线。据悉,目前已经陆续上线了不少明星版本,包贝尔的智能体还获得了带货榜第一名。

 
此外,大家熟知的对话机器人也迎来了重磅升级,DUER OS X发布!据悉它搭载了1.1万个语音智能应用,更细化定制生态层的重构。

AI原生也成为了小度脱离存量竞争的秘钥,如今的小度变得更加聪明、更加freestyle的交互、甚至更主动发起后续的追问、而且声音更拟人、表情也更加丰富。
 

卷应用,但背后仍是大模型进化技术的较量

一年时间,文心大模型得到了快速的进化,从文心一言3.0到现在的集万卡算力、飞桨平台、多维数据、多阶段对齐、可再生训练等多位一体的文心大模型4.0(半年时间又提升了52.5%),再到工具版4.0的推出,这背后都是百度团队交出的高昂学费、踩过无数个坑得出来的不易成果。


此外,百度首席技术官王海峰还介绍了百度团队高效低成本的模型生产心得:大小模型协同训练(知识继承、对比增强技术),高效预训练、精调对齐、模型压缩、推理部署、数据提质与增强方面都有着很多经验沉淀。

在多模型推理方面,百度团队还研制了基于反馈学习的端到端多模型推理技术。


星河已现,强大、敏捷、开放,正是背后百度文心模型的持续创新,才造就了如今百度繁荣AI生态的坚实底座!

这次百度的开发者大会为我们描绘了一个“人人都是创造者”的未来。
 
在AI原生时代,AI已不再仅仅是少数专家的专属领地,而是逐步渗透到千行百业中的普适性工具。
 
无论个体的专业背景、职业角色或技术熟练度如何,随着用户友好的AI开发平台、零代码编程工具等资源的日益丰富和完善,开发门槛显著降低,使得非专业人士也能轻松利用AI技术实现创意落地。
 
日新月异的技术如同坚实的地基,支撑起一座座创新的灯塔,鼓励无数后来者跨越技术边界,打破传统桎梏,共同点亮人类社会的未来星空。

—— 好文推荐——

实力打脸!Adobe用竞品Midjourney图片训练Firefly。内部员工批评不断终爆料。用户:赚了但很惭愧,我上传了数千张
甲骨文宠儿力压GPT-4斩获竞技场首胜,不绑定厂商,不做聊天机器人,Transformer最年轻作者带飞大模型创业新星

继续滑动看下一个
51CTO技术栈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存