GPT-4o、NotebookLM带来的AI语音新变化，声网们是怎么想的？

Original Founder Park Founder Park

2024-11-27

GPT-4o 的语音演示，引燃了行业对于 AI 产品语音实时交互的想象，完全实时、可随时打断的 AI 助手，正成为新的趋势。

而 Google Labs 推出的 NotebookLM，则让人看到了语音本身，在 LLM 时代，可能会成为新的交互入口的可能性。

推出 RTE 技术（实时互动，Real-Time Engagement）的声网，2024 年无疑站在了这波浪潮的中心。

而当实时互动与大模型开始产生交集，今年的第十届 RTE 大会也呈现出一种前所未有的热闹。

声网创始人兼 CEO 赵斌、Lepton AI 创始人兼 CEO 贾扬清、以及阿里云、MiniMax、面壁智能、Hugging Face 等当下大模型领域的重要参与者都纷纷现身，从 AI 产品的趋势、开源的商业化、大模型的落地以及实时交互的未来，进入了一场深入的探讨。

Founder Park 整理了 RTE 大会上部分嘉宾的精彩观点。

点击关注，每天更新深度 AI 行业洞察

未来十年，

生成式 AI 驱动 IT 行业四个变革

在本次 RTE 大会的主论坛，声网创始人兼 CEO 赵斌基于过去一年声网和大模型领域和 IT 行业同行和合作伙伴的探讨和交流，提出了生成式 AI 能力将会如何改造和影响未来十年甚至二十年 IT 行业进化的四个趋势。

趋势一：终端的进化将以对大模型的能力支持为核心驱动。

「过去相当长的一段时间，智能手机的实际能力已经拉不开代际差。大模型的出现彻底改变了这样的情况，如果把最小的大模型放在手机和 PC 使用，不得不在硬件和软件层面进行很多优化才能勉强让它跑起来，开始支持一些简单的大模型推理能力。这样就带来了一个清晰的需求，未来的十到二十年，无论是 PC 还是智能手机都必然以如何更好地支持大模型能力在端上应用，以及推理能力的成熟和推理性能的提高为主要进化轴线。」

趋势二：所有的软件都可以，也将会通过大模型重新实现。

「去年我们探讨大模型能力对软件的改变时还在讨论，很多软件可以利用大模型和生成式 AI 能力实现更好的效果，或者实现新的特性。但今年随着行业的进化和发展，很多同行逐渐认识到，只是在现有的软件中用大模型能力进行小小的改进和补充是远远不够的，更为根本的是应该思考大模型能力能够实现的所有可能性，以大模型能力为核心重新思考每个领域的软件应该如何设计、如何实现，最终达到一个什么样的使用体验和效果。这些就是从 Software with AI 到 AI Native Software 的根本改变，也会改变行业的技术框架、技术能力进化方式。」

趋势三：所有云都需要具备对大模型的训练和推理能力。

「过去相当长的时间，云服务更多的是添加细节的功能支持、性能的改进以及体验的优化，开发者可能更容易使用，但在大模型能力出现以后，大家很快就突然发现云服务能力不是过于饱和，而是远远不够。无论是推理还是训练，云上集群的并行运算能力和 GPU 算力的需求已经成为整个 IT 行业的核心焦点，也把相关公司推到市值最高的水平。大家可以看到背后带来的趋势，所有的云服务最早期提出的三个基本能力之外，GPU 算力必然成为第四个关键能力，没有这样的能力就很难成为一个真正意义上的大规模公有云服务。」

趋势四：人机界面从键盘、鼠标、触屏变成自然语言对话界面（LUI）。

「对于整个 IT 行业，计算机出现的第一天开始，人机界面就是持续进化的话题。最早的窗口卡片到我们比较熟悉的键盘鼠标，以及眼下最主流的触屏，这些都不如几十年前科幻小说就开始提出的自然语言人机对话界面更为易用、高效，能够提供更好的体验。过去的一年尤其是多模态对话式智能体 Agent 的出现，很快已经开始穿透到 IoT 设备和各种软件，也将极快地改变 IoT 设备的人机界面和电脑手机的使用体验。」

AI 的 6000 亿美元难题，

其实也不难

2023 年 9 月，来自红杉资本的 David Cahn 发表了一篇名为《AI 的 2000 亿美元难题》的文章，这个提问的背后，是当时 AI 基础设施建设的预期收入，和 AI 生态系统的实际收入增长之间，在估算后所显示出的巨大差距。

将近一年之后，David Cahn 的提问变成了《AI 的 6000 亿美元难题》。

AI 的 6000 亿美元怎样落地？应该在什么地方落地？路径到底会怎么样？以此作为契机，Agora 联合创始人 Tony Wang 与 Lepton AI 创始人兼 CEO 贾扬清、MiniMax 合伙人魏伟、面壁智能联合创始人兼 CEO 曾国洋、HuggingFace 工程师王铁震在一场圆桌讨论上从 AI 基础设施聊到 AI 商业化落地，展开了各自的犀利观点。

贾扬清认为，目前可见的两个趋势是，同等质量模型的 Size 会变得越来越小，以及模型架构会变得更加开放和标准。

我其实是一个做 Infra 的人，可能对模型本身没有像两位专家那样专业，但我自己有两个观察：同等质量模型的 Size 会变得越来越小，或者计算效率会变得越来越高，模型架构会变得更加开放和标准。
最开始模型出来的时候，大家永远会把模型 Size 做得越来越大，因为增大模型 Size 是很简单的提升模型质量的效果，但是 At Some Point，大家发现可以做模型蒸馏，让模型 Size 往下跳水。LLAMA 刚出来的时候是 70B，现在 LLAMA3.2 垂直领域 8B 模型就可以达到最早 70B 的效果，其实对应用是一件好事。
因为开源模型和研究会变得越来越多，很多时候大家在进一步 Research 的时候，除了少数几个非常头部的公司以外，可能大家都会越来越多地用开源架构来做下一代模型，就会形成飞轮效应，就是开源架构会变得越来越 Common，虽然训练出来的模型都有自己不同的 Flavor。

在开源模型越来越受到关注的同时，王铁震指出，单纯关注开源和闭源在模型本身上的高低是不公平的。

开源模型并不是最头部的模型，通过开源获取一定声量作为策略，模型发布在 HuggingFace，其实最多就是一堆代码，不是产品。我们比较开源模型和闭源模型的时候，比较的是闭源和开源的模型，这是不公平的。
可以看到现在有越来越多的 Infra 和 Realtime 的项目在出现，未来会有一个趋势，大家不仅需要关注开源模型，也需要关注开源模型的 Infra 和数据闭环，我们可能需要越来越多的 Lepton 和声网这样的平台把开源模型跑得更好更快。就像刚才钟声老师提到的问题，Realtime 需要 TTS、需要大模型，如果能够通过一些方式放在一起，放在边缘侧，放在离用户更近的地方才能产生非常好的效果。大家要是只是自己有开源模型，搞个 GPU 跑一下，开源模型往往和闭源模型的期待会差很多。

看好端侧模型的面壁智能，一直是开源生态中的活跃者，但曾国洋认为开源模型目前还不是那个完美的答案。

未来大家应该会越来越少地提到商业模型，因为最终商业化的都是产品。开源模型相比商业模型一个比较大的优势就在于有比较大的社区，能够更快地迭代，也能够更加容易地把周边的生态建立起来，这也是我们做开源模型的原因。
但是从应用来说，现在很多人都是网上找开源模型，自己业务微调一下就使用了，但模型要做的事情肯定是非常多样的，要是说用开源模型解决所有的事情，我觉得现在还没有到达这个状态。

而对于未来两年 AI 领域可能发生的变化，贾扬清认为，大家很快会忘掉GPU、AI Infra 这样的东西。

现在很多人都想自己去买 GPU，管理 GPU 健康程度甚至自己来搭 Kubernetes，但我在数据库领域什么时候自己写过数据库？十几年没有写过了，我在 Web 服务领域搞过其它板块，什么时候自己管过服务器？只有忘掉最底层的这些实现，作为标准组件来用，效率才能成倍提升。
今天 AI 还没有到这个程度，仍然是非常高端的状态，大家都是从零开始，回到九十年代的 Virtual Private Server 的时代。一些比较前瞻性的 CEO、CTO 突然意识到，为什么我自己要管机器？十几年没管了，所以开始回到市场上寻找标准件解决问题，就是把自己 90% 的精力花在自己真正需要解决的问题，就是怎样 Build 好的 APP 和好的产品。
未来的两年，成本的下降会让大家忘掉今天大家一直在关注的 GPU 的问题，把 AI 标准件嵌入自己的 Application。

MiniMax 合伙人魏伟则提供了一个新的视角，他认为未来一段时间内模型的错误率会继续降低。

模型的效果核心就是降低错误率，因为模型本身有幻觉。错误率降低，应用场景会更多。去年我们看今年，当时也觉得成本会降 10-100 倍，所以对未来的成本应该更乐观。贾老师在，我们可以忘掉 GPU，更大的应用场景也会倒逼底层基础设施的优化。最后就是多种模态的生成和反向理解（上的进步）。

而贾扬清判断，AI 的成本在未来会出现比墨菲定律更陡峭的下降。

墨菲定律基本上就是物理以及工艺制程是相对比较线性的状态，但是 AI 本身就在墨菲定律的基础上获得硬件优化的红利，算法也在不断创新，十年前和二十年前人脸识别是非常难的，现在大家刷脸支付一天都要好几次，我们会看到比墨菲定律更快的成本降低和效率提升。

LLM时代，

模型其实也是产品经理的用户

实时互动的定义在 2020 年从 RTC 转向 RTE，现在又从 RTE 转向现在的 AI RTE。这个过程中内容的模态正在发生巨变，在本次 RTE 大会的 AI 行业专场上，声网 AI RTE 产品线负责人姚光华首先做了分享。

在 2014 年到 2019 年声网的产品是 RTC。RTC 其实是主要专注于实时通话场景下的服务质量保障也就是 QoS。在这个阶段关键词是两个：高保真、传输。我们聚焦的点是确保音频、视频这些内容，通过高质量的传输，从而到达终端用户，终端用户可以非常可靠地完成这个内容消费的整个过程。无论音频通话还是视频会议。
2019 年 QoS 逐渐过度到 QoE。我们产品也从 RTC 变成 RTE，RTE 包含了 RTC、RTM、RTSC，这些核心产品。我们的重心就从整个的服务质量变成了用户体验。其实标志性事件就是在 2020 年发布了 XLA 这样一个协议。从产品视角，QoS 更像为硬件和网络来设计的一个产品的这样一个衡量标准，关键是可用。QoE 站在用户视角看这个体验最后怎么样，关键是用户要用得好，这个从 RTE 开始变成为人设计，这个阶段就是 XLA 时代。

但现在生成式 AI 阶段截然不同。原本文本进文本出、音频进音频出、视频进视频出的模态变化在 AI RTE 时代已经完全向音频进文本出，文本进视频出的多模态传输转向。

在这个阶段发送端和接收端的模态已经发生了实时的互转，也就是跨模态的传输。音频进文本出，文本进视频出，这个已经不是我们停留在脑海里边想象的一个事情，它已经变成一个既定的事实。我们在产品端形态也从 RTC 变成 RTE，变成 AI RTE，从产品视角来看生成式 AI 本身深度参与了实时互动全链路内容质量的变化，有几个简单讲一讲，从端侧开始采集、前处理、编码、发送、传输到接收到解码、到后处理到渲染、播放，这个是 RTC 本身的一个核心 Pipeline 环节。但是由于生成式 AI 生成了内容，把模态进行了转换，所以生产内容质量依赖 AI。
产品设计理念应该从为人设计，而变成为人和模型设计，模型也变成了产品经理的一个用户。

大模型落地企业，

先解决内容安全

经历了一波大降价的大模型，如今已经在很大范围内为企业所用，为企业赋能。智谱在国内服务了不少 B 端的客户，智谱 AI 智慧解决方案负责人吴同带来了一些对于大模型落地的思考。

整体上看，如何去判断一个企业是不是已经准备好迎接大模型了，要看五个方面——数字化程度、测试指标、合理的期待，是否有专人负责大模型项目，以及能否找到合适的场景，去思考用知识库还是知识客服还是什么场景做大模型提效，这才是企业通过一步步积累才能更好地把大模型用得更好。
然后在新的大模型时代下，我们思考企业怎么样构建自己的核心竞争力，我们认为这些新的能力大概分为四大部分。首先必须选一个比较好的模型基座，根据自己应用场景选百亿参数模型、千亿参数模型还是端侧模型。第二需要配备组织，如果组织含 AI 形态，大家很难把大模型用起来，对大模型也有要求，在数据资产积累过程中去探索不同的业务场景大模型能带来哪些提效，这个才能在大模型时代带来一些新的能力。

阿里云智能集团通义千问高级产品架构师辛晓剑分享了更多关于多模态大模型如何落地的洞察。他认为大模型的落地环节首先需要回答的三个关键问题，是数据安全、效果优化以及成本。

数据安全又分为三个领域，第一个是内容安全。即模型的输入输出是否含有有害的内容。这个问题一般会从这样几个方面去入手，第一个是在整个模型训练的环节，一定要把它原始的训练语料里边偏违规、有害的语料去除掉，训练后期用强化方式做偏好的对齐，这是在训练的环节。另外在整个推理环节，一般通过内容安全的产品，去让他的输入和输出去做内容安全的拦截。
第二是内容传输过程的安全。因为今天模型普遍都是公共云服务，公共部署的环境有云上或有云下的，比较复杂。这个时候就需要整个内容传输是在一种私网或者逻辑隔离的环境下传输。对于云的隔离比如所谓的 VPC，云下的传输像专线 VPA 的方式传输。隔离之后还需要内容加密，因为去保证整个传输的效率，往往对于提示词或者内容会采用对称加密的方式，密钥做非对称性加密，来保证传输链路的安全。
最后是整个数据存储的安全。今天有很多知识库，你有你的对象存储，或者有向量数据库，这里要采用加密方式保障整个数据的安全。这些只是数据安全的保障手段，实际上最后还有一个很重要的审计环节，今天我们的模型在云上，数据在云上，这些数据经过什么样操作和行为，数据需要对这些日至获取或审计。这样整体做端到端的一个安全的保障。

模型的效果优化和成本则可以结合起来看。

关于整个推理的成本和效果优化的问题。今天我们对这个模型来进行效果优化，大家可能有很多运营手段，或者去对这个模型进行训练。对模型进行训练的话会发现有不同的任务，他需要对应不同的训练方式。举个例子，今天大家去用模型肯定遇到一个问题，模型输出长度可用性很差，要求输出 10 个字，往往输出 20 个字或 15 个字，传统的方式很难解决，往往通过 CPU 解决效果强化，今天这个场上有很多跟对话、社交、NPC 相关的需求。这种往往你需要引导模型，价值观的导向是跟机模有变化的。
今天训练时往往面临一个问题，你去训练一个垂直领域的任务，但是你会发现模型原有的泛化能力被削弱，这时做数据混合，比如保障逻辑的能力，可能把代码数据或者数学的数据更多地配比进去。最后训练完之后，我们要进行推理，推理的时候你会发现虚拟推理成本很高，你去用独立的 CPU 资源去部署它，小尺寸的 A20 比较多的，大一点的甚至用 A100 的卡。
用 Lora 训练出一个模型文件，可以把 Chosen 调用和计费，这样我们自己测算可以降低 90% 到 95% 的推理成本，尤其我们很多业务是有波峰波谷的，机器负载是打不满的情况下，这样整个推理成本是比较低的。

另一方面，辛晓剑表示目前大模型落地中对瀑布式开发的开发惯性亟需纠正。

今天做大模型，规划了一个公共清单，画好圆形然后去实现这些功能的瀑布式开发根本行不通，原因是需要持续运营实现效果。持续运营有很多环节，基本知识库，检索、数据召回，很多环节做数据优化。首先有一个运营的理念，其次有一个运营的团队和运营的机制，对于我们做好一个大模型的产品是非常重要的。

语音交互，

正成为AI产品的新入口

几个月前，GPT-4o 在语音交互能力上的表现惊艳了所有人，也真正将 AI 对话产品拉进了这场愈演愈烈的大模型产品化浪潮。随后一众科技巨头和新锐力量都开始用脚投票，Character AI 在今年 6 月推出新的语音功能，新的通话功能在推出初期就吸引了来自 300 多万用户的 2000 多万次通话。Character AI 推出新语音功能几天后，微软 AI 负责人 Mustafa Suleyman 透露微软将在今年年底为用户拿出实时的语音界面，允许完全动态的交互。

人工智能在智力上逐渐与人类对齐的过程中，人类与 AI 更加直接的交流作为一种期待也愈发被正视，这也是为什么「声音」作为人类最直接的沟通媒介，重要性日益凸显。

谷歌今年推出的基于 Gemini 1.5 Pro 多模态能力的产品 NotebookLM，则是 AI 与声音模态所结合的最新尝试。其中的 Audio Overviews 功能可以根据用户上传的内容，生成 10 分钟左右的双人对谈播客，一经推出就迅速惊艳众人。不少开发者很快搭建出文本一键生成播客的产品，Meta 甚至推出了开源版的 NotebookLM。

语音，正成为 AI 时代产品交互的新入口，新的想象力。

在这种充满想象力的 AI 实时对话场景中，音色、情绪表达以及对话的流畅度可能成为决定体验的关键因素。这意味着在 AI 进一步走向多模态后，声音真正开始成为用户与产品交互的一个崭新入口，大模型能力与 RTE 的结合一定是未来的大势所趋。这也是本次届 RTE 大会上大量犀利的观点碰撞背后，一个贯穿全场的共识。

AI 在多模态上的想象力变成了本次 RTE 大会上的热闹景象，而作为 RTE 大会的创办者，同时也是目前国内及出海产品市场中 RTE 能力最主要的提供者，声网在 RTE 技术中的脚步也并未停下。

声网一直在探索 RTC 与 AI 的结合，针对 STT-LLM-TTS 传统三步骤的大模型，声网的 AIGC+RTC 方案可以将大模型的语音对话延时降低在 1s，并通过 AI VAD、AGC、AINS 等实现语义完整性判断，支持随时打断，提高对话体验。在端到端实时语音多模态的趋势下，声网也推出了实时多模态解决方案，帮助大模型构建实时音视频互动的能力，并实现低至五百毫秒的超低延时对话体验。

2014 年到 2024 年，是声网的第一个十年，也是 RTE 在国内发展从无到有的十年。RTE 技术从前沿理念变成一个行业的时间里，RTE 大会也开始变成这个进程中愈发重要的注脚。现在 RTE 大会走过十年，实时互动技术也走到了与大模型交汇的新的序章面前。

继续滑动看下一个

Founder Park

向上滑动看下一个

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

GPT-4o、NotebookLM带来的AI语音新变化，声网们是怎么想的？

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

生成图片，分享到微信朋友圈

GPT-4o、NotebookLM带来的AI语音新变化，声网们是怎么想的？

您可能也对以下帖子感兴趣