查看原文
其他

RWKV:一个大模型小团队,要做 AI 时代的安卓

凌梓郡 Founder Park 2023-08-25

「Interested in working at OpenAI ?」

香港大学物理系毕业的彭博,在今年 2 月 3 日收到了一封来自 OpenAI 的邀约邮件。吸引这家 AI 巨头的,是他作为独立开发者发布的一个开源模型:RWKV。信中并没有包含具体薪资。不过,此前有消息称 OpenAI 为软件工程师提供的年薪中位数为 92.5 万美元。
Open AI 来信
当时国内还少有人关注到这个创新的模型设计。
彭博回复了邮件:「OpenAI is great, but I like building Open AI :) Let me know if OpenAI plans to build a community project one day.」(OpenAI 很好,但我喜欢建设 Open 的 AI :) 如果 OpenAI 哪天计划做一个社区驱动的项目,欢迎告诉我)。
如今,他是元智能 OS 的创始人。这是一个基于 RWKV 模型的创业公司。他更希望建设真正 Open 的 AI,这需要更多商业和资金的支持。这就像 Linux 是免费的,基于 Linux 开源生态,会形成 Redhat 这样的商业公司。
为了降低模型的推理成本,RWKV 创新性地将大模型最常用的 Transformer 架构改写成了 RNN,这展现出的实用价值受到了业内的关注。让团队引以为傲,反复强调的是:在开放研究组织 LMSYS 每周更新排行榜中,真实用户测评的模型对抗Elo排名中,RWKV 系的对话模型 Raven-14B 的排在 Alpaca-13B、OpenAssistant-Pythia-12B、ChatGLM-6B 等知名项目前。
而 RWKV 和 Raven,从设计,到优化,到大规模训练,全部由彭博一人完成。
在执行推理任务时,RWKV 的性能优越。如果 Transfomer 架构的算力成本是 T(序列长度)的平方,RWKV 推理的算力成本只有 T 分之一,并且显存的占用是恒定的。「我们是市面上真正能够在手机的芯片上长期跑的模型。因为其他的模型跑着跑着显存就会爆掉。」元智能的另一位联创罗璇介绍。
随Token增加,不同 LLMs 在文本生成上的时间|来源:RWKV 论文
独特的性能,让 RWKV 在开源社区中获得了一定的关注,得到了来自 Stability AI 的算力支持。RWKV 也积累起了自己的开发者社群,并成立了 RWKV 基金会。5 月底,来自全世界 27 个研究机构、开源社区、高校的 RWKV 开发者们合著的论文才在 arxiv 上发表,外界得以更详细了解模型设计的细节。
大模型的热潮让黑客松复兴。在今年 4 月份深圳一场黑客松上,经历三组初赛后,「第一个国产开源语言模型 RWKV」在进入决赛的 17 个队伍中脱颖而出,获得了第一名。罗璇便是这场黑客松的发起人。他表示,这场开启于 3 月的比赛「可能是中国最早的 AIGC 黑客松」。他是 AI-Transformer 社群的创始人,曾在腾讯担任高级产品经理、猎豹移动担任高级产品总监;2016 年 all in AI,先后在阿里巴巴机器人部门和 AI Lab 担任产品总监,2018 年创业做了 AMR 机器人公司,担任 Syrius 矩星的联合创始人。
夺冠之后,RWKV 团队想尝试商业化,需要一个产品和市场经验丰富的人,于是邀请罗璇加入。此后,基于 RWKV 的商业团队组成了 4 人创始团队:RWKV 原作彭博、CTO 刘潇、COO 孔晴、罗璇。这便是「元智能 OS」的起源。
罗璇介绍,目前元智能 OS 团队有 7 人,主要精力依旧放在训练更好的基础模型上。目前公司正在进行第一轮融资,也已经接到一些微调行业模型的商单。而元智能 OS 最终的目标是成为大模型时代的 Android。这意味着开发者基于 RWKV 开发应用,形成生态,与模型适配的芯片会进入终端。

01

诞生于个人开发者

的创新模型



RWKV 这一模型读作「Ra Ku」,最初的作者只有一个人,来自于毕业于香港大学物理系的彭博。RWKV 模型的诞生,一部分源自彭博自己用 AI 生成小说的兴趣。
小说是一种需要连贯逻辑、内在世界观的长文本。三年前,GPT 系列模型已经引起了学界的关注,但是长文本生成依旧是不小的挑战。
在 2017 年的谷歌论文中,为了实现 Attention 机制,研究者提出了如今被 LLM 广泛采用的 Transformer 架构。这一架构的特点是具有可扩展性。并行的 Transformer 组件提升了模型训练数据的效率,从而让 LLM 的参数规模持续增加,最终出现了「智能涌现」的特点。
但是这一架构也有缺点,在执行推理任务,也就是生成内容的时候,计算复杂度会随着序列长度(T)成 2 次方 O(T*2)增加,这意味着推理时计算成本的也会成 2 次方增加。这种计算复杂度的增加是由 Attention 机制带来的,因此,一部分研究者在思考如何能够简化 Attention 机制。
2021 年,苹果发布了一篇论文《An Attention Free Transformer》,提出了种不需要 Attention 机制的 Transformer 模型。这给了彭博很大的启发,他将这篇论文中的公式进行改写,成功将 Attention 公式改写成了 RNN(循环神经网络)形式。循环神经网络是之前 NLP 里最常用的深度学习模型。
公式的改写,将推理的计算复杂度降为了线性增长。于是,RWKV 被形容为成兼具 Transformer 与 RNN 优点的模型架构:可并行高效训练、推理性能优越。
RWKV 模型训练完成后,彭博将其在国外的 GitHub、以及国内的魔搭社区上线。他开发了更适合对话的 ChatRWKV,并建立了 Discord 社区、QQ 群,欢迎开发者们一起做「大规模语言模型的 Stable Diffusion」、「开源 ChatGPT」。这样一个出自独立开发者的模型,在 5 月初,RWKV 一度在开放研究组织 LMSYS 的模型对抗排名中取得了第六名,无疑令人惊喜。
对于小型创业团队、个人开发者而言,RWKV 是没有算力门槛,是可以快速尝试的模型。在最近一次不到二十人的小范围聚会中,我遇到四五个基于大模型做应用的创业者。其中就有两个使用了 RWKV。
这样创业小团队的画像很常见:基于已有的开源模型,结合私有数据做 Finetune,帮助一些需要提升效率的企业,做模型定制或内部的 AI Agent 开发。
他们常常在开源社区选用最合适的模型,也熟悉各个开源模型的特点。一位创业者则在朋友圈展示出 RWKV 的安卓端版的页面,这是一个可以在手机端进行推理的模型版本。
其中一位创业者表示,RWKV 模型的优势是处理长文本的信息,并给出回应,因此在格外需要这一能力的用例上会优先考虑,不过模型的缺点也很明显,发散性太强,交互过程中会容易偏离话题。「它实际上的竞争对手是 GLM」他说。
ChatGLM 是清华智谱团队开发的模型。其中的 6B 版本在国内开源模型中表现出色,颇有口碑。前不久团队刚刚宣布了此前开源的 ChatGLM-6B 和 ChatGLM2-6B 允许商用。


02

RWKV 保持开源,

元智能 OS 想成为

大模型时代的安卓



在开源模型层出不穷的当下,如何评测模型无疑是关键任务。各家也往往搬出其自研模型在 MMLU、AGIEval、C-Eval 等评测基准上的表现,以自证模型能力。但不止一位行业人士指出,模型可以根据评测基准做特定的数据优化,由此最终得到比较好的打分结果。这一现象难免令外界无所适从。
要真正理解 RWKV 在排行榜上取得的排名的含义,就需要理解排名产生的规则。开放研究组织 LMSYS 则创新地尝试一种综合的测评策略,每周更新排行榜。最新的结果显示,RWKV 系列 14B 的对话模型 Raven 排在第 15 位,综合排位在 ChatGLM-6B(清华-智谱)之前,后者是在国内颇具口碑的开源模型。在 5 月 8 日的排行中,RWKV 一度排在第六。
LMSYS 的测评策略中一共使用三种方式为模型打分,RWKV 似乎在第一种 Chatbot Arena(对话模型竞技场)的表现上更加优越;而在 MT-bench、MMLU 这样的基于任务集的测试上得分偏低。
LMSYS 模型测评排名(截止7.25)
Chatbot Arena(对话机器人竞技场)是随机匿名的人类打分机制。在网页上,访客同时跟两个匿名模型进行交互,并投票给更认为体验更佳的一方。这样收集众多模型间 1V1 的比拼结果之后,LMSYS 最终统计模型的排名。在每周的排名公布时,也会公布任意两个模型在竞技场上「狭路相逢」时的表现。最近一周,当 RWKV-4-Raven-14B 与 ChatGLM-6B 被人类比较时,59% 的概率下,人类会觉得 Raven 表现更优秀,这或许说明了在对话的场景下,Raven 略胜一筹。
而在 MT-bench、MMLU 这样的基于任务集的测试上得分偏低,这表明 RWKV 在能力泛化、知识迁移、多轮有挑战的任务上能力较弱。
罗璇曾形容 RWKV 是「最佳开源可商用」LLM。不过,在百川智能 Baichuan-13B、智谱 ChatGLM2-6B 先后宣布开源可商用之后,国内开源可商用的模型格局必然发生新的变化。5 月,RWKV 在 Hugging face 模型平台上线,但目前已经不在 Open LLM Leaderboard 榜单上,ChatGLM2-6B 和 Baichuan-7B 榜单中排位相近。
在 5 月接受 36Kr 采访时,彭博表示「RWKV 中文 7B 模型和 ChatGLM 6B 中文模型也是互有胜负,不过,RWKV 还没开始真正炼中文模型,使用的是英文词表,还没有加入大规模中文语料。」
彭博目前的主要精力都集中在训练模型上,RWKV-4-world 系列模型也在不断上线中,其中就包括了针对中文的特化模型,重点提升了中文能力,降低了其它语言的能力。目前 Demo 也已经开放在魔搭社区供人尝试。在 AI 作曲上,彭博也发布了最新的开源成果,基于 RWKV 生成 MIDI 形式音乐的模型。(注:MIDI 一种数字音频格式,用于控制电子音乐设备之间的通信)
RWKV-4-world 中文模型续写小说 Demo

rwkv-4-music 作曲 Demo

RWKV 模型本身会一直保持开源和非盈利,目标是成为大模型时代的 Linux,而元智能 OS 则希望能够成为大模型时代安卓。
罗璇表示,安卓是 Linux 在手机垂直领域的版本。对应而言,元智能 OS 就会成为大模型时代某一领域最通用的模型。「大模型时代的安卓」包含了两层含义,「会有一个大的生态,在这个基础上,提供多样的能力给第三方应用;另外一方面,硬件会是 RWKV 的重要生态。」他介绍,目前终端和服务器上的 GPU、CPU 都可以用来做模型推理,而在模型训练方面,Nvidia、AMD、Intel 等芯片都已能够很好支持,国产芯片中不少也移植了 RWKV 的算子。

03

「做 ChatGPT 

现在不能做的」:  

未来的模型会在端侧运行



元智能 OS 已经接到了帮助一些微调行业垂直领域的商单,客户主要来自金融、律所、智能硬件等行业,以 license 的形式收年费。RWKV 模型吸引它们的主要是两点:全自研,算力成本低。
元智能 OS 会结合特定领域的公开数据,在基础模型上微调一个更具备行业知识的垂直模型,再交由客户结合自己的私有业务数据,进行本地化部署。部署环节往往由第三方技术提供方实现,这是由于公司希望私有数据不外泄。本地化部署所面临的是业务上的门槛,而非技术上的门槛,「数据不能出来,不能进模型。」
这也是为什么以 API 形式提供 B 端服务商业模型的前景开始受到怀疑。尽管 OpenAI 已经在 3 月分更新了服务条款,明确表示不再使用任何 API 的数据进行训练,依旧难以打消企业们对于数据外泄的担忧。I
元智能 OS 的观点是明确的:API 不是一个好的商业模式。
延迟问题难以解决。在智能汽车、智能音箱,以及未来的 XR 眼镜、头显等场景,通过 API 调用云端算力资源的延迟性较高。「现在 Open AI 的 API 调用体验非常差,实际上是不可用的」
  • 成本问题,调用 API 按照消耗 Token 的数量来计费,如果在终端设备上使用功能,还要为云端的 Token 付费,也是不合理的。罗璇表示,如果接入 OpenAI 的 API,计算下来,一个智能音箱需要 10 美金的订阅费抵消成本。

  • 数据安全问题。除了企业不愿意外泄数据,在个人助理领域,个人用户也不希望自己的私人数据被传入云端。

在端侧运行大模型,也已经是行业内的共识,高通前不久展示针对 Stable Diffusion 而做的优化,实现了在安卓手机上运行模型。陆奇在深圳的公开演讲中也曾表示,可能需要三到五年的时间,大模型会在手机端上运行。
由于 RWKV 模型的性能优势,元智能 OS 将「终端部署大模型」视为自己的最大战场。彭博表示「AI 大模型的决战战场是在硬件上面,也就是芯片。无论是端侧和云测都需要专用芯片。」陆奇在深圳的公开演讲中就曾表示,可能需要三到五年的时间,大模型会在手机端上运行。
目前 RWKV 已经提供了在 Windows 和 Mac、Linux 电脑上可以安装的版本 RWKV Runner。除了已经放出的安卓版本,IOS 版本在开发中。罗璇告诉极客公园:元智能 OS 正在进行第一轮融资。团队未来半年的核心还是模型,提升模型能力是一方面,另外也正在和一些芯片公司和算力平台洽谈,打造标杆客户。
其中,标杆客户包括有终端部署的形式,也包括跟云平台合作提供 API 调用。「现在的精力其实是更多在模型训练、开发者生态和融资,接下来会逐渐调整到产品和生态」。

04

「硬件的迭代周期,

是天然的门槛」



基于大模型的 Killer app 尚未出现的当下,基于大模型的应用价值,引起了人们的诸多讨论。
Notion AI、Office 365 Copilot 这样商业价值确定的应用,共同之处是在成熟的软件产品上新增 AIGC 功能。罗璇形容,这样的新功能,是「在原来定义好的场景下,提升效率,帮助人节省了劳动力。」
但是他认为,这样产品思路并没有带来增量价值;而且,只做效率提升,带来的商业价值很快就会见顶。他认为,如何用大模型带来的生产力创造增量价值,比如「让人们获得更多、更好的数字化内容」,应该是创业者思考的方向。
另外一个现象是,调用模型能力,从单点价值出发的创业团队似乎难以形成商业壁垒。「创业公司基于 ChatGPT 能够创造的价值非常单薄」的观点便是代表。
比如 Jasper.AI 这样调用模型能力应用的营销写作产品,在 ChatGPT 推出之后,反而迎来了流量下降。这意味着基础模型能力更强、更易用之后,具备覆盖一部分应用的能力。另外一个例子是 Gammaly,这个已经存在了十几年的写作辅助软件,在 ChatGPT 表现出优异的语言能之后,也面临着自证「Gammaly 能够提供更好的写作辅助」的新课题。
组织过十几场黑客松,作为经历过互联网时代产品老人,罗璇也表示目前的初创产品往往存在问题:
  • 对于技术边界理解不深入。或者不知道现在的模型能做什么,或者不知道随着模型发展,未来能够做什么;这表现在,做出来的应用,是模型已经能实现的功能;或者想实现的效果,未来三到五年,通过模型能力也无法实现。

  • 对市场竞争格局、现有市场供需关系理解不深入,这容易带来两种结果:做出来的产品很容易被有渠道的大厂直复制;或者做出来的东西没有市场需求,没有人用。

在大模型技术快速发展的当下,理解技术边界,思考技术会如何演变,对于产品经理而言变得更加重要,这样才能避免思考产品时刻舟求剑。
RWKV 模型在进入终端硬件上有优势,罗璇本人也看好模型进入在机器人、XR 等手机、PC 之外的终端硬件之后所带来的可能性。首先,这些终端硬件带来激活新的应用场景,从而衍生出其上搭载的软件服务和数字化内容;其次,硬件的迭代周期很长,是天然的门槛。
「谁先做,就很有可能就有一些优势。」在黑客松中,为了鼓励硬件项目,他还专门设立了硬件奖项。深圳拥有的硬件产业链优势,也寄托了他「让 AI 发生在中国大湾区」的愿望。



如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。




更多阅读
无法想象全闭源的世界:AGI 大会上的开源讨论

周鸿祎的大模型产品方法论:企业的5个痛点和垂直大模型的6个趋势

傅盛的AI-Native创业思考:所有创业者都要相信,这就是最好的时代

百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」

深度解读AI Agents:OpenAI研究多年,可能会改变互联网的软件终极形态
分享一篇10年前刷屏的文章:《创业的心理代价》
历史第一黄仁勋:创业30年,万亿美金,他还是CEO
创业者深度解读苹果Vision Pro,XR行业的未来在哪里?
闭门交流纪要:大模型在机器人领域的应用探讨

转载原创文章请添加微信:geekparker

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存