ChatGPT开启的「AGI OS」时代,创业者如何做应用开发 | 5Y View
The following article is from 时域科技timedomAIn Author 老郭
石允丰 五源投资人
人类的特殊之处在于,人拥有了足够的智慧来发明科学的方法和工具,工具的进化是人类文明的里程碑。我相信AI是人类在21世纪的最重要工具。
在21年,我们认为“2010年手机前置摄像头的成熟,让视频创作的门槛大幅降低,催生了今天我们每天都在刷的抖音快手。我们一直在思考,什么是今天让创作门槛100倍降低的技术变量,那AIGC是我相信的一个答案。”
2年后,我们有了GPT和扩散模型的作为新一代开发者的新工具,特别期待开发者使用新工具能创造出独特的用户体验。欢迎和我们交流。
文章转载自时域科技
作者:郭靖 时域科技创始人
这些年,作为创业者,我们经历了无数的科技主题:新能源车、自动驾驶、元宇宙、web3、VR/AR…
但从未见过一个像ChatGPT这样,在如此短的时间里,让如此多的奋战在一线的开拓者们(创业者、科学家、投资人)看到下一个十年的大事,与此同时,又让如此多的大众用户在第一时间体验、沉浸,并将其融入到自己的日常工作流当中。
ChatGPT的横空出世,被很多人形容成“又一次的电力革命”,“下一代的操作系统”。
作为科技创业者,我们当然无比兴奋,但伴随着兴奋的,也有大大的焦虑。
兴奋的是,全球的创业热情再一次被点燃。在北京,10年前中关村创业大街的车库咖啡振臂一呼“老子要创业”的时代好像又回来了。
焦虑的是:该怎么做呢?毕竟不是所有人都有条件或者都应该去再做一个ChatGPT。
那么对于大部分创业者、科技领域的从业者们,该怎么与ChatGPT发生关系?
换句话说,未来,在以ChatGPT为代表的AGI平台上,应用创新与开发的核心范式是什么呢?
本文将结合我们自身探索ChatGPT的例子,以非技术的视角,提供一个简单的在ChatGPT上开发应用的思路。
首先说结论:我们认为,在AGI时代应用创新的机会将会无比巨大。且这个大机会,就算不是属于每个人的,也一定不是属于少数人的。
介绍一下我们在做的事儿
我们的公司叫时域科技。我们在做下一代的 AI voice 技术。让 AI voice 具备较高的情感表现力,同时具备全栈的能力(例如人类的voice不仅仅能说话,还能唱歌,哭,笑,叫喊等)。其中,我们的歌声合成产品 ACE Studio ,可以让 AI 演唱出超越人类的出品级歌声。目前全球音乐创作者已经使用 ACE 创作出上百万首AI演唱的歌曲,这些 AI 演唱的歌曲在全网有累计近10亿的总播放量。
我们的长期愿景是使用高情感的AI Voice技术,建立AGI时代人类与AI交互的情感桥梁。
我们使用 ChatGPT 的一个例子
在 ACE Studio 背后的 AI voice 技术中,有一项技术叫做“音色混合”。通过 multi-speaker 的架构,以及模型的迁移学习能力,可以让模型中的歌手按照比例进行混合,从而产生出无限个世界上不存在的全新音色。
举例说,假设我有一个歌手是学友,厚重深情的成男音。还有一个歌手是王菲,空灵通透头腔共鸣很赞的女音。可以通过这个技术,创造出「学友50% + 王菲50%」,从而诞生出一个既空灵又宽厚的性别中立的全新歌手。——实际上,因为我们的模型中有上百个歌手,且可以分多个维度,按照任意数量任意比例(甚至比例为负)混合,可以创造出几乎无穷的音色。
这个过程,就像油画的调色一样,有了足够多的原色,然后凭感觉进行混合,调出自己想要的颜色。
问题是,感觉这玩意还是太抽象了!如果说,我们可以让用户通过语言描述一个自己想要的音色(例如:给我一个温柔中略带稚气…的女生音色),然后返回给他一个合理的混合音色。这就很酷了。
这个idea我们最先想到的实现路径,是训练一个 text-to-音色的AI模型:输入文字描述,输出音色配方。但这里的问题是,这需要收集大量用户对音色的描述文字,以及对应的音色配方作为训练数据。
并且这样的方式很不灵活,假设我们的模型更新,增加了新的歌手,就要重新编写训练数据,重训这个text-to-音色模型。
于是我们思考,如何借助ChatGPT的能力,实现这一功能。(例如让用户说“给我一个温柔中略带稚气…的女生音色”,我们可以给出符合预期的音色混合结果)。
如果直接提问“给我一个温柔中略带稚气…的女生音色”,ChatGPT一定不会有答案。首先是,ta根本不知道我在说的是ACE Studio当中的一种音色混合的技术。其次,即使ta知道了这一点,也无法知道如何混合,才能获得我想要的答案。
那么,接下来的解决方案就非常直接了,ChatGPT不知道什么,我们就告诉ta什么:
第一步,我们用语言描述告诉ChatGPT“音色混合”这一技术的原理:
第二步,我们把“原色歌手”的音色通过语言描述给ChatGPT。
至此,我们基本让ChatGPT获得了足够的上下文。这时,我们提出让ta帮我们混合音色的需求:
以下是ChatGPT给出的答案:
不难想到,如果我们将上述提问中“红框”内的内容,替换成用户输入的音色混合描述。将其余内容作为一种预设的prompt,一同输入给ChatGPT。并将ChatGPT回答中蓝框的内容提取出来,去驱动我们音色混合的参数系统。就完成了如果借用ChatGPT这样的通用AI对话系统,实现“让用户用自然语言创造混合音色”这个与业务逻辑高度特化的需求了。
让我们来听听,ChatGPT混合出的音色结果:
还不错,挺符合预期的。
并且,很自然的,我们可以引导用户对ChatGPT给出的混合音色进行反馈(将该用户自身对该音色的主观感受、调整诉求等用自然语言映射到ChatGPT的信息空间中),延续话题,像甲方指挥乙方一样,不断让ChatGPT为其调整音色配方,直到满意。
调整后的音色,更加接近我心目中的诉求,同时又避免了这个凭空创造出来的歌手过于接近某个原生歌手的情况:
在第二轮对话中,ChatGPT不仅很好的理解了我微妙的调整需求,同时还对自己的调整方案进行了合理性解释,并表达了“混合歌手的比例是一种非常主观的调整”,暗示了这玩意儿见仁见智,非常欢迎继续配合微调。
这显示出,使用一个通用的AGI自然语言界面与用户打交道的好处。ta足够的善解人意,听得懂用户真正的诉求,同时可以较好地维持context,在过程中加入自己的思考。而我们的“音色混合模型”则是作为下游任务的执行者,ta需要做的则是能够听懂(或者说:提取出)AGI的指令,并根据指令在下游任务中表现出强大的执行力。
ChatGPT上开发应用的基本范式
将上述例子推广,我们认为,可能看到了在AGI上开发应用的基本范式:
编码:将产品特定知识,映射到AGI通用语言空间
这里说的编码,其实就是通过输入预设的prompt,给ChatGPT“规定情境”的过程。
上述音色混合的例子中,在第一步的技术讲解,和第二步的歌手音色描述中,我们将自己产品的特定逻辑、知识,包括ChatGPT目前无法“听懂”的音频模态,均以通用自然语言的方式进行描述。
这其实是将我们产品业务逻辑高度相关的特定信息、多模态信息,映射到ChatGPT的自然语言信息空间中。ChatGPT善于理解人们的问题,理解语言当中的通识信息以及普世逻辑。
因此,通过预设prompt给ta规定情境,再巧妙的将用户的诉求嵌入,就可以引导ta去处理特定领域的问题了
下图是被催眠的 New Bing供出来的预设prompt。也可以简单看到如何给ChatGPT规定情境做搜索任务:
解码:解析AGI的自然语言指令,执行特定任务
当ChatGPT明白了我们的产品逻辑,也听懂了用户的诉求,ta就会通过自然语言给出解决方案。而这里所谓的解码,就是指,解析ChatGPT给出的自然语言指令,提取当中的有效信息,驱动下游的任务执行。
在一个使用ChatGPT做文字冒险类游戏的案例中,开发者使用ChatGPT生成的情境描述,输入Midjourney,生成情境配图。这算是一个比较容易想到的做法。
脑洞:设计一个让ChatGPT帮用户推荐电脑的应用
在实际操作中,这个编码、解码的过程甚至不止一个,可以是互相嵌套的。我们可以一起来开开脑洞:
假设我们想使用ChatGPT的能力制作一个售前bot,给想要购买电脑的用户推荐,解答他们的问题。
假设我们的网站上有几千种电脑型号,每种电脑型号有一个单独的页面,页面上有电脑的介绍、配置、销量、价格、用户的评论等等。因为输入长度的限制,很难将所有的电脑信息一股脑地编码给ChatGPT。并且网站上的电脑种类、价格等都在实时地更新。
上文我们多次提到,ChatGPT的能力在于高度的善解人意,通识认知和逻辑能力。对于这样一个“人”,有的时候,ta只需要一个手册or一本字典or一个随时可以查询的资料库,就可以干更多的事情。
于是,我们可以做如下设计:
当用户提出问题的时候,我们不让ChatGPT直接回答,而是通过规定情境为“此时只是提取用户问题中的问询标签”。利用ChatGPT的语言理解能力,让其抽取出标签。
拿到标签,我们使用固定的业务逻辑,搜索出该标签下的销量前10的电脑。利用某些固定的规则,将这10个电脑的主页信息文本化(例如:将网页上看到的销量100,变成一句话“销量100份”。将某条10个赞的用户评论变成“用户xxx,等级3,说到xxxxx,有10人表示赞同”)。
如果文本化后的文字类太大,可以将这些文本化的电脑信息输入到另一个ChatGPT当中,让其分别抽取出10份摘要。再将这10份摘要与规定情境“用户想问xx,现在给你10个电脑的信息进行参考,请帮助用户解答问题”一同输入给第三个ChatGPT,让ta拿到这些信息,开始与用户侃侃而谈,推荐产品。
在实际的应用设计中,我们可以灵活使用”编码“,”解码“的过程。核心是,把ChatGPT想象成一个很聪明的人,ta不知道什么就想办法告诉ta,而去利用ta分析问题的能力和与用户自然交互的能力,最终让ta向下游应用发号施令,执行任务。
AGI OS与应用生态格局的猜想
例如,输入框文本的长度限制,现在是4000tokens,马上将迎来32000tokens的更新。未来这个数值可能是十万、百万。应用设计中domain-knowledge的引入将会变得更加简单直接。
再比如,多模态信息的接收(图片、音频等),AGI可以看懂图片,听懂音频,与物理世界交互……
对于AGI的未来,我们从以下几个角度进行一些猜想跟讨论:
开源 v.s. API
我们认为AGI大概率是新时代的操作系统。并由少数庞大的机构host在云端,以API的形式供人们调用。
首先,AGI背后的大模型将总体向着越来越大的方向前进。虽然现在有研究使用更少的参数量达到更好的效果。但提升大模型的”密度“,与大模型总体越来越大的趋势并不矛盾(简单的道理:一半参数量也能同效果,那同样参数量效果不是更好?)。
随着多模态的引入,随着generative AI 越来越耦合在人类生产创造的工作流当中,使得世界总体信息本身也在加速增长。很难想象未来的大模型不会越来越大。
其次,AGI理应越来越通用。ta负责掌握普适、通用的能力,而这一能力可以帮助成百上千万的应用开发者,构建自己的独特应用,服务全球几十亿用户的方方面面。就像个人电脑、智能手机、移动互联网。
开源的意义在于,开发者可以使用通用模型底座连接自己的专用模型进行fine-tuning训练,让其执行自己的专用任务。
很难想象,成百上千万各种背景、各种方向的应用开发者,都能够fine-tune以及host如此庞大的模型。这将极大提升AGI OS上应用开发的门槛,而无法带来如智能手机一般的革命。
作为操作系统,第一是与用户交互,第二是调度资源执行任务。开发者通过自然语言告诉AGI自己特定的业务逻辑,而AGI通过自然语言与用户交互,并通过自然语言调度下游的applications,帮助用户完成各项任务。
Natural language is all you need!一个云端的不断更新的超级大脑,千万开发者只需要用“人话”教ta,就可以实现各种应用,可能是更简洁的解决方案。
通用 v.s. 专用
AGI越来越强大,那专用AI还有存在的意义吗?关于这个问题,我们的猜测是:有。但通用/专用的分界线会不断变化。
专用AI存在的意义在于更专业高效。即使有一天AGI也具备了驾驶汽车的能力,那也更可能会存在一个专业的自动驾驶AI,可以做到更高的鲁棒性和更低的延迟。专用AI会针对垂直领域进行特定性的工程优化,以及更聚焦的建立数据飞轮。
在未来,当用户告诉车载AGI “我车上有老人跟孩子,帮我开慢点” 的时候,相比于AGI自己上手开车,更可能的是ta理解了这句话的含义,理解了这里用户说慢其实是隐含着平稳、安全的意思,并将其转译为指令,去驱动下游的专用自动驾驶AI调整驾驶策略。
但什么任务是通用的,什么任务是专用的?两者的分界线可能会不断变化,通用任务的边界不断向外扩张,不断涵盖更多之前看似是专用领域的任务。
比如机器翻译、文本摘要、文本风格转换这些NLP领域的专用任务,现在看来ChatGPT已经可以轻松解决。
哪些任务会走向通用涵盖专用,从而通用替代专用?哪些任务又可能会持续保持专用战胜通用,从而通用调用专用?我们可以思考一下人类的学习过程,获得一个模糊的感觉。
如果成为一个更渊博的人,更有利于这件任务,那么大概率这是一个AGI未来将会涵盖的通用任务。例如“翻译”,就像真正惊艳绝伦的翻译,往往出自大学者之手。当一个人对世界各国的语言、文化、思想都具备足够广博与深刻的理解,ta的翻译自然更加绝妙。
如果这个任务需要你在特定领域里不断苦练,才能出类拔萃,那么更有可能ta是一个AGI不应该去涵盖的通用任务。例如“同声传译”,虽然看起来也是翻译任务,但是不同于普通意义的翻译,同声传译需要边听边翻,需要足够快、足够准。这并不是让自己渊博就可以解决的,这是需要“练”的。大学者的翻译可能精妙绝伦,但是在同声传译的场景下,永远不可能战胜苦练多年的同声传译员(类似的例子还有自动驾驶、AI画画,歌声合成…)
这个任务更需要“博学”,还是“死练”?可能就是区分通用任务与专用任务的核心。
插件 v.s. 入口
在产品形态上,AGI更有可能成为新的入口,还是一个无所不在的插件呢?
入口——人们启动设备的第一件事是打开AGI的对话界面,然后吃喝玩乐都通过与AGI的交互,和下游应用的调用来解决。
插件——用户仍然去不同的应用解决不同的需求,但是所有应用都整合了AGI的能力。
我的猜测是:
1. 在终端设备没有大变革之前,AGI会成为无所不在的插件,嵌入到所有产品中2. Bot会很快成为新的主流产品形态之一,IM会成为新的Appstore3. XR成熟后,AGI会成为新的入口4. 人们使用电脑、手机时,在很多时候,相比于点击、划动,打字的操作成本较高,说话的心理门槛较高。如果智能手机仍然是主流终端,很难想象诸如叫车、点外卖、刷短视频这类场景,其交互方式会被彻底改变。
但是,当一件事情使用AGI的成本显著低于原先的方式,引入AGI作为插件,就会显著提升用户体验。这里的典型是生产力工具类产品,当我们在做有产出的学习与工作的时候,存在大量刚性的高操作成本的任务,而AGI的赋能将会显著降低这类任务的难度。
另外,Bot可能会成为主流产品形态之一,大量的产品会开发自己的bot端(就如同它们可能会有自己的web端、小程序端一样),也会诞生大量的bot native产品。
早在2016年facebook的F8开发者大会上,就发布了Messenger Platform for chatbots。该平台可以让开发者制作chatbot集成在Messenger上,为用户提供一些信息咨询、客户服务等功能(很多中国的从业者将facebook这一举动看成是想打造升级版的微信公众号)。发布之初引起巨大轰动,但是受限于当时的NLP技术,后续的发展并没有想象中好。
抛开当时的技术限制,将bot整合在IM当中,通过与用户自然语言交互,为用户提供服务,是一件非常自然的事情。在之后的Slack和Dicsord中,大量的功能性、定制化的bots,在其生态上扮演了重要的角色。
而随着ChatGPT接口的开放,bots作为一种产品形态,可以干的事情会多很多。用户在IM上订阅bots,与bots对话执行任务,可能会成为主流交互方式之一,进而让IM们成为全新的Appstore。
最后,如果诸如XR眼镜这类新的终端代替现在的手机时,人们跟这样的设备交互的第一选择,很难想象不是AGI。
最后的话
从库兹威尔的《奇点临近》,到奇点大学的成立,再到2015年那些对AI统治人类忧心忡忡的科技领袖们创立了openAI。彼时的“奇点理论”看上去更像是一种哲学性的推理。道理听上去很正确:因为摩尔定律,因为指数效应,机器会越来越强大,会以越来越快的速度成长,最终战胜人类。But how?彼时,看不到多少让AI具备通识能力的具体路径。
但是ChatGPT的出现,人们第一次大规模地意识到,人工智能奇点的出现,已经具备了技术性的路径。
仍然会有人认为,ChatGPT本身并不是颠覆式的技术革命,而只是在大预言模型的基础上进行了简单的fine-tuning。可是就是这个“简单”的fine-tuning,它生效了。进而论证了大语言模型+instruct-based范式在打造通用自然语言界面乃至通用人工智能这件事情上,是有效的。
AGI上的应用开发,如果如我们所猜测,核心范式为用自然语言编码业务逻辑,解码自然语言执行业务逻辑,将会是如此的简单自然。而基于AGI的api,结合下游专用AI,在生产力等场景中打造应用,将会是一个很有潜力的创业方向。
五源寻找、支持、激励孤独的创业者,为其提供从精神到所有经营运作的支持。我们相信,如果别人眼中疯狂的你,开始被相信,世界将会别开生面。
BEIJING·SHANGHAI·SHENZHEN·HONGKONG
WWW.5YCAP.COM