查看原文
其他

和大模型创业者聊一聊:ChatGPT 火了,国内创业者的机会在哪里?

Founder Park Founder Park 2023-03-21

ChatGPT 火了,而且不是一般的火。

当地时间 3 月 8 日,微软宣布,随着必应预览版新增用户超过 100 万,必应搜索引擎的日活跃用户首次突破 1 亿。

一切似乎正如英伟达创始人黄仁勋所说,ChatGPT 是人工智能领域的 iPhone 时刻,全球范围已经掀起了一股 AI 创业狂潮,Product Hunt 的排行榜上看到的也几乎都是基于 GPT 创业的产品。

而国内,大厂们也都官宣了自己的大模型计划。

发展了多年的大规模语言模型(Large Language Model, LLM),为什么到 ChatGPT 才引起全球的震荡?这些年的进步到底在哪里?以及,如果想加入这场大模型的科技革命浪潮中,国内的创业者需要做什么,可以做什么?

关于这些话题,Founder Park 组织了一场圆桌讨论,由极客公园创始人 & 总裁张鹏和「乱翻书」主理人潘乱共同主持,特别邀请到中国大模型领域的多位创业者进行连麦:一起聊聊 ChatGPT 火爆背后,大模型的底层逻辑和未来应用。

参与本次圆桌的创业者们分别是:

  • 周明:澜舟科技创始人 & CEO,中国计算机学会 CCF 副理事长,创新工场首席科学家

  • 黄民烈:清华大学计算机科学与技术系长聘副教授,聆心智能创始人

  • 罗江春 :一览科技创始人 & CEO、风行在线创始人 & 董事

  • 肖涵:Jina AI 创始人 & CEO

  • 龙海涛 :启元世界联合创始人 & CTO


01

ChatGPT 的

神通和局限

潘乱:ChatGPT 可以拆成 Chat 和 GPT 来理解,现在很多人都只关注 chat(聊天)的事情,但它是不是只是一个API?GPT 是大模型的一种。我想知道:Chat 和 GPT 现在是什么样的关系?目前除了 GPT 还有什么样的模型?大模型在这些年,经过什么样的演进到了现在这个样子?是否还有其他玩家?

周明:大模型不是随着 ChatGPT 出现的,而 ChatGPT 也不代表所有的大模型。2017 年谷歌推出 Transformer,2018 年推出 BERT,后面又推出 GPT 系列;还有 T5 系列;国内还有 ALBERT 等。

大致可以分为三种:第一就是 BERT 系列代表的 encoder only(主要用于理解输入);第二就是 GPT 代表的 decoder only(主要用于文本生成);第三个 T5 代表的既有 encoder、又有 decoder。这三大流派都是往各自的方向发展,而且发展得也都不错。

现在出现的 ChatGPT,在 GPT3 和 InstructGPT 的基础上又做了更好的改善,可以认为它是 better GPT3  或 better GPT3.5。有 chat 的能力,能够通过 chat 来体现用户跟系统的交流,而且会更加流畅。从 PR(公共关系)的角度,因为所有人都可以通过 chat 来使用 ChatGPT,所以会取得很大的影响力。

现在大家都觉得 ChatGPT 就是一切,可以说它有很多的能力,包括文本理解和生成、对话能力的大幅度提升。但回到用户的业务流程中,如果用户不需要 chat 功能,比如说只需要 sentiment analysis——通常称之为单轮的信息抽取问题或分类问题,那也许不需要 ChatGPT。它很重,只用一个 10 亿的模型,也许跟 ChatGPT 1750 亿 的模型在任务上能达到的效果就类似。

稍微总结一下:第一,大模型是多元化、多样化的;第二,如果只是简单的任务,不需要使用像 ChatGPT 这么复杂的大模型;最后,如果是需要 AGI,现在 ChatGPT 代表了一个新的里程碑。

黄民烈:从任务来讲,现在大模型可以分为两类:一类是用来做语义理解的,另外一类用来做生成的。语义理解的大模型,有 Bert 和各种 Bert 的变种;而做生成的,GPT 是最典型的一类框架。理解和生成分别有不同的大模型或中小模型的代表,生成更复杂,要处理的数据规模量也更大,所以通常来讲,生成的模型都是比较大的。

从模型结构来讲,它有 Encode-Only,比如 Bert ;也有 Encoder-Decoder,比如  T5;这些模型是有自己的编码器和解码器,结构是相对独立的;GPT 的编码和解码结构是完全一样的,叫 Decoder-Only。基本上是在技术上发展的每个体系下,都有一些发展路径。

为什么 OpenAI 能在所有的大模型中脱颖而出呢?这是因为它的发展理念和路线是不一样的。

OpenAI 的 GPT 从 GPT3 之后就没有开源了,变成一个闭源的东西。其中,它又扶持养活了美国的不少大众生态公司,有很多真实 API 的调用,这种调用的数据,在它的迭代过程中发挥了至关重要的作用;同时 OpenAI 又请了数据团队把数据对齐到人类的指令和价值观上来,这是 OpenAI 在众多模型中脱颖而出的至关重要的一点。其他的开源模型,训练出一个版本就会开放,公司会在自己的场景中再去继续优化和迭代,但后续的版本是看不到的;因而现在的 OpenAI 的 API 调用性能要远远好过开源模型,也是因为背后不断调优和优化的过程。

张鹏:与之前的对话机器人 Chatbot 相比,ChatGPT 体现出了新的进化能力,其中核心靠的是什么?

周明:跟以前的 Chatbot 相比,比如我们以前在微软做的小冰,它有几方面能力的大幅度提升:

第一个是对用户的复杂查询的理解,用户可以先说一段上下文,再提问题,ChatGPT 的理解能力远远高于历史上所有 Chatbot。比如这样的指令:我有个朋友,爱吃川菜,他想在微软周围的饭店找一个吃饭的地儿,推荐一个。ChatGPT 真的能理解这件事,推荐一家符合要求的川菜,而以前的 Chatbot 就不知道你要问的是什么。

以前的 Chatbot 有一种方式叫 FAQ-based(常见问题解答),就是先进行大量的输入和输出,对于新用户的输入,Chatbot 会调用一个最相近的,找到后把对应的答案抽取出来,稍微修改就输出了。这种模式会有一个问题,就是 QA pair(问题及其对应的答案)收集得不全,因为用户可能提出任何问题,不可能把所有用户的问题都提前做好;还有,在进行答案匹配的时候,Chatbot 是在语义层次上匹配,我们输入时是按照关键词匹配,加上权重,因而有些问题也匹配不上,所以存在回应不足的问题。后来又发展出一些基于生成的 Chatbot,但是基于生成就又回到 GPT3,它的能力远远低于 ChatGPT。

第二个是多轮对话的建模能力,经过用户的 n 轮提问之后,它还能记得用户前几轮的问题,有些重要信息会加在当前轮的回复之中,让你感到它理解上下文了。

第三,生成答案是有层次的,有前因后果、有依据、有总结。过去 Chatbot 只是做一个简单的回复,ChatGPT 能把所有的地方,包括政治正确的层面都考虑到,并且最后一定有个总结,用户看到的回答非常清晰。

黄民烈:周老师提到了上一代技术跟这一代技术的本质区别,上一代技术主要是基于检索,形成一个大的语料库,用户在库里检索相似的 query,把对应的内容再返回给用户。基本上可以总结为:基于检索语料库,在相关性、自然度等方面都做得比较差。

这一代技术纯粹是基于大规模语言模型进行生成,建立在语言模型的强大能力之上,会在进一步对话数据场景下做优化,ChatGPT 实际上是基于 instructGPT 进一步在对话场景下,基于对上下文、对复杂问题的更好理解,对对话场景的数据进行优化。体现的是两代技术之间的差异,背后的巨大成功还是因为 transformer 这个架构能实现的大容量、大数据,能够实现并行算力能力的提升,今天我们看到的 ChatGPT 可能只是这种技术变化的一个引子。

潘乱:我感觉 ChatGPT 可以类比于《钢铁侠》里的贾维斯,它是人类的高级助手,可以帮助解决任何问题;另一种情感类的对话系统类似于电影《Her》里的玛塔莎,它能够成为人的恋人。ChatGPT 和情感类 AI 有什么不同呢?

黄民烈:ChatGPT 就是一个通用任务助理,设定是一个机器属性,在回复里也可以经常看到类似的说法:我只是一个语言模型,我只是个 AI,我不能帮你回答一些情感或决策类的问题……等等。它的设定是非常清晰的——机器。但像电影《Her》里的 AI,实际上是我们希望能够满足人的情感社交需求,它们在定位上是有明显不同的。

这两种 AI 还是有挺多不一样的,因为对情感和对社会联结的处理会很不一样,在做情感对话时,我们会借鉴心理学的理论、话术,力求更好地做情感支持,去倾听、去安抚;完成任务则相对客观,情感对话相对主观;情感对话还会面临更多潜在问题,比如伦理问题等。

但是未来,我们认为 AGI 时代的对话智能体应该是会统一功能性和情感性,也就是拟人特征。既能完成机器功能性的方面,也要有情感社交需求的方面、类人的部分,这两部分统一起来才代表整个 AGI 的方向。

《钢铁侠》电影中的贾维斯 | 来源:互联网

潘乱:为什么 ChatGPT 有这样的能力,怎么做到的?现在所有公开的对 ChatGPT 的复现都失败了,究竟难在哪里,是因为其他模型不够大吗?

周明:首先 OpenAI 从 GPT3 就没有开源,它放了 API instruct(api 规范),GPT3.5 也没有开源,大家对它的理解本身就少。

其次,人工标注大幅度增加,训练语料是远远超过之前的,据说可能是 45T 左右,这些语料也是不分享出来的,外部机构拿不到。同时背后有强大的算力,依靠微软的巨大算力,可以来回试错。这些都是纯体力功夫,比如标注数据,标多少类问题、每一类问题标多少个答案,没人能把握好。OpenAI 把 GPT3 放出来之后,就有了 API,就有很多人用它的 API 做事情了,它就能获得 query 分布,知道哪些做得好、哪些做得不好,以此为导向就可以有意识地、有针对性地去做更多的数据标注。

最后,ChatGPT 的强化学习,OpenAI 的介绍文章上说只标记了几万,但我猜测它肯定标得更多,它把强化学习做得非常好。机器出的结果,它能判断出谁更好,进而做一个输出的选择;一般人只能去试,可能试来试去,试到一个不错的,但也不一定有 ChatGPT 那么强。

无论是 raw data,还是标注数据,以及标注数据的分布和力度,再加上大规模算力,很多模型 trick 的组合磨练,才得到目前的 ChatGPT。而这些东西,就是其他人也得花这么大的功夫去做,所以这正是目前很多公司无法轻易实现复制和达到目前状态的原因。

GPT 有飞轮效应,面向企业端的阶段,在厂商内部积累满意度、程度等数据,内部形成小飞轮效应;而如今放出来之后,toC 调动了上亿用户的使用,就形成了大飞轮效应。在 ChatGPT 迭代的同时,跟随者一直在后面追,没有飞轮效应永远追不上。当然不排除我们可以使用别的方法,比如走更多 toB 的模型,或者有中文特色、加入中国的新数据……等等,这些 ChatGPT 都不具备,可能我们的初始模型或者说中国版 ChatGPT 有可能稍微克服它的飞轮效应。

张鹏:我认为,关键在于以前既要做理解也要做生成,现在发现以生成为核心,把生成做好后,基于 reward 的机制,反过来也能把理解训练得很好,所以就变成一个目标更明确的大模型;加上 Transformer 提供了一个能支撑大模型训练的架构,所以就在方向上形成了与原来不一样的技术诉求的突破。

可以用一个类比来解读两者的差别:以前的 AI,是从幼儿园开始训练拧螺丝,它是全世界螺丝拧得最好的,但它这辈子只能拧螺丝;今天的 AGI,训练思路是先上大学,饱览整个世界的知识,让它学会人类的语言,在人类所有知识体系中达到 18 岁大学生的水平,再通过定向 prompt 的训练,让它拥有更多可能性——既可以做客服,也可以做营销,也可以去写小说……相当于大学毕业,整体的素质达到这些工作的水平了。在这个基础上,我们再给 AGI 做定向演示,让它理解怎么做是对的,它就能够变成一个做什么事情反应都很厉害的状态,这就带来了以前的 AI 与今天的 AGI 的巨大差别。

周明:我觉得张鹏讲得很好。

OpenAI 和 GPT 相当于把全世界所有的数据看了一遍,看一遍后可能不求甚解,但当前模型的知识萃取能力比较强,看完后能在类似于大脑的神经网络中完成输入和输出,并且还能八九不离十,还靠谱。

相当于它的大脑里有大规模的数据,见的东西也多,什么都多少会一点,但不精通;有的东西虽然是胡说八道,但它的表现是有思维能力的。对于这样一个像万金油的「人」,让他做具体任务的时候,不能指望他做得多好,但他在获取用户输入的任务或领域的带标注的数据时,会在万金油模型上进行微调,经过不断的微调,对相应的领域或任务就有更进一步的了解。

潘乱:对于大模型,有人认为它是AI 时代的操作系统,有人认为是 iPhone 时刻或者网景时刻,出门问问的创始人李志飞则觉得更像是智能云 OS,你们是怎么看的?

周明:首先,大模型的出现意义重大,我认为,它至少解决了自然语言理解 70% 的问题:第一,复杂 query 理解,上下文建模,多轮对话建模,内容生成的时候有条理、体现思维链;第二,code 和自然语言的交流,把物理世界跟自然世界联动,产生无限的想象空间,已经远超自然语言本身,比 ChatGPT 的意义可能还大;第三,用一套机制解决了自然语言的理解、生成、翻译、转换等各项任务,在一个界面下统一完成,带来了无数的想象空间和未来的商业化机会。

黄民烈:ChatGPT 肯定是 AGI 的一个里程碑事件,它意味着第一次向所有人以一种低门槛的方式展示了 AI 语言和 AI 能力。用对话这种没有任何门槛的方式,以一种所有人都能使用的最自然的方式,实现了特别好的全民科普。ChatGPT 把所有的复杂任务装在一个大模型中,所有人能够去用,能够快速地积累数据,我觉得这是一个特别棒的事情。


02

国内做大模型的

门槛在哪里?

张鹏:最近 Meta 发布大语言模型 LLaMa,多数任务效果超越 GPT-3,并且是开源的,有人认为国产大模型水平马上就要迎来一轮飞跃,你们是怎么看的?

周明:第一,据介绍文章称,LLaMa 有 650 亿参数,比 GPT3 的 1/2 还少,它的能力实现了超越,这就给我们一种启示:模型 size 不是唯一的尺度,要把模型训练好,还有很多功夫可以做。LLaMa 没有引入太多新的语料,还是以英文为主的 C4 语料、还有一些书籍语料,很少有中文语料,所以目前国内创业者要以 LLaMa 为基础创造中文版本是比较困难的,因为它对中文的支持是比较弱的。

第二,LLaMa 把自己的模型开源了,虽然训练 code 没开源,目前还不能修改东西,但这件事值得我们关注。ChatGPT 实际上构成了某种意义上的垄断,不开源,需要国际上大公司对它的挑战,并且走开源路线让所有人受惠。所有人都可以继续做训练,不管是中文、日文模型,还是应用模型,都可以用它做底座,输入专用数据持续训练,就可以实现新场景的应用。

张鹏:为什么 ChatGPT 在中文的响应上也做得这么好,它学习的中文材料可能占不到 1%,这是怎么做到的?

周明:第一,语言有相通性,包括编程语言跟英文、中文、日文、法文等这些语言在语义层面是有相通性的,比如推理层面、语义理解方面。所以 ChatGPT 大量的 code 语言、大量的英文,中文即使量不是很大,但它已经借力了。

第二,ChatGPT 、微软公司里有很多中国人,他们对中文非常了解,所以能做出符合中国用户习惯的产品来,它的回复能符合中文的特点。

第三,虽然它的中文数据相对英文少,但它可能有世界上最大的中文数据集。

第四,我个人认为,由于有了多语言模型和翻译能力,也会考虑把其他语言数据转换成中文,这应该是能做到的。

有网友尝试让 ChatGPT 创作古诗 | 来源:知乎

张鹏:现在的 ChatGPT 可能更像一名让人惊艳的大学生,懂很多,但是交付的很多内容是需要验证才可以放心使用的。所以,长远来看,如果不停堆积算力,大模型有没有上限?上限会是什么?

龙海涛:我们自己的实践路径是基于底层的大算力、大数据、大模型,再往上做深度学习和强化学习训练,确实能看到它的智能从量变到质变的过程,涌现出了更多智能的表现,但我觉得它的上限还远远没有被挖掘。模型上限与三个因素有关,第一个是训练时间,第二个是模型的容量参数,第三个是数据,只要这三方面能继续提升,能力就可以继续往上推。

下一代 GPT 肯定有图像、视频等更多数据的输入,这些数据量会更大,它的智能会呈现指数级的增长,现在 OpenAI 也给出一个结论,GPT4 肯定比现在的 GPT3.5 或其他 GPT 产生好一倍的效果。OpenAI 发表的通用人工智能宣言中也可以看出,它其实在有意放缓把更强模型放出来的进度,想让普通大众有一个接受的过程,先放出一个比较差的模型,再根据用户的反馈,来修正部署实施。

潘乱:ChatGPT 算是一种大力出奇迹的暴力美学典型,会不会因为数据越来越多,导致冗杂,让它越来越不精确?因为一般媒体写稿的话,了解的信息也不是越多越好,超过了某个值的话,反而不知道怎么写了。

周明:我觉得有几个角度:

第一,随着数据越来越多,还有神经网络的参数量越来越多,这背后当然需要更大的算力来支撑。数据积累到一定程度以后,再产生的数据大概都是 ChatGPT 产生的数据,新的数据不一定增长那么快,尽管每时每刻仍然在不停地增长,但这个趋势会减缓。

第二,垂直领域的数据会逐渐增强。我们用 ChatGPT 或类似的模型做垂直领域,有些垂直领域的数据是在网上爬不到的,比如金融。垂直领域的数据会在垂直领域的引擎上体现更好的作用。同样的数据量下,它的神经网络的参数量可以再通过暴力美学,增加十倍、百倍、千倍,只要有这样的算力,完全可以做到。

第三,ChatGPT 的涌现能力,即泛化能力,随着神经网络层数的增加,也随着参数量的加大,会变得更强。ChatGPT 比 GPT3 的能力更强,虽然不确定是不是会一直强下去,可能一定程度后会放缓,但目前还没有人知道哪里是 G 点,即上涨速度放缓的点。

第四,ChatGPT 在算法上能不能优化,使这个模型的 size 和训练的 GPU 数量能减少依赖,能省点钱、省点事,这部分应该有很大的空间可以探索,而不是一直线性增加 GPU。也许到一定程度时,什么都不涨,但是算法增长了,能力也有提升的可能,这些都是需要进一步验证的。

潘乱:这样来说的话,似乎也不是数据越多越好。而刚刚 Meta 发布的新模型,也是用了更少的数据量,实现了某些指标上更优的结果。是不是存在一个,通往最终目标的最优解,不需要那么多数据的一种方式?

龙海涛:首先要有一个很好的网络结构,这是非常重要的。我们可以看到,从历史上的卷积网络 CNN、到 LSTM 、再到 Transformer 的发明,一个好的结构可以带来非常大的质的提升。我相信 Tansformer 之后,应该还会有类似的重量级结构出现,可以大大推动整个 AGI 的质的飞跃。我比较期待能出现一种能推理的神经网络结构,可以解决现有大模型的事实性错误,OpenAI 内部其实也把 AI 推理当做是 AGI 的最后一个堡垒。

其次,数据的大是一方面,但是质量更重要。从 Meta 近期发布的数据来看,一些质量更好的数据出来以后,对大模型的表现是非常关键的,Meta 用了 1T 的数据来训练模型,并且数据迭代以后,模型的表现是会更好的。

最后,像周明教授刚才提到的,有一些更好的发明,可以让算法的效率和鲁棒性更强,再往上结合强化学习,让它从普通水平发展到专家水平。类比于打游戏,不单是通过人的反馈,还可以自己进化,这样它的鲁棒性就会非常高,不只会打某一种战术,也不会很容易让别人探索到弱点。同理,在大语言模型中,是不是也会有同样的算法和方法出现,AI 能够自己对抗、自我进化,能够把鲁棒性、可靠性、超级智能进化出来。

潘乱:对于现在的国内大模型创业来说,似乎又重新回到了 14、15 年万众创业的时代,但是很好奇在中国做大模型,面临的核心挑战是哪些?为什么 ChatGPT 在硅谷而不是在中国诞生?之前周明老师好像也说过,简中网络的内容质量并不是门槛。

周明:不同的人站在不同的角色,会有不同的思考。

首先,国与国之间的思考。中国目前是世界第二大经济体,中美关系这么糟糕。所有的人工智能核心技术,就跟当年的芯片操作系统一样,不管落后还是领先,中国一定要有自己的,这是既定的国策。最近领导人的讲话都在强调中国的自由创新,主要是讲要建立中国自己的覆盖全球的 ChatGPT 能力。

其次,一个国家之内,不同公司间的思考。有些公司是做大模型的,就应该把大模型底座做好,甚至超越 ChatGPT,我个人认为,未来有巨大的空间能够超越 ChatGPT,它只是吹响了下一代人工智能的号角,但绝不是终点。有些公司是做应用的,就应该老老实实回到自己的业务领域上,对应需求来使用工具,如果只是简单的信息抽取,就用 Bert 、 T5 或 GPT2,或国内的很多模型。有些公司是做研究的,他研究其中的关键算法,主要是学校和研究所,他们应该跟大公司合作,使用其他公司的底座,寻找开源的模型来试验算法。

最后,还有 AI 伦理问题,推理链问题,还有更重要的可解释性问题,回答用户的问题,需要对答案进行足够让人信服的解释。

总而言之,千万别一窝蜂去做 ChatGPT,99% 的公司都不会成功,也没有多大的意义,一定要针对自己的实际情况,审时度势,走出自己的一条路。

龙海涛:回应一下中美差距的问题:要做 AGI 或 ChatGPT 相关的前沿科技研究,推动这类科技的发展,资本密度和人才密度都是比较重要的。

过去几年,中国公司要做 AGI 的创新,资本环境还是比较困难的,OpenAI 在研发过程中拿了很多资本,因为国外资本是「因为相信才看见」,但一般资本是「因为看见才相信」。当然,随着现在 ChatGPT 带来的巨大效应,资本的问题可能不会太大。

其次是人才密度,人才密度可能是更加制约中国底层技术大模型发展的要素。有估算指出:在全球范围内,能够有效率地玩转高效的训练千亿参数模型的人可能不超过 200 个,中国本土的人更少,这是一个很大的差距。2021 年,我们在招募做百亿参数大模型训练的人才,发现市场上几乎没有做过大模型训练的相关人才,这是要奋起直追的。


03

大模型带来的

创业机会在哪里?

潘乱:这一波大模型技术变革袭来,你们看到属于创业者的机会在哪里?对于你们各自的领域都产生了什么影响?你们都做了什么新产品?

罗江春:我从 1997 年到 2000 年一直在美国莱斯大学就读人工智能 AI 专业,人工智能这个领域我们团队一直在看,公司名字「一览」包含了「一览无余」的意向,希望能通过 AI 把视频中的每个元素、每个元数据、每个标签,把里面的内容都看清楚,我们想做的是 AI 与视频结合的事情。

说到 ChatGPT 对产业的影响,它最直接的影响就是视频内容的生产,生产方式会发生基础性的改变,今天还不能贸然地预测它是否可以一步到位地生成视频——只要输入一段文字,就把一个视频做出来,现在肯定是做不到的,还需要跟很多东西结合,比如 Stable Diffusion 图片生成 AI 模型,以及音频混音工具,再加上像 Runway 这类新的视频生成模型。

ChatGPT 出现以后,对于视频应用领域来说,我认为不应该再去做大的、底层的、通用的大模型,而是应该在更好地应用 GPT 大模型的基础上,提升自我效能,在垂直的 AIGC 领域把真正有效的应用和内容做出来。

对我来说,从业 20 多年以来,GPT 的改变和影响,只能类比于 http 协议 和 WWW 万维网。很多人都说 GPT 像 iPhone,像搜索引擎,但我觉得这两者其实都只是半个时代,真正开启整个互联网时代的是 http 和 WWW,GPT 可以与它们相比。因为 http 和 WWW 使人们获取信息的方式 改变了,通过一台电脑,不管是浏览器 Netscape(网景)还是 IE,你都可以得到信息、得到知识、甚至可以购买。但 GPT 出来以后,跟你对话的不再是一个机器,你获取信息的方式不再是单向的;你是跟一个人在对话,是跟一个专家在对话。我不认为 GPT 只是大学生的水平,它的水平取决于怎么控制它、怎么跟它沟通。

龙海涛:我觉得作为创业公司,可以在三个层面上去做事,这也是现在行业的共同认知:

第一层,最底层的模型层。可以做垂类的基础大模型,比如为了生成虚拟角色、为了提升写作效率或者其他生产力的底层模型……公司可以选择自研基础模型,垂类模型可能百亿参数就够用了;当然也可以选择开源模型,和像 OpenAI 的这种 API。

第二层,中间层。其实是基于底层模型去做配置、做微调,包括结合自有数据飞轮,去做人类数据的反馈;针对行业的应用,结合行业的数据做出应用的模型。

第三层,应用层,现在看起来有几个方向。一个方向是 AI for productivity,为了提升生产力的 AI,ChatGPT 是很典型的生产力工具;一个方向是 AI for experience,为了提升上层用户的交互体验;第三个方向是 AI for science,科研相关的需求比较多。

我们自己会从场景如何提升用户体验、然后生产内容的方向上,去做以上三层的相关工作,这是我们大概的思路。现在语言大模型出来以后,对我们在内容体验方向的应用场景是有很大帮助的,包括之前的 AI bot,只能在里面玩游戏,但它不会开口说话。语言大模型出现以后,除了陪玩以外,还可以陪聊,就有了 AI NPC,作为伙伴陪着玩家一起去聊,将来在游戏里特别是开放世界游戏中,可能会成为标配。

张鹏:既然通用大模型的追赶这么费力,如果现在直接做垂直领域的大模型,直接通向把它变的更有用,在某个能力上做强化,是不是一种更适合的方式?但是如果在通用大模型上没有这样的基础能力,直接往垂直领域深入,又会变成一个拧螺丝的训练,最后可能很容易被通用模型战胜,今天的中国创业者在 GPT 之后的时代应该如何做选择?

周明:首先,站在国家的角度,一定要做出一个能够体现 AGI 能力的语言大模型,基本上由国内的大厂或专门 AGI 模型创业团队来完成,国内可能最多不超过十家能做这种大模型研究的机构。

其次,对于垂直领域的厂家,如果希望得到大模型的基座,最好跟以上这些公司合作,拿到基座模型,在专业领域上输入新数据。

站在不同人的角度,是要做不同决策的。第一种决策,有实力和情怀,应该努力去做 AGI 大模型;第二种,没有那么大的能力,也没有那么大的情怀,就老老实实地找一个大模型底座,在这个基础上积累数据就可以。所以要审时度势,不同的公司有不同的策略。

潘乱:大模型发展如此迅速,看起来让很多垂类创业公司的技术积累失去意义,大模型发展极大地降低其护城河。比如,估值 130 亿美金的 Grammarly(修改英文语法的工具)可能会死在 ChatGPT 影响下;基于 GPT3 提供付费的文案生成服务的独角兽 Jasper AI,在 ChatGPT 推出时,其免费服务也很好用。对于应用型公司,如何在大模型发展之下不被「淹死」?创业公司如何建构自身的护城河?

肖涵:如果是一个应用层的创业公司,相对来说受的冲击会少一些。如果你之前只是使用 ChatGPT 和大规模语言模型,没有相关研发的积累,也没有特别重的研发团队,只是使用其他 API,现在或许可以用 OpenAI 的 API 去做相同的事情。因为在机器学习方面是轻资产化的,相对来说,受到的冲击反而要小,你直接面向客户,不是面向开发者或 B 端,可能因为有了大规模语言模型,反而如鱼得水,能很大程度提高用户体验。

相反的,最受冲击的是在 2018 年到 2021 年间成立的一大批 AI 基建、 AI 模型公司。他们在 AI 方面非常重资产化,投入大批的人力去训练垂向的服务,将这些服务包装成 API。这时候突然来了一个 ChatGPT,发现之前做的 API 全都没用了,因为 ChatGPT 的能力已经比垂类的服务,包括图像生成、图像识别等都要好,可能都不需要训练,就已经比你训练得可能还要好。这是一个相对比较大的冲击。

实际上我们最近也在关注开源领域,2022 年的 GPT 还有 Stable Diffusion 出来之后,确实对之前的很多基础设施、基建层的工具链产生了非常大的影响,很多工具链就直接被淘汰了。这一波浪潮肯定非常大,先别说能不能朝岛的方向去走,先想想能不能在这波浪上游刃有余,这需要能灵活地配置,以便适应这波浪潮。我们确实要意识到 GPT 大规模语言模型带来了翻天覆地的变化,不仅仅是在应用层,甚至在底层的基础架构和云端的服务。我们能不能成为这波淘金者中去卖铲子的人,这个是非常关键的点。

因此,我司基于 ChatGPT 研发了一个 AI 辅助决策工具——Rationale,只需输入心中所想的一个或几个决策,产品在 10 秒内就能为你生成一份专属的决策评估报告。这份报告会包含每个决策的优缺点、风险、影响和建议,并清晰地展示出来。你可以根据报告来拓宽思路,提炼观点,从而做出理性的决策。

罗江春:我觉得肖涵讲得挺好的,我有很多做 AI 模型的朋友,他们看到 GPT 的感觉就是,好像练了十年的功夫一朝归零了。

但是对视频产业来说,实际上是一个好事。不管你之前投入多少,我一直有个观点:这种基础能力的模型,一般创业公司做不了,往里面投入资金和人才的力度和要求是很高的。回顾过去 20 年,在互联网上做基础设施的人,往往不赚钱,都是一群非常有理想主义的人在支撑着这个事;真正赚到钱的是在基础设施之上做应用的人。

GPT 开启了一个新的时代,创业公司需要马上调整,全力投入到做应用、做内容上。

去年我们推出一个给 MCN 机构和视频创作者赋能的内容创作工具,叫一览运营宝。我们已经在陆续加入很多 AIGC,包括在 GPT 上加很多 AIGC 的能力包,比如帮用户写脚本,做图片素材等,以此赋能他们做出更好的内容。我们通过工具把 AI 的能力完全赋能给创作者。我觉得,现在我们应该呼吁所有的互联网从业者,不管你做想做客服系统,想做教育,还是想做 AIGC,应该全力以赴地在 GPT 上做内容、做应用,这是一个新时代的开启。

张鹏:大模型带来的图文生产领域的变革也是我们比较关注的,现在 AIGC在视频和 3D 内容生成上遇到了哪些挑战?未来的方向会是怎么样的?

罗江春:AIGC 在视频的运用,可以先从视频的基本元素来看。以拍一条短视频为例,至少能解构成以下几件事:第一,脚本相关,从故事大纲到脚本等;第二,素材,包括图片、镜头等;第三,我们会把音轨单独拎出来,音轨包含了配音,配乐,特效等声音相关的一系列东西。最后还要把它们剪辑、拼接在一起。这是视频制作的一个基本原理,AIGC 也要从这几方面下手。无论是脚本的智能化生成,到海量的可应用的高质量素材库、包括音频。

这些方面面临的难点有几个:

第一,从静态变成动态。尤其是人的动作或动物的动作,要让它变得流畅。比如从上一张图片过渡到下一张图片,一个动作是如何生成,动作的模拟是很难完成的。

第二,情绪的处理。如果生成了一个虚拟人,或新生成了一个人的图片,要把它的情绪做出来,比如愤怒、微笑等情绪表达,在表达的时候要配合上。这部分的处理是 AIGC 中挑战性比较大的问题。

第三,3D 建模。3D 的核心是建模,现在的 Stable Diffusion 和 Runway 已经可以做到一些,可以换角,换镜头,换角度,可以生成不同的图片,这个对 3D 建模都是有帮助的。但 3D 建模实际上是个苦活,传统 AI 在制作的时候,只能一个模型一个模型去建,因为跟它的长宽高,还有很多东西都相关。

在这三个领域里,OpenAI 在解决脚本上已经往前走了很远,我们已经在测试它的能力,它在其中已经具备很多能力,而在图像的生成,image to video,text to video 中,我们很期待它的进展。但是就 video vertical 来说,大模型如果要有比较大的突破,我个人感觉可能还需要几年。

如果用大模型来做 video vertical 的解决,比如解决电商的某一种垂直应用,或者解决风景、酒店,这个应该会比较快,近期就可能看见。但如果是一个比较通用的,能兼容各种形式的 video,可能需要的时间会比较久,它积累的素材、包含未来模型参数的调整、生成的能力,都很值得期待。

龙海涛:我们是 2020 年之后才在游戏中把 AIGC 或者强化学习的技术落地的。

第一块技术比较成熟了,落地也比较快,AI bot——就是 AI 虚拟玩家,主要是用在 MOBA、FPS 等竞技游戏,还有策略类游戏等,让它成为玩家的对手或队友,或者用户掉线了可以去接管。AI 虚拟玩家在策略、动作设计、棋牌游戏中,都可以大规模落地了。在这种低难度的游戏中,AI 虚拟玩家的应用可以显著地提升用户留存,它可以在新手区降低用户的挫败感,包括在玩家掉线时接管,对提升体验有很大的帮助。

而除了能当对手、队友,还需要输出一些情绪价值,比如了解游戏世界观,充当内容的载体。因此就要求它除了决策能力外,还需要有对话能力。目前一个比较大的挑战,是怎么让垂类大模型更加可控、更加有人设和温度、甚至有情感。目前 ChatGPT 是偏工具人的人设,把它训练成某个世界观下的一个人设,需要大量结合业务数据做微调和训练,让它适应世界观。这也是需要大量研究和开发工作的,这个与生产力工具很不一样,还处在前期的探索和结合应用做研发的阶段。

第二块是 AI 策划。主要是辅助策划游戏的玩法和数值设计。传统的策划下,当游戏数值膨胀到一定的程度以后,其实就已经远超可控制的范围了,因为里面的武将、战法太多了。这是一个很经典的、可以用机器学习去解决的问题,因为它是一个组合优化的问题,现在系统提升以后,可以帮它找到数值的阵容和平衡性问题,这样在每个赛季推出新的武将角色时,不至于破坏整个游戏的平衡。在这种策略游戏中,数值的平衡性是非常重要的,如果推出一个武将,就把原有的数据平衡破坏掉,对整个游戏的收入都是一个很大的灾难。

第三块是 AI 生成,也有非常大的应用场景和空间。这其中包括美术资产的生成,剧情文本的生成和关卡的生成,这三部分都可以做一些工作,这也是大模型擅长做的。大模型如果用在线上,对它的可靠性要求是非常高的,如果 10 句话中说错一句或两句,会对体验有很大的破坏;但如果在离线生产时,10 次之中只有两次好的结果,也可以大大节省时间。以前画一张原画可能得画一个月,现在它可能一分钟就生成了 10 次,哪怕只挑出一张好的,也是对效率的数量级的提升。

张鹏:伴随着大模型的发展,除了你们自身业务之外,还有哪些应用是你们觉得比较值得期待?

肖涵:我比较期待虚拟人项目的重新回归。因为现在文本到文本、文本到图片、图片到文本、文本到声音、声音到文本等都打通了,既然模态都已经打通了,人的这些模态无非就是视觉、听觉、语言,我们能不能重新把虚拟人的概念重新引入,做出一个比 5 年之前更强的、用户体验改进很多的版本。

龙海涛:刚才肖涵说的多模态的 AI 驱动数字人,也是我们比较感兴趣的方向,最近 DeepMind 有好几个巨大突破,包括:第一个是虚拟细胞,做出来以后对生物的制药和整个生命科学应该会有巨大的应用突破;第二个是以量子的力度去模拟物质,做好之后在材料物质中也会是巨大的突破;第三个使用强化学习做核聚变,能够大幅地提升性能,能量能源在将来的成本会趋近于 0。

罗江春:Prompt Engineer 这个职业,它是一个像念咒语一样的,通过不断地调各种词、去问不同的模型——Stable Diffusion 也好,OpenAI 也好。我觉得这个职业未来会非常普及,会有很多人去从事这个职业,工程师也可能会变成 Prompt Engineer。所以如果让我选一个方向,我觉得办一家 Prompt Engineer 的学校或培训机构会很有意思。

肖涵:说到 Prompt,我们最近上线了一个用 AI 优化 Prompt 的新产品:最美提示词 PromptPerfect。当你输入提示词后,它就会输出优化后的「最美提示词」,并让你预览优化前后的模型输出。不仅支持 ChatGPT 提示词优化,还支持 GPT 3、Stable Diffusion、DALL·E 等多个 LLMs,能够给各种大语言模型找到最好的提示词。


04

大模型的未来和

搜索的未来

潘乱:大模型发展的下一步方向是什么?未来演进的逻辑是怎么样的?

黄民烈:对于朝哪个方向发展,我猜测可能是:

第一,至少要把事实正确的层面做到 80 分,现在还差得远,ChatGPT 目前对于事实类的问题会给出胡说八道的答案,这是我觉得比较基础的问题。

第二,数据精确计算能力也有待提升,虽然现在修复得很快,但从理论上来讲,技术打补丁的方法需要跟符号、精确推理更好地结合起来。

第三,跟多模态结合的应用,当前更多还是单模态,但未来的真实世界肯定是多模态的,多模态有很多的应用场景,因此需要把多模态的信息结合进来。

周明:我从其他角度做一下补充:

第一个,从科学或算法角度来讲,ChatGPT 的强化学习会越来越强化,我们可以去探讨是否可能有其他方面的新算法出现;包括 Transformer 这个架构的进一步改进和优化,也有人号称做出了比 GPT 更小、但能力很强的模型,这是未来值得发展和探索的事情。

第二个,要快速建立飞轮效应,并且快速对 log 进行分析,log 分析又是另一项人工智能问题——每天输入几十亿 G 的数据,不但要自动分类,有意识地做重点标注,还要把标注的结果快速地输入原来的模型以体现效果。这个过程要求的自动化程度很高、很快,目前即使是 ChatGPT 也有一定困难。

第三个,从部署层面来看,因为模型太大了,每一个 query 的成本大概是 3 美分左右,这对于任何一家公司都是巨大的成本,即使有微软的支持。因此,对于模型的轻量化处理,或使用更小的机器解决效率问题,也是 ChatGPT 要考虑的问题。

第四个,落地问题。目前 ChatGPT 更像一个通用人工智能,但做具体的任务都不太灵敏,比如做金融的量化分析,或者研究报告,写得似是而非,看似挺有条理,但基本没办法使用。所以在落地层面,ChatGPT 还有很大的空间要发展,这也给了国内创业者一些新的机会。

张鹏:当前人们主动获取信息的主要途径是搜索,随着 ChatGPT 的出现可能让这一方式可能变得更加高效精准。如何看待 ChatGPT 对于搜索的影响?在你们看来,搜索的未来是什么?

肖涵:我在 12 月 15 号写了一篇长文章,名称是《SEO 已死,LLM 永生》。

在讲搜索之前,先讲一下 SEO 产业。人们会为了提高网站的排名尽量去写文章,将文章中要推荐的产品尽量铺外链,写一些相关性文章,使得这些外链最后指向产品主页,这样用户在搜索某个关键词的时候,产品有非常大的机会能靠前显示。这基本上是现在搜索引擎的一些做法。通过分析用户的输入和每天爬取的网页,去判断其中的相关性,并判断整个网页的权重,对所指向的外链和内链综合给出排名。

ChatGPT 刚出现的时候,很多人觉得太方便了,原来做内容生成,需要自己去构建外链文章,需要自己写,或是雇人写,现在直接用 ChatGPT 生成。比如:我要推荐一个手机,就让 ChatGPT 总结出这部手机的十大优点,市场上的竞品,都可以几秒钟之内生成一段相对可读的文章。从搜索引擎的角度来讲,它区分不出来文章是人写的还是机器写的,反正都抓取过来,判断一下相关性,这中间存在一个信息差,SEO 的从业者就利用信息差去实现自动化。

但实际上 ChatGPT 最大的一个问题就在于:可以把它想象成一个数据库,它通过大规模的语言模型,将所有人类的知识,笔头上、书本上的一些知识存储起来,再以某种概率形式返还给你,所以它给出的结果就相当于数据库中的存储与读取,只不过它的数据库是一个概率性的数据库,并不是直接返回你一个确定性的结果,有可能是通过差值产生的。

基于这种原理,其实可以把 ChatGPT 想象成一个搜索引擎,它和搜索引擎有很多相似性:搜索引擎是将所有网上的数据去爬取,根据用户的输入去判断相关性,返回 top  rank 的结果,比如排名前 10、前 20。GPT 也是将所有的人类书写的东西索引起来,存储在几百亿的参数模型下,用户在输入时,它激活这些神经网络,把相应的数据返还给用户。从本身的原理上来讲,抽象地看,这两者大致是相同的。

为什么 ChatGPT 要比 Google 的用户体验更好?因为 ChatGPT 是以一种人机对话的形式来返还给用户,并且返还的时候,它不返前 20 的,就返还排名第一的,这时候的用户体感就非常好。在做搜索引擎时,可能要翻好几页、好几十页去找一个结果,ChatGPT 直接返还给你第一个结果,告诉你这个就是你想要的答案,所以又会节省非常多的时间。

这其中就引出一个问题:如果未来的搜索都是以 ChatGPT 的形式存在,这时候想做 SEO,该怎么做?SEO 通过不断地写文章、不断构建外链,能够让搜索引擎给出用户想要的排名,但 ChatGPT 可能会给出商家不想要的结果,这时候从商业上考量,未来大规模语言模型可能需要通过上下文学习、产生特定的输出。

潘乱:我想起百度在 2009 年推出的一个产品——框计算,输入你需要知道的具体信息、你的服务需求,它可以直接调用可信的服务商,给出一个结果。ChatGPT 跟搜索结合,在信息交互实现机制跟过程中的创新,类似于这个产品吗?ChatGPT 如何解决事实可信度的问题?

肖涵:可信度问题有两种解决方法:

第一种就是在做训练样本时,稍微标注一下,说明哪些训练样本比较可信的、哪些不太可信。从 OpenAI 的角度来讲,它不去做这件事,是因为公司以研究出身,它不想太多地干预市场——比如从维基百科输入的信息,就可置信度就高一些;如果是从网上的一个野生论坛出来的,给它标注的权重就低一些。

第二是从技术上讲,很多人会说这是一种商业的启发式规则,就跟百度似的,搞一些不同网站的权重。我们其实也可以从 AI 角度上来解决这个问题,就是符号推理,包括 ChatGPT 对于事实、对于因果链的推理、以及最基本的符号化逻辑。目前来讲它能实现一部分低阶的数理逻辑,包括正反因果链的推导。但是数理逻辑并没有 hard code 在里面,而是因为训练样板非常非常多,覆盖了人类将近 60%- 70% 的语料,随后自然而然会产生一些数理逻辑。ChatGPT 无非是一面镜子,将这些数理逻辑通过某种形式又返还给你了,但如果想非常强调这种事实化的,还有因果链的推导,尤其是高阶的因果链推导,是需要一定的符号化推理,让这种机制固化在 ChatGPT 里,就不能仅仅是通过像 Transformer 这种架构来解决。

张鹏:刚才肖涵说的就是 GPT 对于搜索这件事的一些改变,搜索如果要精准,就要有符号主义的东西。但从我的理解,GPT 本质上是个联结主义的东西,这完全是两个不一样的东西。

龙海涛:我觉得用联结主义的大模型嫁接搜索引擎,或知识库,或知识图谱,可能是一种过渡方案。它可以帮助修正一些大模型的问题,也可以利用大模型本身的语言能力。大模型是比较强的,去辅助这样一些外部的知识图谱,或者是搜索一些结果,可以部分地去修正本身的问题,两者结合也应该能在近期或中期产生比较大的商业价值。

但我个人比较期待它能从根本上、从大模型本身去解决,或从深度学习中把事情解决得比较优。

肖涵:我觉得符号主义未来肯定会进入 GPT 的。人工领域比较有争议的科学家 Gary Marcus 认为,就连最基本的、简单的 2 岁孩子甚至猴子都能够学会的推理,语言模型都无法实现,这本身代表了符号化的学派,他认为未来肯定需要一定的符号化在里头,不完全是联结主义。

再说说 GPT 微调,我觉得有两种:

第一种从 2018 年到 2021 年所讲的,所谓参数化的 fine-tuned(微调)——拿到模型之后,不管是机器学习模型、语言模型、大规模语言模型,一定要把它的参数进行调整,以适应下游的一些训练样本。比如:专门做体育新闻的,就需要拿 GPT 过来,在中文体育新闻的训练样本上做参数化的微调。但是我个人认为,这种方法未来不会被中下游公司所采用,因为它的成本还是相对比较高的,尤其是微调之后还得自己 host 一个 GPT,一年差不多得 10 万美元,这也是一笔开销。

其实更好的方法是 prompt,就是给提示词,实际上就是在跟 ChatGPT 或 GPT 聊天时,提前告诉它你要做什么,并给出一些例子。Prompt 包括对任务的描述,加上一些实例,复杂的 prompt 一般得有 1000 字,叫做上下文学习,在使用 OpenAI 的公版 GPT 之前,每次都加上一段上下文,就可以实现技术上一定程度的微调。微调成本非常低,它需要存储的不再是参数化模型,因为参数是没有变的,变的只是上下文的字符串。储存一个字符串既不需要太大的成本,而且 ChatGPT 是没有长度限制的,这会使得下游的这些产业可以通过上下文学习去构建很多轻量级的应用层。这是 GPT 一个非常大的优势,也是大规模语言模型真正迷人的地方,它能够通过不断优化 prompt 而不改变参数,使得下游的功能可以实现。

潘乱:发散一下,大家觉得硅基生命和碳基生命未来的走向会是怎么样的?我们碳基生命还有指望吗?

肖涵:人类目前相比于 GPT 大规模语言模型,唯一的强项就在于真正做决策,能够真正实施改变,这种执行力还是把握在人类手里,真正能对物理世界产生改变的还是人类。GPT 可以帮助你做分析、做推理,但是对于物理世界产生改变的还是人类。

另外,我觉得对于硅基生命,也不要特别神化。因为我们要知道,ChatGPT 已经用了人类将近 60% 的语料了,如果用了 100% 的语料,它的智能可能仍然达不到正常人 20 岁的智力水平,最多只能达到 15 岁。这时候 GPT 也会遇到自己的瓶颈,当它把所有人类书写过的语料都用过了,它的上下文推理能力仍然不能达到所期待的水平,这时候就会要思考 Transformer 背后的这套架构是不是能够实现未来需要的 AGI 了。

龙海涛:除了在国内去看如何复现或追赶 ChatGPT,更重要的还是去思考一下真的 AGI 时代到来之后,怎么样去做安全性的考虑。OpenAI 目前已经在非常严肃地考虑这个问题了,在后 AGI 时代,我们怎么样去做一些安全性、可控性的考量,这真的是值得深入思考的问题。

当然,硅基生命的进化速度确实会比较快,我觉得碳基生命将来可能有两条路:一条是向外发展,跨星球的殖民,向外去探索;另外一条是数字世界得到永生,就像流浪地球里,在数字环境中去把自己上传上去,我觉得可能也是两条路。

罗江春:我可能有一点不同的观点,我认为碳基生命更聪明,当然更聪明可能只是少数人,不一定是全部的人类,而是有少数顶尖的工程师和科学家,他们在硅基生命之上。所以如果硅基生命想超越碳基生命,要取决于真正能控制这些硅基生命的科学家和工程师,取决于它能通过硅基生命去学到什么东西。OpenAI 近期也发布了宣言,他们针对安全性管理规则和应用做出很多东西,虽然单个人可能比不上 ChatGPT 这样大的模型,但实际上它还是人造出来的。

人创造了硅基生命,不管是我们,还是顶尖的科学家和工程师,还是要去学习它的能力,碳基生命的能力还可以在建立在硅基生命的能力基础之上,如果能一直控制住,我觉得碳基生命当然还是会更持续、更好。

但其实我第一次见到 GPT 的感觉是:Wow,This is a God,它无所不知。虽然它在一本正经地胡说八道,但会觉得它真的无所不知,这可能是一个哲学问题,也许我们所有的碳基生命其实生活在另外一个 God 的管控之下,犹未可知。

*以上嘉宾观点不代表 Founder Park 立场,也不构成任何投资建议。



更多科技创业者的采访,欢迎在小宇宙或者苹果播客收听我们的播客节目「Founder 100」。


Founder 100 栏目一直在招募优秀的科技创业者来做客我们的直播间,如果大家对于这档栏目感兴趣,也有意向想要来分享自己的故事,欢迎大家长按下图,识别图中二维码,填写报名申请单。
更多阅读

转载原创文章请添加微信:geekparker

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存