甲小姐对话李志飞:聊聊这场疯狂的AI大模型炼丹大会 | 甲子光年
“人类第一次像上帝一样造了一个人工大脑,我特别想去做实验,真正理解那些能力到底是怎么‘涌现’的。”
一个月前,原美团联合创始人王慧文和出门问问创始人李志飞、真格基金的两位合伙人戴雨森、刘元约了一顿饭。
饭桌上,谈及这一波大火的AI,王慧文直言邀李志飞联手all in大模型。
李志飞给王慧文算了一笔账,关于AI大模型的基础投入:2000万美金搞算力,2000万美金找人,1000万美金做数据——日后流传甚广的“5000万美金”就是这么算出来的。
聊到兴起时,王慧文拿起手机,发表了那段著名的“5000万美金AI宣言”。
后面的故事便为人熟知了。一条宣言炸出了王小川、周伯文、蓝振忠、唐杰等一众大佬。
这一数字并没有吓退参与者。数千万美金的门槛在两周之内几乎被踏平——2月17日,致力于打造“超拟人大模型”的聆心智能宣布完成Pre-A轮融资;2月28日,国内自研AI图像生成大模型MorpherVLM的Tiamat宣布完成近千万美元A轮融资;3月1日,原“京东AI掌门人”周伯文创办的衔远科技宣布已完成数亿元天使轮融资;2022年首次转亏的360则宣称要直接从账面上的220亿中拿出200亿all in ChatGPT……
今天对话的主人公李志飞,是出门问问创始人、CEO,美国约翰霍普金斯大学计算机系博士,前Google总部科学家,自然语言处理及人工智能专家,创业10年主导开发过语音助手、智能硬件,以及多个AIGC产品,如魔音工坊、奇妙元。
自2022年11月30日ChatGPT发布后,李志飞反复试用,感觉“简直被震晕了”。他春节第二天就飞到硅谷,找亚马逊、OpenAI、谷歌、微软的工程师挨个聊,拼命想搞清楚ChatGPT到底为什么这么牛。聊了一圈,他认为大模型开发壁垒极高。于是,回国后,他原本准备用2个月时间仔细筹划自己的大模型事业,但没想到,一顿饭、一条朋友圈,竟把时间压缩到2周。他坦言,“大模型的供给不像我想的那么少”。
这一次,甲小姐再次对话李志飞。不同于之前几次采访围绕AI商业化痛苦地上下求索,我们看到了一个更为坦然、自洽、松弛的思考者。他甚至向「甲子光年」自我调侃:“我比较适合做ChatGPT方向的首席分析师。”
本文目录
1.谈感知:“大模型的供给不像我想的那么少”
2.谈信仰:“GPT-3是我信仰转变的时刻”
3.谈技术:“OpenAI没那么神奇”
4.谈时点:“大概率未来十年大模型会是主流”
5.谈AGI:“AGI就像真相,永远只能逼近不能到达”
6.谈格局:“接下来就是花钱,找正确的人,还有协调大家不要七嘴八舌”
7.谈心态:“我最想做的是模型本身,这是我最大的动力”
1.谈感知:“大模型的供给不像我想的那么少”
上一代AI为什么很多人赚不到钱?因为供给太多了,没那么高壁垒,而需求又没那么广,导致最后只能是价格战。我在硅谷聊完之后,感觉这一波大模型跟以前不一样。
李志飞:你们是不是被ChatGPT轰炸得不行了?
甲小姐:你肯定被轰炸得更厉害。
李志飞:两周前我见了大量的人,那篇文章(注:2月15日,李志飞通过极客公园官宣入局大模型,做中国的OpenAI)发了之后应该有100多人加我,但我现在都不见了。业界认知更新太快,我自己也要不断学习,重复我的既有认知给其他人科普,对我来说意义不大。
甲小姐:不见人的时候你干什么?
李志飞:读论文、跟工程师开会干活。我前两周至少聊了二三十家VC,才发现VC们都读论文的,太恐怖了。真格、源码的人一见我就问我transformer里的细节,我说现在VC怎么这么难忽悠(笑)。
甲小姐:这些投资人里,有多少是来学习的,有多少真的打算入场?
李志飞:红杉已经走在非常前面了,他们去年就在看,但我觉得他们也看得眼花缭乱,应该看了二三十个,估计审美疲劳了。
甲小姐:有没有VC直接把钱拍在桌子上,说我要投大模型?
李志飞:这种情况可能在两周前最疯狂时VC们集体行动才会出现,但现在大多没想清楚,又FOMO(Fear of missing out,害怕错过),大多想跟投,而不是领投。
甲小姐:硅谷呢?
李志飞:美国纯大模型的投资、创业窗口去年年底就没了,现在讨论最多的是应用落地,我觉得中国很快也会进入这个状态。昨天甚至有个VC说他们接下来准备第一个搞大模型和应用孵化器,我说你这种认知也就领先别人一个星期而已,我比别人也就领先两个星期。感觉再不看论文,再不去自己琢磨,很快就会落后了。我真的觉得很恐怖——集体智慧进化得太快了,一天不看论文都觉得跟不上。
甲小姐:和前两周相比,今天大家的心态有变化吗?
李志飞:有变化,很明显,最前沿的人都相对冷静下来了。坦白说,我当时也很上头,所从事的领域出现巨大突破让我兴奋,想不顾一切做大模型,更多是在一种情绪上,现在应该都没那么上头了,而是回归理性客观地从长计议。
甲小姐:你从什么时候开始“上头”的?
李志飞:我去年10月去过美国,当时他们只讨论AIGC,没人讨论大模型。11月30日ChatGPT上线后我觉得太牛了,简直把我震晕了,它可以生成、排序,甚至直接生成一句话的语法树——不知道它是怎么做到的。
甲小姐:外行看热闹,内行看门道,你是怎么看ChatGPT的?
李志飞:我一直用上帝视角琢磨它到底怎么实现的。我们以前做NLP时有两个比较对立的概念context free grammar(CFG,上下文无关文法)和finite state machine (FSM,有限状态机)。Large language model(大语言模型)原则上属于FSM范畴,能实现下一个token的预测,但它竟然直接画出一棵语法树,而且是在自由提问和回答时穿插着生成语法树。这难以想象,因为语法树属于CFG parsing(语法分析)范围。
另外,它能做很偏门的任务,比如Part of Speech (POS)词性标注。以前专门用一个系统来做都不一定干得好,现在就这么一个简单的目标函数,就能把下一个token预测得这么好,直到今天还没人能搞明白为什么。
所以我春节后第二天就去美国,和很多人聊。之前我以为谷歌可能两三个月就搞出来了,但聊完以后就觉得这东西壁垒极高,不会像上一代AI——上一代AI 为什么很多人赚不到钱?因为供给太多了,没那么高壁垒,而需求又没那么广,导致最后只能是价格战。
我在硅谷聊完之后,感觉这一波大模型跟以前不一样。供给很少,资金门槛很高,但需求远大于以前的AI,是超越互联网级别的需求。所以我认为大模型值得专门去做,而且把它当商业模式去做。
回来以后我本来以为这件事应该有2个月时间慢慢规划,结果老王(王慧文)朋友圈一下子把整个过程压缩到了两周。
甲小姐:为什么仅仅两三个礼拜之后,大家似乎就没那么上头了?
李志飞:经过这两周,各种各样的选手都出来了,我一下子意识到,大模型的供给并不像我们最初想象的那么少。
另外,我之前觉得开源不靠谱,但后来我发现开源会大幅度降低中国互联网巨头以及原本能力不够的公司的门槛。和发火箭一样,开源已经把火箭启动了,你直接加油就行,就是钱的事情。
2.谈信仰:“GPT-3是我信仰转变的时刻”
我是带着巨大的困惑去看了文献,最核心的一篇竟然是Salesforce发表的一篇文章,这篇文章写出了多任务单模型的核心思想。
甲小姐:你画风变化很大。2019年,我和你聊深度学习,我说“很多人都在赞叹深度学习的暴力美学”,当时你的本能反应是“暴力有什么美学?”
李志飞:说明你认知比我先到位。
甲小姐:你那个时候认为靠大数据、大算力、大参数的方法不环保、没效率、不可控,所以你“感受不到深度学习的美”,但今天你成了暴力美学的拥趸。推翻自己是件很难的事,什么触发了你的改变?
李志飞:2020年GPT-3出现是我信仰转变的时刻。GPT-3之前,我认为AI真要突破天花板,只靠暴力是没有希望的,但我也不知道不靠暴力还能怎么办。
甲小姐:之前每次和你聊,多少有些悲观主义色彩,你每次都在数AI商业化到底有几条路可以走,但似乎每条路都不够sexy。
李志飞:因为以前所有系统都是单一任务,完成机器翻译、语音识别等单一任务都要单独训练一套系统,标注很多数据,但2020年GPT-3出来可以在一个模型里做很多任务,那一刻我是震惊的,我不相信一个language model可以同时做很多任务,而且不改变模型,不专门标数据。
我是带着巨大的困惑去看了文献,发现GPT-3的多任务在GPT-2的论文中已经有所描述,只是那时模型太小,在单一模型里做多任务效果很差,没有引起太多关注。
接着我去追溯GPT-1、GPT-2论文的引用文献,最核心的一篇是《The Natural Language Decathlon:Multitask Learning as Question Answering》,这竟然是Salesforce发表的一篇文章!这篇文章写出了多任务单模型的根本思想。
甲小姐:通俗地解释一下大模型能做多任务的根本思想。
李志飞:一个前提是,互联网上有大量的数据,这些数据中隐含了大量的任务描述。核心逻辑是,互联网数据里包含大量任务描述,如果大模型能够预测好互联网数据,就能够做好任务。
甲小姐:你对暴力美学的认知拐点基于一个非常精简的逻辑推理,你找到了从单一任务到多任务成立的唯一解释,从而理解了大模型的价值,这就是促使你信仰改变的magic moment?
李志飞:是的。
Ilya Sutskever(OpenAI联合创始人、首席科学家)还找到了一种可行的路径,“transformer+GPT+互联网无标注数据”,让模型变得可规模化。
逐一来看,先看transformer,相对RNN或LSTM,transformer解决了并行计算的问题,而且能看很长的context距离;再看模型结构,以前做任务需要区分输入和输出,比如做中英翻译时中文是输入,英文是输出,但GPT是一个解码器(decoder),所有序列从左到右,没有任务的概念,不区分输入输出,这样的好处就是不用标数据了,可以直接用互联网上自然语言中的任务描述。这两点让它非常scalable。
甲小姐:硅谷牛人很多,为什么是Ilya找到了这条路径?
李志飞 :我觉得Ilya是有自己的世界观的,他就是要找一个最简单的模型,模型要scalable——只有简单,才能scalable。
因为标注数据训练一个通用人工智能基本是不可能的,所以可行的通用模型要足够大,未标注数据要足够多,只要算力足够,都很简单。他可能天天都在看各种论文,找他认为靠谱的方法,看到transformer这一刻,他就明白了。他在论文中写了一段话:只要数据足够多,模型的capacity足够强,如果这个模型能够预测数据,数据中又含有很多任务,那么这个模型就可以做多任务了——这是他的信仰。
甲小姐:我之前采访特伦斯·谢诺夫斯基(全球十大人工智能科学家之一、美国“四院院士”、深度学习的先驱及奠基者),他的信仰也极其简单,他相信计算可以通过“模拟进化”来解决一切问题,因为大自然已经用这种方式解决了所有问题;类似的,Ilya相信互联网数据已经解决了所有问题。
李志飞:有信仰的人很多,我觉得Ilya他们比较好的地方在于,既有信仰,又能找到实现路径。
Yann LeCun(Meta首席人工智能科学家)最近老是批评ChatGPT,他也提出了自己的“世界模型”框架,他的框架看起来挺有道理,但so what?实现不了,工程搞不了,数据没有。但Ilya有自己的理念,并且知道什么是work的。
甲小姐:科技发展往往不是最优解的胜利,而是最先造出来的人把它定义成最优解。某种意义上,马斯克、乔布斯、IIya都是最优解的定义者,你怎么看他们三个人的区别?
李志飞:马斯克有时容易PR过度;乔布斯不是科学家,他是用确定性技术去做产品;但Ilya是从科学层面,推动科技往前走。
我为什么觉得Ilya挺牛的,因为他2014年在《Sequence to Sequence Learning with Neural Networks》这篇文章里就提出了用深度学习来端到端做序列学习,真的很大胆,而且后面也一直念念不忘。
我们以前做不好机器翻译,但为什么今天GPT都没有专门做翻译,却已经把这个问题解决了?核心在于,以前做机器翻译哪怕能标注中英文的100万个句子对,AI模型要从这些数据里学会懂语言、懂知识、懂逻辑,最后才是懂翻译。要从如此少的数据学这么多能力,这对AI要求太高了。但GPT从海量无标注的互联网数据里已经学会了这些东西背后的抽象结构,所以做翻译时,只要给它1万个例子,甚至5000个例子,它就能把所有能力串起来,把翻译做好——相当于一个小孩先接受通识教育,然后选专业。
3.谈技术:“OpenAI没那么神奇”
这件事太难了,和以前的范式完全不同,可能有人做一半又放弃了,或者搞别的去了。
甲小姐:和硅谷的人当面聊完后,你是什么感觉?
李志飞:OpenAI没那么神奇。大家总觉得OpenAI的人很牛,既能写论文,又能做工程,其实这种人在谷歌一大堆。但OpenAI的不同在于,GPT-3之后,它变得非常产品驱动。
Microsoft Research是学术驱动;DeepMind是项目驱动,跟特种兵一样,打一枪换个地方,没有迭代;OpenAI最开始也学DeepMind,做了一堆reinforcement learning(强化学习),但GPT-3让他们看到正反馈,他们就更加聚焦,把一些做reinforcement learning、robotics的人都转来搞大语言模型,而且他们一定在GPT-3之后收集了大量的用户数据,不停地标数据、迭代。
甲小姐:我顺藤摸瓜研究了很多ChatGPT相关替代品,发现美国有很多这样的产品,而且都做得还不错,有些也不依赖大模型。
李志飞:因为GPT-3太牛了,让人觉得OpenAI只有一个大模型,GPT好像要一统江山,好像其他如做语音识别的小模型都没用了,其实不是的,OpenAI还有DALL-E、Whisper这些模型,都不是GPT-3。
甲小姐:这一代产品让很多人对AI重拾信心,连对话效果都这么好,做其他事似乎也不会差。
李志飞:因为文本是认知的沉淀。认知都能做好,别的东西只需要加规模、加数据就好。我觉得OpenAI就是看到了终局,所以一直坚持。从学术的角度看大模型,Language Model属于认知模型的子集,认知模型属于Sequence Model的子集, Sequence Model是Structure Model的子集。
为什么我认为GPT会超越互联网的应用?因为如果你把它当做一个预测structure的模型,它的应用远超语言。Sequence是比较简单的structure,比如股票的预测、天气预报等。GPT-3.5很牛的是,它学会了用最有效的方式去预测一个序列结构——无论这个序列是语言、蛋白质结构,还是股票价格,我认为它是打开了一扇天窗。现在美国如果有一家公司说要用GPT做一个通用机器人,我觉得VC就应该投,因为它会改变今天所有做机器人的方式,那就是更通用。
甲小姐:我一直相信暴力美学等技术信仰一定来自深刻的理性,信仰需要定力,很多人可能会迷失在过程中各种“局部最优解”的诱惑里。
李志飞:对,因为这件事太难了,和以前的范式完全不同,可能有人做一半又放弃了,或者搞别的去了。
甲小姐:人工智能正在脱离严密的因果逻辑,越来越像做实验,有时甚至是社会实验。
李志飞:这不就是我之前不喜欢深度学习暴力美学的原因吗?一个特别明显的趋势是,GPT系列的论文里没有一个公式——以前的论文会看到很多推理,很多公式,很多非常漂亮的data structure,现在都没有。
最恐怖的是它的实验成本很高,现在像斯坦福这种一流学校的研究都在被边缘化,因为学界没有产业界有钱。
甲小姐:这就导致ChatGPT的训练过程很难复现。如果现在沿着OpenAI的路径重做一遍,怎么评估试错成本会更高还是更低?
李志飞:做对了且运气好肯定比它低,但也会有很多失败,所有模型的“基因”都是transformer,更多区别在于喂给模型的语料是什么顺序,什么质量。
甲小姐:互联网上有很多噪音,大模型从业者需要做大量数据清洗来保证数据质量,因为这直接决定了模型生成内容的价值观是否正确。
李志飞:当数据量足够大,所有噪音都不重要——只要你假设大部分还是好的内容。
甲小姐:我很担心这种假设不成立。当ChatGPT类产品产出的内容越来越多,内容门槛就会越来越低,网上会有很多机器“水军”,互联网的数据质量会被快速稀释,我们甚至很难判断一句话是ChatGPT生成的还是人说的,这就需要对数据质量做很多工作,就像搭了一个巨大的图书馆,我们要动态选择把什么样的书放进去。
李志飞:包括什么时间把什么样的书放进去也很重要,要循序渐进。原来的模型数据很少,可以跑10遍、20遍,喂给模型的数据顺序不重要,但互联网数据量巨大,所有数据只能跑一遍,这种情况下,工程师什么时候喂给它什么数据就非常重要。
4.谈时点:“大概率未来十年大模型会是主流”
OpenAI非常坚定,这让微软也很坚定,现在的100亿美金只是个开头。
甲小姐:从符号主义到联结主义,再到如今ChatGPT出现,你作为科学家和从业者见证了不同时代的变迁,这个过程中有哪些关键的发展节点?
李志飞:2010年左右,我们做Google Translate时很绝望,因为加数据已经没用了,基于统计的符号主义模型的capacity就这么点,能描述的东西有限,且不容易scalable。
2010年前后, 谷歌已经把这件事做到极致了,它把机器翻译、语音识别这种以前在学术界的任务变成一个工业产品,这是跟ChatGPT一样牛的事情。原先输入一篇文章可能5分钟都出不了结果,Google翻译200毫秒出结果,完全用分布式计算。所以基于统计的符号主义那一套已经走到头了。但在2012年之后,深度学习又救了大家一把。
甲小姐:2012年似乎是个拐点,之前的语音识别产品基本上都是六七十分,特别傻,一年过去突然变成90分。
李志飞:2012年深度学习刚开始解决的都是图像分类、语音里的音素识别这种分类器的问题,不是端到端的sequence。
2012~2015年,主要还是ImageNet的进展,后来有人包括Ilya搞了一个sequence to sequence model,真正做sequence任务,比如翻译。翻译是一个黄金task,涵盖的数据量最多,动不动几千万的句子。之前都是用RNN跟LSTM,但速度很慢,效果也不好。
2017年是一个拐点,transformer出来之后,大家突然觉得sequence的任务可以解决,而且是从文本开始的。Ilya他们本来也在研究sequence to sequence,天天想但搞不定,突然看到transformer搞定了,立马就把transformer用在了GPT上。
这里面有pre-training(预训练)、fine-tuning(微调)和prompt(提示)三种模式。
GPT-1是pre-training + fine-tuning,但它解决的问题不是多任务,因为pre-training模型是通用的,没有任务的概念,一旦做了fine-tuning就变成单一任务了。后来Bert跟进了。因为OpenAI以外的人没有把多任务或者通用AI作为目标,所以Bert在2018、2019年是最受欢迎的,Bert在单一任务的效果比GPT更好。
GPT-2的时候,OpenAI就放弃fine-tuning,他们还是念念不忘想做多任务,GPT-2就有了prompt,一直坚持到GPT-3,就彻底不要fine-tuning了,只是不断加大规模。所以OpenAI是有信念的,他们认为不是prompt不行,而是规模不够大。Ilya在GPT-2的论文里写了,模型没有很好地预测互联网数据,所以任务做不好。
GPT-3出来以后,你就发现,哇,超牛,它用pre-training+prompt就能实现多任务,这给了OpenAI一个很大的正反馈。但GPT-3有两个问题:第一个是few-shot learning(小样本学习),就是每次做一个任务,都要先给它举两个例子,这很反人类;第二,它对prompt特别敏感,prompt就像咒语,有咒语才能激活魔法,但不知道什么时候能激活出来。
谷歌2021年搞了instruction tuning,就是Google的FLAN,它解决了上面两个问题。它思想也很简单,OpenAI不搞fine-tuning,但他们继续搞,只是把prompt再做很多标注放到fine-tuning里面,这样就对prompt不敏感了,而且fine-tuning后还能做多任务。结果特别有意思的是,OpenAI思路也反反复复的,他们本来不喜欢fine-tuning,但instructGPT在pre-training之后又用了supervised fine-tuning(SFT)。
你可以看出,OpenAI是非常实用主义的。他们看到FLAN instruction tuning一下能把few-shot learning变成zero-shot learning(零样本学习),同时保持多任务的能力,而且对prompt又不敏感,就把fine tuning又用在instructGPT里。
Pre-training+SFT+RLHF,成就了今天的ChatGPT。
OpenAI的实用主义表现在他们并不是一定要完全按照自己的路线。你可以想象他们每天讨论哪个方法能为我所用的样子,而且要scalable,要能真正有用,不能是那种理论上看起来很漂亮但实际上不能用的东西。他们自己做的唯一的事情就是scale up。
甲小姐:现在ChatGPT让人体感不够好的关键是它会无中生有或胡说八道,这个问题现在有改进途径吗?
李志飞:这本质上就是符号主义和联结主义的区别。
我们以前做语音助手,符号主义至少会抽象出三个步骤:理解、检索、生成。输入一句话,先理解了大概什么意思,再去搜索,最后生成一个答案给用户。这样做的好处是答案不会是捏造的,但问题在于理解做不好,答案很生硬,整个过程是一个流水线系统。
现在ChatGPT是端到端的,理论上也可以认为它做了这三个步骤,但我们找不到它在什么地方做理解,什么地方找答案,以及在哪里生成答案,就是end to end,符号进来符号出去。本质上,GPT是一个从理解到知识的查询到最后的生成都融为一体的“黑盒子”,对于GPT来说,理解是“读书万遍,其义自见”,生成是“文章本天成,妙手偶得之”。
我认为,接下来很重要的是怎么把底层的通用大模型和下游的任务结合起来,而且能够跟数据库对接,去降低它胡说八道的比例。
甲小姐:我们内部做AI图谱时发现AI技术的发展有时是“跨代传承”的,今天某个不被看好的模型可能会在未来某一天再次被激活,AI的发展不会止步在某个方法上。
李志飞:但我觉得大概率未来十年大模型会是主流。OpenAI说他们接下来还会在暴力这条路上有更多想法,未来10年可能还会有10个数量级的提升,不知道真的假的。
甲小姐:OpenAI应该会有种一针捅破天的爽感。
李志飞:他们得到的正反馈太多了,Google的自信心一定被打击得很厉害。
甲小姐:甲子光年智库团队做了一个AI关键产品进展图谱,发现前几年都是谷歌阵营,近几年都变成微软阵营。
李志飞:OpenAI非常坚定,这让微软也很坚定,现在的100亿美金只是个开头。
甲小姐:微软也正需要这样的第二曲线。
李志飞:微软相对谷歌来说有lead time的优势,这和做硬件是一样的,iPhone出来后,别人3个月肯定搞不出来,再有钱也得18个月。大模型也一样,要先定模型结构、先投入算力。OpenAI现在先出一张牌,王炸都不出了,自己也不开源,也不发论文,就看Google怎么做,这是让Google最痛苦的地方。
5.谈AGI:“AGI就像真相,永远只能逼近不能到达”
甲小姐:你如何定义AGI(通用人工智能)?
李志飞:我定义不了。我觉得AGI就和真相一样,永远只能逼近,但不能到达。而且我们也很难知道什么时候到达了,只能知道现在比上一代好很多。人类太高估自己了,我们觉得世界很复杂,有很多任务,但世界可能只有1000个任务。OpenAI推出GPT-3后, 他们见到了真实的用户分布,他们可以在supervised fine-tuning做很多事,已经形成了数据飞轮效应。语法树生成这么一个非常边缘化的任务,它也能完成的很好,这是让我非常惊喜的。
甲小姐:你认为pre-training+SFT+RLHF是通往AGI的唯一路径吗?
李志飞:我最近刚好在思考这个问题,目前已经浮上水面的方法论有两种:
一种思路是Self-supervised learning(自监督学习)的language model作为主线,加上reinforcement learning(强化学习)利用反馈信号来调整模型。只要配好序列,喂足够的数据,包含所有的任务描述,不断和物理世界交互,它就可以越来越通用。要注意,Reinforcement learning跟Self-supervised learning很微妙的区别是反馈的信号是否及时。Self-supervised learning是模型预测输出下一个token,数据立马给出反馈信号;但reinforcement learning是跑出整个序列才给反馈,和下棋类似,跑到最后才告诉你输赢。
我认为InstructGPT已经是一个AGI的雏形:自监督学习+强化学习。虽然现在的人工反馈只是告诉AI哪个句子更好,但以后AI输出action如果能和物理世界结合,那AI立马就能看到action带来的结果,这也是反馈信号。
另外一种思路是用强化学习作为主框架,不停和物理世界互动,不停simulation,这就是Yann LeCun的“世界模型”。但一个很大的问题就是simulation,因为世界太大了,很难穷尽,得不到一个完整的世界模型,智能程度就会很低。所以尽管Yann LeCun一直在挑ChatGPT的刺,但如果没有自己能规模化的实现路径,那又怎样?
甲小姐:很多时候研究者的主张是“位置决定脑袋”,擅长什么就会主张什么。你是这样吗?
李志飞:可能是吧(笑)。但我觉得Ilya不是这样的人,他是拿来主义,非常实用。你去看他的采访,他真的是相信大语言模型加上强化学习可能会有更好的结果。
甲小姐:未来有没有可能走向大数据小模型的范式?
李志飞:在一些应用场景可能会这样。但我认为要把探索AI天花板和AI落地分开。如果是探索天花板,现在最确定的路线是继续暴力大模型;但如果要追求AI落地,就应该优化推理成本、收入、以及私有化部署等细节。但OpenAI的优势在于,他可以不care这些,不用太关心商业模式,所以他可以在探索AI天花板上走到极致。
6.谈格局:“接下来就是花钱,找正确的人,还有协调大家不要七嘴八舌”
大模型公司的首席科学家在第一年一定很难受,相当于全公司的人都围着首席科学家问“孩子生出来了没有?”外面大公司的孩子已经满地跑了,首席科学家所将承受的压力是和以前是完全不同的。
甲小姐:你认为全世界还会有第二个OpenAI吗?
李志飞:会有的。美国还是非常多样化的,他们聪明人真的很多,有想法的人也很多,有自己的信念,对世界有强烈的价值观,以及有效的方法论,一定有另外一帮人在琢磨怎么跟OpenAI不一样,只是他们还没露出水面。
包括OpenAI自己的人也会出来,他们内部很多人不能接受OpenAI成为微软的打手,听说Anthropic的模型比GPT-3效果还好。OpenAI自己的人甚至说他们的竞争对手就是Anthropic。
甲小姐:中国有可能出现类似“微软+OpenAI”这样的黄金组合吗?
李志飞:挺难的。有可能参与组合的就是腾讯。
我觉得Microsoft是有格局的,他把自己团队项目的GPU全部阉割掉,给OpenAI跑模型。跟当年腾讯说的“把半条命交给别人”一样,微软现在就是半条命在OpenAI手上,OpenAI跟他们平起平坐,甚至有时候还会更强势——中国大厂里有资源、有钱,还可能有这种心态的可能就是腾讯。
甲小姐:国内大模型的创业团队你最看好谁?
李志飞:我只对老王的事有些了解,别的不清楚。
甲小姐:你们之间有微妙的竞合关系,你还看好王慧文吗?
李志飞:因为大模型是一条长征路,很多刚开始需要的技术能力,找人补齐后,到后面就不是最重要的了,更需要的是能长跑的综合能力和意愿。短期来看,他可能会走弯路,但我还是倾向于相信他真的想做成这件事。
如果我是他,我不跟你们瞎聊,甚至也不融资,就用自己的钱慢慢搞,反而这样才更有可能做出真正的创新。他现在可能需要找一个和他配合默契的首席科学家,一起抵抗外界噪音。
甲小姐:能做出大模型的首席科学家有明确画像吗?
李志飞:你看OpenAI的三个核心人员:Ilya、Greg、Sam。Ilya和Greg配合得非常好,要训练大模型首先要有掌握整个方法论的科学家,和一个很懂工程的人去牵头整件事。用硅谷那边的话说,Greg就是谷歌当年的Jeff Dean。在满地都是工程师的谷歌,Jeff Dean就是工程师的神,而Greg在OpenAI是同样的角色,听说OpenAI的分布式训练代码可能一半都是他写的。要求一个人的科学和工程能力都一流,这在中国太难了,但至少这个首席科学家要重视工程、重视算法以外的东西,比如数据、优化、分布式训练等。
甲小姐:你怎么看教授派创业做大模型?
李志飞:如果连教职都舍不得,那创业大概率不靠谱。
甲小姐:中国今年有可能做出ChatGPT水平的产品吗?
李志飞:今年内应该比较难,因为OpenAI也不是石头缝里蹦出来的,它也有一个积累的过程。
从用户数据角度来看,我认为OpenAI可能会经历三个阶段:第一阶段,OpenAI会假设用户数据的分布,根据这个来开发产品;第二阶段,产品上线早期,OpenAI会得到“假”的用户数据分布,因为ChatGPT刚上线的时候可能会有很多人调侃它,问它“我漂亮吗?”“你几岁?”这些都是fake data;第三阶段,OpenAI才能得到真实的用户数据,真正跑通数据飞轮。现在OpenAI已经走到第三阶段,百度、谷歌可能还在第一阶段,只能假设用户会怎么交互,所以做出的产品刚开始效果会很糟。
甲小姐:关于中国能否做出ChatGPT,你认为还有哪些待解的命题?
李志飞:大家现在比较关心三个问题:数据、算力、人。
首先,我认为中文数据的质量影响不大。因为ChatGPT是正交式学习,相当于人类的通识教育,先学英文,同时简单学一些中文,一旦喂给它一些中英文翻译的例子,就能把能力立马串起来。
第二,算力问题,需要区分几个层面:文本模型、多模态模型、加了action后的AGI模型。如果是后两者,对算力会有更高需求。但如果早期主要在文本层面,算力不是问题。
第三,在人才储备上,做fundation model的人既要能看得懂论文,能编代码,又愿意做实验,不只是纸上谈兵,其实硅谷华人里具备这样特征的人很多。中国也有很好的工程师,只是对大模型没有经验,但是认知会传播得非常快,相信很多中国工程师能快速跟上。
而且中国比美国好的地方在于,谷歌和OpenAI这样的公司太精英化了,没人打杂,但处理数据,做优化,fine-tuning,精雕细琢,这些都是中国公司很擅长的。从这个角度来说,中国搞个ChatGPT还是挺有希望的。
甲小姐:你对ChatGPT还有“I have no idea”的部分吗?
李志飞:有,但更多是琐碎的过程——数据怎么喂,参数怎么调,模型怎么评测,都可以做很多实验。可以肯定的是,第一年公司的首席科学家一定很难受,相当于全公司的人都围着首席科学家问“孩子生出来了没有?”外面大公司的孩子已经满地跑了,首席科学家所将承受的压力是和以前是完全不同的。
甲小姐:理论上讲,ChatGPT已经没什么神秘的,接下来就是怎么干的问题。
李志飞:对。接下来就是花钱,找正确的人,还有协调大家不要瞎掰掰。因为这种东西很容易七嘴八舌,不能各搞各的,否则都在内耗了。
7.谈心态:“我最想做的是模型本身,这是我最大的动力”
甲小姐:经过这段时间的调研,你对于通用认知大模型是更乐观还是更悲观了?
李志飞:暂时更悲观了。
甲小姐:悲观在哪里?
李志飞:我只是在想下一步,商业化。通用大模型的商业化可能比上一代AI还绝望,因为竞争第一天就非常激烈。只是跑通商业化还不够,CEO还要天天考虑增长,因为创业公司要讲资本故事,不只是自己做个生意。
甲小姐:你的计划是什么?
李志飞:我现在的策略就是,我也不跟你们多说了,我们自己理性“炼丹”,先炼中等规模参数的模型。我认为接下来更重要的是搞清楚怎么让大模型、产品、数据、商业化真正形成闭环,这会是未来几年非常重要的能力。所以对我来说,我先安静地炼面向AIGC创作工具的大模型,落地在出门问问的AIGC产品矩阵上,同时探索通用大模型的可能,但是不会不惜代价地去探索。
甲小姐:有没有可能出门问问专门成立一个子公司做大模型?
李志飞:我不倾向做太多资本运作。我最想做的是模型本身,这是我最大的动力。OpenAI是人类第一次像上帝一样造了一个人工大脑,我就特别想去做实验,真正理解那些能力到底是怎么“涌现”的。
甲小姐:你大概什么时候会有一个清晰的蓝图?
李志飞:两三个月。我肯定要炼出自己的大模型。我希望了解未来是否存在一种可能性,我训练一个500亿参数的模型,它在某些应用场景的效果能比5000亿的模型要好很多?我觉得这种模型对商业化才是最好的。
现在我对实际执行过程中到底哪些是最关键的因素还没有那么具象的认知,我正在指挥一帮工程师做一些具体的事,比如做数据、做算法、做优化、分布式计算,以及解决算力从哪来的问题,这让我觉得踏实。当我要scale up的时候,我就能可靠地预测结果。
不过这个东西究竟能不能做出来,真的不好说。接下来可能OpenAI 80%以上的成本是算力,上一代AI可能80%的成本是人力,完全反过来了。现在我基本上每个星期都跟美国Amazon、OpenAI、Google、Facebook的工程师聊,去学习他们怎么做的。
甲小姐:出门问问现在做到什么程度了?
李志飞 :我们2020年开始炼大模型,有完整的AIGC产品矩阵,包括AI声音平台“魔音工坊”、数字人平台“奇妙元”、AI写作“魔撰”、AI图片生成“言之画”,并已有明确的落地场景和商业化能力,全球付费用户超百万,实现了“技术、产品、商业化”三位一体的闭环,这方面我们已有三年积累。接下来我们会把底层模型越做越强,上层应用体验做得越来越好,同时继续做好商业化。
甲小姐:感觉你现在比几年前更松弛。
李志飞:现在噪音太多了,我有时候也会被情绪带节奏。有一点很确定,对于大模型,我是all in,但要找出最适合自己的方式。
我给自己下了死命令,每天主要时间就关注大模型相关的几件事:技术会怎么演进?OpenAI会怎么搞?硅谷会怎么演化?应用会怎么落地?我们自己怎么做?我每天都要自我迭代这些问题。
现在肯定还是有很多人没想清楚,估计OpenAI的人也都没太多时间看论文,我想更加长远地看这件事。如果真要融钱,我希望商业上是真正make sense的;如果真有人有钱想投大模型,也建议你早期跟OpenAI搞得一模一样,donation(捐赠),专注。
本文提到的GPT核心论文可在「甲子光年」公众号回复“ChatGPT论文”查看或下载。