数日间,OpenAI 发布 GPT-4 ,百度揭开文心一言,微软推出 Copilot,大招频出,应接不暇。这次分享我们和欧洲教授 Fisher 的访谈,以下为精选内容,Enjoy。
Fisher Yu,瑞士苏黎世联邦理工学院(ETH Zürich)助理教授,ETH AI Center以及 ETH Center for Robotics 核心教授成员。绿洲:ChatGPT 效果如此“炸裂”,AI 从业者们事先是否预见到了?Fisher教授: 这个问题有两个方面:一方面大家对炸裂效果是有希冀的;另一方面大家惊讶于效果怎么可以突然变得这么好。过去几年中语言处理的技术发展非常快,尤其是 Transformer 出现之后,让我们研究超大规模语言模型(Large Language Models,LLM) 成为可能。虽说 ChatGPT 效果非常出色,但 AI 领域研究和从业者也不是完全没有预期过这样的结果。在过去几年, GPT 本身发展了好几个版本,Facebook 和 Google 也不断地在更新迭代本身的 LLM 。这个过程中大家发现了非常有意思的特性。比如说去年 Google 发布的 PaLM (Pathways Language Model),可以支持非常多的任务,甚至可以去解释笑话。当参数量足够大,LLM 会产生涌现特性(Emerging Properties),让人感觉语言模型已经真正理解了语言本身或者逻辑本身,即使严格意义上而言模型并没有真正理解。每年都会有层出不穷的新技术,使得 LLM 快速迭代。但同时另外一方面,ChatGPT 的出现确实也算是过去几年技术不断跳跃基础上飞跃的一步,因为在 ChatGPT 的基础上,我们不仅可以得到大量有用的信息,同时人实现了和语言模型的无缝沟通。人们开玩笑说之后不再需要程序员了,只需要 Prompt Engineer 从 LLM 获取信息和生成结果。ChatGPT 的出现让大家认识到哪怕只是自然语言对话,你依然可以从模型中得到非常有意义的信息,不仅对经过专业训练的工程师帮助很大,普通人也可以感受到它的能力和用处,ChatGPT 完成了产品上的跨越。Fisher教授: 这是在业界高争议的话题。虽然有很多人认为它在功能上对语言有了一定的理解能力, 但是现在没人会百分之百认为 ChatGPT 真能理解语言本身。因为真正要学习语言和逻辑,还需要对语言的含义和推理规则有深刻理解。最近在语言学界,关于这个问题的讨论也非常多。著名语言学家 Noam Chomsky 最近在 New York Times 上明确表示,从严格意义来讲 ChatGPT 并不能理解语言本身。Noam 的这个论调遭到了 NLP(Natural Language Processing 自然语言处理)学者的反对,你说它完全没有理解,也不对。不过,大家都公认的一点是,从原理上来讲不能保证 ChatGPT 像人一样理解了语言的逻辑,但是它可以执行对语言逻辑的理解功能。绿洲:开源圈和云计算巨头是如何看待 ChatGPT的?Fisher教授: 我来聊聊 ChatGPT 对整个科技领域的影响。非常有影响力的一点就是现在 OpenAI 通过和微软紧密合作,把 ChatGPT 做到了微软的产品当中去。同时OpenAI 也在和很多小公司或者服务型公司合作,试图将他们的技术应用到不同的领域中去。正因如此,OpenAI 虽然没有开源模型本身,但截至目前在整个产品环境,它还是持非常开放的态度。ChatGPT 的 API 已经用非常便宜的价格开放,任何开发者都有能力去接入他们自己的产品,让其产品拥有类似 ChatGPT 的功能。这点正是对AI 的商业环境影响巨大的地方。相当于每一个开发者,都可以去参考或者使用这样的技术。其他几家的云计算巨头也在非常快速地跟上,Google 在过去一周也发表了基于 Google Cloud 的 LLM 的 API,使这个市场里不仅只有大公司可以独享这些先进的 LLM 技术,小公司也可以拥抱技术作为其产品的一部分。这也正是相关产品迭代非常快的原因之一。绿洲:ChatGPT 正在对哪些工作岗位造成影响?Fisher教授: GPT-4 对于很多工作都产生了影响,每个人在各自工作中都能或多或少用到一些,尤其是对于需要制作大量内容的工作岗位,比如说客户服务。之前的客服 AI 聊天机器人只能解决最基础的用户引导或者任务分派,可以预见,如果随着 ChatGPT 在各个垂直领域的成熟,对人工客服的需求就可以减少;又比如广告文案、社交媒体的信息,在被 ChatGPT 赋能之后,创作过程必然会加速;还有 Data Scientist,以前需要大量人员去挖掘大规模数据,现在可以用 AI 直接去萃取数据信息并予以呈现。其他岗位譬如 HR,现在已经有 AI 筛选简历和安排面试。不过要指出的是,虽然 ChatGPT 或者 GPT-4 会对这些工作会造成非常深远的影响,但是至少目前来看对人工并不是替代作用,而是增强作用,可以增强不同领域专业人士的工作效率,帮助大家解决基础问题,但真正涉及到专业本身的问题,还是需要人去解决的。最直观的一个例子就是,GPT-4 可以在律师专业考试中超过 90% 的考生。虽然分数很高,但里面最大的问题是,如果你没有很深的专业知识,就很难了解 GPT-4 生成的回答中错误的是哪个部分。这就是目前 ChatGPT 或者 GPT-4 真正取代从业者的最大阻碍之一。就好像,一个律师可以让 ChatGPT 起草一些文案,但是ChatGPT 不能真正帮人去打官司。它缺乏很强的自我认知能力,并且无法保证百分之百的事实正确。绿洲:您提到 ChatGPT 对人工效率的增强作用,但我们使用 ChatGPT 的过程中,却感到因为无法对生成内容做出真实性判断,需要更多时间去检查核实,反而降低了效率?Fisher教授: 这不只是 ChatGPT 的问题,而是整个做 AI 的主要障碍。现在 AI 无论是语言还是视觉模型,都可以达到相当高的准确率,但是最大的问题还是在于错误的 10% 需要人再去看。最典型的就是自动驾驶,现在的自动驾驶可以解决 99% 的问题,但是自驾公司最纠结的就是 99.9%,99.99% 的情况,虽然不常见,但是却对工作的替代造成了巨大阻碍,这也是为什么很多智能驾驶公司在向辅助驾驶转型。目前在 AI 领域面临的非常严峻的一个问题就是,我们如何能知道这个基于学习和数据统计上的模型可以和传统语言逻辑的准则相结合,使得模型既可以知道自己输出的内容是对是错,同时也了解自己有哪些东西是不知道的,并且可以明确展现出来。绿洲:ChatGPT 广泛使用后,人的认知能力会下降吗?Fisher教授: 这是个非常有意思的问题,也存在很多争议,ChatGPT 刚出来的时候,高中生甚至本科生就用它来写作业,使得很多老师、教授深受打击。他们会发现虽然学生没有抄袭别人的作业,但是机器的写作并没有锻炼到学生本身的能力,教师还要浪费时间去批改机器生成的内容。于是学校不得不出台政策禁止使用类似的技术。我认为对于整个社会, ChatGPT 出现所造成的影响是一个需要慢慢吸收的过程。就像计算器一样,在不同的教育领域,至今还是存在不同的看法。有的学校认为计算器可以带去考场,没有必要让学生手动解决计算问题,这样可以让考题变得更深入;当计算本身不是瓶颈,问题的本身就会变成重点,比如物理、化学、应用数学考试中,你是否真正理解原理才是最重要的,计算本身反而是次要的。我们现在社会上,随处都可以用到计算器,但在最基础的小学的教育里面,对于学生基本运算能力的培养还是必要的。同理,即使有 ChatGPT 的存在,在教育的初期还是需要让学生掌握文章写作和内容创作的基础能力。ChatGPT 本身可以作为辅助工具来提高人的工作和学习效率,我认为对人的认知能力反而会有一定提升。因为之前人在认知或者学习的过程中,瓶颈在于基础任务和表达,如果这部分内容可以由 ChatGPT 代劳,人们不再受基础问题限制,就有时间对问题本身去进行深度思考和进一步研究。所以我觉得可能之后甚至可能会有课程专门来教大家如何使用 ChatGPT 来提高他们本身学习和工作的效率,使得人可以进一步地提升自己的认知能力,然后提高自身的专业工作能力。Fisher教授: 这个超出了我的专业范围了(笑),但是可以预见或者我们已知的是,AI 在内容创作中的应用一定会日益普及。AI 已经渗入日常工作流程的方方面面。比如说创造 Photoshop 的 Adobe,每年都投入大量资金研究 AI 如何帮助创作者去更好地表达创意,如何更方便地去操作软件。这样的过程一直都在发生,只是在 ChatGPT 出现之前,Adobe 进行的研究和展现的变化没有让普罗大众所认知。ChatGPT 和 GPT-4 会让这个过程加速,甚至产生阶梯性的跳跃,在某个时间点某个工具会突然出现,让我们重新思考整个工作流程。还有比如翻译服务,在欧洲特别明显,欧洲语种多、语言差异大,像 Google 翻译这种随身的语言服务在实际生活中的帮助是很大的,我觉得语言模型对行业的帮助可能会更多体现在这种方面。之前大家在做内容创作的时候,比如一篇演讲稿,行业中的顶级管理者可能会有自己的专业团队来做文案起草。但是现在有 AI 的帮助,每个普通人都可以有一支“自己的团队”来完成表达和创作,这对于个人的工作效率和幸福感一定会有所提升,也会促成新的行业。拿自媒体来说,人们不仅可以自由表达,还可以有机会像大 V 一样进行高质量的表达。Fisher教授: 应该说对整个 AI 领域研究都影响巨大,尤其对自然语言处理,大家甚至出现生存危机感,这个专业的 AI 学生十分紧张,不知道自己的研究在 LLM 下是否还有存在价值。计算机视觉领域也有同样的危机感,因为 GPT-4 可以很好地解决视觉问题,可以随意地基于不同图片生成丰富的描述,可以通过识别来和人进行有效的对话,这点是令我所在的视觉领域非常赞叹的。从我的专业角度讲,我们也在不断思考如何可以用强语言能力增强对图片的识别,毕竟图片就是计算机视觉研究的问题,不仅只是基于图文对话,我们还需要对于视觉信息本身进行深入分析。比如说不仅是对整个图片,甚至是对物体层面,甚至物体在整个视频序列中的动态信息进行深入分析。另外一点就是对于视觉的理解,它的要求不仅仅是语义分析,也需要在形状、几何和交互性上进行理解。这个场景本身我们称之为 Affordence(可供性,指环境提供给个体的东西,强调环境与动态物体的互补性)—— 就是你看到一把椅子,你需要知道椅子是可以坐的,然后你可以坐在椅子上。相当于和语言的理解是交叉的,整个视觉信息的理解还有很多其他的方面目前没能很好地解决。另外一点,LLM 对语言和视觉的结合会有很大促进作用。我们实验室主攻的一个方向,就是如何可以让机器人有视觉识别的能力,使得它可以通过观察和人交流的场景,自动生成对整个机器人的控制信号。这点在视觉本身还有下游应用都有巨大帮助。不过目前这些维度在语义上是无法完全去控制的。绿洲:在 LLM 方面,欧洲学术圈和企业相比其他国家的变化有什么特点?Fisher教授: 欧洲和美国方面在技术的感知程度上差不多。在学术圈差别也不大,能接触的资源也都一样,大家思考的都是 GPT-4 或者 ChatGPT 的技术之后,我们本身的研究应该向哪个方向发展?但在工业界的话,受整体工业氛围的影响,硅谷的公司,尤其是小的公司会募得快一点,很多美国公司都快速接入 API,进行产品迭代。欧洲确实慢一点,因为一般欧洲工业相对传统,在新技术的迭代,尤其在软件层面,会比硅谷慢一步。绿洲:欧洲整个数据隐私保护 GDPR 相对来说是全世界最严格的之一了,会不会对 LLM 推广造成阻碍?Fisher教授: 更多的是对人的隐私信息保护。如果对 LLM 中的个人信息不加以明确保护的话,很有可能我们每个人信息就会出现在 LLM 中,这是很可怕的。在有明确的数据保护后,公司在开发 LLM 技术时就会十分谨慎,而不会抱着侥幸心理去触碰个人隐私和个人利益。Fisher教授: 这个非常难预测,严格意义的 AGI 而言,10 年内很难。当然 10 年前如果我们说未来 10 年要实现 AGI,大家都会觉得是天方夜谭;如今我们再谈,就已经有可能的思路 AGI 会在哪些点上出现。很难讲它是基于模式识别而进行学习的技术,但它确实在大量数据和大量参数下产生了涌现特性,让人觉得它初步具备了一些智能。这对于我们做 AGI 是切入点。但是说何时实现,就好比对其他人工智能技术的预测一样,它始终是会变得越来越近,但总会有一种触不可及的感觉。比如说自动驾驶领域,福特在 50 年代的时候就说我们在 20 年之后就会实现全自动驾驶,但回头来看,这个目标肯定没有实现。但是至少在过去这几年,虽然我们现在依然没有实现完全的自动驾驶,但是大家对自动驾驶的预期一直在缩短,从 20 年到 10 年,从 10 年到 5 年,从 5 年到 2 年,很多团队还说明年就能完成。马斯克主导的无人驾驶或者辅助驾驶方案我觉得最终还是可行的,就是发展技术路线比较难预测。从预期时间的普遍缩短上,可以看出我们的技术发展在长足进步。但同时也能发现人们对 AI 的预期和对电脑的预期完全不同。电脑的预期一直基于摩尔定律,可以按照固定的模式去预期,甚至是一个公式已经写好了它可能会发生什么。但是对于 AI 的发展,它是一个反摩尔定律,每次进展,为了解决那最后的 10% 、5% 甚至 1% 的时候,可能会需要比之前付出更多的努力和代价才能达到。Fisher教授: 回顾过去这几年深度学习的发展,虽然深度学习有很多支持者,但其中也不乏反对的声音。比如跟因深度学习贡献而获得图灵奖的 Yann LeCun 同一个学校的学者,叫 Gary Marcus,在 2022 年 3 月份写过一篇文章叫 <Deep Learning is Hitting a Wall>,其中的质疑包括语言模型是否真的能推理和具有常识。虽然这些质疑都是有道理的,但是深度学习一次又一次展现出惊人的能力,因此很难说能力的极限在哪里。我在很多年前跟一个做 NLP 的学生讨论,说如果我们去把所有的网页都下载下来,然后去学基础的事实,会发生什么?当时发现做语言处理时,有一个非常有趣的现象,就是大家一般不会在网上写“常识性”的内容,很难从网上获得“常识”。比如,香蕉是黄色的,大家在网上写文章,就不会直白地去写香蕉是黄色的,因为这样缺乏新闻性,只会写今天发现了红色的香蕉或者其他奇怪的东西。但是我们现在发现当你的数据边界大到一定程度的时候,很多“常识性”的东西也可以被学到。我们在和 ChatGPT 对话过程中,对于非常基础或者显而易见的事情,它可以说得很有条理,有理有据。具有挑战性和深入的话题它就不知所云。大语言模型的理论边界,一直在不断地被挑战和被突破,但是它会有资源和商业上的边界。比如只用现在的技术去上规模的话,我们的数据和计算量已经在极限了。如果我们继续上规模 ,以现在这个技术积累去发展大模型,就会遇到资源或者人力上的瓶颈。不过也很难讲,随着大家对这个问题的关注,可以投入更多的资源,就会出现新的技术来弥补不足。比如 GPT 本身的技术,以及 Google 的 Transformer,还有其他底层技术。以后大公司会更重视 LLM 的能力,做更多的投入。只要技术瓶颈一破,就很难预测边界了。
参赞生命力
绿洲资本是中国新一代风险投资机构,致力于发现中国未来十年最有生命力的企业家,并与他们共同成长,创造长期价值。 “参赞生命力”是绿洲的愿景和使命。这种生命力(Vitality),既是时代结构性变革的方向,亦是企业家坚韧和进化的力量。
绿洲资本专注于早期和成长期投资,单笔投资300万到3000万美金,重点投资机器人、人工智能、科技服务等领域,助力中国科技驱动的新服务升级。