导读本文将分享达观数据在大模型、知识图谱、强化学习等通用人工智能方面的探索与实践。
主要内容包括:
1. 通用人工智能
2. 神经网络大模型
3. 知识图谱
4. 强化学习
5. 算力和数据
6. 拥抱 HAGI
7. QA 环节
分享嘉宾|王文广 达观数据 副总裁
编辑整理|王超
内容校对|李瑶
出品社区|DataFun
通用人工智能
首先来介绍一下达观数据。达观数据从2015年至今一直专注于自然语言处理和知识图谱相关的toB的工作,也在致力于大语言模型的研发。
达观数据专注于金融和智能制造两个行业领域的大模型,结合自身积累的NLP和知识图谱技术,期望将更加通用的人工智能运用到金融和智能制造行业中,去更好地服务客户。
ChatGPT的推出,为人工智能带来了巨大的发展,人工智能虽然不能取代人类,但是善用人工智能者必将胜过不善用者。人工智能,或者说科技的每一次发展,其实并不是直接去代替人的工作,但善于使用它,会带来极大的效率提升,而不善用者可能就会落伍了。农业领域也有类似的例子,以前一个农民靠自己来耕田,能种的田是非常少量的,但是如果采用机械化,则可以一个人管理成千上万亩的农场,这就是善用工具者能够取代不善用工具者。
财富杂志中曾提到:”Wherever the end is for companies’usage of ChatGPT and other AI tools is, it is certainly not in sight.“虽然大家对AI工具的未来发展并不确定,但有一点是肯定的,就是人们刚刚开始从AI工具中受益。
谷歌有一句宣传语:“Bard can be an outlet for creativity, and a launchpad for curiosity.”这也说明了AI已经发展成为可以提高我们脑力劳动效率的工具,甚至可以完成一些创造性的工作。不管是Bard、NewBing、文心一言,还是office的Copilot等等,这些产品都为我们带来了智能的工具。AI现在已经成为一个非常通用的工具,无处不在。AGI本身又分两类,一类是以人类为中心的人工智能,用AI来服务于人类。另一类就是AI如果成为一个独立的物种,并不以人为中心。
关于强化学习,引起关注的是一个非常劲爆的事件AlphaGo战胜李世石。让我们看到AI的进步可能比我们想象的更快。然而国内关于强化学习的工作还比较有限,这也是为什么现在大家在做ChatGPT类似产品时会比较困难的原因。
关于如何实现通用人工智能,ChatGPT给出的回答如上图所示。主要包括五点:开展全面的研究,发展更高级的机器学习算法,加强计算机视觉和自然语言处理,加强人机交互,以及加强知识表示和推理。
对于同样的问题,NewBing给出了类似的回答,要实现人工智能,首先需要神经网络大模型、知识图谱和强化学习等技术的组合;另外需要借鉴生物和认知科学的原理,来建立自我人格,包括情感、记忆,还有遗忘,因为人是会遗忘的一个生物,但是现在AI还没有去做这个事情,这也是未来需要去学习的一点;最后是利用算法和逻辑系统来帮助我们自我优化,从环境里面去学习。
以人为本的AGI,就是以人类为中心的通用人工智能,是以服务人类为目的的。HAGI研究的,除了如何实现更强大的AGI之外,还包括如何保持AI与人类的价值观一致,这也是OpenAI在做对齐、追究本源的时候所体现出来的。
人本AGI,可以总结为神经网络大模型⊕知识图谱⊕强化学习,这里的加指的是用某种方法进行融合,而如何融合是一个值得探究的问题。
ChatGPT以及GPT-4的出现,标志着“语言的通天塔已经建成”。在语言层面上,可以用不同的语言去交流,比如输入中文,可以让它写一篇英文、俄文或者法文的文章。第二阶段,已经加入了视觉理解,当然目前还只是输入。很快,下一步就会加入对声音的理解。人类大脑的输入就是这三种形式:语言、视觉和声音,很快就全部实现了。
有观点认为AGI的发展随着我们的知识耗尽就无法再继续了。但其实并非如此。AGI现在要做的一个很重要的事情就是如何去感知我们的世界,现在我们给它输入的文本、图像、声音,只是在训练它自己的大脑。一旦大脑能够感知外部世界,就可以自由地去探索这个世界,将不再需要人类的帮助。人类感知世界的本质是对时间和空间的感知,人工智能如果自己能够去感知时间和空间,那么它就能构造出自己的整个科学世界。
现在所有的大模型都是基于Transformer的,它是2017年Google在论文《Attention Is All You Need》中提出的一种序列到序列的深度神经网络架构。
在过去五年中,预训练大模型的参数规模经历了“野蛮”增长的过程,也被称为“智能时代的摩尔定律”。未来还会继续增长。
当前,扩散模型对图像生成已经能够做得非常好,只不过需要人的参与。如果只是输入一段文字,直接生成想要的可能不太行,但是可以一步步地去生成,比如可以先生成一个背景,再在背景里面生成一些人,再给这些人换脸、换衣服都可以。在人机交互的情况下,已经能够生成可控的结果。
知识图谱在AGI里面发挥作用的地方就是事实和推理。大模型已经能够胜任大多数的推理,但在某些冷门领域,或是比较长的情况下,就可能会出错。比如让ChatGPT用解方程的方法来解一道小学应用题,它能够正确地列出方程,但解方程的过程就出错了。如果单独把方程给出来,它又能解对两三步,然后到第四步、五步的时候又错了。如果把这个方程错的那步让它重新开始解,它又能解对。这也就说明它现在能做一定的推理,但是比较短。可能不是它本身学会了推理,而是从语言里边抄过来一些相应的推理,如果太长,可能就会出错。说明大模型本身并没有建立起一个完善的科学体系,而只是得到了一些经验。要进一步发展AGI,一定会遇到符号主义或者知识图谱的内容。知识图谱可以为其解决“胡说八道”和长推理的问题。
举个具体的例子,比如我让它推荐首歌,它先给我推荐了一些英语歌,我说我不喜欢英语,它就给我推了中文的歌,但这些歌曲中只有四个是对的,其它六个都有问题,有些是网上不存在的歌曲,歌曲跟歌手关系是错乱的。
我继续说,不要十首,就一首,场景是在河边看柳树的时候,我想听这首歌。它就给我推荐了一首江南,但是歌词又错了。再往下,我说不喜欢林俊杰,我想听一个女歌星唱的歌,它又给我推了一首女歌星的歌,但问题是它说的这句歌词根本不存在。这就看出虽然从语言本身角度来说是没有问题的,但其实事实性是有问题的。
谷歌提出了一个方法,就是在大模型推理生成内容过程中,会去检索事实库,在事实库里面去找到相应的事实凭据给出来,从而更好地确保事实的准确性。事实凭据就是以三元组形式存在的一个知识库。
Microsoft 365 Copilot也是类似的,把生成结果跟数据放在Microsoft Graph里边对数据进行过滤。
文心一言本身就已经非常强调在用知识图谱,也提到了知识内化和知识外用。
强化学习在国内的研究较少,在企业里面的应用点也比较少。但OpenAI、DeepMind一直在研究,有着领先优势。
强化学习主要是把外界交互的东西让模型去使用到。RLHF找到了一条适合于人类跟大模型结合在一起的方式,但是强化学本身最重要的点是从外界交互,离开人类依然可以从环境中不断学习、探索。
对于ChatGPT来说,强化学习现在是被局限在人的反馈里。未来当它能够感受时间和空间的时候,就可以自由地去探索世界,构建自己的科学体系了。强化学习本身的逻辑非常简单,最基础的是马尔可夫决策过程(Markov Decision Process, MDP)。ChatGPT中最主要的是奖励预测器,以及强化学习PPO算法。
完成AGI还有很重要的一点是算力。GPT-4与微软一起重构了整个算力基础。这块可能也是国内比较欠缺的点。
数据也是非常庞大的一部分。上图中列出了网上整理出来的一些数据集,可能只是ChatGPT-4训练语料的一部分。纯中文的数据可能比较有限。
首先,对所有人的一个挑战就是脑力替代。ChatGPT之前的所有工业化产品,做的都是体力劳动的替代,但接下来的HAGI会为全行业全社会带来脑力劳动的替代,脑力劳动的效率能够得到极大的提升。因为脑力劳动是跟我们人类智能关联在一起的,人类是唯一有智能的生物,因此AGI的发展可能会带来整个社会的重构。
首先就是算力和数据。AGI的发展对算力的需求永无止境,对国内来讲,这也会是一个非常巨大的市场。数据处理也能够得到一个极大的发展。其次,就是通用人工智能体,比如ChatGPT、百度文心一言等等。最后,是千行百业的应用。AGI在每一领域都有相应的应用,在数年后可能会带来完全不同的业态。
在《明日边缘》的世界中,有三种战士:第一种战士是最低级的,每一次战斗都要参与,这种战士数量非常巨大;第二种战士叫阿尔法,战斗量不多,但是能力比较强,而且如果人类拥有他的血液,也会拥有同样的能力;第三种是核心层——欧米伽,它可以控制所有这一切。这与前文提到的三层非常类似,通用人工智能就是一个大脑,它控制所有的一切,而千行百业的应用就类似阿尔法战士,他可以干很多不同的事情,但是如果大脑没了,他也就死机了。这就是未来可能存在的一种智能体的形态。如果欧米伽诞生了他自己的意识,有可能就会形成《明日边缘》中那种人类与欧米伽之间的战斗。
我们要积极拥抱HAGI,因为它能够带来效率的变革。当然,长远来看,我们要教育下一代如何才能够适应AGI驱动的未来。
Q1: 大模型和知识图谱的融合是必须的吗,比如说像new bing一样,然后用retrieve的方式去做,效果也很好?A1: 知识图谱就是谷歌提出来,用来解决数据准确性不高的问题,因为网上检索的网页很多杂七杂八的数据,知识本身不精确的问题。如果觉得检索是需要的,那往后推,一定发现知识图谱也是必须的,它就是简单检索的升级版本。除非完全不需要外挂,因为有另外一个流派,就说完全不需要外挂知识,大模型本身就搞定了,这个另说。如果是这一个派系的,就是用检索方法的话,我觉得往后推,就是知识图谱,知识图谱就谷歌用来解决这个检索效率不高、不准确、不直接的问题的一个成果。再扩充点,就是以人为本的AGI,这个AGI是服务于人类的。这个派系的AGI应该是需要知识图谱的,但如果这个AGI本身说我不服务于人类,就自己独立的,那他可能可以不需要知识图谱,可以就通过自己对外界、对整个宇宙的感知,构建自己的科学体系,那他可以不需要理解现有的人类社会制度,我个人这么认为。所以我觉得只要你认为这个人工智能是服务于人类的,那我觉得是需要的,如果他是自己独立的人格,类似于我那个明日边缘里面阿尔法,那可以不需要。Q2: 强化学习主要应用在大模型和知识图谱的哪些点上?它们三者之间是怎么去结合融合的啊?
A2: 三者融合,我觉得大家可以看两篇论文,一篇就是OpenAI的InstructGPT的论文,就是他本身讲了如何从人类反馈的强化学习来训练模型,其实就这张图,他用gpt3的一个小版本,6b版本训练奖励预测器,奖励预测器用来预测这种大的模型生成的文本。比如说给你一个提示,你给我生成三个结果,我去判断哪个结果更好,其实就判断答案的rank。Rank只用了6b的这么一个模型来判断,所以效率会相对高点。然后用ppo去更新这个大的模型,就GPT-3.5那个达芬奇模型,更大的模型,因为这整个过程就是类似于AlphaGo的,整个流程跟AlphaGo流程没什么本质区别,就是强化学习。基本原理非常简单,mdp,可以去了解一下。这个原理容易搞懂,但是它使用起来有非常多的trick,咱们中国中药或者中医里边的玄学一样,就是比较玄学,如果没有经验的话,很难搞好这么一个事情。所以刚才讲的过程中就说过一点,国内来说,觉得强化学习这一块才是真正我们遇到的难点,因为这个积累太少,大模型,大家多多少少都知道,只不过可能没那么大,可能只能搞定10B,搞不定1t的,这个也还好,但这块可能积累都很少,还有算力层那块。Q3: 关于知识更新,大模型训练一次成本很高,是不是有轻量化的方式,或者基于知识图谱去做大模型的知识增强,比如说在预训练的时候,这种效果是不是不如用它来做大模型,直接生成任务上去辅助的效果更好。A3: 修改本身有两个途径,一个途径就是RLHF人类反馈的强化学习的东西。通过这个机制,给他输入足够多的信息,就可以去更新大模型本身的东西。这里把知识图谱作为一个知识源,相当于给大模型一个比较优质的语料,但避免不了幻觉,还是要胡说八道,因为英文的材料其实非常丰富的,它还是会胡说八道的。一旦遇到稍微冷门一点,他就胡说八道,英文的也是一样的,而不仅仅是中文,英文它也会胡编,包括new bing英文或者是ChatGPT,包括GPT-4的英文都会。另一个是外用,外用知识图谱,所以如果真的要确定的东西,我觉得路径就是那个laMDA所展现出来,就是外用它来确定它是事实。而且一旦你形成了这么一套逻辑之后,可以直接修改图谱内容。知识图谱里面有错,直接改成对的。如果要更新知识,直接往图谱里面插入,它就自动给你找出来,匹配上。我觉得这一套是目前来看比较靠谱的一条路径。另外一个路径就是可能是得大家一起来探索,就是神经符号学这个东西,但是这其实不是去解决事实性的问题,更多是解决推理的问题,就是那种长程推理的内容,因为神经符号学本身也不是用来解决事实性,它就是解决人类这种推理构建科学体系的一个内容。就从更大的方面角度,因为如果大家对AGI感兴趣,可以看看认知科学、哲学方面的东西,其实很相关,到这一个层面上,已经不全是技术上的一些东西。Q4: 大模型和知识图谱目前最好的融合有开源的代码和学习供学习吗?
A4: 没有,只有谷歌的几篇论文,谷歌DeepMind在搞,包括new bing应该也在搞这个,但是现在都不开源。现在会比较痛苦,特别是国内来说,现在DeepMind老板哈萨比斯,在年初一二月份的时候,大概中国春节期间,接受一次采访,也在说现在要慢慢的闭源了,就是以后不发paper了,连paper都不发,别说开源了。他的一个逻辑是,有好多人就是就白嫖,他说要杜绝白嫖。然后第二个就是OpenAI,最近就GPT4发布完之后,那个接受采访也是说,为了避免更剧烈的竞争,因为它现在也是要盈利的。第二个就是说这个AGI太强大了,以后如果失控了怎么办?他担心这两点,所以他说以后也不开源了,也不开放了,论文也不写了,可能就是以后什么东西都不说,大家都自己探索。所以这点对未来的我们来说,因为原创性的东西其实不太多。不管是这一次ChatGPT所代表的AGI,它所使用的技术其实没多少了,总共加起来也就不到100篇论文。虽然中国就国内的机构发表了可能有应该二零一七年到现在的话,应该五六年,估计发表一万篇以上吧。这都不包含在里面。所以我们还是需要很多原创性的东西,灌水论文建议大家够了就行,这个也不能说不要,够了就行了。然后更多去思考一些原创性的东西,特别是一堆业内的大佬们,已经不愁也不用评职称了,也不愁这些论文的人,要真正去思考一些真正原创性的东西,不然以后就跟光刻机一样,咱们就白瞎了。Q5: 大模型强化学习和知识图谱能解决np问题吗?A5: np问题应该是解决不了的问题,它只能用来做近似,就是就是np问题,如果明确是np问题,应该就是。其实也不能说不能解决的一个问题,np问题,应该是我记得在多项式时间内解决不了的一个问题,那这个问题我觉得应该不是靠现代的,靠强化学习和AI这种的大模型也行,强化型知识库也行,包括神经符号也行,它能够解决它的近似的问题。但它的np本身是一个计算量的问题,计算量的问题,我觉得它是现代这种经典计算机所不能解决的。需要解决这个问题,应该要靠量子计算机,这块是另外一个领域,这个问题我觉得是靠量子计算机来解决,不靠AI,但AI能够解决近似解,就是在特定条件下,能够得到当前需要的最优的问题。以上就是本次分享的内容,谢谢大家。
分享嘉宾
INTRODUCTION
王文广
达观数据
副总裁
王文广,达观数据副总裁,高级工程师,人工智能标准编制专家,自然语言处理和知识图谱著名专家,《知识图谱:认知智能理论与实战》作者,专注于AI 大工程、知识图谱、认知智能、自然语言处理、图像与语音分析、大数据和图分析等人工智能方向。现在是上海市人工智能标准化技术委员会委员,上海科委评审专家,中文信息学会(CIPS)语言与知识计算专委会委员,中国计算机学会(CCF)高级会员,中国人工智能学会(CAAI)深度学习专委会委员。曾获得多个国际国家级、省部级、地市级奖项,拥有数十项人工智能领域的国家发明专利和会议、期刊学术论文。在达观数据致力于将自然语言处理、知识图谱、计算机视觉和大数据技术产品化,以OCR、文档智能处理、知识图谱、RPA等产品服务于金融、智能制造、贸易、半导体、汽车工业、航空航天、新能源、双碳等领域。