Sam Altman重返OpenAI,我们离实现通用人工智能(AGI)还有多远?
OpenAI高层变动三日内,引发了全球关注,从CEO到员工,董事会到投资者,OpenAI的利益攸关者纷纷走到前台。截至美国东部时间周一下午 5:10,OpenAI 约 770 名员工中约有 738 人(约占公司员工的 95%)签署公开信。OpenAI员工名册(致董事会公开信全文),要求OpenAI现有董事会辞职,并换回以前的领导班子。
旧金山当地时间晚上10点,OpenAI在X宣布,改选董事会,Sam Altman重返OpenAI担任 CEO。组建由 Bret Taylor(主席,Salesforce 前CEO)、Larry Summers (经济学家,前美国财政部长)和 Adam D'Angelo (美国”知乎”Quora CEO)组成的新的董事会。
本次动乱究其根本,目前普遍认为是以Sam为代表的商业利益和以首席科学家Ilya Sutskever为代表的AGI安全信仰之争。
Ilya Sutskever对AI的安全发展持有很强的观点,他早在ChatGPT发布之前便提到“通用人工智能”(AGI)对人类社会可能的威胁。他把“通用人工智能”与人类的关系,同人类与动物的关系做对比,表示,人类不讨厌动物,还喜欢许多动物,但是当人类要造一条高速路时,不会向动物征求意见,因为高速路对人类很重要。
“我认为,默认地,人类和通用人工智能的关系也将会这样。通用人工智能完全自动,按照自己的意愿行事。”
两天前,Ilya Sutskever在社交媒体上表示,对此前参与董事会的行动感到后悔,“我从未有意伤害OpenAI,我爱我们一起创造的一切,我会尽可能的使公司团聚。”
OpenAI发起人之一,后来也是因为对OpenAI发展理念不合退出OpenAI董事会的马斯克,在Ilya的账号下留言担心AI给人类带来的安全威胁:
那么直到今天,我们离实现AGI有多远,如果这一天真的到来又有多危险?
人工通用智能(AGI),即在大多数任务中的表现至少与人类相当的AI系统,仍然是科学家们争论的话题。有人认为实现AGI还是遥遥无期,还有观点是可能在十年内出现,还有人认为在当前的大型语言模型(LLM)中已经看到“AGI的火花”,今天的LLM就是AGI。
为了方便讨论,Google DeepMind的科学家团队,包括公司创始人和首席科学家Shane Legg,近期提出了一种新的框架,用于AGI的分类。
一、AGI的原理
AGI 的关键挑战之一是对 AGI 的含义建立明确的定义。在他们的论文中,DeepMind 研究人员分析了九种不同的 AGI 定义,包括图灵测试(Turing Test)、咖啡测试(Coffee Test)、意识测量(consciousness measures)、经济测量(economic measures)和任务相关能力( task-related capabilities)。并且分析了每个定义在捕捉 AGI 本质方面的缺点。
例如,当前的LLM可以通过图灵测试,但仅仅生成令人信服的文本显然不足以构建通用人工智能(AGI),因为当前语言模型的不足之处已经很明显。确定机器是否具有意识属性仍然是一个具有挑战性的难题。此外,虽然在某些任务上失败(例如在厨房中冲咖啡),可能表明系统不是AGI,但通过这些任务并不一定能确认其AGI状态。
为了建立研究AGI的全面框架,研究人员提出了衡量人工智能的六大标准:
AGI 的衡量标准应该侧重于能力,而不是像人类一样的理解、意识或感知等特征。
AGI 的衡量应同时考虑通用性(generality)和性能水平(performance levels)。这确保了 AGI 系统不仅能够执行广泛的任务,而且在执行方面也表现出色。
AGI 应该需要认知(cognitive)和元认知任务(meta-cognitive tasks),但具象化(embodiment)和物理操作(physical tasks)不应被视为 AGI 的先决条件。
这个系统执行AGI级任务有足够的潜力,即使它不能部署。研究人员写道:“将部署作为衡量AGI的条件会引入了非技术障碍,如法律和社会因素,以及潜在的道德和安全问题。”
AGI 的度量应该关注人们重视的现实世界任务,研究人员将其描述为“生态有效”(ecologically valid)。
AGI 不是单一终点,而是有等级和层次,可以分为不同级别的 AGI。
二、智能的深度和广度
DeepMind 提出衡量智能的“性能”(performance)和“通用性”(generality)的两个维度,涵盖五个级别,从无人工智能到超人类 AGI。
性能是指人工智能系统的能力与人类相比如何,而通用性表示人工智能系统能力的广度或其达到矩阵中指定性能水平的任务范围。
图片来源:arxiv
这个分类还区分了狭义人工智能(narrow AI)和通用人工智能(general AI)。
例如,我们已经拥有 AlphaZero 和 AlphaFold 等超人类的狭义人工智能系统,它们擅长执行非常具体的任务。该矩阵可以对人工智能系统进行不同级别的分类。ChatGPT、Bard 和 Llama 2 等高级语言模型在某些特定任务(例如短文写作和简单编程)中“有能力”(2 级),而在其他任务(例如数学能力和需要推理和计划的任务)中表现“初级”(emerging)(1 级)。
研究人员还指出,虽然 AGI 矩阵根据系统的性能对系统进行评级,但在部署时可能与实际水平不符。例如,文本到图像系统生成的图像质量高于大多数人可以绘制的图像,但它们会生成错误的作品,从而阻止他们达到“艺术大师”水平,而“艺术大师”的水平超越99%的熟练个人水平。
AGI 基准将涵盖广泛的认知和元认知任务,测量各类指标,包括语言智力、数学和逻辑推理、空间推理、人际交往和智力水平、学习新技能的能力和创造力。
三、自主性和风险
DeepMind 还提出一个来衡量人工智能系统的自主性(autonomy)和风险的标准。人工智能系统涵盖从 0 级(人类执行所有任务)到 5 级(代表完全自主的人工智能)。
图片来源:arxiv
与AI系统相关的风险因其自主水平差异而有所不同。
在自主性较低时,AI充当人类工具增强个人技能,风险包括降低技能水平和破坏当前产业。随着自主性的增加,风险可能涉及通过个性化内容进行有针对性的操控,产生更为广泛的社会影响。当完全自主代理与人类价值观不一致,进而会引发的更严重的社会问题,比如权力的过度集中。
最后,用Google DeepMind创始人和首席科学家Shane Legg在最近一次访谈结尾,他表示2028年有望实现AGI,让我们拭目以待。
在读的您,如果对此话题感兴趣,欢迎在文末扫码入群或者联系凯瑞(pkcapital2023),和一群志同道合的小伙伴一起探讨。
更多阅读:
谁是Emmett Shear? 懂中文的 OpenAI 新任 CEO
AI写作工具丨AI编程工具丨AI客服工具丨AI法律工具丨AI视频工具丨AI搜索工具丨AI合成数据丨AI企业服务丨AI Agent代理丨AI个人助手丨AI生产力工具