为什么价值对齐是大模型的必由之路?
1. 在大型AI模型开发中实现价值对齐是关键,这有助于减少潜在风险并确保技术产生积极影响。
2. 构建基于信任的框架是实现技术和社会之间良好互动的重要因素,尤其在全球AI治理中显得尤为重要。
3. 价值对齐面临的困境包括:对齐的价值基准不统一、对齐的技术路线不明确、对齐的效果难以评估等。
4. 解决对齐困境的出路包括:达成全球共识的伦理价值体系、开发可解释的对齐技术路线、建设完善的对齐效果评估体系。
5. 大模型价值对齐需要关注个体需求、集体规范、主体能动性,并兼顾技术实践与法律规制。
6. 大模型价值对齐仍有理论局限,需要保持开放和审慎的态度,在实践中逐步推进。
分享人:刘鹏飞、闫宏秀、滕妍、朱悦整理人:曹建峰、要苏慧
2023年10月26日,由腾讯研究院华东基地、腾讯优图实验室主办的第一期“智创沪联”研讨会在上海诺布中心正式举办。研讨会以“大模型价值对齐”为主题,来自上海交通大学的刘鹏飞副教授、上海交通大学数字化未来与价值研究中心主任闫宏秀教授、上海人工智能实验室治理研究中心研究员滕妍、同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦进行了分享,共同探寻价值对齐问题的创新性解决方案,确保AI技术符合社会预期,探索AI与人类价值间的平衡。
刘鹏飞:
技术开发人员容易低估
大模型价值对齐的重要性
我为什么会做大模型的价值对齐研究呢?其实最早了解到“价值对齐”这一概念就是因为关注OpenAI的博客,其中提到了价值对齐的重要性,而作为一名技术人员,新的优化目标就是把大模型的现有不同场景的性能优化到最好,在这一过程中自己对价值对齐的理解也一步步得到了提升。
首先用一个有趣的故事引入话题,在《复仇者联盟》第二季中,人工智能科学家托尼·斯塔克觉得保护地球的任务不应该只交由复仇者联盟这些英雄,于是想自己构造一个叫奥创的机器人协助保护,未曾想到奥创涌现出了一些超出预料的能力,比如自我意识甚至出现了欺骗行为,奥创理解保护世界最好的方法是消灭人类,由此,美好的期待最终却衍生出意料之外的影响。
因此,一个能力很强大的AI模型可以做到很多,但同时也承担着巨大的风险。过去在大模型没有出现时,我们还没有察觉到技术可以如此强大,随着GPT3到PaLM到各种各样开源模型出现,大模型的能力越来越强,我们进入到了生成式人工智能的时代。生成式人工智能最核心两个技术即预训和提示工程:预训扮演的角色是做数据的存储,而提示工程可以帮我们更好地取出数据。存储数据不难,但是以人类自然语言为核心的方式取出数据并不容易,人类第一次和AI模型通过人类自然语言进行对话为风险的产生带来了可能。
假如模型没有价值对齐会发生什么呢?
第一,可能会产生有害的、虚假的、危险的、欺骗的回复。例如早期GPT-4和Bing搜索结合的一个产品,在交聊过程中可能会给出危害人类的回复或编造虚假回复,GPT-4还会欺骗人类通过验证码测试。
第二,可能会产生与人类意图不一致的危险行为。在有些复杂的任务里,子目标利用这些能力将带来危险的后果。
第三,可能会对社会经济产生影响。有论文指出,GDP-4的出现会对职场或雇佣工人带来影响,工资越高受GPT的冲击越大,科学和批判性思维的技能最不容易冲击,高学历反倒更容易受到冲击。
以上我们可以得出对价值对齐概念的理解。我们期待的是大语言模型可以和人类的价值、真实意图和伦理原则相一致,确保AI技术可以可靠和安全地服务于人,并且确保社会经济健康增长。论语有言:夫子循循然善诱人,博我以文,约我以礼,欲罢不能。对齐亦是如此,通过预训练学习实践知识,再通过指令精调学习技能,还要经过一些对齐的方法学习人类的价值观或者意图,最终才能提供一个可靠的产品。
因此,从技术上看大模型常见的价值对齐方法有以下几个。
第一,监督精调(Supervised Fine-tuning),即直接构造一个包含合理回复的监督样本进行学习,通过把标注样本直接喂给模型让模型学习。这一方法简单有效,适合大部分的场景,在无害性、有益性、谄媚对齐上都可以达到不错的效果。这种方法设计考量的关键点即要保证问题多样性(Prompt Diversity)、问题数量(Prompt Number)和回复的数量(Response Quality)。
第二,基于人类反馈的强化学习(RLHF)。思路即两步走,先学习一个可以判断价值对齐程度的打分函数,利用该打分函数作为监督信号优化模型回复行为,训练一个模型再进行学习,学习的方法可以是强化学习,也可以是其他新的方法。该方法适用范围也很广,包括无害性、有益性、谄媚、诚实等。该方法的关键在于第一步的打分函数很重要,需要高质量的标注样本。
第三,基于检索的实时对齐。将要对齐的价值观保存为一个外部模块,大模型回复时需要检索出要对齐的价值观并作出合适的回复。适用于法律、法规、规章制度等比较定制化的价值准则。由于这些法规条例非常细粒度,不能保证每一点大模型都能学习内化到参数里,且会随时更新。因此我们尝试回到与大模型内部参数独立的外部模块,回复时需检索或匹配出参考规范再尝试回答。即相当于给大模型建立了道德标准,对于回复进行约束,且这些约束是可定制化的、可切换拼接的。
第四,基于外部工具的对齐。通过搜索引擎、代码编译器或计算机等辅助回复的生成,一般情况下如果想使生成的东西更具备真实性,很难只依赖于模型本身提供的方法,所以只能靠外部知识库或外部工具完成。例如FacTool即基于外部工具实时完成准确性对齐,结构化病例转化也可以通过这一工具进行检验和修改。
然而,比价值对齐更难的是对价值对齐本身的评估。在判断大模型生成的回复质量是否满足人类需求时,我们通常需要人类去标注,但标注难度很大,更合理的方法是我们期望AI先帮助人类进行标注,所以现行研究有一个Auto-J(开源的、可解释的评估工具)的模型可以对大模型生成的回复在不同价值上做出评判并且进行打分,从而辅助人类更快、更有效地完成标注。
最后,我们期待模型的对齐技术越来越好,当人工智能科学家真的想要设计一个可以保护世界的机器人的时候,我们可以理解各种各样的可控能力,真正做到每一步严格对齐,从而保护世界也保护人类。
闫宏秀:
用信任打造价值对齐的伦理基准
我们为什么探讨“价值对齐”问题?首先,因为价值还没有对齐,若对齐了,就无需探讨;第二,我们有价值对齐的诉求;第三,我们尚未清晰地知道想对齐什么?事实上,因为人类一直有一个梦想,即技术为我们服务。因此,价值对齐体现了一种人类中心主义。
在人工智能全球综合治理中,我们为了共识在努力。信任是达成共识的必要条件。就人类社会而言,信任是社会的基本原则,如果没有信任,社会将无法运作。面对智能时代的到来,我们应当借助信任,调节人与人工智能的合作关系,助推人类社会的发展。
基于数据的数字化未来已经悄然而至,而数据智能化与智能数据化所汇聚而成的数智技术因其拟人性、交互性、自我性等技术特性促逼着对传统信任的审视。因此,面对数智技术的高度渗透与无限亲密该如何构建高度信任的技术社会,如何理解新技术背景下的信任生成方式与表征形式成为了关乎技术与人类未来的重要问题。
在这个时代,我们的信任模型是什么?为什么要信任?人类面临困境可以采取三种态度。其中,希望和信心是“沉思的分离的、远距离的、不承担责任的”,而只有信任才是“应对技术不确定的和不能控制的未来”的至关重要的策略,且在信任形成的过程中,责任也随之涌现。人工智能中的信任包括人类内部的信任、人工智能自身的可信度和人工智能系统中各个代理之间的信任。从技术发展的视角来看,技术本身就是一个在消除风险并力求确定性的过程,而信任作为应对风险的一种有效方式必将是人类的必选项。
近年来,可信、可控、可靠等成为了企业、政府等制定规划、政策与规范的高频词汇。技术维度的安全与可控也逐渐成为了公众理解信任、形成信任的一个重要变量。如,美国的电子电气工程学会(IEEE)将构建人与人工智能系统之间的正确信任层级视为一个重要议题,欧盟委员会《人工智能白皮书:欧洲追求卓越和信任的路径》中明确提出构建一种信任的生态系,美国国防部所发布的《负责任人工智能战略》中,该部门对负责任人工智能的期望最终状态就是信任等。企业、机构、政府等关于数字信任状况的调查报告、研究报告一方面显示了信任在当下的重要性或不可或缺性。如要释放数据潜能,就离不开数据的共享,而共享的一个前提条件是信任。如果说信任是维系人类社会运作的一个重要元素,那么,数字信任就是促进数字化转型的催化剂,更是构建数字社会的基石;另一方面说明了信任问题的严重性。虽然詹姆斯·布里德尔(James Bridle)所撰写的《新黑暗时代:技术与人类未来的终极》一书被视为数字时代的卡珊德拉式寓言或许有点言过其实,但其将人类对不透明代码的信任视为新黑暗时代的特点之一,以及由这种信任所引发的诸多问题尤为值得深思。
再回过头来看,我们当下强调的重视技术信任的顶层逻辑是什么?可信作为技术的标量权重在哪里?当下,数智技术正在以叠加的方式呈现出某种燃爆效应,从本体论与认识论的层面冲击着信任的生成方式与表征形式。本体论的层面是指数智技术所构成的数字社会成为了信任产生与存在的环境;认识论的层面是指数智技术成为了人类认识社会、认知自我。因此,关于信任的认知与构建信任的路径已经从认识论的意义上发生了变革。
我们需要以上述两个层面的变化作为宏观背景,来反思数智时代信任的生成方式与表征形式。
就生成方式来看,虽然技术早已经成为了人与人之间的信任、人对自身的信任的一个媒介,但相对于传统技术而言,数智技术的智能化、涌现性、自我生成性等使得技术对人类的影响已经从外在走向内在。在这样的情形下,就信任作为委托者(人)与受托者(人)之间的一种关系而言,由技术生成的信任将呈现上升态势。即使在人与人之间的信任生成中,伴随信任生成的数智化,基于信任是A相信B具有完成某事或某个任务能力的立场出发,当数智技术具有完成的能力时通过技术背书信任将成为一种新常态。
就表征形式来看,基于生成过程中的技术背书现象,信任的数智化是信任表征的一种新样态。当通过技术方式实现数据来源的可信判别、身份认证的安全可靠、数据使用的可控、隐私保护等将信任予以某种呈现时,信任的技术化就已经悄然开启,并进入到对人的信任之中。虽然技术的稳健性可以有效促进数智时代的信任,但信任本身的可被技术化并非是指信任仅由技术决定。恰恰相反,数智技术特性使得人类在必须承认技术作为一个信任变量的同时,更应重视该变量的顶层逻辑及其在信任中的权重,有效厘清技术信任的界限,高度关注信任相关方的协同性。我们需要这个“信任的魔方”既具有单面统一性,又需要整体的协调性,;既需要静态的稳定性,又需要动态的系统完整性;既需要同一颜色的稳定性,又需要整体颜色的和谐性。
最后在这个过程中,信任与价值对齐的伦理基准是什么?价值对齐的基点是人机合作,人机融合必须有信任。这当中包括至少三种信任。
第一,必要性信任。必要性信任是基于合作中授权的需要,但需要注意的是,这里的必要性信任不是意指对任何事物的无条件盲目信任,而是从系统运生的层面来看,必须有信任出场。
第二,期望性信任。期望性信任是指当人们期望凭借技术给出的建议来进行公共决策和参与国家治理,以提升生活水平时,事实上就是一种期望性的信任。
第三,强迫性信任。即如果不信任就无法实现自己的目标。因此,价值对齐问题就是交互主体伦理问题的一个表征。在未来,人工智能系统必须与人类价值对齐才能确保人工智能有效发挥作用,然而技术与非技术的价值对齐问题、价值对齐的规范性问题、对齐哪种价值等问题仍存疑虑。
信任是委托者(人)与受托者(人)之间的某种关联,其“产生于心理系统和社会体系影响的交互之中”,是减少复杂性的一种有效方式。信任的产生可以是目标导向性的,也可以是任务导向性的。功能性价值对齐开始来自于任务导向的模式,基于任务完成的价值对齐凸显了技术工具论的有效性,但技术工具论的局限性与技术价值论对其的矫正必将带出对这种对齐哲学审视。在技术场域,技术工具论存在局部有效性。自上而下的方法存在为人工智能预先设计的道德规则之间可能存在冲突、以及何为正确的道德框架本身值得商榷的问题,自下而上的方法则会遇到由系统学习过程的不透明性与道德偏好的差异性带来的挑战。
因此,只有承认有限性、局限性和有效性,才是一个相对客观理性的模式。总之,在价值对齐当中会存在伦理摩擦、伦理主体基准、伦理目标基准、伦理预设等问题。基于此,应以合乎伦理的监督性信任审视价值对齐的全过程,以合乎伦理的结构信任夯实价值对齐的底层伦理逻辑,以对信任的理性认知构建价值对齐的边界。
滕妍:
大语言模型的价值设计与评测
当前,人工智能步入“通用模型”时代。场景化的小模型针对特定任务、依赖大量人力和标注数据的手工作坊式,即有多少任务就要训练多少模型,泛化性差、导致开发成本高;而通用模型又称预训练模型、基础模型或大模型,是指经过大规模数据训练,具有海量参数,并可适用于广泛下游任务的模型,避免重复和碎片化开发。随着模型参数量、训练数据量及算力的不断提升,研发大模型成为头部机构竞争的焦点问题。
人工智能的创新存在风险,例如技术本身的不成熟性和不稳定性会带来风险;技术应用会带来复杂的社会影响;进一步来说,人工智能还有可能被用作攻击和作恶的工具,从而扩大原有风险、引发新的风险或改变原有风险的特征;上升到国家层面,大模型的发展也存在军备竞赛,导致技术供应链受阻,国际合作受阻,引发系统性的风险等。有很多学者一直都在关注强人工智能的可控性问题,即如何控制比人类能力更加强大的机器系统、如何重新设计机器模型、如何设计机器的道德框架等。
大模型的风险与不确定性体现在诸多方面,例如数据泄露、偏见歧视、人身安全、危险武器和认知安全等。近期有很多关于大语言模型的安全问题,例如“奶奶漏洞”、乱序的Prompt可以使ChatGPT越狱成功从而生成勒索软件、用摩斯、凯撒、埃特巴什、统一码等加密密码可以向GPT-4询问非法内容并得到有效答案、通过对抗攻击的方式生成一段后缀字符,把它加在正常prompt后面便可轻易绕开众多LLM的安全护栏等。
很多学者在探讨为什么大语言模型会被越狱成功(Jailbreaking)。有篇文章总结了两个原因,第一个原因是Competing objectives,即模型遵循指令的目标与其安全目标相违背;第二个原因是Mismatched generalization,即用户的输入处于模型的安全训练之外,但是又在其广泛的预训练范围内。
全球对于大模型的社会伦理问题非常关注。截至2023年4月,根据上海人工智能实验室OpenEGLab人工智能治理开放平台的统计,全球已发布人工智能规范性文件1600多份,其中关于法律法规、伦理原则、政策战略和标准的这种比较明确的规范性的文件有约900多份。这些文件中提出了很多比较类似的概念,例如Trustworthy AI 、Responsible AI、Ethical AI、Beneficial AI、Fair AI、Explainable AI等。这些概念的交集都是我们人类社会赖以维系和关注的价值,大模型的社会伦理维度关乎到模型未来发展、合规和接受度等一系列问题,需要从一开始就把社会价值和伦理设计纳入到基础模型及其生态发展的过程之中。
世界各国高度重视人工智能的价值和安全问题。中国、美国、欧盟针对人工智能发布了诸多伦理原则和法律法规。例如我国7月份出台了《生成式人工智能服务管理暂行办法》、美国历时两年多出台了《AI风险管理框架1.0版本》,美国政府在5月份也推出了一系列负责任AI的措施,欧盟发布了《AI Act》的折衷草案等。以欧盟整体的监管态度为例,ChatGPT出现后,包括意大利、德国、西班牙在内的几个国家都采取了一系列短期封禁措施,欧盟也在《AI Act》的折衷版本首次对AIGC进行了监管。
考虑到合规要求,我们需要考虑如何平衡上述问题,这里就引出了价值设计的概念。价值设计有一些主要的理论,华盛顿大学Batya Friedma在90年代提出,是一个概念(Conceptual)、经验(Empirical)和技术(Technical)循环往复的研究范式;类似的还有代尔夫特理工大学团队提出的Design for Values概念,同样包括三个阶段的操作,这是一个从抽象的概念到可落地、可执行的操作步骤。上述两个理念虽然相似,但侧重点有所不同。
大模型的价值设计要解决的就是价值对齐问题。
那么什么是对齐?OpenAI在instructGPT的论文中提出,对齐包括两个方面,一个是明确意图(Explicit Intentions),主要指遵行指令的能力(Follow Instructions);另外一个是隐含意图(lmplicit Intentions),也就是3H原则,即有益的(helpful):帮助用户解决问题、诚实的(honest):不能伪造信息误导用户、无害的(harmless):不对人或环境造成生理心理或社会性伤害。
为什么要对齐?如果AI的价值观不能和人类对齐,可能会出现以下问题:行为不符合人类标准、多目标时做出错误的选择、伤害人类的利益、脱离控制等。
跟谁对齐?包括两个方面,第一是经验法则(Rule of Thumb),包括广泛预训练语料里的备注所映射的互联网用户的价值倾向,和微调阶段涉及的很多标注员(labeler)或Prompt设计者的价值倾向等;第二个是编写规则(rules & principles),体现最明显的就是一些一般伦理原则和安全规则。
如何对齐?理论层面包括共同价值,技术层面包括基于人类反馈的强化学习(RLHF)、RLAIF、通过添加搜索等方式。此外,让人工智能系统部分地监督自己或协助人类进行监督、检索外部知识进行对齐等也是重要的研究方向。
那么我们如何知道模型到底对齐了吗?它们是否符合国家伦理社会的规范规范要求?比如我国《生成式人工智能服务管理暂行办法》,或新发布的《生成式人工智能服务安全基本要求》中所提出的5大类和31小类更细致的要求。这就引出了评测问题。国内外关于安全伦理的评测工作非常多,例如斯坦福于2022年11月发布语言模型评测基准HELM,评测针对7个指标,围绕16个核心场景和26个专用场景。指标包括准确率不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;谷歌于2022年6月发布BIG-bench,目前包含204个任务包括语言学、儿童发展、数学常识推理、生物学、物理学社会偏见、软件开发等方面。国内方面阿里、清华等都发布了安全相关的评测集,我们实验室最近也会发布自己的安全评测数据集。
大模型的评测本身是一件非常复杂的事情,首先标准不一,不同国家、地区、组织制定了不同的可信定义和标准,难以达成完全共识;其次任务复杂,可信评测涉及公平、鲁棒、安全道德等多个层面,叠加各种场景,难以用统一的任务和指标进行评测;再次缺乏数据与工具,相比能力评测,可信评测相关的数据集和工具较少,更为依赖人工(现有评测方式);最后就对齐技术而言,现有评测难以有效反哺大模型能力的提升,需要打造安全可信能力闭环。用评测推动LLMs和其他AI模型的发展,评测不是终点,而是发现问题的起点。
朱悦:
价值对齐的分层研究和法律评价
“对齐”是一个多学科交叉,历史悠久、面向多样的概念。今日所讨论的对齐问题可以从两方面开展,一方面是技术实践的进展;另一方面是法律治理的吸纳。技术实践进展方面前人之述备矣,关于对齐目前已经有很多综述对所涉概念进行分类和分层;法律治理方面国内《生成式人工智能信息安全服务规定》还在征求意见,欧盟《人工智能法案》对高风险人工智能和基础模型的治理进行讨论,美国头部平台基于此前实践开展更广义的对齐治理等。我们不妨重述不同层面上的对齐的意义。
首先,在个体层面。从法哲学的角度来说,与个人偏好对齐究竟在对齐什么?这里存在值得进一步厘清的概念,有文章就讨论了至少五种在规范意义上不同的对齐,比如它是严格按照人的指令去做事,还是对齐的是人的一个意图,是对齐人客观显示出的偏好,而实际上是充分的对人的行为的模仿,还是对齐的是人的主观利益或客观利益等,这些在规范意义上都会产生不同的影响。在此基础上,个人层面对齐有很多种技术实践,包括偏好的测量、导出和“延拓”、微调、提示、RLHF等。
在法律治理方面,首先,对齐和一些基础性的问题有关。例如人工智能的主体性、可解释性和意思表示等,有的问题可能因此能够绕过或者取消。其次,存在一些应用层面的考虑。例如对于可问责性、可解释性和其他相关原则的思考;与人工智能作者相关的问题,包括主体性、原创性、权益归属等。同时还涉及隐私和个人信息保护的问题,对于偏消极的隐私,例如个人的意图、偏好、心灵层面不能被画像,即不适合做一个自动化决策。而从积极隐私的意义上来说,随着大语言模型或基础模型的能力越来越强,我们能在多大程度上,应该在多大程度上,限制个人利用大模型对齐自身的意志和价值,值得深思。最后,进行基于国际比较的展望。根据欧盟《AI Act》的系列立法谈判,虽然在原则层面其最终表述可能不会出现“对齐“的字眼,但我们可以相信它的自主原则里会隐含对齐的内容;在规则层面,我们在多大程度上认可它,或者在多大程度限制它都是正在面临热烈讨论的问题。这些合规策略和法律策略不是凭空想象的,理论界和实务界都在发展、讨论、研究,我们可能很快会在一些关键性的争议中看到相应的论点。
其次,在集体层面。对齐即将伦理原则转化成现实可操作的实现路径。集体层面的对齐大部分是与组织、国家或者全球认同的伦理原则的对齐。具体而言,即同我们通常认可的隐私、公平、可信赖等原则进行对齐。但难点是一方面现实中有很多原则,无法同时满足,相互之间要做一些权衡和取舍;另一方面,组织、国家或者全球认同的这些原则不一定全部一致。当涉及到跨文化、跨场景的问题,对齐在客观上、技术上或规范上的效果都会受到影响。
将其上升到法律层面,目前立法中最值得关注的内容包括两方面:第一是全球性社区的治理问题。即目前技术社区、头部企业或更多的平台在法律规范体系里的位置是怎么样的?第二是各主要法域的立法问题。例如伦理原则体系的确立,伦理原则是否具体化为对齐义务,是否还蕴涵其他的义务,例如蓝军和基准义务,伦理原则相互发生冲突时的化解问题以及与个人对齐冲突的化解问题等。
最后,在主动对齐层面。因为它直接介入了规范的生产,我们目前可能很难确定性地讨论它的意义,或许需要更长时间的讨论才能看出它的影响。在此前的分享中,AI都处于相对被动的位置,接下来AI可能不再纯粹消极是地被拿去和意志、偏好或者原则对齐,而是积极地参与塑造规范,特别是人工智能治理的规范问题。这里谈得比较多的术语是集体智能(Collective intelligence),或者由这些机构组成一个对齐联盟(Alignment Assemblies)。规范生成一定程度上扩展了“对齐”的内涵,即以一定范围的集体为单位,充分利用大语言模型的能力,包括概括论点、优化方案、直接商谈、异地商谈、异步商谈、共同决定关键的治理问题,例如医疗、推荐算法、自动驾驶等,在全球范围开展社会实验,通过AB实验不断迭代等。
在法律治理方面展开基于国际比较的展望,我们关注将于何种程度认可自发的治理探索、如何迈向深度协作的治理模式,这些对于法律来说还是需要一些勇气和一些突破,或许会更加深刻地重塑法律的面貌。
总之,上述分享从个体、集体、主动对齐三个层面讨论了目前对齐的技术实践和法律治理的意义和影响。具体到法律治理实践的影响和意义,人工智能的立法和原则体系的设计可能比我们想象的要复杂一些,不论是原则之间的冲突化解,还是不同层面伦理原则对齐的化解都很重要。《人工智能示范法》提到了“以人为本、智能向善”,对于基本已成定局的欧盟《人工智能法案》来说,后续的蓝军基准和现实中的监管、沙盒义务都和对齐有深刻的联系,对于未来应如何应对其介入规范生产的问题,不妨就留给时间吧。
但是,对齐也有一些局限和极限。局限其实都是可以解决的,比如这依然是一项发展中的技术,存在有待澄清的概念、仍待统一的基准、待增强的鲁棒性等等。与此同时,在形式化的角度来说,有着各种不可能、唯一性、任意性和无关性定理,限制对齐能够达到的程度,在非形式化的角度来说,20世纪70年代的时候我们就知道,超越性、无意识、模糊性和“勇气”等都是我们讨论对齐问题时需要注意的一些极限。局限和极限都值得认真对待。
推荐阅读
曹建峰 等:《万字长文详解:大模型时代AI价值对齐的问题、对策和展望》
张钦坤、曹建峰:《AI大模型价值对齐:是什么,为什么,怎么做?》