朱松纯、朱毅鑫团队研究成果登上Science头条:AI赋能机器人、“读懂”人类价值观
导读
今天,Science Robotics发表了来自北京大学人工智能研究院朱松纯、朱毅鑫课题组的“In-situ bidirectional human-robot value alignment”研究论文,阐述了一种机器实时理解人类价值观的计算框架,并展示了与人类完成的一系列复杂人机协作任务。
论文链接:
https://www.science.org/doi/10.1126/scirobotics.abm4183
论文同时登上了Science 及 Science Robotics官方主页头条
01
理想的人机协作应该是什么样的?
上世纪50年代,美国科幻作家阿西莫夫出版了科幻小说集《我,机器人》,勾勒了在未来世界中人类与机器人共存的图景。理想的人机协作应该是什么样的?在人工智能发展方兴未艾之时,控制论之父诺伯特-维纳(Norbert Wiener)就提出了人机协作的基础:“如果我们使用一个机器来实现我们的目标,但又不能有效地干预其运作方式...那么我们最好能笃定,输入给机器的目标是我们真正所预期的。”近几年来,一系列研究进展都表明:高效的人机协作依赖于团队之间拥有一致的价值观、目标,以高效地建立整个团队对任务的共识。
这就要求机器能够通过与人的有效沟通来完成协作,即每个成员都要推测队友的价值需求,并最大可能向队友展示自己当前的价值需求。同时,人类也要为AI提供反馈,逐渐地教会AI理解自己的价值目标。这个人机价值目标逐渐统一的过程被称为价值对齐。然而,当今的智能音箱等AI系统是一种被动的智能,只能机械地接受人类具体的一条条指令来行事,而缺乏对人类价值观(价值目标)的理解。只有当机器通过观察人类的行为,读懂了人类的价值观,靠“价值”自主驱动,才算是实现自主智能,从而做到“察言观色”,更好地服务于人类。
02
全新的XAI系统:为机器立心
与已有的大部分可解释人工智能(XAI)系统不同的是:当前的XAI系统通常强调的是对“模型如何产生决策过程“的解释。然而,不管用户有多少主动的输入或互动,都只能影响机器“生成解释”的过程,而不影响机器“做出决策”的过程。这是一种单向的价值目标对齐,被称为静态机器-动态用户的交流,即在这种协作过程中只有用户对机器或任务的理解发生了变化。为了完成人与机器之间价值观的双向对齐,需要一种人类价值主导的、动态机器-动态用户的交流模式。在这样一种新的模式中,机器人除了揭示其决策过程外,还将根据用户的价值目标即时调整行为,从而使机器和人类用户能够合作实现一系列的共同目标。为了即时掌握用户信息,团队采用通讯学习取代了传统数据驱动的机器学习方法,机器将根据所推断出的用户的价值目标进行合理解释。这种合作导向的人机协作要求机器具有心智理论(ToM),即理解他人的心理状态(包括情绪、信仰、意图、欲望、假装与知识等)的能力。该计算框架(理论、计算机视觉上的应用)有以下几个特征:需要建立在共同语境之上(你知道我知道你知道),需要心智理论表征(能从别人的角度看问题),统一的学习框架(统一了各类机器学习方法)。
人机价值观对齐过程总览
朱松纯、朱毅鑫团队长期从事XAI相关工作,此次是团队第二篇发表在Science Robotics的XAI论文。
该项工作的共同一作是袁路遥(UCLA)、高晓丰(UCLA)、郑子隆(北京通用人工智能研究院),通讯作者是袁路遥(UCLA)、Mark Edmonds(UCLA)、吕宏静(UCLA)、朱毅鑫(北京大学人工智能研究院)、朱松纯(北京大学人工智能研究院)。项目历时三年,其中一半时间由朱松纯教授回国后在国内继续开展。
延伸阅读
1. 新华网科技日报对本篇论文的报导:
http://www.xinhuanet.com/tech/20220714/4d46925b0def47f0914aae9c030bd36b/c.html
2. 团队发表的上一篇Science Robotics论文:https://yzhu.io/publication/openbottle2019scirob/paper.pdf
来源:人工智能研究院
北京大学新闻网
— 版权声明 —
本微信公众号刊载的所有内容,包括文字、图片、音频、视频、软件、程序、以及网页版式设计等版权均归原作者。访问者可将本站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,本站内容原作者如不愿意在本站刊登内容,请及时通知本站,予以删除。