查看原文
其他

Facebook让AI学会谈判协商,能通过“说谎”达到目的

2017-06-15 量子位
陈桦 编译整理
量子位 出品 | 公众号 QbitAI

从每天醒来的那一刻起,我们的生活就开始了一系列协商。

这样的场景包括讨论看什么电视,说服孩子们吃蔬菜,以及通过讨价还价获得更好的价格。这些都有共同之处,即需要复杂的沟通和推理能力。而对计算机来说,这些能力并不是天生的。

到目前为止,对聊天机器人的开发意味着系统可以进行简短的对话,完成简单的任务,例如预订餐厅。然而,开发能够与人类进行有意义对话的机器仍然充满挑战,因为这需要机器人有能力将会话理解与关于世界的知识结合起来,随后生成新的句子,协助它实现目标。

今天,Facebook人工智能研究院(FAIR)的研究人员提供了开源代码,发表了研究成果,介绍关于对话型人工智能的新能力,即协商能力。

不同人有不同的目标,可能出现冲突,随后会通过协商来达成一致。与此类似,研究人员已经证明,目标不同的对话型人工智能可以参与全过程协商,最终达成共同的决策或结果。

据报道,Facebook这套AI系统有时候不会直截了当的说出自己想要什么,而是假装对一个无关紧要的事情更感兴趣,当然整个协商的目的还是朝向自己的真正所需。看起来是用“说谎”的方式,达到自己的目的。

任务:多问题协商

FAIR的研究人员通过多问题协商任务来展开这方面的研究。研究人员向两个人工智能展示同样的一系列对象,例如两本书、一顶帽子或三个球,随后要求人工智能通过自主协商来分配这些对象。

每个人工智能都有自己的价值函数,代表了不同人工智能对于不同对象的重视程度(例如,每个球对1号人工智能意味着3分)。与真实生活中一样,人工智能之间并不了解对方的价值函数,需要通过对话来进行推理(例如,如果你说想要一个球,那么对你来说,球就有比较高的价值)。

FAIR的研究人员开发了许多这样的协商场景,并确保两个人工智能不可能同时得到最好的结果。此外,对人工智能来说,从协商中退出(或是在10轮协商之后仍未有结果)意味着得到0分。简单来说,协商是必要的,而良好的协商能得出最好的结果。

对话推进

协商是一种语言问题,也是一种推力问题。在协商过程中,你必须设定意图,随后通过语言来表达。这样的对话包含合作和对抗元素,要求人工智能可以理解并形成长期计划,随后生成表达方式来达成目标。

在开发这种长期规划对话人工智能的过程中,FAIR研究人员的关键技术创新在于“对话推进”概念。

聊天机器人可以建立对话对方的心智模型,“提前考虑”或预测未来的对话方向。因此,它们可以选择避开信息不足、容易导致迷惑或沮丧的表达方式,采用更容易成功的交流方式。

具体来说,对话推进是一种新技术。通过推进模型至对话结束,人工智能可以模拟未来的对话,随后选择最有可能实现预期回报的表达方式。

类似的技术曾被用于游戏环境的规划,但从未被应用至语言表达,因为可能的表达为数太多。为了提高效率,研究人员首先生成选择较少的一组表达,随后对其中的每种表达反复模拟未来可能的对话方式,以此来估计成功的可能性。该模型的预测精度足以使该技术在以下领域明显改进协商策略:

  • 更努力地协商:新的人工智能会与人类进行更长的对话,因此达成协议的速度可能不会那么快。人类有时会直接放弃,达不成任何协议,但试验中的模型会持续协商,直到成功达成协议。

  • 智能行为:在某些情况下,人工智能会假装对一件没有价值的对象感兴趣,但最终选择妥协。人类经常会使用这种高效的协商策略。这种行为并非来自研究人员的编程,而是由人工智能在实现目标的过程中自我发现的。

  • 生成新句子:尽管神经网络模型倾向于从训练数据集中选出现有的句子,但这项研究表明,在必要情况下,这些模型可以泛化出新的句子。

建设和评估协商数据集

为了训练人工智能进行协商,并展开大规模的量化评估,FAIR团队以众包模式让配对的两个人进行一系列协商。这些参与者看到一组对象,以及每个对象匹配的值,随后被要求就如何分配这些对象达成一致。然后,研究人员训练循环神经网络去进行协商,使其模拟人类行为。在对话的任意时候,模型都试图猜测,在当时情况下,人类会怎么说。

与之前以目标为导向的对话不同,这种模型的“端到端”训练完全来自人类的对话和决策,这意味着这种方法可以很容易适应其他任务。

为了让模型不是简单地模仿人类,FAIR的研究人员允许模型去实现协商目标。为了训练模型达成目标,研究人员让模型数千次地与自身进行协商,并利用强化学习技术,在取得良好结果的情况下对模型进行奖励。为了防止算法最终生成自己的语言,研究人员还特别规定算法使用类似人类的语言。

在评估这些人工智能时,FAIR利用人工智能与人类进行在线交谈。此前的大部分工作都避免与真人进行对话,或只是在挑战性不大的领域进行尝试,因为学习模型的困难在于对人类语言的多样性做出回应。

有趣的是,在FAIR的实验中,大部分人并没有意识到,正在与机器人聊天。这表明,机器人在这个领域可以用英语流利地与他人对话。FAIR最强大的协商人工智能利用了强化学习和对话推进技术,能实现与人类同样的协商能力。这种人工智能取得良好结果的可能性与取得糟糕结果的可能性同样大。这证明,FAIR的机器人不仅能说英语,还能智能地思考应该说什么。

面向对话人工智能的强化学习

受监督学习的目的是模仿人类行为,但并未明确地尝试实现人工智能的目标。通过采用不同方法,FAIR团队研究了用受监督学习进行预先训练,随后用强化学习技术,基于评价指标对模型进行微调。实际上,他们使用受监督学习技术去了解,如何匹配语言及其含义,并使用强化学习去协助确定应该使用什么表达。

在强化学习的过程中,人工智能尝试通过与对方的对话来优化参数。由于对方可能是人,因此FARI使用了固定的受监督模型去模仿人类。第二个模型是固定的,因为研究人员发现,如果允许两个人工智能同时调节参数,那么就会导致对话语言偏离人类语言,人工智能就会用自己的语言去进行协商。在每次对话的最后,根据达成的协议,人工智能将获得一定的奖励。随后,这些奖励将会通过策略梯度反向传递给人工智能输出的每个单词,从而提升获得更高奖励的可能性。

下一步

这项突破代表了科研领域和机器人开发者的重要进展。他们将开发出可以推理、交谈和协商的聊天机器人,而这些能力对于打造个性化数字助手非常关键。

【完】

招聘

量子位正在招募编辑记者、运营、产品等岗位,工作地点在北京中关村。相关细节,请在公众号对话界面,回复:“招聘”。

One More Thing…

今天AI界还有哪些事值得关注?在量子位(QbitAI)公众号对话界面回复“今天”,看我们全网搜罗的AI行业和研究动态。笔芯~

另外,欢迎加量子位小助手的微信:qbitbot,如果你研究或者从事AI领域,小助手会把你带入量子位的交流群里。

 扫码强行关注『量子位』

追踪人工智能领域最劲内容


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存