机器人骚扰电话？就用AI“二哈”来对付你！

深度学习这件小事 2022-03-29

The following article is from 量子位 Author 关注前沿科技

来自 | 李根发自首都机场
报道 | 量子位

不要惹怒程序员。不要惹怒程序员。不要惹怒程序员。

即便你是一年呼出40亿次的机器人骚扰电话。

在3.15晚会曝光机器人拨打骚扰电话黑色产业链后，大众震惊，舆论哗然，AI从业者痛心。

没想到最前沿的AI技术，正被别有用心企业引向黑暗面。

但数小时后，阿里就宣布推出防骚扰电话AI技术，称机器人的问题交给机器人对付。

在放出的视频Demo中，阿里AI实验室推出防骚扰电话AI，并且在一段完整推销电话中，人类女推销员一方，全程毫无察觉……

其后，阿里还在支付宝小程序和天猫精灵App推出开放体验，反馈也不错。

当然，聂再清也未曾料到，自己的业余项目，就这样受到如此空前的关注。

这位阿里巴巴AI实验室语音助手首席科学家、阿里AI北京研发中心负责人，前微软亚洲研究院首席研究员解释项目初衷时说：

经常收到骚扰电话实在太烦了，而且团队开会，经常被各种电话骚扰、打断，以致会都没法儿开，于是就想——能不能用技术的方式解决一下。

于是，阿里防骚扰电话AI“二哈”就此诞生。

让机器对付机器

在阿里AI实验室内部，“二哈”是这个智能防骚扰电话技术的项目代号。

当用户在手机上开通了这项服务，在接到骚扰来电时，用户可以直接转接给机器人接听。

阿里还放出演示视频，展示“二哈”的工作状态。

当一名推销贷款的女推销员接入电话后，1分钟时间内，“二哈”不但对答如流，甚至化被动为主动，向这她咨询“北京能不能贷款？”“最多能贷多少钱？”

甚至还在对话中“调戏”道：“你之前给我打过电话吧，听起来挺耳熟的？”全程中女推销员丝毫没有察觉到与自己通话的是一个机器人。

最后，“二哈”AI还被女推销员索要“微信号”。

视频一出，微博上就炸了锅。

有吃惊的，“不看标题根本不会知道有机器人。”

有提出小建议，搞“机机大战”的：

还有来自AI学者的评价，比如清华大学刘知远就说，不仅防骚扰，还能变相收集数据集，点赞了该技术应用。

另外，阿里AI实验室旗下的“天猫精灵”还表示，这是一个已经通过了很多人的“图灵测试”的机器人，现在就可以打开天猫精灵App或支付宝搜索天猫精灵调戏“二哈”了。

总之，AI的问题，正在由AI解决。

技术原理：智能聊天

阿里AI北京研发中心负责人聂再清博士解释，“二哈”背后，主要使用了智能聊天技术。

所谓“智能聊天”，需要理解用户请求，同时用强大的知识图谱制作聊天的知识点，通过跟用户对话，把知识图谱里的知识灌输给用户，同时也引导用户反馈。

该过程中，AI跟用户聊的越多越好，AI会学到很多知识，用户聊完以后也会“教学相长”并慢慢把AI当朋友。

更具体来说，智能聊天是用深度强化学习来学习对话策略的，因为不是精度要求非常高的任务完成。

所以就算AI聊错一点，没有多大的关系，用户只是会对这个回复不太高兴（不像任务完成时需要100%准确完成主人的任务）。

通过强化学习，下次对话策略算法就可能更好地知道，到底应该怎么和这类用户聊天。

如果从垂直技术应用划分，过程中交叉使用了语音识别、NLP、知识图谱，以及语音合成（TTS）等技术。

聂再清解释：

首先用到了语音识别技术把用户的语音转成文字。
接着自然语言理解技术，把来电者的意图和具体的槽值抽取出来。
紧接着对应到一个精准的知识图谱上面去，这样“二哈”就能把用户输入和现实世界的人与物联系起来。
然后，基于对用户当前输入的理解以及历史交互的上下文信息，“二哈”需要决定下一句应该是回答来电者的一个问题还是给来电者提一个问题。
最后，二哈还需要用的语音合作技术（TTS）把文字变成人声。

但听起来章法清晰、步骤明确，要真正做到真假难辨却不容易。

如何做到真假难辨？

聂再清认为核心要做到以下3大方面：

第一，接住用户的每一句话。

因为用户的输入空间非常大，要理解和聪明的回复来电者的每一句话很有难度。

对于一些不是“二哈”知识领域的问题，阿里AI目前采用了闲聊（ChitChat）的技术，从互联网上公开的人类对话库中来找到最适合回复，这是一种基于 information retrieval 思路来找到排名最高的相关回复。

目标是让来电者看不出“二哈”可能的知识缺乏。

第二，主动提出一个相关问题。

这更多是一个对话策略学习的工作，需要让来电者知道“二哈”真能理解他们的话，并提出只有理解了对话上下文，才能提出的好问题。

一味被动接话，很容易被识破。

该项挑战非常大，聂再清在2018年AAAI上有一篇参与发表的论文（CoChat: Enabling Bot and Human Collaboration for Task Completion），核心就是提出一套聊天机器人对话策略学习框架，让“二哈”这样的聊天机器人在不同的场景下都可以持续学习。

包括监督学习、在线学习、和深度强化学习（使用sentiment analysis提供奖惩反馈信号）。不同的聊天机器人根据自己的场景要求可以选择使用不同的学习策略。

比方说有人工worker的客服领域就可以更多使用在线学习，“二哈”这样的机器人可以用监督学习启动，深度强化学习不断进步。

并且通过和人类不断对话，“二哈”AI会通过深度强化学习越来越好地知道如何提问才能更好地达成他的目标。

最后，像真人一样的语音语调以及停顿。

如果推销广告的骚扰电话，通过声音判断初接电话的是个机器人，他们就不会继续聊下去了。

所以“二哈”在语音合成（TTS）方面做了很多工作。

阿里AI最新算法利用Tacotron加上基于神经网络的声码器算法，合成出极其逼真的人声，但遗憾的是还有很大比例情况不能通过图灵测试。

于是“二哈”现在采取了过渡性方案，把非常高频的回复借用真人录播。但毫无疑问，未来该方案会不断减少。

而且值得注意的是，“二哈”最初只是一个课余项目。

不要惹怒程序员

“二哈”研发初衷，实在是对日益普遍的骚扰电话很生气。

聂再清说，自己一直都是同一个电话号，于是泄露越来越严重，经常收到骚扰电话。

还影响到团队工作，会议进行中，同事们经常被各类电话打断导致会议终中断，于是开始思考着如何用技术的方式解决。

而且更可气的是，大量骚扰电话是机器自动拨出的，成本越来越低。

此外也算天时地利人和。

在阿里AI实验室，聂再清团队负责天猫精灵的算法，所以所有相关人才团队里都有：语音识别、NLP、知识图谱……全链条覆盖。

并且跟语音助手一致，智能对话的基础算法也都通用。

于是他们先以“课余”项目开始，兴趣驱动，参与的工程师都很开心，一方面是解气，另一方面也是知道背后带来的意义。

其后一切也进展飞快，最终在本月月初，开始向公司申报，并立项启动。

没想到在今年3.15晚会上，机器人骚扰电话引起如此大关注。

于是团队决定公开最新研发成果，“二哈”也正式从幕后走到台前。

一炮而红。

AI电话秘书

但“二哈”就只是帮对付骚扰电话而已嘛？

不。

聂再清说，“二哈”的进一步的目标是成为每个人的AI电话秘书，除了帮主人应付骚扰电话，还可以在主人繁忙的时候询问来电的主要意图，也能帮主人预约议程。

而且相比之前人类的电话、议程为工作核心的秘书助理，“二哈”这样的AI电话秘书，可以利用个性化TTS，模仿出跟主人声音极尽逼真的声音。

另外，这样的目标也并不是遥不可及的“憧憬”。

至少现在，利用“二哈”实现AI呼叫转移，已经不再是技术难题。

AI可以在你不方便接电话时帮接听来电，并转换成文字向你“汇报”。

你愿意为这样的AI服务买单吗？

论文传送门：

CoChat: Enabling Bot and Human Collaboration for Task Completion

https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16748/16081

Learning-to-Ask: Knowledge Acquisition via 20 Questions

https://arxiv.org/abs/1806.08554

— 完 —

为您推荐

小白都能看懂的神经网络教程：从原理到优化如此简单

从一个骗局谈生活中的基础算法

9000星，微软开源的计算器Github项目突然火了

百度2019春季实习生招聘正式开幕！

警察殴打打人学生，舆论撕裂的背后

商场里，卖不掉的“衣服”都去哪了？导购员不会说，内行人却都懂.

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！

机器人骚扰电话？就用AI“二哈”来对付你！

来自 | 李根发自首都机场
报道 | 量子位

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

商场里，卖不掉的“衣服”都去哪了？导购员不会说，内行人却都懂.

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！

生成图片，分享到微信朋友圈

机器人骚扰电话？就用AI“二哈”来对付你！

来自 | 李根 发自 首都机场 报道 | 量子位

您可能也对以下帖子感兴趣

来自 | 李根发自首都机场
报道 | 量子位