查看原文
其他

1:4,又是狗赢,专业速记员不敌搜狗对答机器人汪仔

2017-05-29 小LV 猎云网

文 |  猎云网(ilieyun)小LV   

1354字,约4分钟阅读

猎云君说——


自人工智能诞生以来,「人机大战」就一直是人类最热衷的的话题之一。在 GMIS 2017,搜狗汪仔和大会现场的人类速记员进行了比拼。最后,汪仔以 4:1 的成绩赢得了这场比赛。


继昨天柯洁九段和ALphaGo结束精彩的人机围棋之战后,今日,由机器之心主办的全球智能峰会(GMIS 2017)也在活动第二天特别设立了“人机大战”环节——搜狗问答机器人“汪仔”将同人类战队展开五轮角逐。

根据比赛规则,现场的五轮对决内容涉及普通文章、专业论文、语码混合、粤语普通话和绕口令。双方需在规定的时间内根据语音完成速记,准确度高的一方为胜。

比赛计时规则为题目开始放送至结束后25秒,评判标准为CMU开源工具SCLITE。

在第一轮的“普通文章”环节,由于现场播放的语音清晰洪亮,汪仔很快超越了速记员,且准确率也相对较高,只是在个别词语上有同音词的出现。

第二轮为“专业论文”部分,虽然仍由专业的普通话进行播报,但由于这部分涉及较多艰深晦涩的专业名词,因此难度也在不断加大。但汪仔无论是从速度还是准确率上都领先速记员。

在第三轮的“语码混合”比赛中,语音播放中夹杂了中、英文,且还有部分专业名词的英文缩写。显然,这一环节中,人类速记员尽管在速度上较慢,但准确率相对偏高。

搜狗汪仔的表现似乎更像是在“胡言乱语”,例如,将“Jackie嘞?昨天跟你说的那个test run了没有?”听写成,“给a。昨天跟你说那个太失望了没有?”,将“你最新爬下来的那个dataset到现在还没有clean”听写成,“你最精心扒下来,那个德赛到现在还没有另看上去”。

为了加大难度,第四轮为“粤语普通话”,汪仔的表现显然也“不在状态”,例如将“你会不会说国语,对啊,我就在说国语啊。那那那那几点钟出出来见啊?”听写成“你不说过雨对啊,我就是说过于啦啦啦啦,几点钟出来?”

第五轮的“绕口令”,播报速度较快,且在具体语义上会有相对误差,但名词相对简单重复。这一轮,汪仔明显从速度和准确率上都领先速记员。五轮结束后,评判工具最后认定速记员1:4负搜狗汪仔机器人。

从五轮对决可以发现,在语音清晰且现场环节良好的条件下,依靠语音识别、图像识别、语音合成和自然语言理解与计算的汪仔表现会优于人类,但面对口音、方言时,准确率就会低很多,尽管速度上依然比人类速记员更快。

语音识别被视为人机交互的下一个入口,苹果、亚马逊、谷歌、微软、三星、科大讯飞、百度和华为等巨头纷纷通过并购与自研推出自己的语音产品,加大市场布局。虽然相比5年前,今天的语音识别技术准确率已经提高了20%以上,但面对较为复杂的逻辑理解,机器依然存在许多难点需要攻克。

首先是噪音等干扰下的识别率问题。目前业内普遍宣称的97%识别准确率,更多的是在安静的室内并近距离靠近麦克风的场合。但在噪音或者远场识别环境下,错误率是近场识别错误率的近两倍。

其次是更好的识别算法。例如其快速自适应的方法(unsupervised adaptation),比如面对口音、方言,机器或许一开始听不懂,但几句之后就能听懂了。这种方法在很多情况下能够提升语音识别率。

第三,人机对话缺少语境。正如亚马逊Alexa负责人Toni Reid所说,“目前用户最大的期待,同时也是人机对话中存在的最大问题:语境。比如,我和你面对面交谈,很多视觉线索会告诉我你是否真的听懂了我在说什么,或者是否赞同我的观点。但是在人机对话场景下,这种视觉线索是缺失的”。从AI角度来说,补齐缺失的语境,是解决人机交互体验的当务之急。

此外,现有的语音识别技术还缺乏逻辑推理与表达因果关系的能力。即使是行业巨头的人工智能语音助理,基本定位也只是在信息检索、资讯收集等非常初级简单的工作,例如它们能够回答今天天气怎么样,但面对稍微复杂的问题,附近的麦当劳是否可以用微信支付等就无能为力了。

显然,无法根据逻辑进行多层次推演,就无法承担起更深层的服务。这也是我们看到即使是巨头研发的聊天机器人,都只能做到几轮对话的原因。



猜你喜欢:

[猎云网所有原创及编译文章不可随意转载,白名单授权请联系微信号:lieyunwang(备注“转载+你的公众号名称+文章关键字”),回复关键词“转载”看具体要求]

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存