查看原文
其他

语音助手“小不点”绕开API,通过模拟点击完成任务,可行吗?|Xtecher有问

2016-11-16 贾聪聪 Xtecher


语音助手,从国际巨头到创业公司都做了很久,却一直没能交出令人满意的答卷。近期,一家公司拿出了“完全不同”的玩法。


作者|贾聪聪

编辑|甲小姐

网址|www.xtecher.com

微信公众号ID|Xtecher


“小不点”,是Naturali(奇点机智)给这款语音助手起的名字。

 

这是一款应用于Android生态的语音助手,与Siri、Google Assistant、Viv、亚马逊Alexa等语音助手相比,“小不点”完全不同。

 

怎么不同?

 

别着急,先看看Siri等是怎么玩的。

 

放眼全球,语音助手大同小异,说白了,都是三步走:

 

第一步:语音识别,把你说的话翻译成文字。第二步:自然语言理解,把文字解读成行为。第三步:调用各应用API来完成指令——也就是说,第三步舍弃了你手机里的APP和其原有界面,直接在语音助手上集成功能,如打车、外卖等。

 

那么,对于一个语音助手开发者来说,前两步,比的是AI团队多强大,第三步,比的是你的BD团队多强大。

 

“小不点”的做法怎么不同?

 

首先,不需要API——换句话说,小助手的功能实现,不需要各类应用给你“开门”。当“小不点”在完成第一步语音识别、第二步自然语言理解之后,第三步,它便开始“模仿人”进行操作——打开你手机里已有的APP,进行模拟点击动作,直至完成你要实现的动作。


“小不点”发红包的演示


打个比方,如果说其他语音助手是帮你走了各个应用的“后门”,“小不点”便是代替了你的手指去“开门”,当它明白你要完成的行动后,它就按照手指打开APP操作的方式,帮你实现一遍。

 

所以,在“小不点”的数据库里,有大量关于“动作”的记录。

 

不仅如此,“小不点”最大的亮点还在于“自带学习功能”。

 

常有这种场景:你说了一句话,语音助手搞不懂,这时对于Siri等助手,你只能悻悻地自己动手,但对“小不点”而言,当它听不懂时,会向你展示“学习”按钮,你按下之后,它便会记住你接下来的一系列操作动作,录制完整路径,记住你的语音与动作之间的关连——下一次,当你再说同样的话,它就学会了。


“小不点”学习功能演示


对比Siri,当你想设置一个下午2点的闹钟,Siri会在自己的界面做一个下午2点的闹钟页面。而“小不点”会直接帮你跳转到系统里,打开闹钟的页面。这样一来,在理论上,面对任何一个全新的APP,“小不点”都可以在不获取其API、不与开发者合作的情况下对其操作。


这样设计的巧妙之处是,用户的每一次教导操作,都可以进入“小不点”的数据库,经过大量数据的聚合筛选整理,“小不点”会形成自我迭代的良性循环——在所有手机终端学会做这件事,其他用户不再需要教它便可以直接用了。当用户越来越多,数据越来越多时,“小不点”就能学到更多的功能,更准确响应用户的意图。

 

总之,“小不点”不需要集成应用的API,而是把所有功能都当成点击事件,模拟人的点击动作,让APP“以为有人在那儿点击了一下”,从而让用户在对应APP界面上直达指令的最后一步。


“小不点”打车演示


然而,这也决定了它要达成用户使用APP功能的指令,必须建立在用户已下载相应APP的基础上,否则,只能先引导用户下载。

 

从本质上说,其他语音助手更像是“搜索引擎”,语音连接搜索结果,而“小不点”更像是个“动作引擎”,语音连接操作动作。

 

如今,手机里装的APP越来越多,有了“小不点”,用户就可以省去翻找APP的麻烦,也不必知道想要的功能在哪,直接让它去做就行了。

 

那么问题来了:“小不点”模式,究竟是否走得通呢?


语音助手由来已久,调取API方式难以扩展


进入工业时代以来,人们一直在寻找与机器不同的互动方式,语言是最自然的方式,毕竟我们天天都在说话。

 

因此,纵使语音助手是一条“布满坑的路”,仍然是全球巨头角力的领域:Apple的Siri当初让人心潮澎湃,Google和亚马逊分别推出了运用于智能家居的Google Assistant和Alexa,微软推出了微软小娜和微软小冰两个“姐妹花”,Facebook力推Bots宣称干掉APP,Siri创始团队在脱离苹果后,发布了一款比Siri功能更为强大的智能语音助手Viv……

 

语音助手问世已久,却永远带着隔靴搔痒的意味,人们始终没有养成大量使用的习惯,成为了很多人手机中的“鸡肋”。

 

之所以觉得“鸡肋”,是因为语音助手们并没有完成太多的任务,达不到人们的期望。以Siri来说,问一句“中国的首都是哪里”,它只会傻傻地推送一堆网页;让它打开微信发个红包它也做不到,只能做到打开微信,整个过程中还重复了好几次“对不起,我没听懂”,“抱歉,我不太确定你说了什么”……




之所以会出现这种情况,是因为目前市场上语音助手产品的功能都是通过集成APP的后端API。

 

在Naturali创始人邬霄云看来,这样的方式是舍本逐末:舍弃了手机里的APP界面,还需要每个功能重新做一套体验,用户也需要再学会使用一个新界面,这是极大的浪费。此外,靠集成后端API的方式,每个功能都需要靠接入不同API来实现,需要手工集成,扩展性较差,做100个功能就需要跟100个厂家谈合作,没办法集成很多功能。这是一个人力问题。

 

而对于“小不点”来说,这变成了一个数据问题。只需要获取用户指令及点击的流程数据,就可以实现功能。“我们用同样的程序可以做不同的事情。”邬霄云说,只要用户满意了,就可以逐渐扩大功能范围。

 

“APP天天改,需要用通用的方法把所有问题解决掉。”邬霄云表示,这种全新模式可能做得比较慢,但做出来就是一个通用的方法。依靠用户的不断教育,“小不点”会成长迅速,1个用户教会了“小不点”某个功能,其他人便都可以直接用。


“小不点”,换种方式就顺利了吗?


然而,用“小不点”的方式做语音助手,工作量同样非常大。

 

邬霄云也表示,“我们的工作量比集成API的方式大很多,实施前十个功能的时候,集成API的方式会比我们快,但要做1000个、1万个、100万个功能的时候,我们就有戏了。”

 

想要“有戏”,需要大量的用户数据。“小不点”类产品的深度学习需要大量的数据来支撑,用的人越多,语义的执行会越顺利,会做的东西也越多,这是一个良性循环。

 

为了积累用户、完善功能,Naturali选择与手机厂合作,将“小不点”内置在手机上推向市场。如今,“小不点”已与某著名手机厂商达成战略合作——在你看到的该品牌下一版手机上,你将看到语音助手“小不点”。

 

然而,这一套解决方案存在很多艰巨的挑战:

 

首先,不同手机的操作系统不同,需要录制不同的流程;此外,APP版本更新时,UI可能发生很大变化,以京东、大众点评、淘宝等为代表的APP,已改变传输协议,加载时UI随时可能改变,而UI一旦变化,流程就需要重新录制——也就是说,每当一款APP更新,都必须有人重新去教“小不点”。



虽说用户可以通过学习功能教“小不点”实现需求,tracking也很酷,但对于用户来说,work就用,不work就不用,他们也许没有动力教机器人怎么去做。如果用户不买账,就变成了恶性循环,开发者疲于修复层出不穷的bug,用户更不买账。

 

另一方面,一个APP新版本出来之后,有的用户更新了,有的用户还没有,“小不点”还要对此有不同应对措施。“小不点”如果不能及时更新录制,将在执行路径上失效,大大影响用户体验。

 

这是否会造成技术上的不可收敛?

 

对此,邬霄云觉得不是问题,“你觉得,是版本更新需要花的时间多,还是录制一遍需要花的时间多?”

 

不仅不是问题,邬霄云还给出了一种更加乐观的可能:当“小不点”类产品被整个市场接受、用户都通过该类产品来满足需求时,APP便会失去更新版本、改变UI的动力。

 

这是一种乐观的预期,还只是一种想当然的假设呢?



假如APP被干掉……

 

要面临的还有一件更可怕的挑战:APP生态本身坏掉了,怎么办?

 

今年4月12日起,Facebook已正式面向开发者开放Messenger应用,以方便其开发Bots,目的是促进用户与企业之间“一对一”的对话。每一个企业都可通过一个Bot与用户对话,用户需要查询特定商品、询问价格及购买咨询时,Bot会主动提供详细信息并快速回应。目前,Facebook Messenger平台上已有近两万个活跃的机器人。扎克伯格是希望有朝一日用Bot取代手机里的某些应用,进一步取代苹果App Store。

 

近几年火热的深度链接也可能会把APP全部取代,未来的手机页面或许会只剩一个输入框或者一个语音按钮。总之,谁都不知道下一个交互方式是什么,人们不是喜欢用APP,只是还没找到合适的替代方式。

 

在盈利模式上,还有个不得不说的问题。

 

“小不点”与Viv都定位于应用助手语音机器人,专门帮用户达成任务。然而,因为实现路径的不同,他们的前途也变得不一样。

 

Viv的研发团队来自Siri创始团队,当初做Siri就是希望专注于移动商业服务。2010年,Siri作为独立APP发布时,有42家在线服务提供商伙伴,可以购买门票、餐厅订位和召唤出租车,更牛的是,完成这些动作既不需要搜索引擎,也不需要重新开启或下载另一款应用。

 

Viv比当初的Siri更为强大,自今年5月发布开始,就一直宣称要做取代搜索引擎的流量入口。Viv是要把所有服务全部整合,在对话中帮用户处理几乎所有事。

 

对于Viv而言,语音助手的首要意义在于获取流量入口,相当于搜索引擎,将对话交谈这种最自然的交互方式运用于手机,获取最自然的用户,从而带来巨大流量。对于Viv来说,做流量入口的模式是可行的,因为它提供服务不需要用户下载应用,那么就有成千上万的选项可供选择。

 

然而,对于“小不点”来说,因为绕过了APP的API,而是通过模拟点击的方式实现用户功能,这决定了它要达成用户使用APP功能的指令,必须建立在“用户已下载相应APP”的基础上。

 

这样的定位区分,使得Viv的目标是“入口”,而“小不点”的目标还是“助手”。

 

目前,国内移动市场流量分发已基本结束,每一个细分领域都已存在头部APP,用户手机上更不会同时存在多个相同品类的APP,没有更多的选择,用户有需求自然会使用相对应的APP来解决问题。

 

目标固定,搜索就没有了意义。所以,“小不点”目前尚未有明确的盈利模式。

 

不过,事在人为。



今年3月底,Naturali获得了襄禾资本领投,NEA资本跟投的500万美金A轮融资。

 

开发“小不点”的想法始于去年底,并于今年大年初二写下了第一行代码,经过大半年的开发,体系架构已成型,正在做大量测试。目前,Naturali技术团队共20余人,来自北大、清华等名校,服务过微软、搜狐等公司。

 

创始人邬霄云,纽约州立大学计算机博士,拥有1年雅虎实验室、8年谷歌研究院工作经验。主要从事大规模机器学习,自然语言理解(包括语法结构分析,词汇语义建模),回国前负责美国应用搜索公司 Quixey.com搜索部门。

 

联合创始人林德康,University of Alberta计算机科学正教授,回国之前为Google研究院高级管理科学家,Google搜索问答系统的创始人和技术负责人。他在自然语言处理及理解领域总共发表过90篇论文,其研究总计被引用超过12000次。林德康两次被选为国际计算语言协会主席(2002副,2011正),并于2012年当选为该协会的终身院士(Fellow of Assocication Computational Linguistics)。

 

华丽的团队,大胆的设想,可能的局限。在优化工具的道路上,也许,Naturali最终能找到合适的方式,克服局限,达成设想。我们期待“小不点”面市。

 

“开始的时候,我们创造工具,后来它们造就我们。” 马歇尔·麦克卢汉说。

 

如今,希望“用技术解放人性”的科技创业公司已经越来越多,所有人都怀抱着同样的理想,所有人都面临同样的挑战。




如果你对此模式有更多兴趣,关注本账号(ID:Xtecher)回复“小不点”,获得此产品体验活动报名链接。



我是Xtecher高级记者贾聪聪,关注智能出行、虚拟现实等科技领域领军人物及行业发展。欢迎与我联系。

微信:jueshao121

邮箱:


Xtecher欢迎科技行业深度见解投稿。

投稿请联系:junmabaiyi948


点击 | 关键词 | 查看对应内容

精品文章:Xtecher特稿

人工智能

达闼科技 黄晓庆(上\) | Rokid 黄伽卫

快乐智慧 雷鸣 | 出门问问 李志飞

驭势科技 吴甘沙 | 格灵深瞳 赵勇 

地平线 方懿 | 彩云天气 袁行远

车和家 李想丨51猎头 刘维

Face Think 杨松帆|中科视拓 山世光

深鉴科技 汪玉|越疆科技 刘培超

Kneron Inc 刘峻诚|MINIEYE 刘国清


虚拟现实

诺亦腾 戴若犁 | 大朋VR 陈朝阳

Ximmerse 贺杰 | Pico 周宏伟
焰火工坊 娄池 | HTCVR 汪丛青 

鑫易维 彭凡 |影创科技 孙立


大数据
中网数据 孙远根 | 昆仑数据 陆薇

永洪科技 何春涛 | 华农天时 温晗秋子

GrowingIO 张溪梦 | ThinkingData 吕承通
神策数据 桑文锋 | 海云数据 冯一村

佳格数据 张弓 | 普林科技 王储

Datatist 宋碧莲|职品汇 龚才春

星环科技 孙元浩


航空航天

零壹空间 舒畅 |天仪研究院 杨峰

大健康

人本健康 陈恂 |Haplox 许明炎

奇云诺德 罗奇斌|基准医疗 范建兵


Fintech

数库科技 刘彦|Ping++ 金亦冶

abc Fintech 杨永智|奇点机智 宋嘉伟

芥末金融 彭晨| 蓝海智投 刘震


其他科技创业者
科幻作家 郝景芳 |Vinci 宋斯纯

禾赛科技 李一帆| 诸葛io 孔淼

奥图科技 叶晨光| 瀚诺半导体 张诚

51猎头 刘维|腾展科技 魏松祥

墨刀 张元一 |Phresh Amit

如果你拥有高精尖科技创业项目,Xtecher将为你提供:

1.专业的科技人物特稿和视频拍摄

2.在Xtecher官网、APP、微信的全方位展示

3.最专业的科技圈投资人、政府资源、产业资源

4.创业企业品牌管家与PR服务

即刻扫码,联系我们。

微信号:Xtecher

关注未来的人

都关注了Xtecher


   栏目推荐   



   

Xtecher联合喜马拉雅,推出科技音频脱口秀《甲小姐说》。在本专辑中,甲小姐将不断给你们讲讲科技创业圈里面,有趣、有料、有干货的内容,满足你的小好奇。 

甲小姐说最新一期火热出炉:《到底要不要为了创业少睡觉?》

▼  ▼  ▼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存