写给设计师的人工智能指南：虚拟私人助理

Original 2017-04-06 shadow 科技Mix设计Lab

本期谈谈

《虚拟私人助理》相关的内容。

我们先大致看下人工智能10大细分行业的典型应用：

1、深度学习／机器学习：
预测数据模型与分析数据的软件平台；
垃圾邮件检测；
金融诈骗检测；
2、自然语言处理：
语音识别；
智能客服；
智能化软件帮助系统；
智能化知识管理系统；
智能企业形象代表；
智能导游；
智能查询系统；
3、计算机视觉／图像识别：
面部识别软件；
基于内容的图片检索；
智能交通；
医疗计算机视觉和医学图像处理；
军事探测和导弹制导；
无人驾驶环境检测；
4、手势控制：
电脑手势指令系统；
游戏软件手势操控；
人眼运动跟踪系统；
汽车导航；
智能电器的手势操作；
5、虚拟私人助手：
网络客服助理；
个人助理app；
个人日程管理；
6、智能机器人：
家庭机器人；
销售机器人；
7、推荐引擎和协助过滤算法：
音乐推荐app；
美食推荐网站；
8、情境感知计算：
可穿戴传感器；
智能决策支持系统；
智能家居；
精准农业；
9、语音翻译：
视频谈话实时翻译；
网络研讨会多语翻译；
10、视频内容自动识别：
安防智能监控；
视频侵权检测；

应用很广，我们设计师大用可为啊～

其中关于计算机视觉／图像识别方面，在上一期已经做过梳理，可以点击链接回顾下：

写给设计师的人工智能指南：图像

以下为正文：

大家都用过或者听过苹果的siri吧！这款产品的所用到的技术涉及自然语言处理、语音识别、语音合成等。它是一款语音助手产品，与语音对应的还有基于文本的聊天机器人相关产品，他们都属于虚拟私人助理的具体应用产品。

虚拟私人助理带来了人机交互方式的转变，人机交互方式从GUI转入了以自然交互为主的NUI。

计算机人机交互方式的演进：

简单的CLI
Command-line interface：
命令行界面
用户与计算机的互动主要以简单连续的指令为主

复杂的GUI
Graphical User Interface：
图形用户界面
用户与计算机的互动还增加了浏览、视频、语音、游戏等方式

自然交互为主的NUI
Natural User Interface：
自然用户界面
与计算机的交互发展到触摸屏、语音交互、与穿戴式设备的交互、AR和VR的交互

这个时代的设计师，习惯于GUI的交互方式，面对的交互方式从复杂的GUI界面，到接近自然的NUI的转变，难免会迷失方向，如果不跟上时代的步伐，很快设计师就要被淘汰啦～所以我们必须了解交互方式的变化，及其特点，才能更好的基于人工智能做我们的设计。

我梳理了对话式交互的一些要点，以供参考。

一、对话式交互的2个主要应用方向：

可以是基于文本的，或者是基于语音的。

基于语音的需要语音识别技术的支持，理想的情况是不存在具体的交互界面，仅靠声音对话就可以达到交互的目的，受限于目前技术，语音式的交互大多用于儿童玩具或者个人助理相关的场景。

典型应用是语音助手。

基于文本，比语音稍简单点，因为在交互中，我们需要借助于具体的图形界面，这样的话，可以用具体的功能按钮辅助，规避技术难题，可以做到在自由聊天与具体场景业务间的无缝过渡。

典型应用是聊天机器人。

二、对话式交互的特点：

信息需要根据上下文语境来呈现，每一次对话将决定下一次对话的信息；

产品的信息架构以决策树为主；

设计师思考角度的转变；

设计师需要从界面的流程设计转向基于决策树的策略设计，建立满足用户需求的完整决策树和寻找最优路径，更多地思考上下文前后信息的展现逻辑。

三、对话式技术解决方案：

3.1 人工对话

主要代表为美国创业公司设计的个人助理应用Magic。当用户提出要求如“帮我买一张机票”时，后台通过人工运营为用户提供解决方案，其实就是有个贴身客服为你解决问题。

优点：本质上是人与人之间的沟通，能避免很多问题；

缺点：当用户量涨起来后，后台的人工运营压力较大。

目前Magic通过一半人工一半机器回答的形式转型，减少后台的压力。

3.2 预埋对话

主要代表为苹果Siri，微软的Cortana，及百度的度秘。目前大部分对话式产品都采用该方案，通过识别语句中的关键词给出预埋的解答。

优点：降低答案的失误和减少重复的工作；

缺点：是当设计师没有意识到问题的其他最优解决办法或存在的bug，整个系统可能给不出最佳答案甚至无解；以及整个对话下来其实就是人与机器的独白，没有任何交流。

3.3 人工智能对话

主要代表还是苹果的Siri、Google的Google Now、微软的Cortana、Amazon的Echo以及百度的度秘。该方案主要通过处理大数据和机器学习的形式进行自我迭代优化现有决策树。

优点：实现更完整的决策树和产生更多最优的解决方案，它能理解更多指令和记录用户的习惯；

缺点：但如何理解上下文，理解用户情感仍是最重要的难题。

我觉得，

目前比较可靠的技术解决方案是：

三种方法融合，

然后交给设计师好好设计：

上下文前后信息的展现逻辑。

下面我们具体看看2大应用方向的案例及技术路径。

四、语音助手

案例：

苹果的siri，亚马逊的Alexa，微软的Cortana，Google Assistant语音助手，三星Bixby语音助手等。

功能：

控制智能家居，或者是个人智能助理。

语音识别是面临的第一个技术环节，作为设计师我们可以了解下相关的语音识别开放平台，毕竟不是每家公司都有实力从0到1搭建一个好用的语音识别系统的。

讯飞http://www.xfyun.cn/

百度语音http://yuyin.baidu.com/asr

我调查下来，如果是一般的应用，用百度的比较简单，专业级应用还是用讯飞吧。

语音识别在设计的应用场景：

a、photoshop、cad、sketch啥的都可以通过语音来控制来，解放设计师的双手。这个基于语音听写，把语音转化为文字，再转化为具体的计算机指令，可以达到。

b、方案汇报不用自己讲了，让机器人帮你讲解，不过目前来看，设计师得提供文字版的演说稿，基于讯飞的语音合成，挑选一个喜欢的方言、音调来讲解。

五、聊天机器人

案例：

社交娱乐元素，小黄鸡、微软小冰等聊天机器人加入社交平台，满足了年轻用户的追求新鲜的口味；

购物，推销商品或服务，比如谷歌语音助手向用户玩起了推销，告知《美女与野兽》将于今日上映的广告；

美国好莱坞名媛、真人秀明星金·卡戴珊就推出了同名聊天机器人；

企业官方客服，淘宝客服就是典型的应用；

新闻资讯,比如国外很火的对话式app：quartz；国内类似的微信订阅号：狗带君；

个人日程管理、订票、查询天气，微信服务号：助理来也。

目前对话大多以简单命令和问题为主，如

“今天天气怎样？”

“清明节是什么时候”

“最近最便宜的餐厅在哪？”

“现任美国总统是谁”

“杭州在哪？”。

上图为我最近在开发的app截图

聊天机器人通过“天气，餐馆，最近，最便宜”等关键词明确命令后，在数据库和互联网上进行搜索，将最优答案反馈给用户。

聊天机器人能简单处理的问题：

是什么

什么时候

哪一个

是谁

什么地点

面对为什么，及如果（过程）的问题用户体验较差，聊天机器人很难处理。

目前大部分聊天机器人，可以做到简单问题的回答、查询天气、查看新闻、查询航班、给用户讲笑话、推荐菜谱、查找图片等通用型问题。

比如下图是微软小冰等能力图谱：

国内开放平台推荐

图灵机器人http://www.tuling123.com/

用下来感觉效果还行。

tensorflow也是有相关的开源项目的，比如：

Deep Q&A

https://github.com/Conchylicultor/DeepQA

动手能力强的话，可以下载下来玩一把～

嗯，虚拟私人助理这篇就写这么多内容，抛砖引玉，读者们可以思考下语音助手、聊天机器人、对话式的交互方式，是否还有其他有趣的玩法，或应用了。

人工智能相关文章：

写给设计师的人工智能指南：图像

Javascript也可以玩机器学习

《机器学习》入门的26个概念。笔记1

欢迎长按二维码

关注本号

本号发布内容主要为设计&科技方面

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

写给设计师的人工智能指南：虚拟私人助理

Deep Q&A

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

生成图片，分享到微信朋友圈

写给设计师的人工智能指南：虚拟私人助理

Deep Q&A

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡