美女与IT兽 | 把智能产品做智慧 | 自由微信

查看原文

其他

美女与IT兽 | 把智能产品做智慧

挺你逆风起飞的微软科技 2021-04-22

（本文阅读时间：27 分钟）

Grace Peng 微软合作伙伴业务拓展总监兼客服兼非著名主播
· 内容形式：图文+音频

· 主题：如何把智能产品做的更智能

· 读/听时间：27分钟

· 阅读建议：先收藏，再阅读，再观看

· 掌握难度：★★★★☆

大家好，我是微软Grace，过去的8年我们在智能产品这个领域有很多的创举，凡是你想得到的或者你想不到的zi——要是可以智能的地方基本上都智能了。如果你去参加一个智能峰会，你会发现现在基本上智能已经变成标配了，原来还时不时讨论智能化可能是一个伪命题，然而不知不觉间产品却都已经装上了wifi、蓝牙、ZigBee了。

如果你从来没有接触过的话，（疫情前）随便去参加一个智能展会都能刷新你的五官。

在这个过程中我们积累了一些观察，之前其实也跟大家聊过：智能化这件事情分成3个阶段，第一个阶段是无论是什么我都先智能化了再说，加上WiFi或者蓝牙，能用手机能控制就行，不管用户到底是不是这样的习惯。

第二个阶段是人工智能加上智能硬件，这个阶段呢还是同样的套路，不管用户到底有没有这样的需求，反正把人脸识别啊，语音识别呀，统统加上去就好像特别智能了。

现在应该算是第3个阶段，这个阶段无论是市场、用户、还是硬件制造商都琢磨过劲儿来了，最终促成买单的是用户的真实需要，或者是一个企业一个场景的真实需求，所以这个时候大家开始仔细地思考用户到底需要什么，B端的市场怎么才能通过智能的手段去打开。

在这个过程当中还有一点特别重要就是成本。如果你这个智能化或者是人工智能加在一个硬件上无论它叫做智能家居，还是工业互联网，成本都是非常重要的，是关系到一个产品是否可以有持续生命力的关键指标。

今天我要跟各位IT兽聊的，就是更深入地理解在一个产品变智能的过程中，是如何一步一步去迎合用户需要的，如何把一个产品从智能做到智慧。至于后面的“成本是否合理”“是否能实现To B 的增长”这2个需求我们以后再找机会跟各位细聊。

来，我们把一个产品从智能到智慧的路径想象成训练一个实习生去服务客户的过程。那么一个人如果要服务客户的话他的逻辑是什么样的呢，大体上一共分成4个部分。

第一个部分叫做感知，也就是用眼睛看、耳朵听、用心去感受用户的动作、语言、表情等。

第二个部份叫做理解，也就是弄清楚用户正在表达什么，他是在抱怨？还是在开心，或者是想我们给他一些信息？

接下来就是响应，比方说人家问“Azure听说比别家贵啊 ”，如果是服务型人才的话总应该想个法子回应的对不，就会这样回答：“不，如果是企业级协议，虚拟机可以打折，找Grace小姐姐，便宜很多！”

第四是迭代，实习生总是要不断从实践中获取经验的，以前可能听不懂人家中英混杂地说“你给我一个Teams Meeting的S+，我们一起线上Plan一下 ”是什么意思，慢慢也会开始要听懂了；以前回答“Azure听说比别家贵啊 ”只会直截了当提打折，多揣摩几次可能就能先问问人家“ 你要实现什么场景？我帮你分析分析？其实Azure物有所值 ”之类。

1. 感知用户

接下来我们就从如何感知用户开始吧，目前用户感知主要通过计算机视觉和计算机听觉来实现，计算机视觉…都懂，跳过！

我们今天来分析一下听觉——声纹识别，这项AI技能虽然没那么准，不过看你用在什么地方。

在“云就该这么玩儿”公众号上其实有过一篇专门的文章写如何通过声纹识别来识别用户，身份识别当然你说要用在支付领域里最多只能作为辅助手段，因为他没有那么精准，而且受到很大程度的环境影响。但如果只是用在一些特定场景下，比方说智能家居，那就完全是一项实用的技术，因为家里不太可能存在一屋子好几万人这样的情况，谁在说话非常容易能够辨识出来。

我们这里用几段音乐作为训练的参考，比方说下面这个画红线的很长的一串儿数字加字母的，就是我们之前训练过几次用声音，已经注册好的一个人——周杰伦。

然后当我们把注册好的信息放在我们的智能硬件里的时候，一旦这个智能硬件听到了跟他非常相似的声音，他就可以理解“噢！原来是周杰伦这个人在说话或者在唱歌 ”

我们注意一下上面这首歌放完之后，Speech这个API找出来的这个Identified Speaker是谁，后面那一串儿代码看起来很眼熟对不对，是的他就是刚才我们已经在智能硬件里注册好的周董，人工智能还告诉你我非常有自信刚才听到的这个声音就是周杰伦：Confidence=High

2. 理解用户

听明白是谁的声音之后，接下来就要听清你在说什么。听清你在说什么就是把你说的话转译成文字，因为只有转译成文字才可以被现在的人工智能理解并分析，这个技术微软已经用在了很多地方，比如如果你用的是Office 365办公的话，就可以跟我们一样，在打开PowerPoint播放幻灯片模式的时候选择使用字幕，就会感受到这项技术就在你身边。

这项技术在微软AI地图里只是Speech这一大项中的一个子服务，叫Speech to Text（STT）。

当你做得深一点有些坑就要碰到了，这里不仅考验的是人工智能的能力，还考验你对人工智能的耦合能力。做智能硬件这件事稍微做深一点点你就可能会碰到这样那样的问题：能不能消除回音、稍微远一点的声音怎么分辨出来、杂音是不是能去掉，背景能去掉吗...?

微软呢好歹做过很多带音频的设备，所以有一点点经验。我这儿放了个链接如果大家有兴趣可以去试一下：

https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-devices-sdk

刚才强行谦虚你不要当真啊，我说的那一点点放在行业里都是很领先的！当然不同的人工智能算法对采集设备传来的信号有不同的处理能力，比如音量大小，这个我们已经试验过了

由上面的结果可以看出，将音量设置为“低值”对识别的正确率以及返回的Confidence影响都不大。即使音量调整为原音频音量的0.25%后，在GoldWave软件中已经没有肉眼可见的波形，用耳机在正常音量下已经听不到声音，仍然可以正确识别，并且Confidence返回为High。

所以做智能硬件的时候不能光想着放大声音，有时候也得反过来想如何去处理声音让它更好的适配人工智能的能力。

我们再深一点，讲情绪理解。情绪的识别和理解通过面部表情最容易获取，不过依照本栏目惯例，计算机视觉大家都懂我们跳过，我们这里讲讲通过语言和声音来理解情绪。

我又要引用“云就该这么玩”里已经做过的一篇研究，微软的“Speech”这一项人工智能里其实藏着非常多的你不知道的能力，比方说根据声学特征来理解你的情绪。

多少种声学特征呢？最多130种！用来获得对音频各个维度的理解，比如语音的伪色彩。你说话的声音是生气、开心、恐惧还是悲伤，你的声纹特征大概就像上面的图上一样，有兴趣的可以去翻一翻这篇帖子。

那么另外一种对情绪进行判别的方式是利用接受到的文字来理解情绪，这个不像刚才这个声纹特征那么抽象，相对来说比较容易理解。

比方说你听到别人说哇你今天好美哦，你肯定知道正常情况下人家是在夸你。如果微信上你朋友在说今天我超不开心心情非常郁闷，你基本上不需要去看他的脸也知道他的情绪不怎么样。这就是用文本来去判别情绪的基本方法。

我们刚才已经说到用人工智能可以帮助我们把接收到的声音转化成文字，那么这些文字就可以被接下来的一种人工智能理解其中的情绪，当然你可以直接用Speech这个API里内置的情绪分析，也可以用别的人工智能或者服务录取到的文字丢给下面这个叫做文本分析API的，让他来帮助你判别情绪。

我们图上举了一个例子，“如果人人像你这样会善用微软人工智能技术，我们的产品早就大卖了。”这句话我们正常分析其实是在夸奖，所以文本分析API也得到了一样的分析结果：看看绿色，占到92%的那个叫积极因素。

文本分析能力现在不同的服务提供方都有自己的专长，当然，都是基于良好的上一步，不然…“你好不好意思啊正装不包邮的 ”这样标点符号没断好的句子就没法判断了。

我们刚才说过，用音频直接来判断情绪或者用音频转了文字之后的文字来判断情绪这是两种路径，在做过测试之后我们发现了一个神奇的事实：

单纯用声音文件来去判断情绪的准确率不到50%，但是用文字来去判断情绪的准确率却达到了接近86%！所以在人工智能没有更进一步的进展之前，我奉劝大家目前不能单纯用语音判断情绪。

情绪识别可以用在的地方非常多，比方说我们现在比较热门的一个解决方案是帮助呼叫中心去迅速、即时地判别我们的坐席与客户之间的互动情况，下面这张图就能看到目前可以做到的程度，这里面有一个有意思的探索就是情绪不能只停留在那一刻，得要有预判也就是下面的“Trend”。

我举个例子大家就明白了，疫情期间很多爸爸妈妈都是在家里辅导功课对吧，一开始可能你是和颜悦色的坐在你家孩子旁边，说着说着你的情绪的趋势就开始变化了。

那么这种变化是向着好的方向发展还是向着坏的发展对于我们理解用户当然有一定的参考价值，因为我们要决定接下来应该怎么去响应用户，所以这个趋势必须要能够及时的被了解。

判断了情绪，再往下走…用户说是啥意思？这里就涉及到语义理解了。

此题至少50分，语义的理解是长期修炼之路，现在也不见得就有一个完美的解决方案出现，毕竟无论是汉语还是外语都在不断进化当中。而语义理解的能力高低就是让智能家居在智能和智障之间反复切换的关键因素。

首先语音的人工智能应该能够理解准确的命令行表述，比方说下面这个例子：

你一说把灯都全打开调成绿色，但凡是个人工智能都应该能够抓取到它的关键意图，就像右手边那一堆文字“我有96.5%的自信认为你说的是要把所有灯都打开，也有99.5%的自信认为你说的是把灯都搞成绿色。”

这个现在基本的智能家居都能做到，但是如果一个用户不这么说话，他可能说：“哎呀我的眼睛有点累了。” 你会怎么理解？圣心难测啊。

你让AI去理解这样的句子肯定是不那么行的，但是我们还是希望他能起码从表面上把我们的意思理解对，这样可以解决生活中碰到的七八成的问题。

那么现在语义理解的进展到达什么程度了呢，目前的进展其实非常类似人的认知方式，比方说如果大家来看下面这段文字：

理解鼡戶茬浍話啝仩芐妏狆錶垯哋浛義湜①頙艰姖哋姙務，泹妸姒讓僟噐亾浭洎嘫哋琎垳窷兲。使鼡嶶軟娪訁理解技朮能夠實哯泚朩摽，使僟噐亾能夠識莂鼡戶消息哋嬑姠

拆开来看你可能都不太认识这些字是什么意思，但是很奇怪合在一起我们反而能够读懂这段话的意思。这是为什么呢？因为人的大脑有了基本的对字面意义的理解之后剩下的在快速阅读的时候会不由自主地靠猜。于是我们也用同样的方式来教人工智能学会人“猜”的本事。

这个方法叫做BERT：大意就是让AI大量刷题，就像上课外辅导机构一样，一个知识点我让你做100道题，怎么都会了，甚至你题干都没有看完可能你就知道他会问什么问题。人工智能可不止能刷100道题，像微软、谷歌这样级别的公司让人工智能去刷题你想想看吧，不刷得机器人吐我好意思说我自己是微软？

BERT得到的结果就非常类似下面这张图，你刚说了一个字儿“我”，人工智能就开始猜你后面可能说的字都有哪些，你又说了个“以”，我接着往下猜你我“以”后面可能就是“前”。

当你说完一句话之后，人工智能就开始对自己刚刚做过的猜测进行打分，看自己猜对了多少个。然后下一次再来猜你或者别人说的话的时候就有会更准确一些。

有兴趣的IT兽可以在上面这个公众号中找到这篇文章，另外如果你不是专门搞人工智能的，只是想体会一下人工智能现在在猜词猜句上有什么样的进展的话，可以把Bing.com设为搜索主页，感受一下AI揣摩上意的能力。

3. 响应用户

感知并理解用户后，我们就要开始响应用户需求了。比如智能硬件要可以跟用户说话，说话就涉及到用什么样的声音来说。市面上有几种AI的声音，一种是Demo用的，一种是基于统计原理的，一种是用深度神经网络算的。

- 标准AI语音 -

- 深度神经网络AI语音 -

（深度神经网络AI语音）

相信你听完上面两段视频的话，可以很明显听出来基于统计原理的和基于深度神经网络的语音有多大的区别了。其实在B站上我们也看到过不少对比的视频有兴趣可以去翻一翻，人工智能在模仿人说话这件事情上那真是一日千里。

原来我们以为机器在模拟人的声音的时候只能用同样一种语调，但你看，微软硬是做出来一个让自己都不可思议的演示，而这个演示的技术应该在今年6月份就可以让大家在公开网站上体验到了，人工智能会自动根据上下文去理解现在这段话里应该用上面的哪种情绪或者是角色的声音来去扮演。如果你现在就想要…也不是不可以…热烈欢迎扫码小窗私聊我哦。

刚才这段“扮演不同语调的演绎”实际上背后是由AI的声音分成不同的情绪去扮演的，哎呀这么说好像技术含量没那么高了，实际上人工智能的声音能够去扮演不同人的情绪就已经很厉害了好不好！

在认知服务的Speech Studio里可以发现，你可以让同样一个人的声音用不同语调在不同语境中发声。是的，这个Studio真的挺像个Studio的，还可以调音的那种，如果你有Azure账号的话，欢迎自己来试试：https://speech.azure.cn/audiocontentcreation。

诶...慢着，用什么声音说话解决了，但要让人工智能说些什么内容呢？

最简单的做法就是QnA Maker

QnA Maker 是一个基于云的 API 服务，用于创建基于现有数据的对话式问答层。使用它可通过从半结构化内容（包括常见问题解答、手册和文档）中提取问题和答案来生成知识库。使用 QnA，以知识库中的最佳答案自动回答用户的问题。随着不断从用户行为中学习，让知识库变得愈加智能。

QnA的后台类似这样：

比方说，当用户问：“冰箱怎么老是滴滴滴叫个不停啊？”

这时候前面的语义理解就负责把上面这句话的关键词提取出来去理解这句话的意图：

“冰箱”

“滴滴滴叫”

“为什么”

如果你现在有一个档案库，类似下面这样，用QnA Maker 做好的，那他就会自动跳出最接近人工智能理解的答案，直接回答：“小主你冰箱门没关好吧？”

说到这里要加塞一个话题，为什么智能的产品和一个真实的人站在跟前儿有很大的区别呢，这个就要看我们之前有过的一次探讨：为什么大家都爱小冰？——差别就是Chit Chat的能力。

你知道吗，聊天中83%都是废话，比方说“吃了吗”、“最近咋样”……不信你去翻一翻你跟别人特别是好朋友之间的聊天记录。为什么大家喜欢跟小冰聊天？觉得小冰虽然也不完全像人，但大家却默认小冰就是目前最好的人机交互机器人了呢？因为她会跟你闲聊。

可不要小看了闲聊的能力，一方面这是丰富智能设备与人交流之间的粘性手段，而这种粘性手段可以帮助你更好的去理解用户，当然我们这里说这个智能设备是一个需要闲聊的场景中的智能设备。

另一方面人其实大都非常需要陪伴，你跟家里人吵了架你跟谁说去，你在工作里受了憋屈你又跟谁说去，你其实明白没有人有义务听你吐槽，这个时候有一个会听你讲话并且还能跟你闲聊的智能设备，无论颜值如何，你都愿意跟TA说说心里话，如果TA还能来来回回地安慰你几句，调侃几句，给你一些鼓励，或者是踩上几脚，你都会觉得这个是一个非常合格的树洞：

所以我们在设计对用户的响应的时候，不能忽略了闲聊这个能力，上面这张图我给了一个示例，这是人工智能在应用到实际产品当中要考虑进去的一个因素。

https://docs.microsoft.com/zh-cn/azure/cognitive-services/qnamaker/how-to/chit-chat-knowledge-base

除了QnA Maker，再复杂一点，就得上知识图谱和技能卡了。微软做了一个例子，在现代化办公体系里，怎么去插技能卡，点亮科技树。你只需要有一个框架，这个框架可以帮助你连接各种技能卡，当然前提是这些技能卡在不同场景下有它的独到之处，同时还能按照一个框架的耦合方式把你所需要查询的内容给投递出来。

知识图谱是学习人的思维模式进行的知识点的连接，像下面这张图一样，如果有人问到一个人，那么人工智能的知识图谱后台就会先准备好跟这个人相关的一些强相关的知识点，当交互的话题从一个点跳转到另外一个点的时候那么跟他连接的知识点就被点亮，知识的状态空间就发生变化。

每一个知识点由不同的属性维度组成，比方说你问到Lebron James，知识图谱在背后其实准备了一大堆的和他相关知识点连接成的结构——他是一个什么样的人，在哪里工作，婚姻情况如何，有没有花边新闻...等等等等，其实讲到这里你应该知道单纯只靠前面的智能硬件，想要完成如此大量的工作是不太可能的。这个时候就应该借助在云端的知识体系模型来帮助前端的智能硬件去完成海量的计算。

微软当然还准备了不少通用的知识地图，这样你这个实习生不用从头教起。我拿我软工程院的Carina KBQA的基本知识来源为例：

刚才这个只能完成一小部分人和人之间的对话，比方说下面这个：

那接下来就有问题了，人问一个问题其实背后是有他的目的的，这个目的要实现的话跟前面这个问题可能密切相关，也可能没那么相关。

这里就要联系上下文了，不然如果你只对当前问题进行回复的话，就不知道“苏州呢？”是个什么问题。

所以我们总结一下整个响应的过程：

我知道你听到这里心里有点打鼓了，oh~My~God！不听不知道一听吓一跳，原来做一个智能机器人需要这么多复杂的步骤啊。是的这当中确实需要非常多人工智能的参与，同时还要有对本领域或者是面对场景的理解加入进去，在这个过程中，微软扮演的角色就是帮助我们智能硬件的小伙伴：第一更好的识别用户意图；第二做好后面的对话管理工具；第三生成更自然的语音——无论你是一个订票系统，还是一个查询系统，还是一个智能陪护机器人。

我们苏州研究院有限开放了一个对话机器人管理的后台，把刚才我们提到的技术集成在了一起，如果你希望用到一系列顶尖技术的组合，欢迎扫码找我们呀。

4. 迭代

一旦有1000个用户开始用，你就想如何“千人千面”以满足客户不同的需要，但是在之前千人千面非常难做。

我们猜啊，可能是因为大部分做智能硬件的小伙伴和做互联网积累摸索用户习惯的不是一拨人，从物联网端获取的信息的维度比单纯在网上浏览获得的用户信息丰富的多。

而且互联网上的千人千面实际上现在也遇到了瓶颈，我看了几本明朝的书，这个平台可能就以为我就只喜欢明朝那些事儿，可是我实际上也很喜欢科幻呀，也很喜欢霸道总裁啊，我们时不时在批评人工智能对人的成见，可刻板的印象就是通过我观察到你的那一面积累来的。别说机器了，人也是一样，你要是见5年没见的同学，如果不是天天关注你的朋友圈的话，他对你的印象很可能就还停留在5年前。

虽然我们也还没有想到特别好的方法来避免这种人工智能的成见，不过我们起码可以做到类似人类的思维模式，现有的工具里有两样东西可能能帮助我们的智能硬件更好地去贴近用户需求，一个叫Personalizer，一个叫强化学习。

Personalizer的原理不复杂，比方说你看到一篇文章，如果你一点都没兴趣光看标题就准备翻页，那Ta背后就会给你打分说哎你对这种类型的文章不感兴趣；如果你看到了另一篇文章比方说人工智能如何赋能地铁，然后仔细地研读了一遍那Ta背后呢就会给偷偷拿个小本本记下来：哦你喜欢看微软的，人工智能的，跟地铁相关的~

如果你读了100篇不同的文章，有的文章读的时间长有的文章读的时间短这样积累下来其实人工智能就大概知道你喜欢哪方面的文章，放在智能家居或者智能产品上也是一样。你喜欢把灯开成绿色，或者是喜欢把灯变成蓝色；你在情绪不是很好的时候喜欢听莫扎特，情绪好的时候喜欢听野狼Disco，类似这样的日子过个365天你想想看，背后的人工智能不得就大致了解了你的喜好吗？

同时Personalizer还会把Ta对你目前习性的理解用JSON输出出来，给其他的应用调用。比如音箱观察到你情绪不是很好，就偷偷告诉冰箱，这哥们今天心情不好。冰箱虎躯一震开口说道：“主人主人，来电话啦…哦不对，是主人主人，要不要来一瓶快乐肥宅水啊？”

如果你有Azure账号的话（Azure.com就可以免费申请试用），可以去这里试试这种个性化：https://personalizationdemo.azurewebsites.net/

至于强化学习的能力，我们在上上期的内容里有给大家聊过，如何通过采集的数据在机器学习帮助下改善产品的表现。点击阅读：美女与IT兽 | 人类已经掌握了一套教机器自学成才的方法了？！

微软超火兴趣专家微信群

美女与IT兽前36期（26期音频节目+10期视频）

NO.1 如果能说句话、挥挥手就能把事情办了，我们为什么还要做App？

NO.2 人类想象力的极限在哪里？

NO.3 物联网，千万别从头做起！

NO.4 别光想着双12了，Hololens这次真要来了！

NO.5 人工智能识别，已经走到哪一步了？

NO.6 你可能没发现，这么搭建云服务性价比更高！

NO.7 微软拥抱开源，你怎么玩？