美女与IT兽 | 人类想象力的极限在哪里？ | 自由微信

查看原文

其他

美女与IT兽 | 人类想象力的极限在哪里？

Original 数字转型的微软商业视角 2021-04-22

【美女与IT兽】第二期，两周前听到的那把“糯米”嗓子，今天又要说点儿什么？

看了昨天文章的IT兽可能已经知道，她今天放的是大招——陪你去看...想象力的极限（你以为我要说流星雨？）！！！

点开下面的语音，听着天马行空的“干货”......工作？周一见！

↓ ↓ ↓

上一期的【美女与IT兽】讲到一个很受欢迎的概念：

如果能说句话、挥挥手就能把事情办了，我们为什么还要做App？

（↑戳文字可复习详情↑）

这个理念一方面是要借助认知服务来理解用户的输入，另一方面用Bot Framework来调动不同的业务应用来实现用户的意图。上一期讲了Bot，今天来好好说说——认知服务。

你可能知道微软有人脸识别这样的黑科技，但你也许不知道微软有至少22项这样的黑科技，合在一起，就是认知服务！

再说明白点儿，就是机器模仿人的感觉器官与用户互动的方式。

比如，医生通过望、闻、问、切来初步诊断病人得了什么病，通过脸色，心跳，声音种种表征来判断病人的身体状况。那么认知服务就是由机器人来看、来听这个世界并作出类似人类判断的服务。（666.gif）

看这个行为，对于人类完善的视觉和牛逼的大脑处理能力来说，是件很容易的事，机器要看，就难很多！但现在，机器人也快赶上人类了！

比如你可能玩儿过：上传一张照片测年龄、测颜值......（当然机器还在学习过程中，太有迷惑性的正在试图理解——比如它们就很难识别郭德纲和林志颖是同龄人！）

（←测年龄测颜值➝）

除了年龄和颜值，认知服务还能看懂你的情绪：

科学研究表明，人的脸部有43块肌肉，相互组合可以做出上万种表情，而我们普通人类肉眼可以识别出的表情也就22种左右。有很多微表情普通人都分辨不出，不过通过进一步对认知服务的训练，目标是做到像《Lie to me》（别对我说谎）里精准细微的超人类判断水平！

说了这么多，感觉不是很懂但很厉害的样子！但这些对我们有什么价值，吗？

价值？说几个实际案例你就能明白——

一家企业需要了解门店到访客户的熟客情况，通过摄像头拍照，我们能将不同门店的照片汇聚通过认知服务的人脸识别，判断一个到访者是不是在多家门店出现、每家门店的到访情况、判断是否是熟客。同时计算在不同阶段的人流特征，和在产品铺设摄像头，了解不同产品吸引的人群的特征。

认知服务的情绪识别也可以实际运用，我们在培训室老师的身后设置摄像头，实时捕获学生（小学中学或者培训机构消费者）的脸部表情，通过对认知返回的情绪计算，我们能了解到本次课程之后有哪些学员对课程满意和比较有兴趣，哪些学生对课程内容感到无趣和疲倦。

我们还为一家互联网公司提供用户上传照片的分析，通过认知服务，我们将自动过滤黄色的不良照片，也会将用户的头像判断哪些是盗用了明星的照片。并且通过认知的反馈我们能从用户上传的大量照片中分析TA是喜欢户外还是室内，喜欢海边还是山区，更精确的推荐TA感兴趣的人群。

我们为一家制造业企业提供箱号识别，原先箱号识别需要大量人工干预，现在通过光学字符识别我们能判断物件中大量的字符，然后通过缺损猜测，能自动和后台系统对照，节省大量人工。

这以上是微软最有价值专家王豫翔王专家用认知服务做过的一些案例，还有好些做过、正在做和即将要做的酷炫场景，就不在这里一一卖弄了。

说到这里，应该已经能够总结出认知服务的价值：我们之前大多数时候设备都没有办法跟人产生互动，只能依靠人的输入来执行动作，这回可以主动了。

不仅是图像、视频的识别，要是听不懂声音那还叫什么智能？

人类文明始于文字，机器对人类话语的理解当然是打开理解里的基石。这里再援引王专家的话：

通过声纹识别知道当前对话者是谁，通过“语音识别”转为文字，然后配合这个对话者的语言理解智能服务，用户能得到一个自己的虚拟玩偶。而且能多人一起玩~”

我们再继续延伸，如果机器人已经能看懂我，也能听懂我，TA是不是能帮我做点什么呢，比如….翻译？

是的，当然可以！在iPhone，安卓或者微软应用商店里都能找到“微软翻译”或者“Microsoft Translator”这个神器。

Microsoft Translator是微软以机器学习、大数据、自然语言和云计算等前沿技术为基础打造的自动翻译服务，也是微软众多人工智能研究成果中投入使用最早也最广泛的应用之一。

Microsoft Translator现已支持50多种语言的文本翻译、8种语言的实时语音翻译和18种语言的语音识别和输出。就在2016年7月底，我们在中文简体和繁体的基础上，最新加入了粤语文本翻译，进一步完善了对汉语应用环境的支持，可以畅想以后把手机对着《乡村爱情故事》，歪果盆友也能看懂我们那个屯儿的银儿！

（微软翻译，带着它走遍天下也不怕不怕啦~ ）

举个栗子，你今天想设计一个家庭用的存储，那么家里的存储上放的最多的是什么？照片，没异议吧？

但是，我们很可能都有过这种感觉，自从有了数码产品以后十来年，存的照片有风景照，有人物特写，当然更多的是...大量的自拍，拍的时候都觉得好美，好美~以后定要拿出来时时勤摩挲，可一旦手机存储满了，捣腾到存储上以后，结局基本就是说bye bye了！

为什么呢？因为我没空一个目录一个目录去翻那特定的照片啊！

比如我记得我在沙滩上跟一个漂亮姑娘的阳光照，却怎么都记不起来是什么时间的了，怎么办？

认知服务中有一项叫做“计算机视觉”的API，只需要把存储中的照片用缩略图灌给API，它就会帮我给这些图片都分类、打上标签。

比如，打上“沙滩”、“美女自拍”、“会议”等等，并按照这些标签来份类。这样只要在App上设置一个点这些标签的按钮，就可以很快找到跟这个标签相关的照片了~~

这个API具体怎么给照片打标签？上福利，一张图看懂（魂淡~别看左边啊，重点在右边→_→）

如果你还想再进一步知道微软怎么实现这些即插即用的API的…我能说，人工智能这四个字么？不过人工智能这个话题太大，以后再约。先给你们看看在微软人工智能的眼里，世界是什么样的：

下面这张就是在机器眼里的世界，TA现在还没有办法感受到我们眼中美丽的世界，只能分辨出来什么是什么，但是对于智能硬件的伙伴们来说，这已经可以创造出很多有意思的产品出来了！

比如小冰现在已经能和漫画结合：

当一个跟用户特点关联的属性出现的时候，小冰竟然已经可以把一个漫画拉进对话中，你这么腻害，怎么不上天和太阳肩并肩呢？！

再比如Hololens：

不仅可以为了部落，把虚拟的英雄人物都搬到现实里来，感受TA们的音容笑貌：

而且可以把真人也瞬间转移到你的面前：

（“移形换影”成了现实，霍格沃茨也就不那么神奇了！）

说了一晚上不让你试一试，有点残忍。

这些服务都是以REST API方式即插即用

去点击文章左下角的【阅读原文】

愉快玩耍，吧~

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了