2018-05-31

本文由混沌大学（ID：dfscx2014）授权转载。混沌大学是一所没有围墙的互联网创新大学，遍邀全球名师，拓展认知边界，奉献最专业、最实用、最顶级的互联网创新课程，陪伴这个时代最有梦想的人，早半步认知这个混沌的世界。

本文约4133字，建议阅读9分钟。

本文是一份关于AI热门应用的案例集，包含了难点、窍门以及最新的研发方向，非常珍贵而又接地气，值得你反复研读和收藏。

机器学习未来的发展路径和前景就是从模块出发，构建一个复杂系统。
——邢波

邢波，师从机器学习泰斗级学术大咖 Michael Jordan ，卡耐基梅隆大学机器学习和医疗中心主任，2017年机器学习学术水平排名世界第一。同时，他还是生物化学与计算机科学的双料博士，创立了通用机器学习平台Petuum，并获得软银投资。

授课老师：邢波

卡耐基梅隆大学计算机科学学院教授

通用机器学习平台 Petuum 创始人

翻跟头、倒着飞、倒着转圈……想象一下，一个直升飞机驾驶员，他敢这么飞吗？事实上，如今，最好的直升机驾驶员其实是计算机，依靠的就是机器学习。那么，怎样写一个程序，让直升机这么飞？

我很好的朋友，加州伯克利大学的同学吴恩达博士，他的毕业论文就是用增强学习的算法，写出了飞行的程序。

他在模拟机上，不断随机模拟各种各样飞行的可能性、环境的可能性，用一个增强学习的程序，对模拟出来的环境和动作进行适应，然后不断评估、修正，并最终部署在真正的飞机上，实现神奇的特技动作。

其实，这个增强学习的算法，就是一个典型的机器学习的应用：有学习能力，可以根据大量的场景数据，不断修正方程里的参数，最后达到一个稳定的状态。

所以，从本质上讲，机器学习是传统编程的第二曲线，它是一个写动作的程序，而不是描述动作本身的程序。它是在学习一个方程，而这个方程的X和Y是一个函数、变量，并不是一个确定的值。

Tips：回看整个科学史，机器学习变革意义重大

牛顿定律，怎么发现的？靠的是“人肉智能”：开普勒和第谷积攒了很多行星运行的图表、数据，然后伽利略和牛顿分析以后，发现规律；

同样的道理，元素周期表是如何发现的？

16世纪、17世纪的时候，出现了对分子光谱的描述，某几个物理学家根据这些数据分析发现，氢族、氧族、硫族等都会有同样的光谱分布，从而发现了规律。

而现在，机器学习的出现，让数据分析变得非常高效，从而出现了非常多有价值的应用，计算引擎成了无名英雄。比如：

自动驾驶汽车可以实现自我导航；通过遗传信号可以推断人类祖先的长相……

机器学习这么厉害，我在哪里能买到呢？很不幸，机器学习现在更像一套秘籍，买不到。

接下来，我用一些具体的例子，再详细分享一下它的难点、窍门。

案例集一：自然语言处理

人读书，会有两个基本动作，能读懂，还能讲出来，同理，自然语言处理也包含两大类工作：理解自然语言和生成自然语言。

1. 理解自然语言

理解是怎么回事？背诵下来，是不是理解了呢？

因此，需要把理解划分为不同的具体任务，一旦具体以后，机器就可以找到切入点。

由浅入深，包括以下内容：

文本分类

从分好类、有标注的训练数据出发，采用不同算法，训练一个分类器。

举个例子，分析一个文章，假如“白宫”出现多次，就可以判断，文章是讲政治的。防垃圾邮件的软件，用的就是这个原理。

文本检索

这是Google等搜索引擎里的常用功能：通过关键字输入，输出根据相关度排序的结果，再高级点，还有个性化匹配。

举个例子，搜索苹果，结果可能是水果，或是手机。

如果搜索引擎对你一无所知，两个结果都可能靠谱。如果你是一位果农或者一位高科技白领，那么就能猜出你想要搜的东西。

也就是说，要实现个性化匹配，需要考虑你的生活习惯、行为特征、以及搜索场景。

语音识别

将声音信号转化为文本信号的技术，涉及隐马尔科夫链、递归神经网络等机器学习模型，智能音箱、Siri等，都属于这类的应用。

难点

在嘈杂，或是前后关联破碎的场景下，机器很难识别清晰，但是人可以，因为有常识、背景知识，比如人在信号很差的电话环境里，连蒙带猜，也能理解对方的话。

因此，人和机器要有一些互补。

知识问答

几年前，IBM沃森在知识问答游戏Jeopardy里战胜了人，很轰动。

其实这个系统并不难，因为知识竞赛里的对话很简单，比如——

谁是美国的第一任总统？——乔治·华盛顿

所以，这个系统是一个纯工程，它跟人类智能不一样。

举个例子

比如问这样一个问题：中国不在大河边上的第二大城市是什么？

小学生很容易就能回答，但你去Google或者百度，却找不到答案。为什么？

不是知识库里没有内容，而是它听不懂你问的是什么，于是它就懵了！

所以，在这里面，有一些关键问题需要大家特别重视：

窍门

机器理解人的语言，相当有限，所以，如何提出更好的问题，非常关键。

大家天天在讲的问题，到底有没有价值？到底能不能体现出工程的进步、应用或者市场的需要？

标准测试

什么是高级的理解？标准测试，比如，大学的入学考试，托福、GRE等

为什么人工智能不去做这种测试？因为比较难，比如：

①得真正看懂测试的问题；
②训练的时候，不能人为输入规则，而是直接把教科书交给机器学习，让它自己把规则、定理、原理、作业题都完全看懂；
③最后自训练，吃透了以后去考试；
④算法要能够给学生解答这个答案的意思。

窍门：

教育里最难的一点就是出题库，然后训练学生做题。如果有一个人工智能系统，既能出题，也可以跟学生一起做题，甚至还可以给他解释，就会有很多价值。

在这样的做题程序中，深度学习的方法已经被淘汰，其他的机器学习手段得分也不高。下一步，再怎么往上走？还不知道。

换句话说，既能回答问题，又能提问题，这是人工智能最弱的方面，也是一个未知的空间。

我们现在正在做这样的尝试，让机器自动的问一些问题，从而达到自训练或者训练用户的目的。

2. 自然语言生成

这是人机界面中，主动来自机器的动作，是一个很好玩的题目，我重点介绍两个领域的应用：

机器翻译

人在做翻译的时候，通常先听完好几句话，理解后，再用另外一种语言说出来，但是，机器翻译的主要手段是对齐，把两个语句做一一对应，很机械。

机器对话

在对话系统中，也会有机器味。那么，什么才是有人味的对话呢？

一方面是对感情的把握，和对对方感情的理解；另一方面是对相关常识的引用和理解。

这在目前对话系统里，十分困难，因为没有一个很好的数学模型，对这些任务做清晰的定义。

小结：新研究方向

大数据即使再大，还是体现不出人类语言中不言而喻的内容，该怎么办？

目前，比较新的研究方向是把生成模型和人的背景知识，进行数学层面上严格和自洽的融合，把深度学习的技术和人类逻辑学的知识，结合在统一的数学模型里。

这样就可以把人的感情因素融入生成模型，从而让对话看上去更有人味。

案例集二：计算机视觉

计算机视觉是现在相当火爆的方向，大致可以分成两大类问题：图像感知与视觉推理。

1. 图像感知

它包含的是一些比较原始和低级的任务，比如：

图像分割

把不同的色块，从背景里面识别出来。

比如一个花花绿绿的人，机器看到的只是几块颜色。

语义分割

把不同的色块重新整合起来，构成有完整单元含义的目标。

比如，人和车，会被分割在比较自洽的边界内部，然后做标注。行人检测、安防里的刷脸等，用的就是这个道理。

应用案例

在医疗上，图像识别应用于对X光、CT等做一个自动的诊断，实现精准医疗。

目前，在实践中，最大的困难不是对标准图片的识别，而是在自然工作环境下，对于自然图片内容的判断和理解。

比如，医疗影像中的噪音，误差，还有设备之间不同的标准，会造成很多算法的失灵，但这些问题很少被提及。

最近的一个有名的例子是，IBM沃森的癌症治疗软件，在美国最好的癌症研究所部署后，就遭遇了比较不幸的失败。所以，人工智能在医疗领域的应用，还是应该谨慎些。

智能监控

现在，很多场合都安装了摄像头，但应用时，却总是在“事后诸葛亮”的场景：发生案件后，调集警察，人力检查摄像头，发现线索，抓到犯人。

这不是最理想的情况，最好是案件发生的时候，就能够找出情况，短时间，就能收集大量信息。

比如，从几小时长度的航空展览录像中，自动剪辑出飞机的起飞、动作、降落等画面；将几小时的行车记录仪数据，自动抽取出几分钟不一样的片段，这都是机器学习比较擅长的。

2. 视觉推理

同语言推理相似，视觉也可以进行推理。

举个例子，图中有人和帆板，那我们不单单能做标注，还可以猜想物体之间的关系，如这个人喜欢帆板，准备去海边运动。

人感觉这样的理解很简单，但对机器来说，非常复杂。

比如将物体识别出来，需要一套算法；然后把物体分类，又得需要一套算法；识别物体间的关系，又是一套算法……

但人类并不是用30个不同的大脑来发挥作用，我们就是一个人，一双眼睛就可以很清晰做理解。

窍门

所以，人工智能跟人的思路其实不太一样，它是一个高度模块化，然后边界也很局限的工作，需要严格的定义任务，分开来单独做训练和调试。

小结：新研究方向

计算机视觉2.0 模型结构自主学习

所谓视觉推理2.0指的是，一方面依靠图片内容，另一方面依靠从大数据以及背景环境里面，获得的先验知识。

当这些先验知识，进入图像识别的机制里后，机器对图像理解的水平就会提高很多，就不是一个很愚蠢的图像标注了。

实际上，图像标注是很假的功能，为什么需要机器去告诉人类，这个图里哪个是猫？哪个是狗？哪个是车？

人对这些东西都可以无视，但如果能够把图里面的内容和话外的内容搞清楚，更接近人的需求，这样的功能才会产生真正的价值。

比如这个图里，有一个女孩儿，穿着牛仔裤，拿着飞碟，后面在一个建筑物里，还站着一些人，最后推断，这可能是一个学校。

这是目前研究和研发很重要的方向，但很可惜，在公司或者媒体报道里，你很少见到类似的工作。

最后的最后，你需要深刻理解的未来AI发展路径

从模块出发，构建复杂系统

未来的AI应用大概会是这样的一个场景：

它会融合不同领域里面的很多基础知识或者先验知识，把不同的学习内容和算法整合起来。

对于实际的开发和生产环境，我们其实不是在谈某一个算法或是某一套数据，而是一个相当综合的体系。

现在，很多公司都面临着这样一个瓶颈：如果用封闭式的黑匣子来打造一个系统，它的延展能力很弱。一旦面对新任务，就会面临着开发周期的困境，或者进行部署的困境。

该怎么办？

我的建议是，机器学习未来路径和前景应该是：从模块出发，构建一个复杂系统。

这个复杂系统的方向不能是手工作坊的方法，从造一个小船变成造一个大船，而是要转变到更加工程化和科学化的方向——

模块化和标准化。

同一个算法应该有标准的实现途径，同一个数据应该有单一的供应源进行处理方法。

只有这样做，你的AI研发，才能更稳健，更靠谱。

本文根据5月19日邢波教授的课程整理而成。

戳视频 ☟

2分钟动画帮你搞懂“AI工程”

https://v.qq.com/txp/iframe/player.html?vid=g0661d9g41l&width=500&height=375&auto=0

反向激励，在加速这个社会的黑化

广西一女子和公公地下情4年，先杀丈夫后杀婆婆，只为独占公公！果然报应来了…

三观炸裂：一招让办公室所有公务员，统统变母猪…

震惊！布林肯连夜离开，马上开始指责中国！

俄罗斯的红线：国际笑柄还是不可逾越的底线？

本文是一份关于AI热门应用的案例集，包含了难点、窍门以及最新的研发方向，非常珍贵而又接地气，值得你反复研读和收藏。

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

广西一女子和公公地下情4年，先杀丈夫后杀婆婆，只为独占公公！果然报应来了…

三观炸裂：一招让办公室所有公务员，统统变母猪…

震惊！布林肯连夜离开，马上开始指责中国！

俄罗斯的红线：国际笑柄还是不可逾越的底线？

生成图片，分享到微信朋友圈

本文是一份关于AI热门应用的案例集，包含了难点、窍门以及最新的研发方向，非常珍贵而又接地气，值得你反复研读和收藏。

您可能也对以下帖子感兴趣