AI热词你居然只知道“深度学习”？

查看原文

其他

AI热词你居然只知道“深度学习”？

Original 2018-03-07 二岳初 读芯术

全文共3793字，预计阅读时长4分钟

最近深度学习的风头正盛，尤其是在语音、图像识别这些领域不断刷新战绩，好像把AI领域其他的宝宝们的风头夺走了，让人一度以为人工智能=深度学习。

但其实深度学习只是AI的一方面，还有其他一些领域也正在取得进展，并且这些技术分支在很多领域都有极大的应用潜力。

我们都爱把自己的固有印象贴在某件事物上，形成标签化，就像一些人把AI贴上“认知计算”或者“机器智能”的标签，而有的则不恰当地将AI和“机器学习”混为一谈。

实际上AI是包含了从机器人到机器学习等许多学科的一个广泛领域。我们大多数人断言，AI的终极目标是开发出能执行以往属于人类智能范畴的任务以及认知功能的机器。为了实现这一点，自动学习的能力是机器不可或缺的。

那么除了深度学习，你还应该关注哪些AI方向呢？

阿尔法狗的秘密——强化学习

什么是强化学习？

还记得GoogleDeepMind在玩Atari和围棋（Alphago）游戏中技惊四座的表现吗？这就是采用了强化学习的方法，它是一种通过试错法学习的范式，其灵感源自人类学习新任务的方式。

强化学习（Re-inforcement Learning），一种基于与环境互动的目标导向的学习。有业界观点认为，强化学习是真正的人工智能的希望。（事实上强化学习在五六十年代就已经提出，阿尔伯特大学的Sutton的RLAI是最经典的教科书，而控制论领域更早的“近似动态规划”就是强化学习。）

解释什么是强化学习，我们可以举个简单的例子：

一个孩子在学习走路时有哪些步骤？

首先孩子将观察你是如何行走的。你用两条腿，一步一步走。得到这个概念后，孩子试图模仿你走路的样子。

但孩子很快发现，走路之前必须站起来！这是一个试图走路必经的挑战。所以孩子需要尝试先站起来，虽然过程会经历许多挣扎和滑倒，但仍然决心站起来。

然后还有另一个挑战要应付：站起来很容易，但要保持站立又是另一项挑战！孩子挥舞着双手，似乎是想找到能支撑平衡的地方，设法保持着站立。

现在孩子开始他／她真正的任务––走路。这是件说比做容易的事。要记住很多要点，比如平衡体重，决定先迈哪个脚，把脚放在哪里。

这听起来像一个困难的任务吗？

实际上站起来和开始走路确实有点挑战性，但当你走熟练了就不会再觉得走路难。不过通过我们的分析，现在的您大概明白了一个孩子学走路的困难点。

让我们把上面的例子描述成一个强化学习的问题。这个例子的“问题”是走路，这个过程中孩子是一个试图通过采取行动（行走）来操纵环境（孩子行走的表面）的智能体。他/她试图从一个状态（即他/她采取的每个步骤）到另一个状态。

当他/她完成任务的子模块（即采取几个步骤）时，孩子将得到奖励（比如巧克力）。但当他/她不能完成走几步时，他/她就不会收到任何巧克力（亦称负奖励）。这就是对一个强化学习问题的简单描述。

强化学习结构：

在每个时间步t、agent：

–接受状态St

–接受标量回报rt

–执行行动at

强化学习的环境：

–接受行动at

–产生状态St

–产生标量回报rt

强化学习（RL）其实是最接近于自然界动物学习的本质的一种学习范式，在一些小问题上的表现近乎完美。

在典型的强化学习设定里面，一个代理会承担在数字化环境中观察其当前状态的任务，并采取能让自己被设定的累计长期奖励最大化的动作。作为每次动作的结果，代理从环境接收反馈，这样它就可以知道动作是促进还是妨碍了自己的进展。

然而传统的RL应用场景很有限，规模大一点的问题就会出现维数爆炸，function approximation可以解决一定问题，然而复杂的学习问题存在大量的不确定性，模型调参犹如盲人摸象。深度学习的爆发给RL带来了新希望，大家都在等着deepmind憋下一个大招。

AI星际2？AI德州扑克？AI参加标准化考试？

也许有一天AI会参加美国总统竞选，毕竟机器没有丑闻，一旦老子value function收敛，尔等人类都是渣渣。

带记忆的神经网络

神经网络是什么？简单来说，就是用来模仿人脑思维过程的人工智能。

人的大脑之所以强大，正是依靠大量的“神经元”组成的一个极其庞大的网络，通过“输入特征信息”，“加工处理”产生“输出结果”。

我们来设想下面的场景：

在拥挤的街道，对面走来一个长腿大波浪的性感美女。

瞬间，你就GET到了她的大量信息（火辣的身材、白净的皮肤、迷人的眼睛、性感的服装等），并把信息传入了大脑——在神经网络中这即是指 “输入特征信息”，意味着你看到什么，听到什么，摸到什么等。

而“输出结果”就是大脑指挥机体做出对应反应。例如肾上腺素分泌增多，局部充血变大——我是主动跟美女搭讪呢，还是故意不小心擦胸而过揩油呢，还是只远观而不亵玩呢？

事实上，信号在大脑中实际传输是一个相当复杂的过程，但就我们而言，重要的是把它看成和现代的计算机一样，利用一系列的0和1来进行操作。这体现在神经网络中，最重要的用途是分类和识别。

我们再看几个例子：

垃圾邮件识别：

现在有一封电子邮件，把出现在里面的所有词汇提取出来，送进一个机器里，机器需要判断这封邮件是否是垃圾邮件。

疾病判断：

病人到医院去做了一大堆肝功、尿检测验，把测验结果送进一个机器里，机器需要判断这个病人是否得病，得的什么病。

猫狗分类：

有一大堆猫、狗照片，把每一张照片送进一个机器里，机器需要判断这幅照片里的东西是猫还是狗。

如上述最后一条例举，把一张猫的照片交给计算机让其识别，计算机通过这张照片的像素信息逐层分析，每一层都会有若干个神经元负责分解画面上的信息。

比如第一层负责分析照片上的轮廓信息，这个时候可能有一半的神经元判断这个照片上是狗另一半觉得这个照片上是猫，没关系再交给下一层分析，下一层的神经元负责分析照片上的颜色信息，再下一层负责分析照片上的纹理信息，以此类推。

到了最后一层计算机得出的结果是照片上的动物是狗。但如果计算得出了错误的信息，神经网络就得重新再来一遍，这时候每层的神经网络就会反省上一次的错误，分析得出正确的结果。

那么，如何让神经网络拥有记忆？

递归神经网络加入了另一组神经元之间的连接。这些连接允许把同一个隐藏层的神经元的激活值在下一个序列步骤反馈回自身。简单的说，在序列的每一个步骤中，隐藏层除了从下层接受信号外，还从自身接受信号。此机制给了递归神经网络一个重要的性质：记忆。

图片来源: IEEE Spectrum

递归网络的一个杀手级应用是语言翻译。

训练数据是成对的句子，一句在源语言里，另一句在目标语言里。并且，句子并不需要具有相同的长度或共享相同的语法结构。尽管没有预先学习任何一种语言的知识，诸如语法，此类神经网络依然可以和许多最先进的机器翻译程序抗衡。

递归神经网络也可以解决许多医疗问题。南加州大学与洛杉矶儿童医院合作设计了一个神经网络，可以基于从儿科重症监护病房测得的观测序列来作出诊断。

序列有13个频繁但是不规则采样的临床指标，包括心脏速率、血压、血糖水平和呼吸功能的测量。目标是，针对每个患者，在128种常规诊断中选取一个最适合的。网络训练完成之后，再通过一组新的患者数据来评估模型的有效性。评估证明，网络可以以相当高的精度识别出不同的病症，比如脑癌，持续哮喘和糖尿病酮症酸中毒（糖尿病的严重并发症，由体内产生过量血液氨基酸引发）。

仿真环境

目前来说，计算机仿真行业主要的分支有虚拟现实（VR）、现实增强（AR）、3D打印、生态系统仿真、仿真模拟训练、计算机仿真测试以及军事信息通信的仿真技术等方面。

众所周知，AI系统训练数据的生成往往是很有挑战性的。此外，AI如果想在现实世界中发挥作用，必须推广到许多情况下也适用。而开发可模拟真实世界的物理结构和行为的数字化环境，可以为我们衡量和训练AI一般智能提供试验场。这些环境以裸像素的形式呈现给AI，后者然后采取行动以便解决被设定的目标。在这些模拟环境下训练可以帮助我们理解AI系统是如何学习的以及如何对它们加以改进，也能为我们提供有可能转移到现实世界应用的模型。

OpenAI 近期介绍了该实验室在 2017 年打造的 8 种仿真机器人环境和一种新的强化学习技术，这些技术被用来训练最终用于真实机器人的人工智能模型。同时，该实验室还提出了机器人研究领域的一系列待解答新问题。

8 种仿真机器人环境采用 MuJoCo 物理仿真平台构建。这 8 种仿真环境是：

图1丨拿取-到达v0：把手臂移动到 1 个给定位置实现拿取。

图2丨拿取-碰触 v0：手臂碰触一个放在桌面上的小球，让小球滚过桌面，达到指定位置。

图3丨拿取-持续推送 v0：手臂持续推动一个盒子，直到将其推到指定位置。

图4丨拿取-悬空移动和放置 v0：拿起 1 个盒子，让其离开桌面，移动到指定位置之上，然后放下。

图5丨虚拟手掌 v0：虚拟手掌需要操控拇指和其他 1 根选定手指，让其碰触手掌上的指定区域。

图6丨虚拟手掌-方块掌控 v0：虚拟手掌玩弄手上的方块，直到方块的指向和位置符合要求。

图7丨虚拟手掌-蛋掌控 v0：虚拟手掌玩弄一个蛋，直到蛋的指向和位置符合要求。

图8丨虚拟手掌-杆掌控 v0：虚拟手掌玩弄 1 根杆，直到杆的指向和位置符合要求。

读芯君开扒

今天我们聊了AI领域几个热门的概念。事实上，人工智能是一个大集合，往往是各种方法的融会贯通才能达到最终的效果。举个例子，伯克利人工智能方向的博士生，入学一年以后资格考试要考以下这几个方面的内容：