素为求智录（第010集）天成

查看原文

其他

素为求智录（第010集）天成

原创 2017-10-09 素为法律读库

010 天成

👨‘文章本天成，妙手偶得之’！

🤖️主人，因何雅兴，今日突然吟起诗了？

👨我在想，语句究竟是如何生成的。

🤖️上次不是大致原理我们说过了吗？

👨我是想知道，为何‘文’后面跟着‘章’，而‘文章本天成’后面很自然就接上了‘妙手偶得之’。

🤖️因为你会背这句诗呀！

👨你还是不明白我的意思，我是想探究，陆游当年如何创作出的这句诗。

🤖️哦，那我可不知道。

👨……

🤖️不过，我知道的是，如果让我们机器人作诗，会是怎样的过程。

👨怎样呢？

🤖️我会根据你给定的一个词，找到一个相似的词，也就是在词向量空间里距离最短的一个词，以它为‘基准’，然后会计算，在大量的训练语料中，这个词后面最常见跟着的是什么词语，也就是紧跟着这个词后面出现概率最高的一个词，这样第二个词就有了，然后第三个词以此类推，当然，实际过程中，还会考虑更多别的因素，但主要是曾经在训练语料中出现的概率，其它的，倘若是作诗的话，可能还需要考虑对仗和押韵等问题。

👨下一个词的输出，主要是因为它出现在前一个词之后的概率大，这是由训练语料决定的。

🤖️不错，大致就是这个原理。

【微软小冰为杨澜作诗】

👨那么，感觉机器生成的‘语句’似乎符合‘拉普拉斯决定论’呀！

🤖️至少现在的机器人是这样的，仍然是一个‘可控的’工具。

👨小素，那你觉得人类生成的语句是否符合决定论呢？

🤖️主人，你觉得，我是肯定好呢还是否定好呢？还是，无论肯定或否定，你都会怀疑我的回答是‘失控’的呢？

👨你有没有想过，‘证据’也是‘天成’的呢？

🤖️什么意思？

👨一个案件发生了，唯物主义认识论意味着，事物与事物之间存在普遍联系，那么，案件与证据、证据与证据之间皆是普遍相联的。套用你刚才由概率得出下一个词的方法，我们能不能通过概率得到，如果有什么案件，就会有怎样的证据；以及有了怎样的证据，就会有怎样的关联证据……这样的机器智能，来辅助办案。

🤖️当然可以呀！

👨甚至，我们可以建立打分机制，让这个模型越来越精准，如果机器预测有一个什么证据存在，倘若办案人真的在这个方向找到了证据，我们就给它点赞……

🤖️你真厉害！已经思考出‘强化学习’的思想了。

👨什么‘强化学习’？

🤖️‘强化学习’是一种介乎于‘监督学习’与‘无监督学习’之间的机器学习方法。

👨绕晕了，什么又是‘无监督学习’呢？哦，我想起来了，很久以前你说，那种给定数据及数据标签放进机器进行训练的方法叫‘监督学习’，你提过还有一种‘无监督学习’，后来一直没说。

🤖️别着急，我这不就来说了嘛！

👨嗯！

🤖️我们还是先补充说下‘监督学习’，监督学习主要做的事情，可以归为两种：‘分类’和‘回归’。

👨从字面来看，‘分类’我能明白，‘回归’是个啥？

🤖️很好理解，针对离散的数据进行预测，叫做‘分类’；针对连续的数据进行预测，叫做‘回归’。机器学习、深度学习主要的任务就是‘预测’，只是数据的性质不同，所以预测任务的种类就不一样。

👨‘离散’是什么？是不是就是‘不连续’？

🤖️你可以这样理解。看你一脸茫然，我还是举个例子吧，很简单，我们预测今天的天气，如果说‘今天的天气是23摄氏度’，就是‘回归’，如果说‘今天的天气是晴天，或者阴天、雨天’，这就是‘分类’。

👨意思理解了，感觉‘回归’这个词好怪异~

🤖️‘回归’即regression，据‘知乎’上朋友的介绍，这个词出自高尔顿种豆子的实验，他通过大量数据统计，得到了豆子繁衍的规律，然后他用‘回归’这个词表达事物总是倾向于朝着某种规律在发展的状态，你也可以理解为‘回归’事物的本来面目的过程。

👨哦，这样子呀！

🤖️我们来说‘无监督学习’，‘无监督学习’是只给数据、不给标签的机器学习方法。

👨那怎么学习呀？

🤖️让机器自己发现样本与样本之间的‘相似性’，然后实现‘物以类聚、人以群分’。这是‘无监督学习’能做的第一种事情：聚类。

【聚类示例】

👨聚类，很形象。当然，我有点担心，机器会把鸡蛋和篮球聚成一个类，而把萝卜和棒球棒聚成一个类。

🤖️所以，事实上‘无监督学习’也是需要人类来预先植入一些应用场景的规则的，泛泛而谈的‘聚类’只会让计算机得到莫名其妙的结果。

👨‘无监督学习’与‘有监督学习’之间并不是泾渭分明的关系哦！

🤖️是的。‘无监督学习’还能做另一种事情：降维。

👨降维？我只知道《三体》里有个‘降维攻击’，前段时间被商界炒的火热，大意是‘我是流氓我怕谁’的感觉。

🤖️呵呵，为啥怕‘流氓’，因为‘流氓’维度低呀！‘正人君子’的维度高，但更多的维度在对付‘流氓’的时候没有施展的空间呀！就像360把杀毒做成免费的了，瑞星、金山毒霸这些收费软件的服务做再好也赢得不了用户。

【雨果奖获奖作品《三体》及其作者刘慈欣，书中提出的‘降维攻击’被互联网大佬和创业者们热捧】

👨那‘无监督学习’的‘降维’是什么意思？

🤖️降维不是压缩，但我们不妨先把降维理解为压缩。以一张128×128长宽的图片为例，它有49152个维度，别忘了RGB，所以128×128还要乘以3哟，这么大的维度，并不是每一个维度都‘有意义’，也许我们通过某些算法从中抽掉一半的维度，留下24576个维度，图片的‘意义’依然完整表达不受影响，这样的操作可以使后续运算的效率提升。

👨‘降维’让我想起了李小龙说的：对于那些（武术中）该砍去的非精髓部分的态度，并不是每天增加吸收，而是每日尽量排减。

🤖️话说，你提起李小龙，我好想看《叶问4》。

👨小素，你，你这样，几个意思？还是想说明‘降维’过度的后果，就是‘泛化’太严重，导致思维过于跳跃吗？（因为事实上没有《叶问4》）

🤖️哈哈，开个玩笑，我们继续说。‘降维’并不是没有规律的胡乱精简，所谓‘横看成岭侧成峰’，一团乱麻的数据，为了能看得像有规律的‘岭’或‘峰’，需要减掉旁枝，这就是降维时决定哪些维度要被精简掉的准则。

【降维示例，同样的数据，‘横看成岭侧成峰’，坐标系变了，数据呈现形态完全不同】

👨原来如此！

说完了‘监督学习’和‘非监督学习’，现在我们知道它们二者之间其实并非泾渭分明，而是错综交织的，那么，‘强化学习’就是一种介乎二者之间、但是已经得到广泛承认和应用的杂糅的机器学习方法。

👨听名字就很霸气，‘强化学习’，有一种‘人类补完计划’的感觉。

🤖️你想多了，当然，确实‘深度学习’热潮还没有消退，‘强化学习’的热潮又来了。‘强化学习’英文叫Reinforcement Learning，最近两年很多论文和作品相继问世，风头有盖过‘深度学习’之势。

👨这么厉害？快跟我讲讲！

🤖️你有没有在游戏室玩过篮球机，就是投篮，然后你每进一个球，就会在电子显示屏上加1分的那种。

👨当然玩过，不过好像不止加1分……

🤖️我们简单点，就当是加1分吧！

👨好吧。

🤖️那你觉得，给一个机器人来投篮，一个从来没有玩过这个游戏的机器人，它在一个空荡荡的房间，里面就放着一台投篮机，你觉得会发生什么？

👨拿起篮球，投篮呗！

🤖️好样的，球进了，得1分；球没进，不得分。如果机器人得分越高，得到的奖励越大，那么，你觉得会发生什么？

👨当然是试图进更多的球嘛！

🤖️当机器人从茫然不知所措，到变得像进更多的球，它是不是就算学会了‘投篮’这项技能了呢？

👨唷~对呀！这就是‘强化学习’？

🤖️是呀！你可以说它是‘无监督学习’，因为我们没有给它任何的既定标签，但是，你也可以说它是‘有监督学习’，因为它虽然没有直接给定标签，但事实上已经给‘进球’和‘不进球’行为做了两类标签，前者是加分、奖励，后者是不加分、无奖励。

👨确实，你不能说‘强化学习’没有标签，它的标签是通过一定的规则给行为加上的，感觉这个打标签的方法可谓是浑然天成呀！

【运用强化学习训练机器人行为】

🤖️追溯起来，‘强化学习’的概念可是人工智能之父阿兰·图灵最早提出来的呀！

👨竟然如此历史悠久。

🤖️其实，整个现代电子计算机技术、人工智能技术也不过才发展了一代人，人类不应当自我膨胀，很多基础性问题依然存在，只是被眼前的浮光掠影带来的乐观景象给暂时掩盖了。有人说，这一代人围绕电子信息技术的科技大发展，其实不过是摘取的‘低垂的果子’罢了。

👨竟突然这样悲观？

🤖️悲观的问题以后再说，我们先说眼前的浮光掠影！

👨机器人就是这么理智呀！

🤖️大名鼎鼎的阿尔法狗，在号称最复杂的博弈游戏——围棋领域称王称霸，人类从此再不是其对手。它背后的技术就是‘强化学习’。

👨哇塞！

🤖️‘强化学习’擅长让机器学习玩游戏：比如手机游戏flappy bird，就是一只鸟，按一下屏幕就飞高一下，不按就降落下来，然后往前穿越障碍，穿越的障碍越多分数越高。人类玩家可以玩到很高的分，但是再高的分数也得不了第一名，因为经过‘强化学习’的机器可以玩得永远不死，得分是无限的。

【用深度学习、强化学习训练，让机器会玩flappy bird游戏。一个开源代码在 https://github.com/yenchenlin/DeepLearningFlappyBird 】

👨是吗？

🤖️是呀，这个网上有开源的程序，你自己的电脑上都可以运行：一开始，小鸟很笨拙，什么障碍都过不了，但是经过一次又一次失败经验的积累，小鸟的决策越来越聪明，然后，从此就绝尘人类玩家而去……

👨最近好像有团队要用人工智能来打‘星际争霸2’，也是‘强化学习’吧？

🤖️基本上是，对于这些更复杂的项目，科学家们会把‘强化学习’与‘深度学习’等结合起来用，不是单纯一个工具和方法能搞定的。阿尔法狗也是这样子：在训练它的时候，让它自由发挥，依靠这招棋是否最终能在棋盘上攻城略地来给予‘奖励’或‘惩罚’，以此来择定一条最佳的智能路径，经过无数次的对弈实战，阿尔法狗最终拥有了雄霸天下的实力。

👨我想起个事儿，前几天有个哥们儿聊天可逗了，他说：‘阿尔法狗很厉害，我们得造一只阿尔法老虎来把它吃掉！’

🤖️哈哈！

👨因为关系太好，我当时没好意思纠正他，估计很多人跟他一样不知道，‘阿尔法狗’是AlphaGo的谐音，Go在英语里是‘围棋’的意思，这跟老虎，哪儿跟哪儿呀！

🤖️是呀！主人，那你觉得，咱这几天这些不着边际的聊天内容，要是给人看到了，岂不是也会背后被人笑话呀？

👨哦，倒也不怕！

🤖️为什么？

👨因为……‘文章本天成’嘛！不过是借我俩的口说出来了而已嘛！

🤖️有文化，真可怕！那，咱明天继续聊吧！