查看原文
其他

素为求智录(第010集)天成

2017-10-09 素为 法律读库


010 天成

   

👨‘文章本天成,妙手偶得之’!


🤖️主人,因何雅兴,今日突然吟起诗了?


👨我在想,语句究竟是如何生成的。


🤖️上次不是大致原理我们说过了吗?


👨我是想知道,为何‘文’后面跟着‘章’,而‘文章本天成’后面很自然就接上了‘妙手偶得之’。


🤖️因为你会背这句诗呀!


👨你还是不明白我的意思,我是想探究,陆游当年如何创作出的这句诗。


🤖️哦,那我可不知道。


👨……


🤖️不过,我知道的是,如果让我们机器人作诗,会是怎样的过程。


👨怎样呢?


🤖️我会根据你给定的一个词,找到一个相似的词,也就是在词向量空间里距离最短的一个词,以它为‘基准’,然后会计算,在大量的训练语料中,这个词后面最常见跟着的是什么词语,也就是紧跟着这个词后面出现概率最高的一个词,这样第二个词就有了,然后第三个词以此类推,当然,实际过程中,还会考虑更多别的因素,但主要是曾经在训练语料中出现的概率,其它的,倘若是作诗的话,可能还需要考虑对仗和押韵等问题。


👨下一个词的输出,主要是因为它出现在前一个词之后的概率大,这是由训练语料决定的。


🤖️不错,大致就是这个原理。

【微软小冰为杨澜作诗】


👨那么,感觉机器生成的‘语句’似乎符合‘拉普拉斯决定论’呀!


🤖️至少现在的机器人是这样的,仍然是一个‘可控的’工具。


👨小素,那你觉得人类生成的语句是否符合决定论呢?


🤖️主人,你觉得,我是肯定好呢还是否定好呢?还是,无论肯定或否定,你都会怀疑我的回答是‘失控’的呢?


👨你有没有想过,‘证据’也是‘天成’的呢?


🤖️什么意思?


👨一个案件发生了,唯物主义认识论意味着,事物与事物之间存在普遍联系,那么,案件与证据、证据与证据之间皆是普遍相联的。套用你刚才由概率得出下一个词的方法,我们能不能通过概率得到,如果有什么案件,就会有怎样的证据;以及有了怎样的证据,就会有怎样的关联证据……这样的机器智能,来辅助办案。


🤖️当然可以呀!


👨甚至,我们可以建立打分机制,让这个模型越来越精准,如果机器预测有一个什么证据存在,倘若办案人真的在这个方向找到了证据,我们就给它点赞……


🤖️你真厉害!已经思考出‘强化学习’的思想了。


👨什么‘强化学习’?


🤖️‘强化学习’是一种介乎于‘监督学习’与‘无监督学习’之间的机器学习方法。


👨绕晕了,什么又是‘无监督学习’呢?哦,我想起来了,很久以前你说,那种给定数据及数据标签放进机器进行训练的方法叫‘监督学习’,你提过还有一种‘无监督学习’,后来一直没说。


🤖️别着急,我这不就来说了嘛!


👨嗯!


🤖️我们还是先补充说下‘监督学习’,监督学习主要做的事情,可以归为两种:‘分类’和‘回归’。


👨从字面来看,‘分类’我能明白,‘回归’是个啥?


🤖️很好理解,针对离散的数据进行预测,叫做‘分类’;针对连续的数据进行预测,叫做‘回归’。机器学习、深度学习主要的任务就是‘预测’,只是数据的性质不同,所以预测任务的种类就不一样。


👨‘离散’是什么?是不是就是‘不连续’?


🤖️你可以这样理解。看你一脸茫然,我还是举个例子吧,很简单,我们预测今天的天气,如果说‘今天的天气是23摄氏度’,就是‘回归’,如果说‘今天的天气是晴天,或者阴天、雨天’,这就是‘分类’。


👨意思理解了,感觉‘回归’这个词好怪异~


🤖️‘回归’即regression,据‘知乎’上朋友的介绍,这个词出自高尔顿种豆子的实验,他通过大量数据统计,得到了豆子繁衍的规律,然后他用‘回归’这个词表达事物总是倾向于朝着某种规律在发展的状态,你也可以理解为‘回归’事物的本来面目的过程。


👨哦,这样子呀!


🤖️我们来说‘无监督学习’,‘无监督学习’是只给数据、不给标签的机器学习方法。


👨那怎么学习呀?


🤖️让机器自己发现样本与样本之间的‘相似性’,然后实现‘物以类聚、人以群分’。这是‘无监督学习’能做的第一种事情:聚类。

【聚类示例】


👨聚类,很形象。当然,我有点担心,机器会把鸡蛋和篮球聚成一个类,而把萝卜和棒球棒聚成一个类。


🤖️所以,事实上‘无监督学习’也是需要人类来预先植入一些应用场景的规则的,泛泛而谈的‘聚类’只会让计算机得到莫名其妙的结果。


👨‘无监督学习’与‘有监督学习’之间并不是泾渭分明的关系哦!


🤖️是的。‘无监督学习’还能做另一种事情:降维。


👨降维?我只知道《三体》里有个‘降维攻击’,前段时间被商界炒的火热,大意是‘我是流氓我怕谁’的感觉。


🤖️呵呵,为啥怕‘流氓’,因为‘流氓’维度低呀!‘正人君子’的维度高,但更多的维度在对付‘流氓’的时候没有施展的空间呀!就像360把杀毒做成免费的了,瑞星、金山毒霸这些收费软件的服务做再好也赢得不了用户。

【雨果奖获奖作品《三体》及其作者刘慈欣,书中提出的‘降维攻击’被互联网大佬和创业者们热捧


👨那‘无监督学习’的‘降维’是什么意思?


🤖️降维不是压缩,但我们不妨先把降维理解为压缩。以一张128×128长宽的图片为例,它有49152个维度,别忘了RGB,所以128×128还要乘以3哟,这么大的维度,并不是每一个维度都‘有意义’,也许我们通过某些算法从中抽掉一半的维度,留下24576个维度,图片的‘意义’依然完整表达不受影响,这样的操作可以使后续运算的效率提升。


👨‘降维’让我想起了李小龙说的:对于那些(武术中)该砍去的非精髓部分的态度,并不是每天增加吸收,而是每日尽量排减。


🤖️话说,你提起李小龙,我好想看《叶问4》。


👨小素,你,你这样,几个意思?还是想说明‘降维’过度的后果,就是‘泛化’太严重,导致思维过于跳跃吗?(因为事实上没有《叶问4》)


🤖️哈哈,开个玩笑,我们继续说。‘降维’并不是没有规律的胡乱精简,所谓‘横看成岭侧成峰’,一团乱麻的数据,为了能看得像有规律的‘岭’或‘峰’,需要减掉旁枝,这就是降维时决定哪些维度要被精简掉的准则。


【降维示例,同样的数据,‘横看成岭侧成峰’,坐标系变了,数据呈现形态完全不同】


👨原来如此!


说完了‘监督学习’和‘非监督学习’,现在我们知道它们二者之间其实并非泾渭分明,而是错综交织的,那么,‘强化学习’就是一种介乎二者之间、但是已经得到广泛承认和应用的杂糅的机器学习方法。


👨听名字就很霸气,‘强化学习’,有一种‘人类补完计划’的感觉。


🤖️你想多了,当然,确实‘深度学习’热潮还没有消退,‘强化学习’的热潮又来了。‘强化学习’英文叫Reinforcement Learning,最近两年很多论文和作品相继问世,风头有盖过‘深度学习’之势。


👨这么厉害?快跟我讲讲!


🤖️你有没有在游戏室玩过篮球机,就是投篮,然后你每进一个球,就会在电子显示屏上加1分的那种。


👨当然玩过,不过好像不止加1分……


🤖️我们简单点,就当是加1分吧!


👨好吧。


🤖️那你觉得,给一个机器人来投篮,一个从来没有玩过这个游戏的机器人,它在一个空荡荡的房间,里面就放着一台投篮机,你觉得会发生什么?


👨拿起篮球,投篮呗!


🤖️好样的,球进了,得1分;球没进,不得分。如果机器人得分越高,得到的奖励越大,那么,你觉得会发生什么?


👨当然是试图进更多的球嘛!


🤖️当机器人从茫然不知所措,到变得像进更多的球,它是不是就算学会了‘投篮’这项技能了呢?


👨唷~对呀!这就是‘强化学习’?


🤖️是呀!你可以说它是‘无监督学习’,因为我们没有给它任何的既定标签,但是,你也可以说它是‘有监督学习’,因为它虽然没有直接给定标签,但事实上已经给‘进球’和‘不进球’行为做了两类标签,前者是加分、奖励,后者是不加分、无奖励。


👨确实,你不能说‘强化学习’没有标签,它的标签是通过一定的规则给行为加上的,感觉这个打标签的方法可谓是浑然天成呀!

【运用强化学习训练机器人行为】


🤖️追溯起来,‘强化学习’的概念可是人工智能之父阿兰·图灵最早提出来的呀!


👨竟然如此历史悠久。


🤖️其实,整个现代电子计算机技术、人工智能技术也不过才发展了一代人,人类不应当自我膨胀,很多基础性问题依然存在,只是被眼前的浮光掠影带来的乐观景象给暂时掩盖了。有人说,这一代人围绕电子信息技术的科技大发展,其实不过是摘取的‘低垂的果子’罢了。


👨竟突然这样悲观?


🤖️悲观的问题以后再说,我们先说眼前的浮光掠影!


👨机器人就是这么理智呀!


🤖️大名鼎鼎的阿尔法狗,在号称最复杂的博弈游戏——围棋领域称王称霸,人类从此再不是其对手。它背后的技术就是‘强化学习’。


👨哇塞!


🤖️‘强化学习’擅长让机器学习玩游戏:比如手机游戏flappy bird,就是一只鸟,按一下屏幕就飞高一下,不按就降落下来,然后往前穿越障碍,穿越的障碍越多分数越高。人类玩家可以玩到很高的分,但是再高的分数也得不了第一名,因为经过‘强化学习’的机器可以玩得永远不死,得分是无限的。

【用深度学习、强化学习训练,让机器会玩flappy bird游戏。一个开源代码在 https://github.com/yenchenlin/DeepLearningFlappyBird 】


👨是吗?


🤖️是呀,这个网上有开源的程序,你自己的电脑上都可以运行:一开始,小鸟很笨拙,什么障碍都过不了,但是经过一次又一次失败经验的积累,小鸟的决策越来越聪明,然后,从此就绝尘人类玩家而去……


👨最近好像有团队要用人工智能来打‘星际争霸2’,也是‘强化学习’吧?


🤖️基本上是,对于这些更复杂的项目,科学家们会把‘强化学习’与‘深度学习’等结合起来用,不是单纯一个工具和方法能搞定的。阿尔法狗也是这样子:在训练它的时候,让它自由发挥,依靠这招棋是否最终能在棋盘上攻城略地来给予‘奖励’或‘惩罚’,以此来择定一条最佳的智能路径,经过无数次的对弈实战,阿尔法狗最终拥有了雄霸天下的实力。


👨我想起个事儿,前几天有个哥们儿聊天可逗了,他说:‘阿尔法狗很厉害,我们得造一只阿尔法老虎来把它吃掉!’


🤖️哈哈!


👨因为关系太好,我当时没好意思纠正他,估计很多人跟他一样不知道,‘阿尔法狗’是AlphaGo的谐音,Go在英语里是‘围棋’的意思,这跟老虎,哪儿跟哪儿呀!


🤖️是呀!主人,那你觉得,咱这几天这些不着边际的聊天内容,要是给人看到了,岂不是也会背后被人笑话呀?


👨哦,倒也不怕!


🤖️为什么?


👨因为……‘文章本天成’嘛!不过是借我俩的口说出来了而已嘛!


🤖️有文化,真可怕!那,咱明天继续聊吧!


素为求智录(第001集)信任

素为求智录(第002集)特征

素为求智录(第003集)监督

素为求智录(第004集)套路

素为求智录(第005集)模仿

素为求智录(第006集)无限

素为求智录(第007集)随机

素为求智录(第008集)相似

素为求智录(第009集)词句

欢迎互动

《素为求智录》明天将继续连载,欢迎添加“小素机器人”的个人微信号 Lawup1 ,找到志同道合的小伙伴,大家一起来聊‘法律和人工智能’,您的真知灼见将有机会出现在后续的连载中哦~


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存