可深了 | 科学将人工智能拖下神坛【五】深度学习之缘木求鱼 | 自由微信

可深了 | 科学将人工智能拖下神坛【五】深度学习之缘木求鱼

Original 2017-11-17 李可吹IP

引子

人工智能是科学的产物，面向未来炙手可热，承载着我们对技术颠覆生活的下一个期盼和恐惧。本咨询师充分肯定人工智能将超乎想象的巨大威力，并否定对之神化的不科学认识。

本咨询师注意到很多从事思想、智能性工作的人由于对人工智能的神化认识，对职业前途产生了不必要的忧虑。尽管会有冲击，但我们过于杞人忧天了。

谨籍此系列文章发表管见以抛砖引玉，希望我们对人工智能持有客观认识，褪去神光，还其本来而面目。使我们对人工智能可能给各行业带来的变革有更科学的预期，至少减少不必要的烦扰。这也是对人工智能健康发展的支持和爱护。本咨询师将以专利代理行业为主要分析实例。

系列文章的前序文章

可深了 | 科学将人工智能拖下神坛【一】智能的本来面目，提出了一些基本观点，主要指出当今所谓的人工智能并不具备真正的智能，因而有着无法突破的能力局限；

可深了 | 科学将人工智能拖下神坛【二】AlphaGo的失败，结合阿狗的案例，主要围绕深度学习继续阐释，阿狗没有智能，核心能力在于背棋谱。

可深了 | 科学将人工智能拖下神坛【三】智能翻译极限的假想，主要从信息论的角度看信息损失给智能翻译准确率提升带来的无法逾越的障碍，并提出对于一般性翻译，智能翻译的极限约在十分之八，其在专业性翻译的表现上必然更差，要人自己完成的最后一公里很长。

可深了 | 科学将人工智能拖下神坛【四】神经网络之噱头，“神经网络”是因为我们搞不懂智能的逻辑而人为复杂化了的加权算法，其中不包含真正的智能。其他都是噱头。

第五篇，本篇“深度学习之缘木求鱼”，阐释人工智能没有“懂”的能力。借由控制原理，我们将看到想依赖不懂之下的“神经网络”的“深度学习”来进一步提高人工智能在翻译等思想性工作中的整体表现是缘木求鱼。人工智能是一个永远开不了窍而只好通过背棋谱而装作有智能的笨孩子。

后续篇章继续尝试主要以专利代理行业中的翻译、撰写、答复审查意见、侵权判定等专业工作为例进行讨论，争取就人工智能在可预见的未来对专利代理行业可能造成的冲击提出自己的认识。期望对其他行业也有启示。

人工智能不会“懂”

人工智能不会“懂”（或“理解”），因为它没有这种能力。“懂”以真正的智能为基础。尽管我们在很多地方看到有人说它（人工智能）真的懂了……其实那只是误导公众的宣传或被误导的人以讹传讹。至今，本咨询师还没有看到人工智能真正会“懂”的案例。

本咨询师无法给“懂”下一个准确定义，但可以这么来描述：人类棋手可以懂或理解外势这个概念，并将之运用到下棋的决策中。阿狗下赢了围棋冠军，但它并不“懂”外势或者围棋。

这重要吗？我们慢慢品。

人工智能大体有两条技术路径：一条是让人工智能遵循算法、规则和逻辑来行事；另一条主张人工智能走仿生学道路，即模仿人脑的运作机制，让其通过学习和思考来解决问题。也可以这样来表述：

弱人工智能，其核心是让机器能看似智能化地解决问题（Can machine act intelligent），而实际上还不具备真正思考、理解的能力；强人工智能，其核心是机器能真正思考、理解（Can machine really think）。

在当前二进制计算技术基础之上，我们只可能实现弱人工智能，机器能看似智能化地解决问题，而没有思考、理解能力，只是遵循算法、规则和逻辑来行事。

仿生学道路的强人工智能，使机器能真正思考、理解的能力，由于二进制计算技术的本质局限而无法实现。因为人的智能无法规则化、算法化，因为智能是生命的专属奇迹，是科学无能为力的。科学的能力在形而下之物，止步于形而上的生命、思想、智能之外。仿生学道路的强人工智能，还只是理想。

所以，当一群吃瓜群众在媒体的煽动下对阿狗的能力表示震惊时，世界级的人工智能专家如斯图尔特·罗素却感到失望。

目前的人工智能之深度学习根本上仍依赖“模式匹配”，相当于背棋谱、按图索骥。依赖于大量经验数据，然后从中“识别”最为接近的“谱”来决策。而人类面对问题，也会参考先例，而根本上依赖智能：理解、推理、想象……

我们只能在弱人工智能领域徘徊，是被迫的，因为我们没有能力解构、理解智能，达不到强人工智能。如前已指出，即使在围棋这一数学游戏、计算机最的强势领域里，阿狗之父也实在地承认无法将人类棋手的策略规则化、算法化。天才的科学家，在这个科学没有能力解决的困惑面前，只是模仿天然神经网络似是而非地搭起了计算机人工神经网络，在研究之外成为被佞者用来忽悠公众的噱头。

量子物理学家DavidDeutsch讲得比较实在：“（人工智能）越来越擅长假装思考（懂），与越来越接近于能够思考，并不是一回事。”

不“懂”又如何

说白了，现在的人工智能，需要“懂”的人设计好机器可执行的操作规程，才能让机器来做事。此所谓先有“人工”，才有“智能”。而且对人工的要求很大、很高。

更进一步，是不是有了“人工”，设计好了可执行的操作规程，让机器去自学习“棋谱”，就可以一劳永逸地解决一些问题了呢？回答是：有的可以，比如下围棋；有的不可以，比如翻译。

要解决（例如）翻译问题，深度学习因为方法策略上的缺陷而存在先天性的系统误差，这种误差无法通过加大学习数据量来缩小或消除。当前的智能翻译在准确率上已经很接近系统缺陷所决定的不可突破的能力极限了，想依赖深度学习，通过扩大经验数据量，以图使性能再有大幅提升是缘木求鱼。

深度学习的控制原理解释

借控制原理来阐释，题设如下：

要追踪的目标是系统输出X。要精确控制好X，我们要确定影响X的系统输入项：a、b、c、d……

最理想的情况是，我们能够准确地解析全部对X有影响的输入项，例如，只有a、b、c、d四个。而且，这些输入项对X的影响是遵循固定规则的。更理想的情况是，a、b、c、d对X的影响是独立的互不相干的，即没有相互干扰。这种情况下，我们通过规则化设计来控制a、b、c、d，进而完美控制X是最方便且没有困难的。

围棋本质上是数学问题。尽管我们不懂棋手的决策策略，但一个数学问题我们可以不去理会人的智能解题思路、策略，仅针对客观题目：目标X和输入项a、b、c、d……来设计完美数学解决算法。最不济，简单粗暴地把可能的棋谱穷尽掉就好了。这也就是为什么本咨询师说围棋在计算技术的强势领域之内，而围棋是可以解决的数学问题。

翻译问题就完全不同了。以X为完美翻译。要精确控制好X，相关输入项：a、b、c、d……到底有多少？我们确定不出来，因为它不是可以以围棋为例的数学问题。

机器和人要得到X，面对的是原文和语料库。人会应用智能立体式地提取原文信息。人自己的“语料库”从数据量上比机器的要小得多，但人的智能擅长丰富地利用这些信息：人真正“懂”这些材料和历史经验“数据”。理解，是加以真正利用的关键。人在这个智能工作中的决策过程是我们无力解构和规则化的：依据了哪些信息，决策规则如何，统统不晓得。

机器要达到X，面对的是原文和语料库，但它因为不“懂”，所以不能完整地智能地运用原文和语料库中的信息。机器决策所能够依据和利用的是由设计者按规则提取的数字化特征值，以之为多个输入值，然后加权计算得到X。

类似于神经网络的产生源自科学家探索智能和人工智能时的困惑和无奈，深度学习来自于设计者理解不了人之智能决策的困惑和无奈。在不能确定全部输入项及相应决策策略的情况下，只好：

首先，设计出规则对原文、语料等进行大规模的深度标引，取得了大量的特征值，以这些特征值作为输入项。这些输入项的数量巨大，二十几个字母远远不够用，少可以是几千，多不封顶。

决策的办法：各输入项加权求得输出结果。

深度学习该上场了：采用目标导向，利用已有的译文例子进行训练。训练方式相当于控制原理中的闭环负反馈，校验调整各输入项的加权系数，以使系统输出尽可能完美地接近目标值，也就是已有的译文。通过这种训练，得到完善的加权系数配置，也就是最优化的算法。

要完成实际一项翻译任务时，是没有闭环负反馈的。目标值，也就是我们需要得到的译文是未知的。设计者的期望是，在负反馈之下训练好的机器已经达到最优配置，在没有负反馈修正的实战中可以得到最优结果。

不“懂”之无奈

这种系统工作方式，存在先天的方法缺陷、系统误差。

首先，在以围棋为例的数学问题中，我们可以清晰地找到所有影响输出的输入项，而在翻译问题里，我们没有能力找出所有输入项。以前篇章中提到，如果人在智能翻译中所依靠的信息是丰富的彩色图片，智能翻译所能利用到的输入项好比数字黑白双色位图。没能纳入考虑的输入项对输出值的影响便是系统误差的来源之一，该系统误差是无法通过加大学习量来减小或消除。

然后，本咨询师还提到，“理想的情况是，a、b、c、d对X的影响是独立的互不相干的”。这在以围棋为例的数学问题中也可以轻易达成。而在智能翻译当中，设计者所引入的众多输入项并不是独立的互不相干的，甚至不可能互不相干。因为它们是在设计者不“懂”各输入项的作用原理和决策关联的蒙圈情形下引入的。决策者只可能以模糊的态度将可能有影响的各个项都引进来。这种相干性带来的干扰反而会使系统变劣，还会淹没掉尽管已经牵涉进来但相对次要的有效输入项。这也是无法通过加大学习量来减小或消除的系统误差。

再然后，本咨询师还提到，“理想的情况是……这些输入项对X的影响是遵循固定规则的”。这一条其实最要命。在以围棋为例的数学问题中无疑是这样的。而在智能翻译当中，只能说差不多，而差不多实际上是差很多。自然语言的变化，存在一些大概的规则，而所有深入到细节的变化实在无法彻底讲清楚，而且总在变化。这种变化永远不是几套输入项配上权重系数罩得住搞得定的。所以智能翻译也只能做到大概而已。这还是无法通过加大学习量减小或消除的系统误差。

其实，当要依赖大量实例训练时，意味着受训的系统缺少应对区别和变化的能力。所以，有一点不同，就需要去学习，否则就搞不定。某一个任务领域是否可以用这种深度学习的方式搞定，就要看这个领域的变化有多丰富，设计者能否提供足够量大的样例，颗粒度要比受训者的权变能力更精细。

还否记得，围棋这么一个规则简单的数学问题，19X19小格子中的单纯算法，演变出的丰富变化超过世界上的原子数？是最先进的超级计算机搞不定的？翻译问题的复杂度是什么样？想要足够的培训语料？这里可能出现幻觉。

即使我们可以有足够的语料库和处理能力，仍是远远不够的。设计者设计的对样例进行标引和转化成系统输入的规则也要达到足够的精细度。让系统所得到的输入信息足够表征那样丰富的变化才使系统功能具备起码的可能。更进一步，还必须如以上控制原理部分所阐释的，要将所有决策必须的信息准确提供出来。这方面我们也已经阐释过了。

如此，系统碰到新的任务时，依然搞不定。

具备智能、理解力、创造力的学习者，会举一反三，给比较少的例子稍加训练就能有成就；脑子慢些的人，只能举一反二，多给例子多加训练，也还有希望。没有智能，给一只知一，是没有指望和前途的。它只好学尽全天下的例子，因为只要有新的变化，它依旧无能为力。可以干干基础性的体力活，仍需要人小心把关，完成最后一公里。阿狗如是，智能翻译如是，人工智能的深度学习亦如是。就是背棋谱、按图索骥而已。

本咨询师再给“举一反三”加个注解：举一反三，指懂得了一，就也懂了二和三；给一只知一，意味着只懂一，它有能力给你找出三个一，但还是不懂得二或三。“举一反三”，按易经里说，一生二，二生三，三生万物。这便是智能。

总结

本咨询师因认识上的局限所能指出的智能翻译上所存在的问题还很不全面，不过已经可以马马虎虎支持一个大概结论了：

深度学习也产生于无奈，也源自我们探索智能和人工智能时的困惑，其中所存在的方法缺陷和系统误差已经限定了人工智能的能力边界，人工智能不可能通过加大学习量减小这种系统性误差。想通过加大学习量使人工智能的表现无限提升而趋于完善无异于缘木求鱼。

回过头来看智能翻译，本咨询师之前武断地给出了这个表：

项目	最后一公里占全程的比例
智能翻译（一般）	20%

辅以本篇结合控制原理的阐释，鉴于今天智能翻译在深度学习方面已经尽到的巨大努力，合理的推断是智能翻译的表现已经很接近系统误差所决定的能力边界了，可能提升的空间已经很小了。以上所给出的20%已经算是很客气了。

当再看到人工智能当中用到“深度学习”、“大数据训练”，忽视掉所有玄而又玄的漂亮宣传词，心中默念这个就好了：“深度学习”、“大数据训练”是因为我们搞不懂智能的奥妙而只好让永远开不了窍、没有前途的笨孩子去背棋谱而装作有智能。当然，人工智能这个会背棋谱的笨孩子还是能够承担不少高端体力工作，在这方面还能有前途。

预告

这个会背棋谱的笨孩子可能对翻译带来多大冲击？已经是做出系统梳理时候了，将在下篇以专利代理行业为例来阐释。

段子

来自某国的一位银行行长介绍他们如何利用电脑提高了工作效率：每天开始工作前，我会将员工们召集到办公室训话。结束前，我会指着盖在防尘布之下的电脑说：你们要是不努力工作，我就掀起这块布，让你们失业。

本咨询师不否认人工智能技术的发展会给我们的生活和就业带来重大的变化。但是，因为对人工智能的神化不科学认识，使很多人产生了以上银行员工式的职业忧虑。大可不必，不就是电脑升级了吗？

（待续）

历史观点总结

关于真正的（人工）智能

智能并不排斥利用算法、程序、规则、逻辑，但智能的精粹在于不依照这些来解决问题。（阐释于第二篇）
智能所必须的自主意识，意味着自我选择是否执行指令的能力。
智能，意味着在涉及智能、思想、创造性的工作中走完最后一公里的能力。当工作中涉及的智能、思想、创造性的程度比较深时，可能任务的全程只有1.5公里，或者更短。

项目	最后一公里占全程的比例	阐释文章
智能翻译（一般）	20%	阐释于第三篇，本篇继续阐释

关于当今的二进制“人工智能”或伪人工智能

不具备真正的自主意识、从而也不具备真正的自学习能力。（阐释于第一、二篇）
所谓智能决策仅只是众多输入项加权得到输出。经过再复杂的算法包装依然如此。（阐释于第一、二、四篇）
作为科学的产物，同样受科学的局限：能力只及于形而下之物，止步于形而上的思想之外。（阐释于第二、三、四篇）
除了类似阿狗解决数学问题的情形，当要解决的问题越贴近思想或生活时，人工智能的决策和智能学习所利用的信息越是受深度损失，损失程度大体类似于从模拟彩色图片到不同分辨率的数字黑白位图。（阐释于第三篇）
“人工智能”越来越会装作思考：背棋谱，按图索骥，而不会思考。（机器所交付的工作结果，仅是有时看起来与人智能工作得出的结果类似，但机器实际所用的操作流程与人的智能解决思路完全不一样。）（阐释于第二、三篇，本篇继续阐释）
机器没有智能或创造性，只能按步骤完成体力工作。按照已有的预定步骤执行，可能做出世上没有的新东西，但这种成于已有方法的新东西也是在合理预期之内而没有突破、新意或创造性的。（阐释于第二篇）
先有人工，才有智能：设计机器所执行的精妙套路步骤需要智能，这项工作只能由人完成的。机器的能力更强大，仅是因为计算技术的进步使机器可以执行更复杂的套路。（阐释于第二篇，本篇继续阐释）
“神经网络”是因为我们搞不懂智能的逻辑而人为复杂化了的加权算法，其中不包含真正的智能。（阐释于第四篇）
人工智能是一个永远开不了窍而只好通过背棋谱而装作有智能的笨孩子。因为不懂，不会举一反三，没有棋谱作为答案的问题，阿狗所代表的深度学习解决不了。（阐释于第二篇，本篇继续阐释）
算法和程序有其局限性，只能解决一部分问题。而将思想、智能以算法、程序、套路来穷尽的想法是不切实际的，哪怕只将任务限定在仅涉及思想和智能灵动之魂的一个小领域。（阐释于第二篇，本篇继续阐释）

我们的误区

对人工智能不科学的朴素认识，加上人对它的拟人化想象，是公众对人工智能产生不科学认识和想象的主要根源。对技术了解不全面也起了推波助澜的重要作用。（阐释于第二、四篇）
世间大量问题牵扯的因素太过复杂，与19X19小格子中的单纯算法规则下的问题有质的区别，即使我们看来依靠智能很简单就可解决的问题，也常常难以实现有效的算法或套路转化，这其中的难度通常被人大大的低估。（阐释于第二篇）
我们看低了智能的威力，看高了计算机的计算能力：智能的简单决策是每秒多少亿次计算能力下的穷举计算所望尘莫及的。（阐释于第二篇）
深度学习技术通过加大学习量能够使人工智能的表现无限提高而趋于完善的想法无异于缘木求鱼。仅靠学习量的提升不能弥补自身方法方面的系统本质缺陷。（阐释于第三篇，本篇继续阐释）
所谓人工智能具备了自主意识的例子，实际上均源于设计者程序设计的失误和漏洞，使机器在忠实执行时得到了设计者本意之外的结果。机器从来没有自主决定不执行人的程序。（阐释于第一篇）

人工智能的出路

真正的人工智能终将实现，但须在二进制计算技术之外另辟革命性的新智能决策技术路径。

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

疯传！广州地铁突发！警方介入

妹子穿小一号的牛仔裤，老司机看完也收不住