激辩：机器究竟能否理解常识？

AI科技大本营 2019-12-18

以下文章来源于知识工场，作者朱祥茹

【12月公开课预告】，入群直接获取报名地址
12月11日晚8点直播主题：人工智能消化道病理辅助诊断平台——从方法到落地
12月12日晚8点直播：利用容器技术打造AI公司技术中台
12月17日晚8点直播主题：可重构计算：能效比、通用性，一个都不能少

作者 |朱祥茹

来源 | 知识工场（ID：fudankw）

2019年11月27日，人工智能中的常识难题研讨会在复旦大学成功举办。本次研讨会由复旦大学肖仰华教授召集并主持，邀请了来自语言学、大数据、计算语言学、机器视觉等不同领域的知名专家学者，以及来自华为、美团等企业的资深研究人员共同就学术界与工业界中亟待解决的人工智能中的常识难题进行研讨。专家学者都进行了专题报告或发言，之后又对研讨议题进行了讨论，会场气氛十分热烈。

首先，肖仰华教授介绍了出席本次研讨会的各位专家学者。

随后，肖仰华教授做了常识问题综述的报告，引出研讨会设置的议题。常识领域代表性的综述工作有中科院曹存根教授的《Asurvey of commonsense knowledge acquisition》、纽约大学ErnestDavis教授的《Commonsense reasoning andcommonsense knowledgein artificial intelligence》以及我国陆汝钤院士的《世纪之交的知识工程与知识科学》专著。相关文献认为常识应具有“共享”、“基础”、“隐含”、“大规模”、”开放域”、”默认“的特点，常识的表示主要分为事实知识、本体知识、规则等多种形式，常识的推理类型包括Taxonomic推理、时空推理、动作推理，常识的获取包括网页挖掘、基于知识库的推理、众包方法，常见常识库有Cyc、ConceptNet等，常识的评价方式有Winograd Schema Challenge比赛、CommonsenseQA评测集等。

但当前阶段，常识的定义、获取乃至应用仍面临着诸多挑战，如：常识的定义仍停留在描述性阶段、大规模隐式表达的常识难以获取、难以精准定义常识、常识的理解机制尚不明确、开放域应用困难等问题。此外，肖仰华教授进一步介绍了其实验室内针对常识难题的一些常识获取工作，如：利用模板抽取（例如if … could…）、概念化动词三元组、在线判定而非离线结构、从多模态数据中获取隐含常识。

WeWork副总裁王海勋博士对常识难题发表了自己的看法。结合自己的研究经历，王海勋博士认为，过去二十年常识领域进展缓慢，甚至可以认为几乎没有进展。1999年之前的10年，也有人尝试常识相关的研究工作，但是没有形成系统性理论，离实际应用也有距离。1999年 MIT开始做OMCS（open mind common sense）收集常识，但是收集的量很少，重复性高。到现在，业界做的比较好的任务基本上都是基于pattern从文章中抽取，机器也没有真正理解常识。目前流行的Deep learning方法本质上是基于统计的，找到的多是共现（co-occurrence）或者相关(correlation)关系，而难以抽取或者学习到因果(causality)关系，无法真正理解常识。

王海勋博士对后续常识研究给出了如下建议：（1）关注pattern/ concept learning。人类能非常容易地解构(de-compose)视觉信息，掌握其pattern，但是机器不能。例如手写数字理解，deep learning也能很好地解决这个问题，但是需要大量数据；而人类看少量样例即可举一反三。相比之下，自然语言理解涉及到符号化的问题，获取pattern会更加困难。(2) 着眼于具体的小问题，解决之，持续推进。常识的概念太大，不是单纯堆积数据就能解决。只有先明确定义好可解的子问题，产生可解的过程，才可能产出有意义的结果，继而推动整个领域的发展。例如concept learning中，isA关系抽取就是一个很小的问题，方便抽取。

复旦大学外语学院毕玉德教授从语言学角度对常识做了阐述。毕玉德教授认为，常识的范围太大，与领域专业知识难以区分界定，不同人群对于常识有不同的理解，因此要划定边界。人的理解能力是基于脑内庞大的知识库，如果把每个人的思维建模成符号处理的计算过程，人的语言理解过程就是基于知识表示的计算过程：。知识分为静态知识和动态知识。知识库中的知识就是静态知识。动态知识要通过实际应用场景确定，例如，图书馆，可能表示建筑物，也可能表示会议场所，具体是哪种属性，要根据不同场景激活确认。知识包括常识和领域知识，知识的表示方法还没有一个通用的方式，常见的表示方式有三元组，但是复杂句子无法用三元组表示，此时就可以引入多元表示（例如四元表示“我给你一本书“”我给他一本书“）、时空表示（例如表示”黑客今天攻击某网站“”黑客昨天攻击某网站“）等等。从语言学角度，可以建立的知识库有名词知识库、动词知识库、形容词知识库、助词知识库、习语知识库，其中习语知识库只需要做含义的映射，不需要再从文法、句法角度分解。

复旦大学计算机学院黄萱菁教授结合自身参与的两项项目表达了对于常识难题的看法。项目之一是高考机器人。针对不同的学科，划分了“建立语文常识”“建立数学常识”“建立文综常识”等子课题。其中，语文常识包括古代汉语常识（范围小，常识库比较容易建立）和现代汉语常识（范围大，难建立），对于作文任务，可以用文本生成工具生成，但是生成合乎语义与常识的作文还是一项较难的工作。数学常识库的建立相比于语文常识库较简单，因为高考数学题本身是高度抽象化、代数化的语言，需要的常识较少。最难的是地理与历史相关的常识，例如地理和历史的图表分析。以数学为例，首先根据市面所有教材和习题构建高中数学知识库，这一项主要依靠外包教育公司完成；之后实验室负责实体抽取、知识表示、知识推理的工作。项目之二是融合文本与知识的自然语言推理。这项工作主要是做文本与实体的对齐，用统一模型表征文本和知识，下游任务是阅读理解和文本推理。

华为云首席科学家袁晶博士随后做了多模态知识图谱的报告。袁晶博士认为，单纯增加常识数据可以获得到常识知识，但是不能认为机器真正理解常识。不同的是，人类的常识是通过多模态感官获取到的。袁晶博士介绍了多模态常识抽取的几项著名工作，如NEIL（Never Ending Image Learner）、场景图（Scene Graph）等，整理出了多模态知识图谱的发展历程：多模态中语义知识提取图像场景图提取多模态知识图谱构建。他认为，多模态知识图谱有两类，一类是，属性是多模态的，优点是易扩展，缺点是不容易推理，因为符号化实体的指代域易受限；另一类是，实体结点本身是多模态的，可能是图片或者音频，优点是易推理，缺点是不易扩展。除此之外，行业AI落地，需要注意几点：一定要圈定问题边界；一定要分步实施，多次迭代；持续学习，融入行业知识；形成商业闭环，产生商业价值和社会价值。

复旦大学计算机学院李斌研究员结合自己在视觉应用、贝叶斯理论、关系学习方面的研究阐述了对常识难题的看法。李斌研究员认为（1）人类天生有自动分隔物体的能力。认知心理学中有个“格式塔理论”，认为人类不需要太多学习，就能够在视觉环境中组织排列事物，感受和知觉出环境的整体性与连续性。即人天生有解构场景、组合视觉元素的能力。人能在动态场景中提取视觉概念，这是目前计算机所无法处理的。（2）人的视觉常识是有结构的，颜色可以组织成列表，动物分类可以是树状结构，城市空间是个网状结构。机器视觉理解关注的问题是，如何无监督地从图像中解析出视觉概念，利用构建得到的视觉概念库辅助生成新的场景结构，从而实现遮挡或模糊图像的识别、判断两个共现元素是相关关系还是因果关系。这与人类的视觉理解过程是相似的，人脑处理视觉信号时，会以大脑长期积累的知识图谱为先验知识，根据先验知识形成备选方案，再从备选方案匹配筛选出最佳视觉理解方案。

美团NLP负责人王仲远博士从美团业务角度介绍了常识的重要性和使用场景。王仲远博士认为，人工智能的成功来自三方面：数据爆炸、算法先进和高性能计算。深度学习的局限在于没有常识支撑。搜索场景需要常识，需要理解用户意图，例如搜索“spa”，APP是否应该返回给用户“会所”的信息。推荐系统中也需要常识，用以将用户点评数据划分多个方面进行情感分析，分析人们的推荐理由之间的区别。

华东师范大学计算机学院林欣研究员简单介绍了科技部以及上海市科委对于可解释性、因果关系、常识等基础性研究的资助。他认为，常识问题是非常难的问题，难以在短时间内解决，研究者要遵循科学的发展规律。现阶段的研究需要局限在具体的问题上，但是方法可以采用通用方法。常识问题要在具体任务上逐步推进。

华东师范大学数据科学与技术学院吴雯博士介绍了从人机交互、心理学角度进行众包常识抽取方面的工作。一般常识抽取方式分为文档抽取、具身学习（传感器）、众包方式（人脑知识萃取）。众包中的人是各异的，因此在制定个性化众包常识抽取任务中，要考虑如何合理分配众包任务、制定合适的激励机制、评估众包结果。分配众包任务的心理因素有互惠心理、心理所有权、性格因素等，应根据用户兴趣和能力分配众包任务，避免长尾效应。具体的激励机制有钱、游戏、社交激励等。

复旦大学大数据学院郑卫国研究员阐述了对什么是常识以及哪些是常识的看法。郑卫国研究员认为，常识就是共享的知识。那么具体哪些是常识哪些是知识，这个问题的答案对于不同群体是不同的。例如，中国最好的大学是清华，这个应该定义为知识还是常识呢。如果只是被部分人“共享”，那么就不是常识。要解决这个问题，就需要具体场景，确定常识和知识的边界。

复旦大学大数据学院阳德青副教授也从常识界定角度发表了自己的看法。阳德青副教授认为，常识的研究脉络应该分为定义、获取、表示、应用四个阶段。我们应该明确问题出在了哪个部分。如果前序阶段都没有定义清楚，那么可能导致后续阶段无法推进。

讨论环节

各位专家学者分别阐述了对常识难题的看法，我们特地设置了讨论环节，深入探讨如下问题：

1.主持人（肖仰华）：常识的界定是比较困难的，可能讨论不出结果。从小处着手是个很好的建议，那么路径是什么样的？近期做什么？远期做什么？

王海勋：有很多问题值得研究。首先是怎么得到有效的常识。我们可以通过众包收集常识。除此之外，人和世界有交互，这也是获得常识的途径。例如，往墙上、地上敲钉子，钉子应该和地面平行还是垂直是根据环境决定的。又再如，人不需要别人特别地教，就知道扭一下把手门就能开，这就需要常识，是无监督的。以往的研究资源集中在深度学习等少数领域，未来应该将资源均匀分散到人工智能的不同流派与方式，才有可能解决常识难题。

主持人（肖仰华）：总结一下王博士的观点，就是从环境、众包、认知心理角度获取常识。

2.主持人（肖仰华）：会不会众包心理学抽取出的常识都是一个子集，出现同质化问题？

林欣：是的，会有。会有覆盖率的问题，人一下子想到的往往是相似的观点，会同质化。这一问题的突破可能还是对人的行为与心理进行更为全面的总结。近期有个研究是利用机器人手部传感器做手的浅表性的分析，这对于众包获取是个有益的补充，值得长期研究。但是现在很多硬件上还达不到知识获取的需要。

3.主持人（肖仰华）：Deeplearning没学到常识会不会是因为数据量不够多、形式不够丰富？如果给足够多的背景、环境语料，机器是否就能学习到常识？会不会也可能是deep learning已经学到常识信息，只是我们没能发现或者没法解释？

王仲远：可能学习到了，但是没法解释，所以可解释deep learning是个研究方向。至于是不是数据量不够，这个问题是开放的。不过deeplearning的确有效。我们可以尝试将commonsense当作训练数据之一，与文本一起训练，可能任务效果会变好。

李斌：我不否认deep learning本身在感知层面特征提取上很有用, 尤其是在信号，视觉，音频信号处理等方面。但是在认知层面用deep learning是有问题的。直接拿感知层面上的特征，做非线性映射，可能结果是依然不认识（理解）这个东西。物理学家费曼说过我们不能创造出的东西，我们是不理解的（What I cannot create, I do not understand?）。我们的工作是要知道视觉体验/理解是如何创造出的、人如何理解视觉信号的。例如图片生成，我们可能会用GAN生成整张图片，但是这对视觉理解没有什么意义，我们要逐因素、逐元素、逐概念分别生成，例如形状、颜色等。现在要认识一个物体，需要把各种颜色各个角度的图片都喂给模型。这种做法存在局限性。相比较而言，人类认识一个物体要简单得多。

袁晶:（1）我想到了基因存储，即基因序列里的碱基对可以存储非常多信息。人的信息的理解与存储可能与我们现在认识事物的方式是有出入的，认知结构也不是深度学习的结构。有一个工作是使用data-driven的方式寻找合适的loss和合适的网络结构（非面向人类，相当细致的网络结构），可能这样能更加接近理解。所以我认为现在纯用深度学习做常识的任务太难了。（2）我们经常说数据不足，缺乏常识，但是可能数据足够多了之后，这些“常识”也就不能称之为常识了。如果已经显式表示出来，这就不叫常识。

4.主持人（肖仰华）：刚刚各位讨论了“理解”和“语义”。如果我站在反驳方角度，我认为人从来没有真正理解过任何事物。例如，什么是单身汉？——未婚男性。那么什么是男性——一种人。那么什么是人——一种存在。那么什么是存在——我们无法回答这个问题。站在维护deep learning的角度，人似乎也没真正理解过世界。关于这个观点大家怎么看？

毕玉德：人和人之间对话，需要背景知识匹配，才能相互理解。有了背景知识，才能理解。

王海勋：人有解构（decompose）能力。人对事物理解基于概念（concept）。可能我第一次看过某种样式的椅子，那么只要认识了某种椅子，就认识了其他的椅子。因此如果不能理解概念（concept），人也无法理解世界。那么如何理解：要有decompose能力。Deep learning没有这种能力。

5.观众1：常识是动态变化的。一些知识一开始是知识，后来变成常识。当这个内容是知识，那么商业上会辅助决策。但是当这个内容变成了常识，那么这就会变成行业内人的基本判断。这个问题您怎么看。

王海勋：目前考虑的是99.999%的人都认同、都知道的知识作为常识。

6.主持人（肖仰华）：黄老师，最近BERT火爆，效果很好，我们猜测它应该是学到了什么，不过我们并不清楚学到的具体是什么。请问黄老师，如果我们收集尽可能多的语料，BERT是不是就能真的学到各种隐性常识？如果这个思路可行，我们能不能把常识显性地说出来，作为BERT的语料。您觉得这样能学到常识吗？

黄萱菁：Deep learning通过词和概念的共现建模。和过去word2vec相比，Elmo、GPT、BERT考虑到了词之间、句法、上下文的关系。BERT有24层，很难知道每一层学到的具体内容，也可能是一些语义层面信息的组合。之前一项LSTM上的工作，把神经元的value非线性映射到语言学知识（词法、句法、语义），可以做到60%以上的精度。我们有理由相信，BERT学习到了语言学特征。如果有足够数据，有个好的方式能将常识建模出来，很可能是可以学习到常识的某种表征。知识要经过数据精炼。所以可以考虑分层方法，比如language model得到的是低级表示，知识库学习到的是高级表示，可以将这二者结合到一起。不管黑猫白猫，抓到老鼠的就是好猫。设计一些好的下游任务，如果效果变好，我们一定程度上就可以认为学习到常识。

7.观众2：RoBERTa模型没有针对推理方面进行优化，只是用更大的数据、更长时间训练，就在常识任务上效果提升到接近80%。那么单纯deep learning是不是可以学习到常识？常识是不是本质上就是个语料、规模和算力的问题？

黄萱菁：BERT基础上的一些研究，增加语料不是必然会增加模型的性能。所以和数据质量有关系。如果有高质量的数据，可能会有好的效果。

王海勋：不认同。新任务的句子多数是从来没出现过的新句子。如果实在要用语料summarize某个pattern可能需要非常大的语料。例如共指问题（coreference problem），单纯deep learning方法，可能需要非常大的语料。Deep learning能看到pattern，只是不适用于常识问题。例如围棋，不需要多少数据，机器就看到了人没看到的pattern。

毕玉德：过去有种思想，如果语料库足够大，所有的话都说了，可能就学会了。但是实际上长尾效应，90%以上的句子pattern是很少出现的，有些知识是学习不来的。但是一定会存在某些规则。句子是无穷的，规则是有限的。我期望把这些方法用在发现这些规律上，而不是抄袭规则。我把你们的一些好技术好方法反过来用在发现规则上。还有一个问题，规则的一致性。语言学和计算机的研究者对规则的表示差异差很大。

8.观众3：常识应用中，有哪些应用是严重依赖于常识？有否某种代表性的应用可以凸显常识的价值。

王海勋：现有结果很好的任务中，关注一下fail的例子，很多是因为缺乏常识。不一定只是某个特定应用，很多任务都需要常识。例如人机对话，仍然无法顺畅进行下去，几轮就知道对方不是人类。

主持人（肖仰华）：常识这是个基础工作，对很多工作都有提升。但是比较难找到某个特定任务是只针对常识。

主持人（肖仰华）：常识难题，道路漫长。未来还有很多新的机会和挑战。

研讨会结束后，各位专家合影

（*本文为AI科技大本营转载文章，转载请联系原作者）

◆

精彩推荐

◆

想在大会现场聆听更多业内与学界知识图谱专家分享，尽在 BDTC 2019 ！关注知识图谱的小伙伴们，2019年最后一场知识图谱的技术盛宴，不可以错过，12月7日全天知识图谱论坛等大家来交流！距离本届大会开幕还有4天，6.6 折票限时特惠（立减1400元）倒计时 1 天，学生票仅 599 元！

推荐阅读

你点的每个“在看”，我都认真当成了AI

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！

炸大瓜！君子固穷豪刷阿哲，锤“姓氏哥”！VIC哥凌晨豪刷俊雅！