知识图谱研讨实录07丨肖仰华教授带你读懂知识图谱的众包构建
The following article is from 知识工场 Author 知识工场
知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。
知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱:概念与技术》课程体系,已在国内进行了多次巡回演讲,受到参会人员一致好评。
课程主要目的和宗旨是系统讲述知识图谱相关知识,让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。
下面让我们通过第七章课程《知识图谱的众包构建》的19条精华研讨,来进一步学习了解知识图谱技术内幕。文末可查看更多章节精华回顾。
本课程配套教材《知识图谱:概念与技术》。
/ 以下为课程第7章《知识图谱的众包构建》的研讨实录 /
众包(Crowd-sourcing)是一种新型的外包模式,它将一群松散的任务发包方(Requester)和任务完成者(简称工人,Worker)联系起来,实现任务发包、匹配、完成和付款等一系列操作。
2丨知识型众包有哪些特点?
同学代表性回答:
(1)任务多样性强。任务数据丰富,任务类型众多。
(2)工人多样性强。知识型众包所需要的智力门槛较高,真正适合完成任务的工人不多。
(3)任务质量难以评价。知识型众包任务大多没有客观的评判标准,由于事先没有答案,因此很难评价工人完成得对不对、好不好。
(4)任务完成质量的影响面大。知识型众包任务的完成质量关系到任务本身能否完成。
3丨知识型众包的激励机制有哪些?
同学代表性回答:
同学1:
名誉度:类似游戏中的等级制度,是一种虚拟的奖励。 快感:基于游戏的隐式众包常常采用的激励机制,让工人从游戏中获得快感,同时完成众包任务。 金钱激励:用金钱激励工人。 社交影响:利用社交需求激励工人参与众包任务,并让其在社交网络中收到关注。
回答2:
威望制度:汇报、惩罚。
快乐:游戏。
金钱回报:静态回报、动态回报、基于条件的回报——竞争式、按准确性、按问题统一性。 社交影响:强连接社交、弱连接社交。
4丨知识型众包研究的问题是什么?
同学代表性回答:
总结为三个单词:
What(对什么任务进行众包) Whom(将任务交给谁来完成) How(如何完成众包)
5丨传统众包和知识型众包有什么不同?
同学代表性回答:
回答1:传统众包:任务单一、任务评价方法简单、工人要求单一、工人门槛较低、工人数量相对较多。
回答2:传统众包的核心问题是优化任务与工人的匹配,提高用户体验度;知识型众包需要研究具体技术问题,以获得众包的最佳收益。
回答3:传统劳动密集型众包的核心问题是如何优化任务与工人的匹配,提升用户体验;而知识型众包需要在此基础上进一步考虑What、Whom、How的问题。
回答4:传统众包偏向于劳动密集型行业,例如快递、外卖,主要将闲散的劳动力组织起来为大众服务。知识型众包将大众的智慧和时间合理组织,为用户提供智力支持,具有任务多样性强、工人多样性强、任务质量难以评价、任务完成质量的影响面大的特点。
6丨为什么当前阶段的知识获取仍然需要人工介入?
同学代表性回答:
回答1:人机混合智能是目前人工智能发展的主要形态,知识是人类认知世界的结果,通过数据驱动的自动化获取方法只能获取知识的有限子集,人力介入是数据驱动方法的有力补充。
回答2:
(4)人力介入是数据驱动方法的有力补充。
7丨知识图谱构建的哪些阶段可以使用众包?这些阶段的主要工作是什么?
同学代表性回答:
回答1:(1)本体构建阶段。主要工作是构建本体层次架构,构建语义词汇表,语义词汇表对齐,标注概念说明和标注与验证关系。(2)知识挖掘和填充构建阶段。主要工作有三元组抽取和实体对齐。(3)知识图谱精化阶段。主要工作有知识补缺和知识纠错。
回答2:本体构建,知识填充,图谱精化。
肖仰华老师:
回答2很好,比书中所讲的更加精炼简洁。
8丨有哪些利用众包实现的知识图谱?他们的主要特点是什么?
同学代表性回答:
回答1:
Wikidata:利用在线社区吸引用户。 Frecbase:众包加知识融合。 OntoPronto:游戏众包。 Tpho:构建概念层级。 HIGGINS:三元组抽取。 HIKE:实体对齐。 VCode:利用验证码补全知识。
回答2:
ReCAPTCHA:验证码系统。 ImageNet:大型图片标注项目。 维基百科:向全互联网开放的百科系统。 Cyc:常识知识收集。 OpenMind:常识知识收集。
回答3:
CrowdEC系统:利用定价原则引导工人提供不重复的答案。 CrowdSPARQL :当SparQL查询无法响应时,会重定向至Mturk平台获取知识。 InPhO: 利用众包完成概念体系构建。
9丨众包任务的设计有哪些设计原则?
同学代表性回答:
回答1:
显示众包的设计原则:小任务最受欢迎、判断题>选择题>填空题,越少交互越好,UI很重要;
隐式众包的设计原则:在无意识中提出任务、工人同时是用户,第一任务需要首先满足用户的需求,第二任务才是众包任务,第一任务的重要性要充分考虑、可以利用好奇心激励用户。
回答2:挑选最重要的任务,挑选机器最不擅长而人最擅长的任务。
回答3:
偏好更小的任务 判断优于选择优于填空 工人不喜欢有大量交互合作的任务
回答4:知识型众包偏爱小任务,局部的众包结果会对全局产生影响,需要量化这种影响,不同任务影响不同。
10丨显式众包的任务方式有哪些设计原则?
同学代表性回答:
(1)偏好更小的任务。众包平台人员的组织与参与都比较随意,工人往往利用闲暇时间来完成众包任务,不希望在单个任务上消耗太多时间。
(2)判断题优于选择题,选择题优于填空题。判断题可选答案的空间最小,而填空题答案的空间最大,工人更偏好答案空间小的简答任务。
(3)工人不喜欢有大量交互合作的任务,这和简单任务更受青睐的原则一致。
肖仰华老师:
该问题是在问众包任务的设计原则。答案应该为“1.挑选最重要的任务;2.挑选机器最不擅长而人最擅长的任务”,有少部分同学这两个问题弄混了。
我现在进一步追问一下大家:
在知识图谱相关的任务中哪些是机器最不擅长而人最擅长的任务?大家举个例子,这个问题实际上很不简单。
有同学回答“常识问题”,是一个,可以说得再具体点,比如常识判断。还有同学回答“新潮词语识别标注”,“专家知识”,这两个答案肖老师都认为不错。有同学回答“异构数据源中的实体对齐”,“基于文本的阅读理解回答问题”,“基于当前已知推理未知”,肖老师认为目前机器还是可以完成部分的,只能说其中的 hard case 交给人做是值得的。还有“开放性问题的处理”,这是机器不擅长的。
大家要打破思维疆界,人类的很多事物,机器还不擅长。比如价值判断(中国父母对小孩过于宠爱,到底对还是不对?)、幽默判断。再比如,我们前面曾经提到过的问题,“鲁迅老公是谁?”,你作为人,立即知道这个问题有问题,但是机器不太擅长。再比如认知框架,你一定知道,描述一个学校,大概从哪些角度来描述。而机器却不知道。人文领域研究的很多问题,我们都值得认真梳理一遍,哲学系研究哲学、心理学研究心理、美学研究美感、音乐研究韵律等等,都值得从人工智能角度重新研究,都值得从人与机器能否实现以及如何实现传统意义上的一切问题,比如美感、价值观、信仰、宗教、幽默(戏剧)。还有语言学、心理学,这才是研究生该研究的问题,这也是时代给予我们的最大机遇,大家可能觉得这些问题很遥远,其实不然,这些很多问题都具有重大商业价值。比如:能否让机器具备幽默感,这样的机器人是很多大公司还没突破的,一个有幽默感的机器人和一个没有幽默感的机器人,你会买哪一个?机器能否审美?机器能否具有好奇心?机器能否准守人类的准则与规范?能否为机器建立一个类似人类社会早期的宗教信仰,比如拜自然神?这些问题不突破,什么家庭服务机器人,司法机器人,这些都是不可能真正产业化的。
我去年曾经去一个法律科技去研讨,法律智能的核心问题,就是如何为机器建立正确的价值观,从而让机器能像正直的法官一样做出符合人类价值标准的判罚,如果大家站在这个视角看待当下的人工智能技术发展,你会觉得很可笑,大部分研究工作都是没什么意思的增量式工作,而这些空白型的、开创性的工作几乎为零,但是又是产业界的迫切需求。
我去年和华为的机器人实验室研讨了很长时间,最后还是决定放弃,一个很重要的原因就是整个技术生态不成熟,相关研究太少。清华去年推出全世界第一个法律智能专业,开在法律系,中央戏剧学院去年开设了音乐人工智能的博士点,这些都是我刚和大家谈到的方向的尝试。人文学科与人工智能的深度融合,是未来50年的根本趋势,希望大家能够顺势而为。
关于刚才机器能做什么,不能做什么,曾经有一本书就是《计算机不能做什么》。两三年前,我曾经做过两个报告,《未来人机区分——基于语言认知的智能验证码》,还有一些媒体的报道 《12306的验证码已不再安全,未来属于智能验证码》,大家可以看看,尤其是未来人机区分,现在看来,当时的研究过于超前,但是很快这个问题将是个大问题,这后面有着太多的研究机遇。
很多同学会觉得,刚才说到的是不是太玄了,无法实现?不对,可以实现。
大家可以就能否让新闻推荐算法符合主流价值观,来谈谈自己的看法。
有同学回答“我感觉得从内容发布端进行资质筛选控制”,肖老师认为这不是算法,这是人工干预。另一位同学回答“用一些人民日报等官媒的新闻作为训练数据?”肖老师认为有些接近了,然后只需要在当前推荐算法的优化模型中,加一个目标,这个目标就是带推荐的news与C的相似度(C就是主流价值观的corpus)。相似度怎么算?我相信你们有很多方法,可以用词分布构造分布距离,比如KL散度之类的,为了发好paper,你套一个 deep new recommendation的框架,再加个价值观符合的优化目标,就齐活了,如果我是审稿人,这类实用的paper 是可以给best paper的,今年几乎审遍了 CCF A的会议,这类工作十分少见,大部分工作还是停留在在别人的数据,别人的模型,别人的问题上稍微改改。刚才的思路,其实还没完,如果你只是简单的实现刚才的想法,至少是个rank 2的paper,但是大家要做得深入一些,要去找出你的方法与思路中关键问题,刚才思路的关键问题在于如何平衡个人兴趣与价值观符合,一般的优化目标一定是推荐与你历史浏览新闻强相关的,你不可能为了价值观符合,就牺牲个人兴趣,所以这两者间的平衡才是关键,你如何调和二者矛盾,如果你能进一步给出一些策略、分析、实验,你的这个工作就已经很深入了。我要和所有同学强调一点,很多同学也写paper,不容易中的根本原因,往往在于研究的很不深入,要不断深化当前思路的问题,要不断做错误分析,要自己给自己找问题,我刚才说的这个问题,真是个没有人做的问题,这是个有中国特色的问题,目前还没看到paper,但是的确是能做到的,感兴趣的同学可以做一做。
11丨隐式众包和显式众包分别是什么?有什么区别?
同学代表性回答:
回答1:显式众包是指工人在完成众包任务时知晓自己正在完成众包任务,工人完成任务主要为了获得金钱报酬,是众包的主流方式;隐式众包是工人在不知不觉中完成任务,通常为工人设计两个任务,第一任务是游戏或者带有实际应用价值的任务,第二任务才是众包任务,用户在集中精力完成第一任务时,会不知不觉的完成众包任务,这种方式价格低廉、效果更好。
回答2:隐式众包是指工人在不知不觉中完成众包任务,显示众包是指工人在完成众包任务时知晓自己正在完成众包任务。显示众包是主流的众包方式;而隐式众包利用第一任务吸引用户,在第二任务中完成众包,价格低廉、效果更好。
肖仰华老师:
能否举例隐式众包?同学们回答“用户输入验证码同时是识别电子图片中的文字”、“游戏”,有同学答“推特账号验证时要求进行图像识别测试”、“12306购票的时候选择正确图像”、“百科词条的修改”,肖老师认为这是众包但都不是隐式众包。
12丨众包在进行任务分配时有哪些方法?
同学代表性回答:
回答1:
被动众包:发包方将任务挂在众包平台上由工人认领,当前大规模众包平台均采用被动众包的方式分配任务,因为其上的大部分任务的完成门槛较低,且平台用户数量庞大,难以筛选。
主动众包:发包方通过一系列算法精心挑选工人实现任务的分配,在某些质量攸关且所需工人又不多的特殊任务中,需要对工人精挑细选,如项目评审,代码众包等。
回答2:基于问题维度的不均衡工人分配策略,即事先对众多任务的难易程度作出预判,再根据难易程度分配工人的数量(越难的任务分配越多的工人)。小规模众包预测决定任务难度的特征,再根据这些特征分配工人数量。
回答3:
随机分配:按照其他因素排序(时间、工人质量等),寻找质量最高的工人、结果预期最有效的工人、最近的工人。
用户建模中的迁移学习:基于领域的匹配方式;基于技能树的匹配方式;树-图结合的方式。
回答4:用户建模中的迁移学习、基于领域的匹配方法、基于技能树的匹配方法、树-图结合的方式、基于预算/收益的优化(最大化任务请求人从完成的众包任务中得到的收益)、基于任务质量的优化(在任务分配策略中加入质量评价,比如accuracy和F值)。
回答5:
被动众包:所有任务由工人方发出选取;工人在正式工作前可能会参与一些技能测试。
主动众包:基于领域匹配;基于技能树匹配;树-图结合;基于预算/收益的优化;基于任务质量的优化。
13丨众包纠错有什么方法?
同学代表性回答:
回答1:
(1)公开所有数据,由众包自由挖掘错误,如谷歌。需要网站拥有超多人流量。
(2)先由机器定位疑似错误,再交予众包确认。适合流量不大的网站和机构。
回答2:回溯剔除:会在任务中插入一些已经知道标准答案的任务,若工人在这些任务返回了一定量的错误结果,就会被剔除。
14丨如何控制众包知识的质量?
同学代表性回答:
众包前质量控制:用户管理与分配。(1)依据任务难度分配工人数目;(2)先利用一个小型众包判断哪个特征决定众包的难度;(3)根据难度分配众包人数。
众包过程中质量控制:(1)埋雷法——在题目中安插一些知道答案的任务检验工人质量;(2)回溯问题——提问与上一题有关的问题来防止快速欺骗者。
众包后质量控制:主要通过度量答案的可信度来聚合收回的答案。
15丨如何众包才能获得最佳收益?
同学代表性回答:
精心挑选具有最佳收益的一批问题交予众包平台,挑选的原则是挑选最重要的问题和机器最不擅长而人最擅长的任务,基于设计原则和任务匹配方法将众包任务分配给合适的工人。另外,需要适当调整众包过程,提高任务的参与度和完成质量。这里的调整包括:如何设计任务、如何激励工人和如何控制质量。
16丨在众包任务中,众包任务的结果是如何对行不确定图中的概率清洗的?
同学代表性回答:
回答1:将不确定性最强(即概率最接近0.5)的边交予众包平台清洗,让人判断该边是否存在。
回答2:度量消除某条边的不确定性能够给查询任务带来多大程度的收益,将收益最大的边优先交予众包平台。
回答3:当KG中有些边不确定的时候,查询的结果往往会存在二义性,众包所要做的就是衡量清洗哪一条边会最大程度提高系统的不确定性。
17丨列举几个你认为适合使用众包完成的任务?
同学代表性回答:
回答1:常识知识的获取。
回答2:User study。
肖仰华老师:
这两个都不错,只要是当前阶段人擅长而机器不擅长的都可以交给众包,还要注意一点,任务的门槛必须低,比如医学知识的获取,你让一般的众包平台来做是不合适的。
18丨如何解决众包中用户之间的不一致性?
同学代表性回答:
回答1:选择可信度高的众包人员的结果。
回答2:使用主动众包,对工人精挑细选。
回答3:回溯剔除法:会在任务中插入一些已经知道标准答案的任务,若工人在这些任务返回了一定量的错误结果,就会被剔除。
肖仰华老师:
还有就是从众原理,如果流量足够,大部分人的答案是可能正确的。
19丨众包技术的瓶颈在哪里?
同学代表性回答:
回答1:对于一些特别专业的问题没法解决。
回答2:如何吸引到足够多的人来做。
肖仰华老师:
如果是隐式众包,如何设计有效的众包形式,这个很难。如果是显式众包,那么人家凭什么来替你工作呢?成本是这个技术的最大瓶颈,除非你是明星,自带流量,否则谁给你众包呢,目前学术界的众包研究,大都基于显式众包,浪费了不少钱,收效不高,所以,大力发展隐式众包才有前途。比如,我们曾经想过,能否设计一款点名软件,让大家在点名的同时,就给我众包完成一些工作,12306就是个最好的例子,你必须替他完成图像识别,才能买票。
图书推荐
《知识图谱:概念与技术》
肖仰华 等 编著
本书力求涵盖知识图谱相关的基本概念与关键技术,总结了十多个知识图谱工程项目的落地经验。
本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。
(扫码了解本书详情)
▶ 研讨实录回顾
热文推荐