其他
知识图谱从哪里来:实体关系抽取的现状与未来
知识图谱
神经网络关系抽取模型
数据规模问题:人工精准地标注句子级别的数据代价十分高昂,需要耗费大量的时间和人力。在实际场景中,面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子,依靠人工标注训练数据几乎是不可能完成的任务。 学习能力问题:在实际情况下,实体间关系和实体对的出现频率往往服从长尾分布,存在大量的样例较少的关系或实体对。神经网络模型的效果需要依赖大规模标注数据来保证,存在”举十反一“的问题。如何提高深度模型的学习能力,实现”举一反三“,是关系抽取需要解决的问题。 复杂语境问题。现有模型主要从单个句子中抽取实体间关系,要求句子必须同时包含两个实体。实际上,大量的实体间关系往往表现在一篇文档的多个句子中,甚至在多个文档中。如何在更复杂的语境下进行关系抽取,也是关系抽取面临的问题。 开放关系问题。现有任务设定一般假设有预先定义好的封闭关系集合,将任务转换为关系分类问题。这样的话,文本中蕴含的实体间的新型关系无法被有效获取。如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取,仍然是一个”开放“问题。
更大规模的训练数据
更高效的学习能力
更复杂的文本语境
更开放的关系类型
总结
韩旭,清华大学计算机科学与技术系博士三年级同学,主要研究方向为自然语言处理、知识图谱、信息抽取。在人工智能领域国际著名会议AAAI、ACL、EMNLP、COLING、NAACL上发表多篇论文,是OpenKE、OpenNRE等开源项目的开发者之一。
原文链接:
https://zhuanlan.zhihu.com/p/91762831
◆
精彩推荐
◆
王贻芳院士:为什么中国要探究中微子实验?
支撑亿级用户“刷手机”,百度Feed流背后的新技术装备有多牛?
今日头条李磊等最新论文:用于文本生成的核化贝叶斯Softmax
俄罗斯互联网的BAT
云计算软件生态圈:摸到一把大牌
女明星因自拍瞳孔倒影暴露住址惨遭跟踪,一张照片是怎么出卖你?
任天堂、雅达利、索尼, 曾经的王者之争, 如何影响区块链游戏?
90 后技术宅研发Magi一夜爆红,新一代知识化结构搜索新时代来了?
我在做开源芯片 | 人物志
你点的每个“在看”,我都认真当成了AI