查看原文
其他

NLPer基础必备:面向KG构建的文本标注任务、工具、策略与动手实践交流总结

刘焕勇 老刘说NLP
2024-10-06

​​​

文本标注是自然语言处理深度学习和机器学习范式的根本,而标注数据更是性能指标的天花板。

五一假期第一天,4月30日,老刘说NLP技术社区举行了第三次线上交流活动,以《面向KG构建的文本标注任务、工具、策略与动手实践》为题,介绍了知识抽取环节中的知识标注任务展开讨论,总时间2小时。

社区进一步从理论过渡到实践,后续也将陆续从实践出发,做更多更为落地更的交流。感兴趣的朋友,可以加入社区,观看回放,一同思考。


在本次交流中,从知识图谱/事件概述,知识抽取中的NER\RE\AE\EE任务,知识抽取中的标注策略与常用规范、知识抽取中的开源标注工具与数据集、基于开源标注工具的动手实践等五个方面进行了介绍:

一、知识图谱/事件概述

首先,从知识图谱过渡到事件类图谱,讲述了两者之间的差别,对其进行概述;


二、知识抽取中的NER\RE\AE\EE任务

然后,介绍知识抽取中常用任务,包括NER实体识别、RE关系抽取、AE实体属性抽取以及EE事件要素抽取几个任务;




三、知识抽取中的标注策略与常用规范

接着,对当前知识抽取中的标注策略与常用规范进行介绍,包括BIO,BMES等,同时包括非连续实体标注,实体关系标注,事件要素标注等;


四、我们知识抽取中的开源标注工具与数据集

在第四部分,为了对标注数据集进行更加具象化,我们对当前的一些开源的标注工具与数据集进行列举,可以作为一个很好的指引。


五、基于开源标注工具的动手实践

最后,理论与实践相结合,我们选择当前最好的文本标注工具进行如上几个任务的标注动手实践,加强大家对该任务的理解。

首先,选用label-studio进行了实体标注和关系标注的实验。

随后,使用Marktool进行了事件要素标注的实践。


心得总结

通过本次的线上交流,我们对面向知识图谱构建的文本标注这一话题,从理论到实践都有了初步的认识。

而在实际的工作中,我们深刻的发现:

数据是深度学习方法的基础,也是深度学习模型的上限 80%的NLP工作都是在洗数据 数据标注工作是一个复杂、科学的工作,也是NLPer的必备技能,关注标注工作,这是培养自然语言语感的重要步骤。

下面是关于文本标注的几点心得,值得大家一起思考。

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

感兴趣的朋友,可以加入社区,一同线上交流:方式为关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

继续滑动看下一个
老刘说NLP
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存