其他
NLPer基础必备:面向KG构建的文本标注任务、工具、策略与动手实践交流总结
文本标注是自然语言处理深度学习和机器学习范式的根本,而标注数据更是性能指标的天花板。
五一假期第一天,4月30日,老刘说NLP技术社区举行了第三次线上交流活动,以《面向KG构建的文本标注任务、工具、策略与动手实践》为题,介绍了知识抽取环节中的知识标注任务展开讨论,总时间2小时。
社区进一步从理论过渡到实践,后续也将陆续从实践出发,做更多更为落地更的交流。感兴趣的朋友,可以加入社区,观看回放,一同思考。
一、知识图谱/事件概述
二、知识抽取中的NER\RE\AE\EE任务
三、知识抽取中的标注策略与常用规范
接着,对当前知识抽取中的标注策略与常用规范进行介绍,包括BIO,BMES等,同时包括非连续实体标注,实体关系标注,事件要素标注等;
四、我们知识抽取中的开源标注工具与数据集
在第四部分,为了对标注数据集进行更加具象化,我们对当前的一些开源的标注工具与数据集进行列举,可以作为一个很好的指引。
五、基于开源标注工具的动手实践
心得总结
通过本次的线上交流,我们对面向知识图谱构建的文本标注这一话题,从理论到实践都有了初步的认识。
而在实际的工作中,我们深刻的发现:
数据是深度学习方法的基础,也是深度学习模型的上限 80%的NLP工作都是在洗数据 数据标注工作是一个复杂、科学的工作,也是NLPer的必备技能,关注标注工作,这是培养自然语言语感的重要步骤。
下面是关于文本标注的几点心得,值得大家一起思考。
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
感兴趣的朋友,可以加入社区,一同线上交流:方式为关注公众号,在后台菜单栏中点击会员社区->会员入群加入。