查看原文
其他

好学习、求向上 | 轻量化文本分析工具:NLPIR

马璇 信息化教学创新 2022-08-16

点击上方  信息化教学创新  订阅本刊

在许多项目研究中,我们会用到词频分析这样一种研究方法,其实这就是一种针对文本的分析。文本分析可以将非结构化的数据转换为结构化数据,而今天我们介绍的轻量化文本分析工具NLPIR在线系统可以简单方便地帮助大家从文本中捕获关键要素。接下来我们就看看NLPIR能够实现的具体功能吧!


使用简介

下载网址:http://ictclas.nlpir.org/nlpir/

平台需求:软件支持Windows/MAC系统,也可在线使用。


软件特色

NLPIR为“自然语言处理与信息检索共享平台”的英文缩写,它是一个中文语义分析工具,包括网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等功能。


页面介绍


进入NLPIR系统主页后就可见到如下页面,无需注册即可直接使用。操作步骤也很简单,只需要将需要进行文本分析的文字复制粘贴进文本框就可以开始进行分析了。同时也可以在左下角输入需要进行文本分析的网址进行分析。


图1 NLPIR使用界面


接下来,我们就以《专家视点 | 教育从不单纯根据技术需求来变革——访华东师范大学终身教授祝智庭》一文为例演示一下NLPIR系统能实现的功能。


1.实体抽取

NLPIR中的“实体抽取”功能模块可以智能识别出测试文本中出现的人名、地名、机构名、媒体、作者及文章的主题关键词,由此能大致判断出测试文本中包含的事件元素。这是对语言规律的深入理解和科学预测,实体抽取的图表效果支持力导向图(图2)和和弦图(图3)这两种形式。


图 2 实体抽取-力导向图


图 3 实体抽取-和弦图


右上角的四个按钮(图4)由左至右分别为执行图像还原、力导向布局图切换、和弦图切换保存操作


图 4


2.词频统计

词频指的是某一个词语在该文本中出现的次数。词频统计是文本分析中较为常规的、同时也是较重要的环节,它用来评估一个词对于一个文本或者这个领域文件集的重要程度。NLPIR展示了名词、动词、形容词3种开放词类的Top 10结果,还提供折线图和柱状图两种呈现方式。


图 5 词频统计-直方图和折线图


3.关键词提取

关键词是指能反映文本主题或者主要内容的词语,能使人们便捷浏览和获取信息,定位文本的具体内容包括哪些。NLPIR能够把分析的文本中的关键字进行整理,并自动生成文字云,方便对于文章的整体把握。


图 6 关键词提取


4.Word2vec

Word2vec,是为一群用来产生词向量的相关模型。在NLPIR中可以自动生成各个关键词的网络模型,用来表示词对词之间的关系,有助于对文章的理解和挖掘。


图 7  Word2vec生成效果示意图


以上就是本期关于轻量级文本分析工具NLPIR的介绍,还有更多功能等待大家在使用过程中去发掘。如果您对这个工具感兴趣,请给我们点个赞吧!


 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存