中文词汇特征分析器CLRA首版发布!
2023-08-19
2023-09-01
2023-08-31
中文词汇特征分析器CLRA首版发布
便捷标注、功能实用、多维分析
供稿人:徐云洁、胡韧奋
便捷标注——支持直接输入文本进行处理
文本标注工具单次可处理10万字以内文本,包含分词、标注词性、标注新标准词语等级、标注新标准词语等级(含扩充词表)四项功能。
A. 标注等级
本工具可直接在文本框内对输入文本标注词语等级。新标准等级信息参考《国际中文教育中文水平等级标准》词汇表,该表共收录 11092 个词语,包括一级 500词、二级 772词、三级 973词、四级 1000词、五级 1071词、六级 1140词、七至九级 5636 词。
如上图所示,除了常用的分词、词性标注功能外,用户还可选择根据《新标准》对词语等级进行标注:
1-7:数字标识级别,七至九级对应数字7; NE:人名、地名和专名等(词表未收录的),即Name Entity,同时不加入词表指标的计算; NA:标点符号、数字词和字母词,即Not Applied; oov:超纲词,即Out of Vocabulary。
B. 区分同形
《新标准》词表收录了128个同形词,其中大多数分属不同等级,例如,“白”(形容词)属于一级,而“白”(副词)属于三级,如果仅在分词后进行词表匹配,则无法区分同形词的不同等级。为解决该问题,CLRA工具利用词性、拼音等特征实现了级别自动消歧,可以为用户提供更加精准的级别标定!如下例所示:
那/r_1 块/q_1 墙/n_2 刷/v_4 得/u_2 非常/d_1 白/a_1 。/wp_NA 我/r_1 不/d_1 想/v_1 再/d_1 白/d_3 跑/v_1 一/m_1 趟/q_6 了/u_1 。/wp_NA
C. 扩充词表
对于《新标准》词表未收录的词语,可根据语素的形式和意义对其是否真正超纲进行判定。在文本标注工具中选择“新标准等级(含扩充词表)”后,会提供基于扩充词表的标注结果,词语后加“*”以示区分,如下例所示:
世界/n_3 第一*/m_1 商学院/n_oov 的/u_1 学生/n_1 却/d_4 必须/d_2 用/p_1 它/r_2 写/v_1 作业/n_2 。/wp_NA 这个*/r_1 苹果/n_3 看/v_1 起来/v_1 非常/d_1 新鲜/a_4 。/wp_NA 莫言/nh_NE 有/v_1 很多*/m_1 代表作*/n_3 。/wp_NA
注:《新标准》词表未收录“第一”、“这个”、“代表作”,但我们可以从词表中查询到:第(一级)、一(一级)、这(一级)、个(一级)、代表(三级)、作品(三级),且三个词语的含义均可由其语素义推理得到,因此将其加入扩充词表。
Q:扩充词表的加入,有什么意义?
A:在参考《新标准》编撰教材、开展考试命题或者测量学习者输出文本的词汇复杂度时,超纲词的数量和比例都是一项重要考量因素。扩充词表的引入,可以大大降低“假超纲词”的权重,从而提供更加可靠的文本难度等级测量结果。
实用功能——生成文本中各等级词表
除了提供原文标注外,用户还可上传一个或多个文件,实现批量文本分析(支持100万字/文件)。如下图所示,标注结果将以xlsx表格形式输出,包含文件名、词语、词性、级别等字段,用户可通过EXCEL筛选功能轻松获取不同级别和类别的词语,实现更加精准的词语级别分析。
多维分析——词汇复杂度和词汇多样性指标计算
词汇复杂度、词汇多样性和词汇密度是常见的语言量化分析指标。CLRA支持基于《新标准》词表或其扩充词表对各等级词语数量和比例进行分析,为测量词汇复杂度提供了适配国际中文教育领域需求的解决方案,此外,还提供了多维度的词汇多样性和词汇密度测量方法。
A. 词汇复杂度
现有的词汇复杂度指标常基于词频信息统计常用词比例,不一定适配于语言学习场景。CLRA工具支持计算文本中三等九级词语的数量、比例、开根比等80个量化指标(具体参见工具《使用手册》中的附录A),可以为国际中文教育领域的文本词汇复杂度分析提供较好的解决方案。具体来说,在测量词汇复杂度时,推荐结合样本特点选用如下指标:
高等(七至九级)词形/词种占比 中高等(四至九级)词形/词种占比 超纲词形/词种占比 高等(七至九级)和超纲词形/词种占比 中高等(四至九级)和超纲词形/词种占比
B. 词汇多样性和词汇密度
CLRA提供了多维度的词汇多样性和词汇密度测量方法,共11个指标(具体可参考共工具《使用手册》中的附录B)。在测量词汇多样性时,传统的TTR和RTTR等指标容易受到文本长度影响,难以提供可靠的测量结果,参考Zenker & Kyle (2021)的研究,我们集成了MATTR、HDD、MLTD等方法,在样本长度存在差异时也能提供稳定的测量结果。
注:Zenker & Kyle(2021)发现在50到200词的英语作文中,MATTR、HD-D、MTLD这三项指标受文本长度的影响较小。
🌟🌟🌟CLRA获取途径🌟🌟🌟
从便捷标注到多维量化分析,CLRA不仅提供三种功能,也提供三种客户端程序:Windows、MacOS (Intel)和MacOS (Apple M1)。
用户填写试用申请后可获得软件下载链接:
https://www.wjx.cn/vm/rUtXWDS.aspx#
注:工具下载后即可离线使用,个人语料的版权和隐私得到充分保护。
关于更详细的下载说明和工具详细方法,皆可在下载链接中查询工具《使用手册》。
CLRA旨在为学习者、教师和研究者提供免费、开放的中文词汇特征分析服务,欢迎试用CLRA客户端,并为我们提出宝贵的意见!
问题咨询或意见反馈:crystalxu@mail.bnu.edu.cn
🌟🌟🌟
本研究得到教育部中外语言交流合作中心国际中文教育中外联合研究专项课题“基于新标准的智能化语言分析技术研究”(22YH04ZW)资助。如果在您的研究中使用了CLRA工具,欢迎参考和引用:
[1] 徐云洁, 王兆基, 胡韧奋. 基于新标准的汉语词汇复杂度自动分析工具及其应用. 第七届汉语中介语语料库建设与应用国际学术讨论会. 2023.
[2] 徐云洁, 胡韧奋. 汉语词汇丰富性的自动分析研究. 数字人文与阅读分级学术研讨会. 2023.
欢迎转发、扩散、引用!
扫码可跳转填写申请
推 荐
2023-09-02
2023-09-02
2023-09-02
2023-09-01
2023-09-01
2023-09-01
2023-08-31
2023-08-31
2023-08-30
2023-08-29
欢迎加入
今日小编:心得君
审 核:心得君
转载&合作请联系
"心得君"
微信:xindejun_yyxxd
点击“阅读原文”可跳转申请