查看原文
其他

绿色思考着呢喃的湮灭 | 《中文信息学报》2018年第2期

汉语堂 2020-01-18

The following article comes from 中文信息学报 Author 中文信息学报


 ↑点开查看清晰大图  


点击|阅读原文|获取当期全文


本期配图全部来自电影《湮灭》剧照~我们很喜欢娜塔莉·波特曼和原著

综述

 

✦ 网络传播信息内容的可信度研究进展


作  者:吴连伟,饶 元,樊笑冰,杨 浩

摘  要:网络中存在着大量的谣言、偏激和虚假信息,这对网络信息的质量、可信度以及舆情的产生与发展趋势具有严重的负面影响。为实现信息可信度的准确判断与高效度量,该文在大量已有最新研究成果与文献的基础上,将不可信信息分为极端突发事件信息、网络偏激信息、网络谣言、虚假信息、误报信息和垃圾信息等类型,并分别针对这些类型信息从分类定义、内容特征描述、可信度建模以及可信度评测等四个方面进行研究综述,从而为网络传播中信息内容的可信度分析与度量研究奠定坚实基础。最后,进一步对信息可信度研究的发展方向进行展望。

关键词:社交网络;信息可信度;可信度计算;信息特征抽取

引用格式:吴连伟,饶元,樊笑冰,杨浩. 网络传播信息内容的可信度研究进展[J]. 中文信息学报,2018,32(2): 1-11,21.

WU Lianwei,RAO Yuan,FAN Xiaobing,YANG Hao. A Study onthe Credibility of Information Spreaded on Social Networks[J].Journal of Chinese Information Processing,2018,32(2):1-11,21.

点击|阅读原文|获取当期全文


语言分析与计算

✦ 汉语的语素概念提取与语义构词分析


作  者:刘 扬,林 子,康司辰

摘  要:作为基础的表义单位,语素及此上的构词分析,既是汉语作为意合语言进行语义分析的起点,也是认知、理解词义的关键。该文提出了一种探寻汉语语义基元和分析词义的新的视角和方法: 基于语素义相似度计算形成“同义语素集”,用来表征“语素概念”,并借鉴生成词库理论形成“语素概念体系”;建立在此基础上的汉语语义构词分析,在全局性语义分析、数据挖掘等方面也有新的进展。这些思路、做法及语言资源建设,有望推动人文领域和计算应用等相关工作的开展。

关键词:语素;语素义;语素概念;语义基元;语义构词

引用格式:刘扬,林子,康司辰. 汉语的语素概念提取与语义构词分析[J].中文信息学报,2018,32(2): 12-21.

LIU Yang, LIN Zi, KANG Sichen. Towards a Description of Chinese Morphemic Concepts and Semantic Word-formation[J].Journal of Chinese Information Processing,2018,32(2):12-21. 

点击|阅读原文|获取当期全文



✦ 一种基于聚类与分类结合的汉语隐喻短语识别方法


作  者:符建辉,王 石,曹存根

  要:隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。

关键词:隐喻短语识别; 中文隐喻短语; 短语聚类

引用格式:符建辉,王石,曹存根. 一种基于聚类与分类结合的汉语隐喻短语识别方法[J]. 中文信息学报,2018,32(2): 22-28,49.

FU Jianhui,WANG Shi,CAO Cungen. Chinese Metaphor Phrase Recognition via Combining the Clustering and Classification[J].Journal of Chinese Information Processing,2018,32(2): 22-28,49. 

点击|阅读原文|获取当期全文


词法、句法、语义分析


✦ 基于双向LSTM神经网络模型的中文分词

作  者:金 宸,李维华,姬 晨,金绪泽,郭延哺

  要:中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的分词是基于传统的机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型无法长期依赖信息的缺点,被广泛应用于自然语言处理的各种任务中,并取得了不错的效果。对中文分词,该文在经典单向LSTM模型上进行改进,增加了自后向前的LSTM层,设计了双向LSTM模型,改进了单向LSTM对后文依赖性不足的缺点;并引入了贡献率α,对前传LSTM层和后传LSTM层的权重矩阵进行调节,并设计了四个实验,验证了所建模型的正确性和优越性。

关键词:中文分词;自然语言处理;双向LSTM;贡献率

引用格式: 金宸,李维华,姬晨,金绪泽,郭延哺. 基于双向LSTM神经网络模型的中文分词[J].中文信息学报,2018,32(2): 29-37.

JIN Chen, LI Weihua,JI Chen, JIN Xuze, GUO Yanbu. Bi-directional Long Short-term Memory Neural Networks for Chinese Word Segmentation[J].Journal of Chinese Information Processing,2018,32(2): 29-37.

点击|阅读原文|获取当期全文

✦ 基于带约束语义文法的领域相关自然语言理解方法

作  者:王东升,王 石,王卫民,符建辉,诸 峰

  要:开放域问答系统通常可以借助一些数据冗余方法来提高问答准确性,而对于缺乏大规模领域语料的领域相关问答系统来说,准确理解用户的意图成为这类系统的关键。该文首先定义了一种带约束语义文法,与本体等语义资源相结合,可以在词汇级、句法级、语义级对自然语言句子的解析过程进行约束,解决自然语言理解歧义问题;然后给出了一个高效的文法匹配算法,其首先依据定义的各种约束条件预先过滤一些规则,然后依据提出的匹配度计算模型对候选的规则进行排序,找到最佳匹配。为了验证方法的有效性,将方法应用到两个实际的应用领域的信息查询系统。实验结果表明,本系统提出的方法切实有效,系统理解准确率分别达到了82.4%和86.2%,MRR值分别达到了91.6%和93.5%。

关键词:领域本体;语义文法;约束;问答系统

引用格式:王东升,王石,王卫民,符建辉,诸峰. 基于带约束语义文法的领域相关自然语言理解方法[J].中文信息学报,2018,32(2): 38-49.

WANG Dongsheng,WANGshi,WANG Weimin,FU Jianhui,ZHU Feng. Domain-specific Natural Language Understanding Based on Ontology and Constrained Semantic Grammar[J].Journal of Chinese Information Processing,2018,32(2): 38-49.

点击|阅读原文|获取当期全文


✦ 基于深度神经网络的语义角色标注

作  者:王明轩,刘 群

  要:该文提出了一个基于多层长短期记忆神经网络的语义角色标注方法,并装置了新颖的“直梯单元”(elevator unit,EU)。EU包含了对单元内部输入和输出的线性连接,使信息可以通畅地在不同层之间传播。通过EU,一个20层的LSTM网络可以得到比较充分的优化。重要的是,这个线性连接包含的“门”函数可以正则和控制信息在时间方向和空间方向上的传播。不同层次的抽象信息也可以被EU直接带到输出层进行语义角色标注。尽管这个模型非常简单,不需要任何额外的特征输入,但是它取得了理想的实验结果,在CoNLL-2005公开数据集上取得了F=81.56%的结果,在CoNLL-2012公开数据集上取得了F=82.53%的结果,比之前最好的结果分别提高了0.5%和1.26%。另外,在领域外的数据集上我们也取得了F值2.2%的显著提升,这是当前世界上最好的性能。该模型比较简洁,非常容易实现和并行,在单一的K40 GPU上取得了每秒11.8K单词的解析速度,远远高于之前的方法。

关键词:语义角色标注;深度学习

引用格式:王明轩,刘群.基于深度神经网络的语义角色标注[J].中文信息学报,2018,32(2): 50-57.

WANG Mingxuan,LIUQun. A Simple and Effective Deep Model for Semantic Role Labeling[J].Journal of Chinese Information Processing,2018,32(2): 50-57.

点击|阅读原文|获取当期全文


  

语言资源建设


✦ 探索用户自然输入标记及其在构建分词语料库中的作用

作  者:张大奎,尹德春,汤世平,毛 煜,樊孝忠

  要:当分词算法优化到接近极限时,分词器的性能指标就较多地取决于训练语料的覆盖度和完备程度。因此,如何快速、省力、自动化地构建具有较完备的分词语料库是一个亟待解决的问题。该文对用户输入过程中留下的大量可用且珍贵的自然分词信息进行了探索和研究,为自动构建分词语料库提供了一种新的观点。前人的研究中,对用户在输入过程中留下的自然分词标记信息并没有关注,而该文通过实验验证了这些分词标记信息确实可以用于构建分词语料库,并且具有相当好的效果。其中经过甄别优秀用户在输入时留下的分词标记十分接近标准的分词结果。该文使用分类模型结合投票机制的方法找到三个此类优秀用户,获取了他们带有输入标记的文本,快速构建了分词训练语料库,极大地提升了分词器的精度;更重要的是,揭示并验证了自然输入分词标记信息的有效作用。

关键词:自然输入标记;中文分词;用户输入;分类模型;投票机制

引用格式:张大奎,尹德春,汤世平,毛煜,樊孝忠.探索用户自然输入标记及其在构建分词语料库中的作用[J].中文信息学报,2018,32(2): 58-65.

ZHANG Dakui,YINDechun,TANG Shiping,MAO Yu,FAN Xiaozhong.A Study on Natural TypingAnnotations for Building Corpus of Chinese Word Segmentation[J].Journal of Chinese Information Processing,2018,32(2):58-65.

点击|阅读原文|获取当期全文

少数民族语言及周边语言信息处理


✦ 韩国语定语从句句法特征分析及其自动识别

作  者:安帅飞,毕玉德,张 婷

  要:在自然语言处理(NLP)中,句法分析研究多集中于单句,也取得了很大的成功。复句处理仍是NLP面临的难点之一,如何将复句自动离析为单句日益受到研究人员的关注。该文从嵌套类复句入手,通过分析韩国语定语从句的句法结构特征,归纳总结其左右边界和内部构成的共现关系规则,构建定语从句识别规则集,在语料库中进行匹配运算,实现了定语从句的自动识别。复句成功离析为单句,为提高机器翻译等应用系统的效能打下了坚实的基础。

关键词:韩国语;定语从句;边界规则;共现关系;自动识别Syntactic

引用格式:安帅飞,毕玉德,张婷.韩国语定语从句句法特征分析及其自动识别[J]. 中文信息学报,2018,32(2): 66-74,80.

AN Shuaifei,BI Yude,ZHANG Ting.Syntactic Features of Korean Attributive Clause and Its Detection[J].Journal of Chinese Information Processing,2018,32(2):66-74,80.

点击|阅读原文|获取当期全文

✦ 基于情感词典的藏语文本句子情感分类

作  者:闫晓东,黄 涛

  要:该文通过借鉴中文及英文情感分析中基于极性词典的方法来对藏文句子文本进行情感分析。首先我们通过人工的方法构建了一个全面、高效的极性词典,包括基础词词典、否定词词典、双重否定词词典、程度副词词典以及转折词词典,将极性词与修饰词组合成极性短语作为极性计算的基本单元,并研究了转折词对句子情感极性的影响,提出了一种基于极性词典的藏语文本句子情感分析方法。实验结果表明,利用该文构建的词典进行的倾向性分析效果良好。

关键词:藏文;情感分类;情感词典

引用格式:闫晓东,黄涛. 基于情感词典的藏语文本句子情感分类[J]. 中文信息学报, 2018,32(2): 75-80.

YAN Xiaodong,HUANG Tao. Tibetan Sentence Sentiment Classification Based on Emotion Dictionary[J].Journal of Chinese Information Processing,2018,32(2): 75-80.

点击|阅读原文|获取当期全文


✦ THUUyMorph: 维吾尔语形态切分语料库

作  者:哈里旦木·阿布都克里木,孙茂松,刘 洋,阿布都克力木·阿布力孜

  要:THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版http://uy.ts.cn/下载,题材内容包含新闻、法律、财经、生活等。语料库构建步骤为: 爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象。语料库包含10 596个文档、69 200个句子,词语类型为89 923个,分为词级和句子级两类标注,开源网址为http://thuuymorph.thunlp.org/。该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理的研究提供了有益的资源。

关键词:THUUyMorph;维吾尔语;形态切分

引用格式:哈里旦木·阿布都克里木,孙茂松,刘洋,阿布都克力木·阿布力孜. THUUyMorph:维吾尔语形态切分语料库[J]. 中文信息学报,2018,32(2): 81-86.

Halidanmu Abudukelimu, SUN Maosong, LIU Yang, Abudukelimu Abulizi. THUUyMorph: An Uyghur Morpheme Segmentation Corpus[J].Journal of Chinese Information Processing,2018,32(2): 81-86.

点击|阅读原文|获取当期全文

✦ 基于WFST的俄语字音转换算法研究

作  者:冯 伟,易绵竹,马延周

  要:在俄语语音信息处理的资源建设中,字音转换技术起到了至关重要的作用。该文尝试对基于SAMPA的俄语音素集进行改进设计,使标音结果能够反映俄语单词的重音位置及元音弱化现象。依据改进的新音素集构建了包含20 000词的俄语发音词典。在此基础上,实现了一种数据驱动的俄语字音转换算法,将加权有限状态转化器(WFST)应用于算法的对齐、建模和解码过程中。首先利用期望最大化算法以“多对多”的方式对俄语字音进行对齐,然后将对齐结果通过联合N-gram模型训练,并转化为WFST发音模型,最后通过WFST解码算法对任意单词的发音进行预测。交叉验证实验结果表明,平均词形正确率为62.9%,平均音素正确率为92.2%。

关键词:字音转换; 俄语;发音词典;加权有限状态转化器

引用格式:冯伟,易绵竹,马延周. 基于WFST的俄语字音转换算法研究[J]. 中文信息学报, 2018,32(2): 87-93,101.

FENG Wei, YI Mianzhu,MA Yanzhou. Algorithm of Grapheme-to-Phoneme Conversion for Russian Based on WFST[J].Journal of Chinese Information Processing,2018,32(2): 87-93,101.

点击|阅读原文|获取当期全文


信息抽取与文本挖掘


开放域上基于深度语义计算的复述模板获取方法


作  者:刘明童,张玉洁,徐金安,陈钰枫

  要:利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基于深度语义计算的关系模板聚类方法获取高精度的复述模板。我们在四类实体关系数据上的实验结果表明,该方法实现了关系模板的自动获取与自动聚类,可以获得语义相近度更高、表现形式多样的复述模板。

关键词:关系模板;复述模板;深度语义计算;自动聚类

引用格式:刘明童,张玉洁,徐金安,陈钰枫. 开放域上基于深度语义计算的复述模板获取方法[J].中文信息学报,2018,32(2): 94-101.

LIU Mingtong,ZHANGYujie,XU Jinan,CHEN Yufeng. An Open Domain Paraphrasing Patterns Acquisition Based on Deep Semantic Computing[J].Journal of Chinese Information Processing,2018,32(2): 94-101.

点击|阅读原文|获取当期全文


✦ 基于短语注意机制的文本分类


作  者:江 伟,金 忠

  要:基于词注意机制的双向循环神经网络在解决文本分类问题时,存在如下问题: 直接对词加权生成文本表示会损失大量信息,从而难以在小规模数据集上训练网络。此外,词必须结合上下文构成短语才具有明确语义,且文本语义常常是由其中几个关键短语决定,所以通过学习短语的权重来合成的文本语义表示要比通过学习词的权重来合成的更准确。为此,该文提出一种基于短语注意机制的神经网络框架NN-PA。其架构是在词嵌入层后加入卷积层提取N-gram短语的表示,再用带注意机制的双向循环神经网络学习文本表示。该文还尝试了五种注意机制。实验表明: 基于不同注意机制的NN-PA系列模型不仅在大、小规模数据集上都能明显提高分类正确率,而且收敛更快。其中,模型NN-PA1和NN-PA2明显优于主流的深度学习模型,且NN-PA2在斯坦福情感树库数据集的五分类任务上达到目前最高的正确率53.35%。

关键词:文本分类;循环神经网络;卷积层;注意机制

引用格式:江伟,金忠. 基于短语注意机制的文本分类[J].中文信息学报,2018,32(2): 102-109,119.

JIANG Wei, JIN Zhong.Text Classification Based on Phrase Attention Mechanism[J].Journal of Chinese Information Processing,2018,32(2):102-109,119.

点击|阅读原文|获取当期全文


✦ 使用深度长短时记忆模型对于评价词和评价对象的联合抽取


作  者:沈亚田,黄萱菁,曹均阔

  要:评价词和评价对象抽取在意见挖掘中是一个重要的任务,我们在句子级评价词和评价对象联合抽取任务上研究了长短时记忆(long short-term memory)神经网络模型的几种变种应用。长短时记忆神经网络模型是一种循环神经网络模型,该模型使用长短时记忆模型单元作为循环神经网络的记忆单元,它能够获得更多的长距离上下文信息,同时避免了普通循环神经网络的梯度消失和梯度爆炸的问题。我们对比了传统的方法,实验结果证明长短时记忆神经网络模型优于以前的方法,在细粒度评价词和评价对象的联合抽取中达到更好的性能。

关键词:循环神经网络;长短时记忆模型;评价词与评价对象联合抽取;深度学习;序列标注

引用格式:沈亚田,黄萱菁,曹均阔.使用深度长短时记忆模型对于评价词和评价对象的联合抽取[J].中文信息学报,2018,32(2): 110-119.

SHEN Yatian,HUANG Xuanjing,CAO Junkuo. Joint Extraction of Opinion Targets and Opinion Words Based on LSTM[J].Journal of Chinese Information Processing,2018,32(2): 110-119.

点击|阅读原文|获取当期全文



情感分析与社会计算


✦ 基于E-CNN的情绪原因识别方法


作  者:慕永利,李 旸,王素格

  要:文本情绪原因识别作为一个新型的研究方向在文本情绪分析领域占据重要地位。该文结合卷积神经网络,提出了一种基于集成卷积神经网络的情绪原因识别方法。该方法通过词向量、卷积、池化等操作充分融合了句子的语义信息,利用多个CNN集成降低数据不平衡性对情绪原因识别的影响,克服了传统情绪原因识别方法的繁琐规则制定、特征抽取、特征空间降维等过程。实验结果表明,该文的方法在情绪原因识别方面取得了较好的效果,对于情绪归因的方法研究具有一定的指导作用。

关键词:情绪原因识别;E-CNN;卷积;池化

引用格式:慕永利,李旸,王素格. 基于E-CNN的情绪原因识别方法[J]. 中文信息学报, 2018,32(2): 120-128.

MU Yongli,LI Yang,WANG Suge. Emotion Cause Detection Based on Ensembled Convolution Neural Networks[J].Journal of Chinese Information Processing,2018,32(2): 120-128.

点击|阅读原文|获取当期全文


✦ 基于多特征信息传播模型的微博意见领袖挖掘


作  者:张 米,张 晖,杨春明,李 波,赵旭剑

  要:在线社交网络中的意见领袖通常是指在社交网络的信息传播中具有较大社会影响力的个体。针对当前意见领袖挖掘方法中只考虑社交网络的拓扑结构和节点的个体属性,缺乏信息传播中交互特征的问题,该文提出了基于扩展独立级联模型,并融入网络结构特征、个体属性和行为特征的意见领袖挖掘模型(extended independent cascade, EIC)。该模型以个体属性、个体在信息传播过程中的交互行为建立加权的传播网络,利用改进的CELF(cost effective lazy forward)算法,挖掘网络中影响力较大的个体。通过实验验证,在意见领袖的扩展核心率指标上,该算法优于拓扑结构类算法,且具有较好的稳定性,同时并未降低意见领袖的传播范围。

关键词:独立级联模型;信息传播;传播模型;意见领袖

引用格式:张米,张晖,杨春明,李波,赵旭剑. 基于多特征信息传播模型的微博意见领袖挖掘[J]. 中文信息学报,2018,32(2): 129-138,146.

ZHANG Mi,ZHANG Hui,YANG Chunming,LI Bo,ZHAO Xujian. Microblog Opinion Leader Mining Based on a Multi-feature Information Diffusion Model[J].Journal of Chinese Information Processing,2018,32(2): 129-138,146.

点击|阅读原文|获取当期全文



自然语言处理应用


✦ 合CNN和结构相似度计算的排比句识别及应用


作  者:穆婉青,廖 健,王素格

  要:排比句具有结构紧凑、句式整齐、富有表现力等鲜明的特点,广泛应用在各种文体之中,在近几年语文高考的鉴赏类问题中也多有考察,但在自动识别方面的研究还鲜有涉及。该文依据排比句结构相似、内容相关的特点,以句子的词性、词语作为基本特征,设计了融合卷积神经网络和结构相似度计算的排比句识别方法。首先将词向量和词性向量融入句子的分布式表示中,利用多个卷积核对其进行卷积操作,设计出基于卷积神经网络的排比句识别方法。利用分句之间的词性串构造相似度计算,设计了基于结构相似度计算的排比句识别方法。同时考虑句子内部的语义相关性和结构相似性,将卷积神经网络和结构相似度计算方法融合,用于排比句的识别。对文学作品数据集和高考题中的文学类阅读材料数据集进行排比句识别实验,验证了该文所提的方法是有效的。

关键词:排比句;语义相关性;结构相似性;卷积神经网络

引用格式:穆婉青,廖健,王素格. 融合CNN和结构相似度计算的排比句识别及应用[J]. 中文信息学报,2018,32(2):139-146.

MU Wanqing,LIAO Jian,WANG Suge. A Combination of CNN and Structure Similarity for Parallelism Recognition[J].Journal of Chinese Information Processing,2018,32(2):139-146.

点击|阅读原文|获取当期全文



点击|阅读原文|获取当期全文



找不到想要的文章?

汉语堂文章可在关注公众号后回复“搜索”

春暖花开上工时:中文信息学报2018年第一期目录摘要

好大一棵树:中文信息学报2017年第五期目录与摘要

有人在搞大动作:中文信息学报2017第6期目录摘要

煮菜论英雄:语言教学与研究2018年第2期目录与摘要

寒假别闲着 | 语言教学与研究第1期目录摘要

潜入深海:语言教学与研究2017岁末刊目录与摘要

前浪就要死在沙滩上啦!《语言教学与研究》第五期目录与摘要

帅得飞起来!| 语言教学与研究2017第4期摘要

上工啦,上工啦! | 《世界汉语教学》2018年第1期目录与摘要

十月奋斗:世界汉语教学2017年第4期目录与摘要

暑假来了,快学习!《世界汉语教学》2017年第3期摘要

要啥有啥:《世界汉语教学》17年第2期目录与摘要

语言学到底是个啥子学科?| 语言战略研究第1期目录摘要


汉语堂

文摘、讲座、观点

专注语言文字领域的大数据!



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存