读书小札| 北京外国语大学施建军教授:《计量文体学导论》
计量文体学导论
导语
计量文体学是研究如何用统计学的方法分析文学作品中的文体特征。施建军教授归纳计量文体学的主要任务为以下研究命题:
1 特定作家风格的精密计算与描述
2 宏观语类特征的分析与归纳(比如学术论文、教材语言之间差异)
3 佚名作家作品鉴定
4 作品年代推断
5 作家文体风格历时变化
作者简介:施建军,北京外国语大学日本学研究中心教授、博士研究生导师。主要从事日语语言学、汉日语言对比、自然语言处理、计算机辅助日语教学等领域的教学和研究工作。在国内外学术刊物和学术研讨会上发表论文五十余篇,出版学术专著1部(日文撰写),参编学术专著数部。参加99年度国家社科项目《中日对译语料库的开发及应用研究》。主持2007年度教育部人文项目《汉日语料库通用分析工具的开发研究》。曾获2002年度宋庆龄基金会颁发《孙平化日本学学学术奖励基金》专著二等奖等省部级以上奖励3项。
读书小札
小编一直在关注语料库翻译学,特别是语料库翻译文体学的发展,所以对施建军教授2017年的新著特别有兴趣。一读果然发现了书中许多研究方法恰好针对了当下语料库翻译学的弊端:多数研究目前仅能运用描述性统计(比如词长、平均句长等最基本的参数),而鲜用推断性统计。这一点问题在小编近期发表的书评和研究论文里也是多次提到。现在,我就从书中举一个例子来说明当前研究方法的不足,以及文体计量研究的重要性。
案例1:统计词长就可以区分作家风格吗?
在这里小编就不去批评哪些研究只停留在不同词长的频数比较上了,我们主要看看如何深化词长比较研究。《计量文体学导论》里谈到了日本金明哲等人的一项研究:通过所有作品中单词词长的主成分分析,比较井上靖、中岛敦、三岛由纪夫三个人的作品风格。结果散点图显示没有明显区别。原因可能是跟文章内容有,于是研究者选择了普适性较强的动词进行主成分分析,结果研究就出现明显区分了。
好了,小编再安利一个主成分分析和因子分析的SPSS教学视频吧。
https://v.qq.com/txp/iframe/player.html?vid=h037801c558&width=500&height=375&auto=0
案例2: 统计特色词就可以区分作家风格吗?
小编分享的第二个案例就更有意思啦,这是80年代上海语言学界的一段“公案”!华东师大陈大康先生提出47个文言虚词可以鉴定《红楼梦》作者推断,包括之,其,或,亦等。1987年复旦大学李贤平先生发表了名为《红楼梦成书新说》的论文,文中采用陈大康提出的47个虚字为特征向量,用主成分分析、聚类分析等多种统计手段对《红楼梦》成书进程进行了分析,提出了多名作者的结论。次年,陈大康又撰文反驳,认为李贤平的研究缺乏客观标准。也许你会问,到底该听谁的啊?
施建军老师这本书里分析了李文统计分析可能存在的两个问题:一是47个虚字是否在测量古典文学作品作家风格上有效?二是李文对统计方法的使用和解释是否合理。从论文看,李文问题可能出在第二点上。当然,陈文提出的47个虚字也有待考证。于是,为了验证第一个疑点,施建军在书中用这47个虚字分析了同样具有争议的清代小说《儿女英雄传》、《儒林外史》。
方法是利用谈到的虚字在上述2个作品中各个章回中的频率分布为特征,对两步小说按照章回为单位进行聚类分析。结果发现,《儿女英雄传》所有的章回都归类为聚类2,《儒林外史》所有的章回都归类为聚类1。这至少说明了两点:(1)用陈文提出的虚字表来鉴定作者写作特征是有效的; (2)《儿女英雄传》作者与《儒林外史》作者在虚字使用上具有作家风格差异。
好啦,这次读书小札就分享到这里。各位看官,跟小编一起学好计量文体学,来拯救落后的研究方法论吧!
专著目录
目
录
第一章 绪论
第一节 什么是计量文体学 1
第二节 国内外计量文体学发展的历史和现状 2
第三节 文体的计量特征 5
第二章 计量文体学相关重要统计学概念
第一节 文体特征的频率、概率、条件概率 31
第二节 文体特征的平均值、中位数、众数 37
第三节 文体特征的方差、标准差 46
第四节 文体特征的相关系数 52
第五节 特征和文体的相互信息 69
第三章 文体计量研究相关重要概率分布和定理
第一节 文体特征随机变量的分布 82
第二节 文体计量研究相关的几个重要概率分布 88
第三节 文体分析中的大数定律和中心极限定理 99
第四章 文体计量分析中的抽样和抽样分布
第一节 文章的抽样调查和抽样方法 106
第二节 文体的统计量和抽样分布 116
第五章 文体计量分析中的参数估计问题
第一节 文体特征参数的点估计 126
第二节 文体特征参数范围的估计 131
第三节 文体特征平均值范围的估计 135
第四节 文体特征参数范围估计与作家风格比较 152
第六章 文体特征差异的假设检验
第一节 何为假设检验 165
第二节 文体特征假设检验的一般步骤 171
第三节 Z检验在文体分析中的应用 175
第四节 T检验在文体分析中的应用 180
第五节 虚词使用习惯的假设检验 190
第六节 x2检验在文体分析中的应用 195
第七章 文体风格个体性差异的方差分析
第一节 文体方差分析的基本原理 202
第二节 不同作家文体特征的方差分析 209
第三节 相同作家不同作品文体特征的方差分析 220
第八章 文体特征的多变量分析
第一节 文本的聚类分析 226
第二节 文体研究中文本聚类分析的有效性 230
第三节 聚类分析和古典文学作品的作者研究 234
第四节 文体研究中文本聚类分析的局限性 241
第九章 支持向量机技术和文学作品作者鉴别
第一节 支持向量机的基本原理 248
第二节 支持向量机技术研究古典文学作品作者的有效性 249
第三节 支持向量机技术和《红楼梦》作者研究 252
参考文献 261
本文编辑:同济大学博士生 王峰
点击阅读原文直通亚马逊本书购买链接
欢迎点赞,转发和打赏本文