[摘要]本文基于SCI、SSCI和A&HCI三大论文引文索引近十年的数据进行了语种分布、学科分布和中国学者语言使用情况的定量调查。发现:当今学术研究领域呈现英语“一语独大”的现象,且由全球学者共同维护;其余语言分布极不均衡;中文地位在不同领域波动不定, 在自然科学领域和艺术与人文学科中位于第二集团,在社会科学领域中较差。本文认为这一现象的原因在于发表平台对成果语言选择的制约,并认为提升国际学术研究领域中文地位是为了增强中文的知识容纳能力。本文提出提升中文地位的途径在于强化中文成果发表平台建设,培养中国学者的语言意识。
[关键词]学术语言;中文地位;学科分布;对策
当前中国学者成果的国际化水平快速提高,高水平成果发表数量已跻身全球第一集团。然而中文在国际学术领域中的地位和中国学者的巨大影响力极不匹配。母语在国际上的使用率是影响国际学术话语权的客观因素之一,从这个角度上来说,对我国学术话语权的认识,需要调查语言使用情况来加以补充。此外,通过调查国际主要论文索引中不同语言论文的数量,可以定量描述不同语言的使用情况,并确定各语言在国际学术研究领域中的生态位。一种语言在国际学术研究领域的影响力是该语言国际影响力的重要组成部分。这种影响力可以通过对学术成果的语言选择进行统计来测量和分析。本文对具有较大国际影响力的论文引文数据库科学网(Web of Science, WoS)近十年收录的论文进行了语种分布、学科分布和中国学者的语言使用调查。发现高水平学术成果的语言使用呈现持续而稳定的英语“一语独大”现象。其余多种非英语语言分布极不均衡,在使用频率上形成了多个集团,且差异明显。中文地位在不同学术领域波动不定,中国学者开始使用中、英以外的语言进行论文发表。本文基于此种现象,提出了提高学术研究领域中文地位的若干建议。本研究数据来源于科学网(Web of Science, WoS)数据库。该数据库由美国科学信息研究所创办,收录了“科学引文索引”(SCI①)、“社会科学引文索引”(SSCI)与“艺术与人文引文索引”(A&HCI)的所有来源期刊。科学网检索平台对2008年至今(SCI为2013年至今)的数据提供文献数量、文献元信息和征引情况的查询,目前收录40多个国家、50种语言的学术文章。因而通过对该平台数据库的语种调研可以反映当前国际学术界中成果发表的语言使用情况。本研究采用文献计量法,回溯年代为2010~2019①②。本文使用科学网检索平台,数据库选取SCI、SSCI与A&HCI,对过去10年间的国际论文发表情况进行调查。科学网检索平台涵盖中、英、德、法、西、俄等50种语言③。本文对所有成果从语言和作者地址两方面进行了调查。必须说明的是,作者地址中包含中国,也涵盖了中外合作的成果,即多名作者中可能只有一部分作者来自中国④。这种情况在自然科学领域中更加常见。语言的分布以该语言写作的发表成果的篇数(而非字数)来计算。暂不考虑单篇的篇幅和被引用、转载情况。表1~3分别是“自然科学引文索引”“社会科学引文索引”和“艺术与人文科学引文索引”中使用最多的30种语言的分布与占比。表4为三大引文索引数据加和后的总排名。根据调查结果,可以观测到在三大索引中语种分布呈现极大的不均衡性。英语占据绝对优势,其余语言之间的差异也十分明显,呈现多集团分布的态势。如表1所示,在“自然科学引文索引”数据库中英语成果呈现出压倒性多数(98.1%),所有其余49种语言成果总和仅占1.9%。除英语外占比超过0.1%的语言有德语、西班牙语、中文、法语和葡萄牙语,形成了第二集团。波兰语、日语、俄语、土耳其语、匈牙利语、捷克语、朝鲜语、意大利语占比均超过0.01%,形成第三集团。荷兰语、克罗地亚语、阿拉伯语、拉丁语等占比低于0.01%的语言形成了第四集团。前三位语言(英、德、西)的累积覆盖率超过99%。在“自然科学引文索引”中,中文成果占比位列第四(0.28%),仅次于英语、德语和西班牙语,略微超过第五名法语(0.27%)。但是距离第三名西班牙语(0.33%)有较大差距,在第二集团中居中间位置。
表1 “自然科学引文索引”中使用最多的30种语言分布与占比
如表2所示,在“社会科学引文索引”数据库中,趋势相似,但英语的优势地位略弱于“自然科学引文索引”,英语之外的语言分布则更加不均衡。英语成果占96.2%,其余语言占比总和为3.8%,比例为“自然科学引文索引”中的两倍。但除英语外的其他语言中,分布差异较自然科学领域更大。德语和西班牙语分别占比1.09%和1.08%,是唯二超过1%的语言,也占据了非英语成果总数的六成,形成了第二集团。第四名法语占比不足西班牙语的一半,仅0.49%。葡萄牙语和俄语是另外两种占比超过0.1%的语言,和法语共同组成了第三集团。排名第7到20的捷克语、荷兰语、意大利语、日语、韩语等14种占比大于0.01%的语言构成了第四集团。中文则位于第22位,仅占全数据集的0.006%。前三位语言(英、德、西)的累积覆盖率超过99%,即绝大多数学术成果使用这三种语言发表。
表2 “社会科学引文索引”中使用最多的30种语言分布与占比
如表3所示,在“艺术与人文学科引文索引”数据库中,英语依然占据优势地位,但大大弱于前述两个索引,仅占75.3%。其余语言占据了24.7%的份额。法语、德语、西班牙语、意大利语、俄语五种语言占比均超过1%,形成第二集团。其中法语和德语占比分别达到了8.2%和6.0%,超过了非英语成果总数的一半。排名第7至16位的葡萄牙语、捷克语、荷兰语、中文、克罗地亚语、瑞典语等10种语言占比超过0.1%。其中中文位列第10位,居于第三集团的上游。排名第17到24的斯洛文尼亚语、爱沙尼亚语、韩语、拉丁语等占比超过0.01%的8种语言构成了第四集团。前五位语言的累积覆盖率超过99%,中文未在其内。
表3 “艺术与人文引文索引”中使用最多的30种语言分布与占比
如果将三大引文索引数据库成果数量相加,并进行语种排序则得到表4所示结果。由于“自然科学引文索引”数据远远大于其余两大引文索引,所以总分布趋势更接近于自然科学领域的分布。英语成果占到成果总数量的96.2%。除英语外,德语是唯一成果数量超过1%的语言(1.1%);排位第3到8的法语、西班牙语、中文、意大利语、葡萄牙语和俄语占比超过0.1%,构成第二集团。其中中文位列总排名第五位,居于第二集团上游。前5位的语言累积频率达到99%,中文位列其内。在小语种里,值得注意的是拉丁语。它是唯一退出了日常交际,但在三大学术索引数据库中均进入了前30名的语言。可见其作为科学、人文和艺术知识的承载语言依然在发挥重要的作用。
总的来说,近10年来学术研究领域在语言选择上呈现了以下现象:
英语的“一语独大”现象是稳固的,不受学科的影响。就英语的地位而言,自然科学>社会科学>艺术与人文学科。
英语之外的各种语言使用分布极不均匀。排除英语后,一般有两种优势语言占据剩下份额的一半以上。通常是德语、法语或西班牙语。前5位的语言(英、德、法、西、中)可以覆盖99%以上的成果。
学术成果的语言使用呈现集团化。在自然科学和艺术与人文学科中中文处于第二、三集团,而在社会科学领域中的地位则较低。按照李宇明、王春辉(2019)的分类,除英语是国际通用语言外,第二、三集团的语言基本都是地区通用语,但阿拉伯语等洲际语言未能进入前30名。
对于每个领域,掌握前20种语言即可获得几乎全部该领域的知识。而三大索引中排名前20位的语种差异很小。这证实了李宇明(2020)的判断,即大部分人类科技、文化知识是被20种左右的大语言承载。
学术成果的语言使用分布接近于幂律分布。这一无标度性暗合了齐普夫定律(及其背后的最省力原则),即该分布是平衡写作者和阅读者代价而形成的纳什均衡。其严格证明和具体的形成机理则需要进一步探索。
作者简介
饶高琦,北京语言大学汉语国际教育研究院助理研究员,博士,主要研究计算语言学、语言政策与规划。夏恩赏,北京语言大学汉语国际教育研究院硕士研究生,主要研究计算语言学、数字人文。李琪,北京语言大学汉语国际教育研究院硕士研究生,主要研究计算语言学、语料库语言学。*本研究得到2018年度国家语委规划项目“语言信息处理技术评测的规划与开展”(YB135-90)资助。
本期责编:李欧丽