其他
专家观点||国内60年机器翻译研究探索
国内60年机器翻译研究探索——基于外语类核心期刊的分析
一 引 言
机器翻译 (Machine Translation, MT) 又称自动翻译或计算机翻译, 是涉及词典编纂学、语言学、计算语言学及计算机科学基础的多学科研究领域。自1949年Weaver正式提出机器翻译的概念以来, 不同研究领域的学者对机器翻译提出了不同的定义。Rao认为机器翻译是研究自然语言之间转换的设计系统[1]。Koehn提出机器翻译是使用计算机自动地将一种语言转化为具有完全等同意义的另一种语言的过程[2]。以上的定义内容都提到了机器翻译的重要组成部分, 即输入语 (源语) 和输出语 (目标语) , 但均忽略了翻译过程中是否有人工参与的环节。Stiegelbauer从人机交互的角度认为机器翻译是利用先进技术实施没有人工参与的自动翻译[3]。随着机器翻译技术的不断发展, 机器翻译方法历经了由生成语言学为基础的规则方法向以数据驱动为基础的语料库方法的转变, 机器译文的质量和可读性得到了极大提升与改善。机器翻译质量的大幅提升及全球化发展带来的大量翻译需求使得机器翻译在许多场景中成为辅助或替代人工翻译的有效手段, 机器翻译研究逐渐引起译学界的普遍关注。我国的机器翻译研究始于1956年[4], 多年来学者们在机器翻译的基础性和应用性研究方面取得了丰硕成果。作为翻译辅助手段之一, 机器翻译深刻影响着翻译学的研究范式, 并成为翻译学研究领域内的重要内容[5]。近年来, 我国译学界主要从微观角度对国外机器翻译的研究成果作了梳理, 如, 冯全功等提出译后编辑的研究焦点, 包括译后编辑评估研究, 机器翻译错误识别与译后编辑工具研发和译后编辑能力与译后编辑者的培养等话题[6]。王湘玲等评介分析了2000年以来国外机器翻译译后编辑的研究热点, 含译后编辑过程及产品评估、译后编辑效率影响因素、译后编辑工具与译后编辑者及人才培养,并进一步指出未来发展趋[7]。国外机器翻译译后编辑研究取得的丰富成果应对国内翻译学界产生积极推动作用。本文拟分析国内翻译学界探索机器翻译研究的整体性历程,旨在为我国机器翻译译后编辑研究提供启示。国内译学界探索机器翻译研究的动态是怎样的?机器翻译在翻译学中的研究热点及趋势如何?本文将对这些问题展开系统分析与讨论, 并借助科学计量分析工具CiteSpace着力分析60年来 (1956-2016) 在外语类核心期刊上发表的有关机器翻译研究的文献, 绘制关键词共现知识图谱, 以量化和可视的方式呈现机器翻译在译学界的研究动态和热点。同时, 本文还结合了近两年的研究发现展望了机器翻译在翻译学研究中的应用及发展趋势。二 数据来源及研究方法
(一) 数据来源及选取依据
本文选取CNKI收录的外语类核心期刊作为数据来源, 这是因为与研究报告、专著、教材和学位论文等文献相比,期刊论文通常可以较快和全面地揭示某一研究领域的前沿和热点。同时,基于本文旨在分析国内译学界对机器翻译研究的探索, 为了保证数据的可靠性和权威性, 选取依据为翻译类专业期刊和外语类设有翻译研究栏目的期刊, 经过初步筛选, 选定《外语研究》《外语电化教学》《外国语》《外语学刊》《外语界》《外语教学与研究》《外语与外语教学》《中国外语》《解放军外国语学院学报》《中国翻译》《中国科技翻译》和《上海翻译》12种刊物。这些刊物均为外语类核心刊物,所刊发的论文质量经过了严格审核把关, 可以在一定程度上代表国内翻译学界对机器翻译研究的探索历程。我国的机器翻译研究始于1956年,在后来的《科学发展纲要》、“六五”“七五”“八五”和“863计划”中机器翻译均被列为重点发展项目[8]。因此, 我们在登录CNKI平台时, 将时间区间设定为1956-2016年,以分析60年来译学界就机器翻译开展的相关研究, 检索主题词为“机器翻译”, 实施全文检索。随后, 我们对检索到的文献进行数据筛选, 剔除了会议通知、刊发目录、期刊动态、会议简讯、期刊征稿和广告等非论文性信息, 再通过阅读摘要的方式剔除重复性或不相关信息, 最终获取有效文献114篇。(二) 研究方法
本文采用具有文献识别与可视化图谱呈现功能的软CiteSpace进行文献分析。该软件绘制的科学知识图谱可以显示知识单元或知识群之间的结构、互动、交叉、演化或衍生等诸多隐含的复杂关系, 同时又可以将一个知识领域的演进历程集中展现在引文网络图谱上, 并把图谱上作为知识基础的引文节点文献和共引聚类所表征的演进前沿自动标识出来[9]。知识图谱作为文献内容可视化的科学计量方法之一,已经成为研究科学共同体结构与发展的主流方法, 并被广泛应用于各学科领域的可视化研究中[10]。我们将获取的有效文献按照操作程序依次导入CiteSpace III软件平台, 选择时间跨度 (Time Slicing) 为1956-2016, 时间分区 (Year Per Slice) 设定为1年, 主题来源 (Term Source) 选择“Title, Abstract, Author Keywords, Keywords Plus”, 节点类型 (Node Types) 选择“keyword”, 选择标准 (Selection Criteria) 中选择阈值30, 采用最小剪枝法进行剪裁, 最后生成作者知识图谱, 关键词共现和时间轴图谱。三 研究结果与分析
(一) 发文量统计
由图1折线图可见, 我国译学界对机器翻译的研究基本经历了四个阶段, 即20世纪50年代的萌芽期, 20世纪60-70年代的停滞期, 20世纪80-90年代的缓慢发展期和2000年以后的快速发展期。1954年IBM公司与美国乔治城大学合作研发的第一代俄英自动翻译系统公开亮相。1958年中国科学院语言研究所与计算技术研究所研制出我国第一台基于词典和语法规则的俄汉机器翻译系统。1959年北京外国语学院俄语系俄汉机器翻译研究组在《外语教学与研究》上发表“俄汉机器翻译中的语言分析问题”一文[11]。据统计,这是外语类核心期刊上刊发的第一篇有关机器翻译研究的文章,文中详细阐述了俄汉翻译系统的架构及组成部分。可见, 我国的机器翻译研究起步较早, 几乎与国外研究保持同步。由于第一代翻译系统主要是基于词典词条, 设计较为粗糙和原始, 翻译效果较差。1964年美国政府成立了语言自动处理咨询委员会 (Automatic Language Processing Advisory Committee, ALPAC) 对机器翻译进行了全面的调查分析与测试评价, 并于1966年发布报告全面否定了机器翻译的可行性, 这使得机器翻译研究在随后的数年内陷入了停滞状态[12]。由图1可见我国的机器翻译研究在20世纪60-70年代也基本上处于停滞不前的状态。80-90年代机器翻译研究逐步得到恢复, 美国, 俄罗斯和日本的研究学者们相继开发出REVERSO, SYSTRAN和ALLAS2等一系列机器翻译系统。与此同时, 我国的机器翻译研究也进入了重要的发展时期, 在1987年和1992年分别研制成功“KY-1” (科译1号) 英汉机译系统和“IMT/EC863”英汉机译系统[13]。这一时期译学界共发表相关论文29篇。与20世纪60-70年代相比, 80-90年代的发文量有所增加, 但增幅不大。2000年以来, 机器翻译技术快速发展, 以谷歌公司为代表的统计机器翻译系统, 日本京都大学研发的基于实例的MBT1和MBT2翻译系统, 以及我国清华大学和哈尔滨工业大学联合开发的计算机写作和翻译集成的“达雅”系统等得到了广泛应用[14]。这一期间机器翻译相关研究蓬勃发展, 国内译学界共发表学术文章81篇, 年平均发表量达到5篇左右, 约占到总发文量的70%。 图1 1956-2016年度发文量统计
(二) 作者知识图谱
作者知识图谱有助于了解某一学科领域内作者群之间的合作关系及核心研究群体。由CiteSpace III生成的作者知识图谱 (图3) 中共包含节点138个, 每一节点代表一位研究者, 节点间的连线表示存在合作关系。节点越大, 作者的影响力越大。由图3可见, 冯志伟、张政、黄人杰、吴康迪、冯全功和崔启亮等人的节点较大, 表明这些作者在推动国内机器翻译研究和发展上做出了重要贡献。不过, 图3中各节点分布较为分散, 之间连线较少, 说明学者之间的合作研究还较少。学者之间, 以及学界与行业界之间尚需进一步加强合作交流, 以促进机器翻译研究的跨学科发展, 推动科研成果的增长和创新。(三) 关键词共现知识图谱
关键词既体现研究主题, 又高度概括了研究内容, 分析论文关键词可了解该领域的研究热点[15]。关键词知识图谱中每个节点代表一个关键词, 节点大小与该关键词的出现频次成正比。关键词出现频次越多, 节点越大, 反之则越小。关键词节点之间的连线表示关键词之间的共现关系, 连线越粗表明关键词共现频次越高。图4展示了1956-2016年来国内翻译学界探索机器翻译研究的热点, 以“机器翻译”这个最大节点为中心构成一个基于高频关键词的共现网络知识图谱。图中出现频次较多的关键词依次是“机器翻译”“机器翻译研究”“译后编辑”“计算语言学”“语料库”“译文质量”“自然语言处理”“统计机器翻译”“句法分析”“科技翻译”“翻译系统”“翻译技术”和“翻译记忆”等。这些关键词代表了1956-2016年间国内翻译学界普遍关心的核心话题, 见表1。表1 频次前20的关键词与中心度
序号 | 关键词 | 频次 | 中心度 | 序号 | 关键词 | 频次 | 中心度 |
1 | 机器翻译 | 47 | 0.75 | 11 | 科技翻译 | 4 | 0.12 |
2 | 译后编辑 | 8 | 0.07 | 12 | 机器翻译系统 | 3 | 0.12 |
3 | 机器翻译研究 | 6 | 0.19 | 13 | 翻译软件 | 3 | 0.01 |
4 | 译文质量 | 5 | 0.18 | 14 | 语义分析 | 3 | 0.24 |
5 | 句法分析 | 5 | 0.15 | 15 | 翻译记忆 | 3 | 0.23 |
6 | 翻译系统 | 5 | 0.14 | 16 | 翻译工具 | 3 | 0.23 |
7 | 机器词典 | 4 | 0.30 | 17 | 翻译质量 | 3 | 0.04 |
8 | 翻译技术 | 4 | 0.19 | 18 | 计算机辅助翻译 | 3 | 0.03 |
9 | 计算语言学 | 4 | 0.02 | 19 | 统计机器翻译 | 3 | 0.09 |
10 | 翻译人员 | 4 | 0.09 | 20 | 语料库 | 2 | 0.02 |
图5 机器翻译研究关键词时间轴图谱
四 结束语
本文采用科学知识图谱软件CiteSpace对国内12种外语类核心期刊60年间发表的有关机器翻译的研究论文进行了梳理与分析, 绘制出机器研究的关键词共现知识图谱。研究发现国内译学界对机器翻译研究的态势总体呈现为1950s的萌芽期,1960s -1970s的停滞期, 1980s-1990s的缓慢发展期和2000年以后的快速发展期。研究的阶段性态势主要与机器翻译技术的阶段性发展相关, 技术的发展已经深刻影响到传统翻译学的研究内容。从核心作者群来看, 尽管国内译学界已形成一批有影响力的研究人员, 但学者之间的合作研究还较少, 学科间的合作交流尚需进一步加强。在研究主题演变上,随着机器翻译技术的不断发展, 机器翻译研究主题历经了语义研究, 人机翻译质量对比分析和译后编辑等。机器翻译技术的不断发展促发了学者们对机器翻译在翻译教学中应用的思考, 诸如机器翻译背景下的翻译教学模式, 翻译能力和翻译人才培养研究等。该研究通过系统梳理我国译学界60年间在机器翻译研究上取得的丰硕成果及研究主题的演进过程, 可在一定程度上体现了我国译学界学者在机器翻译及其相关研究中的探索历程。尽管机器翻译技术取得了长足发展, 机器翻译质量得到了大幅提升, 但是与人工翻译质量相比, 机器译文质量尚存在较大差距, 机器翻译还面临着许多挑战与问题。本文也存在一些不足并将在后续研究中予以完善。首先,文章旨在分析国内译学界对机器翻译及其相关的研究探索,以列举的12种外语类核心期刊作为文献数据的主要来源,未有囊括国内学者发表在国际翻译学期刊或国内非外语类期刊上的研究数据, 如涉及机器翻译研究的计算机类期刊等,数据分析难免挂一漏万, 对研究动态的理解存在局限性。其次, 文章未与同期的国外机器翻译研究文献进行对比分析,研究热点及趋势的差异性对比体现不明显。因此,我们将在后续的研究中进一步扩大文献数据来源, 包括计算机类期刊和国际翻译学期刊等, 通过不同学科间和国内外研究文献的横纵向对比分析进一步探寻机器翻译研究的发展和应用趋势。本文来源:《湖南大学学报》
语言科学公号
邀您加入语言科学微信群
欢迎留言并分享至朋友圈