查看原文
其他

“夫人少”是什么意思?用机器翻译《江苏文库》,答案很酷!

文脉君 江苏文脉 2023-10-11

当古汉语翻译成英语,还能表达出原来的意思吗?

来猜一猜下面两句英语是哪首你背过的诗:

01

Before, phoenixes used to hang out at Phoenix Terrace.

They’re gone leaving terrace empty and river flowing.

点击空白处查看答案


凤凰台上凤凰游,

凤去台空江自流。

(《登金陵凤凰台》李白)

02

Half of Three Hills at distant blue sky is obscured by mist.

River is split into two in the middle by White Heron Islet.

点击空白处查看答案


三山半落青天外,

二水中分白鹭洲。

(《登金陵凤凰台》李白)

这些诗句你都猜对了吗

将古汉语直接翻译成现代汉语、英语,如今,学者们正在探索交给翻译机器来解决。

近日,第一届古代语言机器翻译研讨会在中国澳门举行,古代汉语机器翻译国际评测(EvaHan2023)也在会上正式公布结果。本次评测与凤凰出版传媒集团进行合作,将《江苏文库》部分内容作为机器翻译评测语料,进行了《江苏文库》深度数字化工作的有益尝试。

为什么选择《江苏文库》作为测试内容?

机器翻译《江苏文库》准确度如何?一起来看看吧。

《江苏文库》数字化项目

携手机器翻译国际评测

古代汉语机器翻译国际评测(EvaHan2023)由南京师范大学、南京农业大学、南京理工大学的计算语言学和数字人文研究团队共同组织,是国内外首次古汉语机器翻译公开评测活动,目的是增进国际范围内古汉语数字化研究者的交流,推动古汉语自然语言处理技术的发展。中国科学技术信息研究所、北京大学、南京大学、香港中文大学、北京理工大学、华南理工大学、上海理工大学、南京中医药大学等高校与科研机构组队参赛。

著名计算语言学家冯志伟对古文机器翻译的历史与价值

北京大学研究员俞敬松对北大古汉语信息处理系统的报告

本次活动历时三个月,专注于古代汉语到现代汉语和英语的机器翻译评测,评测所使用训练语料选自先秦典籍、二十四史以及《资治通鉴》的双语数据,其中“古汉语—现代汉语”30万句对,“古汉语—英语”5900句对,由南京农业大学教授王东波主持的国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组精加工而成。

测试语料选自《江苏文库·精华编》的《金楼子》和《后山谈丛》,共2000句。主办者采用国际权威的机器翻译译文质量BLEU评价指标对各参赛队的机器翻译质量进行评价。

南京师范大学文学院教授、语言大数据与计算人文中心负责人李斌,是第一届古代语言机器翻译研讨会组织者之一。他告诉文脉君,在评测结果中,华南理工大学和香港中文大学在“古汉-现汉”赛道上,BLEU值分别达到29.68和27.33,译文质量较好。但是在“古汉-英语”赛道上,各参赛队的BLEU值均未能超过13,说明古汉语翻译为英语仍是一个难题。

《金楼子》《后山谈丛》

为何成为指定测试语料

《江苏文库》中收录了超过1600种各类图书,为什么《金楼子》和《后山谈丛》能够获得青睐,成为这次比赛的指定测试语料呢?

《金楼子》是南北朝时期的一部重要子书,由梁元帝萧绎撰写。《后山谈丛》则是宋代文人陈师道撰写的一本笔记。

《江苏文库·精华编》收录的《金楼子校笺》

李斌透露,选择这两本书作为测试语料其实有很多考量。

比如《论语》《孟子》等比较知名的书籍,已经出版了双语版本,在互联网上也早有了相关的双语数据,可能会被直接抓取过来,影响比赛中翻译的结果。“所以如果我们评测语料使用已有的电子文档,就容易产生作弊。”《江苏文库》中收录的《金楼子》和《后山谈丛》,在网上找不到人工翻译的中英文译本,可以保证比赛建立在一个客观公平的基础上。

《江苏文库·精华编》收录的《后山谈丛》

《金楼子》和《后山谈丛》的“优势”不止于此。

李斌说,从创作时间上看,《金楼子》是南北朝时期的一部重要子书。而《后山谈丛》的创作时代则晚一点,是宋代的。“这两本书我们都尽量选早一点的、不太‘白话’的,用这种比较典型的文言文来进行机器翻译的评测。”

而从内容上看,《金楼子》和《后山谈丛》两本书的内容并不是诗词,而是偏记录历史的文人笔记,“原文丢失语义的情况不像诗词那么严重,更适合机器去翻译。”

确定了测试语料,如何比较出参赛队伍机器翻译结果的好坏?李斌表示,主办方专门组织相关专家进行翻译,特别是古汉语转英语的部分,完全是重新翻的。“由人工翻译出的结果作为答案,然后让机器去对比,从而判断打分。”

古汉语翻译难在哪?

古汉语翻译难在哪里?“古今汉语在词汇与语法方面都有一些差异,翻译难度比较大。特别是有些词古今都有,但意义不同。”李斌举了《后山谈丛》中的一个例子,比如“夫人少而分髻,长则合而未冠,今人犹然”这一句。

“夫人少”三个字意思为“人年少的时候”,机器翻译起来难度很大。首先,“夫人”这个词古代是分开的,“夫”是发语词,用在句子开头。“少”则有年级小,数量少等多种意思,需要在不同的上下文翻译为不同的意思。

在“古汉-现汉”赛道上,华南理工等团队的系统翻译为“人年少时分开发髻,长大后就束在一起而未行冠礼,现在的人也是这样。”

华南理工大学团队在比赛中获一等奖

自动翻译已经可以避免把“夫人”当作一个词来翻译,能够准确地翻译出“人年少”的含义。年长也翻译得比较妥帖。不足是“未冠”,在其他上下文也确有“未行冠礼”之意。在此处,还是翻译为“不戴冠”更好。

在英语翻译的时候也同样困难。香港中文大学的系统,可以正确将“夫人”分成两个词来翻译,但是在“人少”上,错误地翻译为数量少。

李斌说,他们也试着用ChatGPT来翻译这句话,“ChatGPT错误地将‘夫人’作为一个词,翻译为‘The lady’。”

李斌表示,当前古代语言机器翻译的最大困境在于,高质量古代语言数据资源严重稀缺,而且非常依赖古文专家的专业知识。“通过本次评测,我们发现古汉语机器翻译为现代汉语效果还是不错的。但是,古汉语翻译成英语效果还不太理想,以后可以将古汉语和英语中间再加入现代汉语作为中介语言,准确率可能会提高,但也可能会有一些信息损失。

推动中国传统文化在世界推广

古代语言是研究古代历史文化的基础,推动古代语言机器翻译的发展,是推动古籍活化利用的重要途径。随着人工智能技术的突破式发展,优秀传统文化的传承创新大有可为。同时,提高古汉语到英语的机器翻译技术也可以推动中国传统文化在世界范围内的推广。

李斌表示,“现在高校里有一些来学习古汉语的外国留学生,但总体来说比较少,主要因为以前不太有这种教材,留学生要把汉语学得很好,才能学古汉语。这个系统开发好了以后,未来古文教学也可以实时翻译。”

香港中文大学团队在比赛中获二等奖

据他透露,参与此次评测的香港中文大学,希望这个系统以后能够帮助他们去海量翻译古籍,还可以评估中国流失到海外的古籍,外国人翻译的效果如何。

据了解,《江苏文库》数字化工作前期已建成数据库网络平台,实现了数字出版与纸质出版基本同步。

顺应人工智能等技术和数字人文领域的快速发展,《江苏文库》也正进行深度数字化的探索,争取在影印文本转换、古汉语自动处理等领域取得突破。这次的机器翻译评测合作是一次有益的尝试,在国内外古汉语机器翻译研究领域扩大了《江苏文库》的影响,和学界建立了较为密切的联系。

李斌表示,目前他和王东波正在对相关技术进行考量,“等到技术成熟以后,希望未来可以给《江苏文库》的线上平台加上机器翻译的功能让更多来自世界各地的人阅读这些传世书籍,领略中华传统文化。”

文 | 现代快报+记者 张然 张文颖

图 | 部分图片由李斌提供

视频 | 现代快报+记者 钱念秋

江苏文脉整理研究与传播工程
工作委员会办公室
和现代快报联合推出“江苏文脉”微信公众号
 ↓↓↓
长按即可关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存