其他

你上一次翻开一本纸质辞典是什么时候?

1857 年,几名隶属于一个叫“语言学会”的英国教会人员能买到的辞典不仅词条数量少得可怜,而且净是收录些生僻、奇怪的英文单词。于是,他们决定发起一项英语辞典的编撰计划。

1933 年,前后花了 71 年编写的牛津英语词典(Oxford English Dictionary,以下简称OED)第一版正式出版。其中,前 22 年是准备工作(1857 年至 1879 年),在实际编辑的 49 年间(1879 年至 1928 年),共经历了 4 个主编,编撰团队在英美登报招募了约 1300 个义工提供引句。第四任 OED 主编 James Murray 不得不在牛津大学旁建造了一座小小的“藏书阁”来收录这些雪片般的词条。

James Murray 博士。图片来自:Oxford Dictionary blog 


仅仅过了一个世纪不到,2010 年,OED 编辑部宣布代表当代英语语言权威的 OED 第三版很可能不会再出版纸质版本。

第一版 OED。图片来自:Bauman Rare Books


第二版 OED。图片来自:Centered Librarian


消息一出,除了一些唏嘘的声音,更多人认为这无关痛痒。对于习惯了生活在互联网和智能移动设备环境中的现代人来说,“查词”这一行为早就从翻阅纸质词典,变成了通过图像、语音、文字形式输入电脑或手机,仅需几秒钟,就能获得相应的答案。

主持牛津英语词典数字化工作的人叫 John Simpson,他在 1993 年至 2013 年间担任 OED 的主编。

准确的说法应该是:这个英国人在 1980 年代见证了 OED 语料库电子化的过程,并且从 1990 年代开始,主导了在线牛津英语词典项目和第二版牛津英语词典的编撰增补工作。

1976 年,从英国雷丁大学中世纪研究专业毕业的 John Simpson 以一名索引卡整理助手的身份自 1976 年进入牛津英语词典编辑部工作。如果你看过一部由同名漫画改变的电影《编舟记》,可能会对索引卡有个比较直观的了解。在辞典编辑人员普遍使用电脑录入数据以前,索引卡是词典编辑最重要的语料收集工具。这是一张一张的小卡片,每一张上面写着一个单词和单词的释义。

美国韦氏词典编辑部存放的索引卡。图片来自:Boston Globe


在 OED 的编撰过程中,每一个单词都必须经过收集记录、编写、查证、反复校对等过程,才能进入词典。在 OED 编辑部,负责编撰词条的编辑被分为普通词条、科学词条、新词词条,以及日耳曼语和法语类词条四种,他们都需要根据收集到的词语来源、使用的频率、还有在国际之间的流动性等等来决定这个单词有没有被收录的资格。在编写过程中,编辑团队还会产生更细的分工——比如专门会有编辑进行语音收录,通过电视、电影、广播等渠道来记录考证每个单词的读音。

这是一种持续了一百多年的做法——编辑和研究员在巨大的图书馆里上上下下,从一份份报纸或古书里查找每一个单词在历史上变化的细微足迹。然后恭恭敬敬地将它们排列在一张张薄薄的辞典专用纸上。

但对于 John Simpson 来说,他恰巧站在了时代变化的十字路口。

“回到 1989 年,当第二版 OED 出版后,我们开始从印刷材料里收集数据录入电脑。(牛津大学出版社雇佣了 120 个打字员花费 18 个月时间将收录了 67,000,000 个字符的第二版 OED 全部录入电脑,并采用了一种基础标签语言结构)当时我们把探索的方向放在了建立一个巨大的电子数据库上。1990 年代,数据库大体结构成型后,世界又变了。我们开始注意到万维网和互联网所带来的可能性——它能够改变我们一直以来使用的传统词典搜索和出版方式。”Simpson 在他的一本名叫 The Word Detective:A Life in Words: from Serendipity to Selfie 的回忆录中写道。

由于编撰词典的特殊性质,类似于“信息工匠”的编辑们是电子数据库技术的早期实践者。Simpson 透露,在 1980 年代,词典编辑就已经在开始接触 Lexis/Nexis 美国报纸数据库。他们渐渐习惯于用桌面上的电脑来搜索语料、录入数据。

1995 年,OED 团队又开始运用由美国密歇根大学开发的 Making of America 线上数据库——其中储存在密歇根大学资料库里关于美国早期书本、杂志的资料。这也是 OED 编辑们再一次从 CD 格式的数据库转向利用在线数据库。

2000 年,Simpson 和他的团队正式将 OED 搬上线。自那以后,编辑对词条的增补和修订都可以通过网络来进行,人们可以通过订阅的方式来获得 OED 最新的词条收录。

2000 年上线的网页版 OED。图片来自:ARIADNC


“当你去了解一个词语时,你会对最后它会呈现出一个什么样的产品有个大致的感觉。每个单词都是一首诗——小到像莎士比亚的十四行诗,大到像乔伊斯的《尤利西斯》。但当在电脑上编撰辞典时,我们越来越多地意识到,其实并不应该关注某个单独的单词,单独的单词就像‘语言’这张拼贴画上的某一块砖。在现在我们得以建立的语言网络里,你能够看见相比旧时期来说更清晰的、词与词之间的紧密关系。”2013 年,John Simpson 在接受《时代周刊》采访时说道。

所以,图书馆装载的纸质材料会随着电子数据的建立而消亡吗?John Simpson 也问过自己这个问题。

他不久就发现这种担心看上去有些多余,因为即便电子数据库能够帮助编辑找到比以前多得多的资料,却并没有真正意义上提高词条编撰的速度。一方面,其实人们并看不了这么多信息;网络材料的不准确性也会给查证过程带来麻烦。“有时候,”Simpson 说,“你还是得依靠纯粹的人力、以及一名足智多谋的研究员在一座书架的深处发现问题的根源。这两种考证方法是可以同时存在的。”

而牛津英汉词典的 App 化,是在一个叫刘浩贤的中国人倡导下完成的。

刘浩贤加入牛津大学出版社香港分部 16 年了。刚入社时,他负责英汉字典编辑助理的工作。现在,他是牛津英汉词典的主编,也是牛津大学出版社大中华区词书出版的负责人。

就在 John Simpson 快将退休的时候,刘浩贤和他的团队负责将牛津高阶英汉双解词典(第七版)做成了一个 App。

图片来自:当当


“挑选牛津高阶来做我们数字化出版的一次试水,是因为这本词典一直以来的销售都比较稳定。”刘浩贤告诉《好奇心日报》。

大约在 2011 年,刘浩贤代表牛津大学出版社与商务印书馆提出制作 App 的想法。由于互联网和搜索引擎的介入,纸质词典在全世界范围内的销售都进入了一个急速下降的状态,改变已然刻不容缓。

当时牛津大学出版社已经具备了一些相关数字产品制作研发的基础,这其中包括向一些电子产品生产商进行内容授权。 一个典型的案例是从 1990 年代末开始与日本卡西欧合作推出的电子词典。它大大简化了手动翻阅查词的过程,同时在较小的体积里详尽地录入十多本不同版本和用途的词典。

但他仍然要面对的现实是,整个辞典编辑团队对开发一款 App 的过程一无所知。

不仅如此,刘浩贤的 App 提案一开始就受到了来自各方的阻碍。由于电子书籍的读者群尚不明确,各个出版社都对刚刚兴起的数字出版业务并没有信心。另一方面,一百多年来,纸质词典已经形成了一个完整的销售、营销渠道和参考标准,但App要卖给谁?怎么宣传?没有人知道。

“正是这些不熟悉,导致在提案初期所有的合作方都对此怀有戒心。”刘浩贤说:“唯一能够借鉴的标准就是那些打入排行榜前列的软件,于是我们就一个一个下载下来研究,这些软件有什么缺点、有什么我们可以做,有什么我们做不到?有些编辑甚至是因为这个项目才拥有了第一部智能手机。”

另外一个让刘浩贤感到压力倍至的因素是:词典软件的盈利模式到现在还没有一个清晰的定论。

在整个 App 开发策划案敲定前夕,他被上司问了两个问题:现在做数字版本,对纸本出版会有什么样的影响?这个数字版本,能赚多少钱?

“我当时没有想太多。”刘浩贤回忆道:“当时我的回答是:第一,不要把出版数字版本看成是对纸本的打击,因为数字版本的使用方法和纸本是有差别的。数字版本是一个全新的机会——找到新的读者,以及,为老读者带去新的内容。第二个问题,我不能告诉你我们能赚多少钱,但我能告诉你我们最多能赔多少钱,就是赔掉我们编程开发的费用。”

刘浩贤认为这个答案在当时看来不怎么完美,但好在他的策划案并未因此被草草否决。更令他感到高兴的是,牛津高阶 App在上线两个月后的销售额就让出版社收回了开发成本,并在一次打折季营销活动里,登入了香港地区苹果商店软件销售总榜的第 7 名。

牛津高阶英汉双解词典 App (第 8 版)。 图片来自:Apple Store


刘浩贤把这次成功归结于一个“顺应时代发展的做法”,另外,牛津辞典在此之前树立的良好口碑,使其得到了许多教育机构和专业出版社的推荐。

牛津高阶英汉双解词典 App 与现在人人爱用的在线词典软件其实并不相同,尽管二者都接入了专业辞典出版社的语料库。就拿网易旗下的有道词典来说,它的词库里包括了柯林斯英汉双解大辞典、21 世纪大英汉辞典,甚至于维基百科上的内容。当你查询一个词时,可以得到来自于这些数据库不同的解释,以及搜索引擎提供的英语例句。

相较于此,传统词典出版社所建立的语料库所能提供的释义范围则要因此受到一定局限。

首先,App 里内容全部来自于牛津英语辞典的语料库。而语料库的标签结构,决定了 App 的所能够提供的查词功能和释义范围。编辑人员和工程师在制作辞典内容时,则很大成程度上受到语料库中每条信息标签的限制。

相比于 John Simpson 在上世纪 90 年代刚刚电子化的数据库,刘浩贤反复提到的这个 OED 语料库 (corpus) 已经是一个经过编辑和工程师不断完善、收集了数十亿字词的巨型数据库。它从不同媒体收集语料,包括报章、杂志、文学、电台录音、戏剧对白等。每个语料的出处,包括时间、地点、来源都有纪录。编辑通过分析语料库的内容来编写词条──按使用频率、出现时间、国际流动性等来决定是否收录某个词,并分析撰写词义。例证也是从语料库选出,保证是真实的使用纪录。编辑们一般会倾向于选择组织严谨、在语法上富象征意义的语料。

事实上,不论是辞典、电子辞典、内容授权,都是在这个语料库支持下的前端的产品。它曾是 Murray 的一间小书阁,现在,语料库让我们快速地在外国旅行时,用几秒钟便看得懂眼前菜单上的菜名。

同样在语料库的支持下,除了传统意义上的辞典开发,牛津大学出版社的内容授权对象范围很广——包括和苹果、谷歌、腾讯这样的科技公司进行内容上的合作。

“除此之外,我们还在建立一个针对收录不同语言的学术项目。”刘浩贤最后提到:“我们现在在谈的都是汉语和英语词典,但牛津还在不同国家不同地区有其他的辞典项目。我们还在计划做一个多语种的大型数据库。在未来,它不光能够产出辞典、电子辞典、翻译软件,它也将会是牛津大学出版社做一个语言保护计划的一部分。我们的目标是收纳一百种不同的语言。”

题图来自:Examining the OED

TED 也谈人和机器的冲突,都在谈些什么? | TED 2017 现场报道


LVMH 将以 65 亿欧元收购 Dior,这个 70 岁的品牌到底卖的是什么?


拥有1.3万家门店,12个女鞋品牌的百丽集团可能要贱卖,为什么百货一楼的老牌女鞋不行了?



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存