查看原文
其他

真实(最小)收词量@朗文当代高级英语辞典(英英·英汉双解)(第5版)

O Dictionaryphile 2023-03-27
  • 典评:朗文当代高级英语辞典(英英·英汉双解)(第5版)[1]
    文中有下面一席话:

    ►《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)真实词头数 42244 ,去重后 38016 个。
    ► 去重的意思是将类似 abandon¹,abandon² 这样的“多”词头视为一个。
    ► 您没有看错,哪怕是《朗文当代》这样看上去个头很大的词典,真实的词头数也就四万左右。
    ► 哪怕词典里每个单词都认识,也只不过达到了欧美母语英语人士的大学毕业生水平,当然,这对于母语人士而言,也已经是不低的标准了。

这 38016 和宣传语里的“230,000词条”差距也忒大了点吧,有无(yi)数(ge)朋友希望进一步了解下,故有此文。

  • 母语为英语人士的词汇量究竟有多大?
  • 我们自己的词汇量又有多大?
  • 人掌握或使用的的词汇量究竟怎么计算?
  • ……

上面这些问题,我都不打算在这里回答。哈哈,来打我啊,因为我确实也不知道答案或者说这些问题根本就没有标准答案。

这里只谈一个小小的话题,那就是《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)的真实收词量。

我自己弄了个“真实收词量”概念,如有雷同,纯属巧合。

《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)

entry
STH WRITTEN 文字
C
 a piece of writing in a DIARY, or in a book containing information such as a dictionary 〔日记的〕一则;〔词典等的〕条目
» a dictionary entry 词典的条目

朗文當代大辭典(英英·英漢雙解)

head·word
/ˋhɛdˏwɝd; ˈhedwɜːd/
n
the word which is written at the beginning of a description of its meaning, especially in dictionaries 標題詞;〔詞典中的〕詞目﹐首詞:
» The next headword is ‘heady’. 下一個詞目是 heady。

headword 条目引自《朗文當代大辭典》(英英·英漢雙解),和《朗文当代高级英语辞典》(英英·英汉双解)的区别,可参考:外研社的朗当高 vs 商务印书馆的朗当大

真实收词量也就是最小收词量,和虚假(广告、宣传、最大)收词量相对,具体到《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)。

  • entry 最前方的 headword ,加粗,有音节划分,算一个
  • 同形异义词算一个

截取朗五双解部分正文如下图。


  • 真实(最小)收词量是 2,collateral 和 colleague ,这也是符合我们直觉的计算方法。
  • 虚假(广告、宣传、最大)收词量是 9
    • collateral¹ 贡献为 3 ( 1 个义项 + 1 个派生词 collateralize + 1 个同义词 security );
    • collateral² 贡献为 4 ( 3 个义项 + 1 个短语 collateral damage);
    • colleague 贡献为 2 ( 1 个义项 + 1 个同义词 co-worker)

《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版) 广告语里的:

收录单词、短语和释义共计 230000 个同义、反义和相关词

令人瞠目结舌的 230000 就是这么来的,重复计数等办法都用上了。那么我前面提到的“真实词头数 42244 ,去重后 38016 个”又是怎么来的呢?

《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版) 光盘版虽然不堪一用,但是也有一些有用的文件和信息。…\program\Data\LDOCE5.mdb 。

LDOCE5.mdb 这个文件是 Microsoft Access Database 文件(居然还是 2000 版本),可以用 Microsoft Access 打开,里面 ldoce_bre_links 这张表很关键:


  • 第一列 WORD_ID 已经揭示了秘密,最大是 42244 ,也就是说词头数是 42244 ;
  • 第二列 search_TEXT 就是词头,但是如图,有 42231 = zoom1、42232 = zoom2 这种情况,也就是说在 42244 这个数字里, zoom 贡献了 2 ,这和我们“真实(最小)收词量”精神不符啊,把这一列复制出来,把 zoom1 、zoom2 这种处理成 zoom、zoom, 也就是去掉后面的数字然后去掉重复的,Bingo! 就得到 38016 。

当然,处理的时候有点误伤,比如 G8 ,可能把数字 8 删除后,它和 G 条目重复,所以就被删了,不过这种条目很少,我懒得再精确处理了。

LDOCE5.mdb 这个文件,可以玩出很多花样,大家持续关注不要取关噢,我时间充裕的时候会折腾一下。

所以,《朗文当代高级英语辞典》(英英·英汉双解)(第 5 版)的真实(最小)收词量也就四万左右。

根据我的使用体验,阅读一般性质的英文文章,比如我每日必读的体育消息(NBA、英超、西甲赛况之类的),偶尔会遇到一些在 LDOCE 中查不到的词。今天遇到的 hyperextend,无论 LDOCE 还是其他任何一部高阶英语学习型词典,都没有收录。

Durant hyperextends left knee; Warriors to bring back Barnes
HOWARD FENDRICH
Associated Press March 1, 2017

新牛津英汉双解大词典(第 2 版)

hyperextend /ˌhaɪpərɪkˈstend/
verb
[with obj.]
forcefully extend a limb or joint beyond its normal limits, either in exercise or therapy or so as to cause injury (对肢体或关节)用力伸展, 过度伸展。

重复下最前面的观点,哪怕是《朗文当代》这样看上去个头很大的词典,真实的词头数也就四万左右。

哪怕词典里每个单词都认识,也只不过达到了欧美母语英语人士的大学毕业生水平,当然,这对于母语人士而言,也已经是不低的标准了。

出现在学习型词典上的每个词,都是要背下来的噢,一起加油吧,少年。

Want to Read

Microbiology: An Introduction (12th Edition)

: 960 pages
Publisher: Pearson; 12 edition (January 10, 2015)
Language: English

-EOF-

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存