查看原文
其他

大家研学||冯志伟:词向量及其在自然语言处理中的应用

冯志伟 语言科学 2021-09-20


摘要:

词向量来源于语言学中的“价值”和“分布”等概念。文章分析了词向量的语言学根据,介绍了词向量的矩阵描述和计算方法,说明了词向量将有助于揭示神经机器翻译这个“黑箱”的秘密。

关键词:

词向量; 价值; 分布; 点互信息; 自然语言处理; 神经机器翻译

1.引言

近年来,“词向量”(word vector) 在自然语言处理( naturallanguage processing,NLP) 中得到了广泛使用,也受到语言学界的普遍关注,成为当代语言学中一个关键性的科学概念。本研究详细地分析了词向量的语言学根据,介绍了词向量的数学计算方法及其与人们语言直觉的联系,最后说明词向量将有助于揭示神经机器翻译( neural machine translation,NMT) 这个“黑箱”( black box) 的奥秘。

2 词向量的语言学

根据“词向量”的概念来源于语言学中的“价值”( value) 和“分布”( distribution) 等概念。

1916 年,Saussure 在《普通语言学教程》一书中指出,语言的符号具有特定的“价值”。他认为,语言符号不纯粹是语言的事实,而是系统的组成要素,这个系统代表了语言。进入系统中的符号的功能,由系统组成成员的各个要素之间的相互关系来决定。语言是一个系统,这个系统中的所有要素形成一个整体。正如象棋可以归结为各个棋子的位置的组合一样,语言是一个仅以其各个具体单位的对立为基础的系统。

Saussure( 1916: 128) 指出: “下棋的状态与语言的状态相当。棋子的各自价值是由它们在棋盘上的位置决定的。同样,在语言里,每项要素都由于同其他各项要素对立才能有它的价值。系统永远只是暂时的,会从一种状态变为另一种状态。诚然,价值还首先决定于不变的规约,即下棋的规则,这种规则在开始下棋之前已经存在,而且在下每一着棋之后还继续存在。语言也有这种一经承认就永远存在的规则,即符号学的永恒的原则。”

Saussure ( 1916: 155) 进一步用下棋来解释“价值”。他提出: “比方一枚卒子,本身是不是下棋的要素呢? 当然不是。因为只凭它的纯物质性,离开了它在棋盘上的位置和其他下棋的条件,它对下棋的人来说是毫无意义的。只有当它具有自己的价值,并与价值结为一体,才成为现实的和具体的要素。假如在下棋的时候,这个棋子被弄坏了或者丢失了,我们可不可以用另外一个等价的物体来代替它呢? 当然可以。不但可以换上另外一枚卒子,甚至可以换上一个外形上完全不同的卒子。只要我们授以相同的价值,就可以宣布它是同一个东西。”

由此可见,在像语言这样的符号系统中,各个要素是按照一定规则互相保持平衡的,同一性的概念常与价值的概念融合在一起,反过来也是一样。

词既是系统的一部分,就不只具有一个意义和一个价值。例如,法语单词 mouton( 羊、羊肉) 跟英语单词 sheep( 羊) 可以有相同的意义,但是没有相同的价值。当谈到餐桌上的羊肉时,英语用 mutton( 羊肉) 表示,而不用 sheep。英语单词 sheep和法语单词 mouton 的价值不同,其原因在于英语除 sheep之外,还有另一个要素 mutton,而法语的词却不是这样,也就是说,mouton 一词在法语词汇系统中的地位与 sheep 一词在英语词汇系统中的地位不一样。由此可见,词的价值不是由标志其客观对象的实体来确定的,而是由其跟其他词的关系及其在该语言中的地位来决定的。价值就是系统的功能,是语言事实在该语言系统中的意义。因此,Saussure ( 1916: 169) 得出结论:“语言是形式而不是实体”。

价值的概念是 Saussure 语言学说的基本概念,它是“系统”( system) 的概念所派生出来的概念之一,与 Saussure 在分析语言系统的过程中所提出的其他概念交织在一起。“同一性的概念常与价值的概念融合在一起,反过来也是一样,价值包含着单位、具体实体和现实性的概念”( Saussure,1916: 156) 。由于价值决定了符号的功能,因此,价值的概念是 Saussure 语言学说体系中具有枢纽性意义的概念之一,也是自然语言处理中“词向量”概念的重要的语言学根据。

词向量的另一个重要的语言学根据是“分布”。“分布”是美国描写语言学中的术语。1934年,Swadesh在其The phonemic principle 一文中第一次将“分布”作为一个专门的术语来使用。Swadesh( 1934: 117) 认为,这个术语的用法同“地理分布”的习惯用法是一样的。他提出: “如果两个相似类型的语音之中,只有一个通常出现在某些语音环境里,并且只有另一个通常出现在某些其他语言环境里,那么这两个类型可能是同一音素的从属类型。例如,英语中 speech 这个词中的p跟浊唇塞音b 以及 peak、keep、happen 这些词中的清唇塞音 p 有互补分布关系,但是因为语音上与后者相似,所以 p 的分布属于后一类,而不属于前一类。”由此可见,如果两个现象在不同的环境中出现的可能性相互对立,那么,它们就可分布在对立的环境中而互相补充成同一个单位。

1950 年,Joos 指出: “一个语素的语言学意义可以定义为该语素与上下文中所有其他语素出现的条件概率的集合。”这意味着,可以根据语素与上下文中所有其他语素分布的条件概率来判定语素的意义。

1951 年,Harris 在《结构语言学方法》一书中对“分布”进行了界定: “一个单位的分布就是它所出现的全部环境的总和,也就是这个单位所有的( 不同的) 位置( 或者出现的场合) 的总和,这个单位出现的这些位置是同其他单位的出现有关系的。”根据这样的定义,可将分布相同的语言单位归类。例如,Harris将希伯来语中的某些语素用分布分析法加以归类。在希伯来语中有如下片段:

其中的-ti-、-ta-、-nu-、-tem-、-u-、-a-和零形式  都出现在xaav-kax 的环境中,它们的分布相同,因此,Harris( 1951: 17) 把它们归为一类,即“代词”这一类。

Hocket ( 1954: 215) 用分布分析法把一组可以在构造更大的形式中具有类似出现权利的形式归为一类,称为“形式类”( form-class) 。例如,能够同样出现在 can、can go、can go there之前的 she、he、it、I、we、they、the men across the street 归为一个形式类。由此可见,分布分析法是一种以寻找同类环境为原则的归类法。

分布定义中的“位置”也包括周围的环境。正如 Bloch &Trager( 1942) 所说: “位置的相同不仅意味着对形式的头尾( 开头、中间、末尾) 来说的地位上的相同,还意味着由前面接的音和后面跟的音、音渡条件以及重音所决定的环境上的相同。”

Harris( 1951: 15) 也给分布的“环境”下了定义: “话语里某个单位的环境或者位置是由它邻近的单位组成的。‘邻近’是指处于上述单位之前或之后,或者同时出现的单位的位置。”可见,分布分析法是美国描写语言学的最重要、关键的方法。Harris( 1963: 5) 甚至把分布分析法绝对化,认为它是描写语言学的惟一的方法。他在《结构语言学》一书中说: “描写语言学主要研究的以及本书认为适用于语言结构的惟一的形式之间的关系,是彼此有关的某些部分或者特征在语流中的分布或者配列。”因此,有人把美国描写语言学家称为“分布主义者”( distributionist) 。

Harris( 1954: 146) 指出,“Oculist( 眼科大夫) 和 eye-doctor( 眼科医生) 出现在几乎相同的环境中”,因此,他认为: “如果A 和 B 具有几乎相同的环境,我们就说它们是同义词”,具有相似上下文的单词倾向于具有相似的词义。1957 年,Firth 也指出: “观词伴而知词义”。

1975 年,Nida 指出,单词的含义与该单词周围分布的环境有关。假定我们从来没有看到过 tesgüino 这个单词,但是根据下面四个句子: 1) A bottle of tesgüino is on the table. 2) Everybody likes tesgüino. 3) Tesgüino makes you drunk. 4) We maketesgüino out of corn. 可以猜到 tesgüino 这个单词指一种发酵的、含酒精的饮料,它像啤酒一样,是由谷物酿造而成的。我们只要计算一下在 tesgüino 的上下文中的单词,观察如 bottle( 瓶子)和 drunk( 酒醉) 这样的单词,就能猜测出 tesgüino 的意思。事实上,这些单词以及其他类似的上下文也会出现在 beer( 啤酒) 、liquor( 利口酒) 的周围,这可以帮助我们认识到这些单词与 tesgüino 之间的相似性。我们还可以进一步观察更加细致的上下文特征和句法特征,例如,tesgüino 出现在 drunk( 酒醉) 之前,出现在 bottle( 瓶子) 之后,是 likes( 喜欢) 的直接宾语等,以此来判定 tesgüino 的句法语义特性。

心理学中也有与语言学中的“分布”相关的思想。1957年,Osgood et al. 提出,一个单词的意义可以使用欧几里得空间中的一个点来建模,而两个单词之间意义的相似性可以使用欧几里得空间里这些点之间的距离来建模。由此可见,我们可以根据某个单词周围的其他单词的分布来表示这个单词的意义。分布的概念是自然语言处理中“词向量”概念的另外一个重要的语言学根据。

3.词向量的矩阵描

述传统语言学中,单词的“价值”是一种深刻的洞见,但“价值”是不能计算的,单词在文本中的“分布”虽然可以作形式的描述,但也是不能计算的; 而在自然语言处理中,要使用计算机对自然语言进行自动处理,单词在文本中的分布是必须计算的,因此我们有必要使用数学中的“向量”( vector) 来计算单词在文本中的分布,由此而提出了“词向量”的概念。

一个单词的意义可以简单地根据它邻近的其他单词出现的频度( frequency) 来确定,在文本中单词频度分布的向量表示叫做词向量。这样的方法将会产生很长的、高维度的词向量,这些词向量是非常稀疏的,由于多数单词不会出现在其他单词的上下文中,所以会出现大量为零的词向量。

语义“向量空间模型”( vector space model) 指把一个单词嵌入( embedding) 到一个向量空间中去的模型。因此,把一个单词表示为一个词向量通常叫做“词嵌入”( word embedding) 。词嵌入有助于我们使用更加丰富的参照来描绘单词的意义。研究词向量的语义表示的学问叫做“向 量 语 义 学”( vectorsemantics) 。

一般说来,单词或意义的分布模型都是基于“共现矩阵”( co-occurrence matrix) 的。共现矩阵又可以分为“词项—文献矩阵”( term-document matrix) 和“词项—上下文矩阵”( termcontext matrix) 两种,下面分别加以介绍。

3.1词项—文献矩阵

在词项—文献矩阵中,每一个行表示词汇表中的一个单词,每一个列表示某种文献集合中的一篇文献。图1为从词项—文献矩阵中选出的一个例子,说明了在As You Like It、Twelfth Night、Julius Caesar、Henry V 四部莎士比亚戏剧中 battle、soldier、fool 和 clown 四个单词的频度分布情况。矩阵中的每一个单元( cell) 表示在一个特定的文献( 由列来确定) 中某一个特定单词( 由行来确定) 的出现频度。例如,clown 这个单词在 Twelfth Night 中的出现频度为 117 次,在 Julius Caesar 中的出现频度为 0 次。

图 1 莎士比亚四部剧本中的四个单词的词项—文献矩阵

图 1 中词项—文献矩阵被首先确定为信息检索的向量空间模型的一部分( Salton,1971) 。在这个模型中,文献被表示为如图 2 中的列所示的一个可数的向量。

图 2 用长度为 4 的向量表示的 4 个文献

根据线性代数,一个向量即数字阵列的一个表。所以,AsYou Like It 可以表示为列中的 [1,2,37,5],Julius Caesar 可以表示为列中的 [8,12,1,0]。一个向量空间就是这些词向量的总和,用它们的维数( dimension) 来加以描述。向量空间中的数字的顺序不是任意的,每一个位置都指明了一个有意义的维数,但其中的文献可以变化。所以,这些向量的第一维就相应于单词 battle 的出现频度,我们可以比较这些维度的数目,例 如,battle在 As You Like It 和 Twelfth Night 的第一个维度中具有相同的值,它的出现频度都是 1。

我们可以把一个文献的向量想象成 | V | 维空间中的一个点,因此,图2中的文献就是四维空间中的一些点。由于四维空间很难在书面上显示出来,图3用二维空间来表示。以 battle 和 fool 为例,在 As You Like It 中,单词 fool 具有较高的频度,其频度为 37,单词 battle 具有较低的频度,其频度为1。在图3中,这种二维表示写为 As You Like It [37,1]。同理,battle 和fool 在其他三部作品中的频度可表示为 Twelfth Night [58,1]、Henry V [5,15]、Julius Caesar [1,8],形成了不同的词向量。

图 3 battle 和 fool 在词项—文献矩阵中的二维表示

词项—文献矩阵是在文献的信息检索中用于发现文献相似性的一种方法。两个相似的文献倾向于具有相似的单词,这样一来,其列向量也倾向于是相似的。向量 As You Like It [1,2,37,5]和 Twelfth Night [1,2,58,117]与向量 Julius Caesar[8,12,1,0]和 Henry V[15,36,5,0]相比,彼此之间更加相似,同理,fool 与 clown 更相似,soldier 与 battle 更相似。我们从矩阵的行的数字中也可以观察到这样的直觉: 在 As You LikeIt 和 Twelfth Night 两个剧本中,battle 在第一个维度中的数字较低,而在其他维度中的数字较高,我们在图3中也可以直观地看到这种情况; 我们很快就可以看到怎样更加形式化地来解释这样的语言直觉。

当然,真正的词项—文献矩阵不会只有4行,也不会只用2列来进行解释。一般来说,词项—文献矩阵 X 具有 | V | 行( 表示词汇表中的单词类型) 和 D 列( 表示所收集的文献) ; 在自然语言处理的实际应用中,词汇表的规模至少是数万个单词,而文献的数量也非常大,有时甚至可以包含一个网页中的全部页码。

信息检索的任务是从文献 D 中找到与提问 q 相匹配的文挡 d。因此,在信息检索中,我们也可以用长度为 |V| 的向量来表示一个提问,为此,我们需要找到一种方法来比较这两个向量,从而发现它们之间的相似性。此外,我们还需要找到一种途径来存储和处理这些向量,而且应当注意到这样的事实: 这些向量是很稀疏的,大多数的向量值为零。

图 4 Brown 语料库中 4 个单词的实例

由上述可知,文献可以表示为向量空间中的向量。在向量语义学中,也可以把每一个单词与一个向量关联起来,用来表示单词的意义。这时,词向量是一个行向量( row vector) ,而不是一个列向量( column vector) 。在向量中每一个数字表示单词在该维度对应的文献中出现的频度。单词 fool 可以表示为四维的向量[37,58,1,5],其中的四个数字分别对应于该单词在莎士比亚戏剧的四个剧本的出现频度。这四个维度也可以用来表示其他三个单词: clown[5,117,0,0]、battle[1,1,8,15]、soldier[2,2,12,36]。

对于文献来说,因为相似的文献倾向于具有相似的单词,所以可以认为相似的文献具有相似的词向量。同样的原则也可以适用于单词: 因为相似的单词倾向于出现在相似的文献中,所以可以认为相似的单词具有相似的词向量。这样一来,我们就可以用词项—文献矩阵,通过单词倾向于出现在其中的文献来表示单词的意义。

3.2 词项—上下文矩阵

最常见的办法是使用不同种类的上下文单词作为词向量表示的 维 度。这 时 我 们 使 用“词 项—词 项 矩 阵”( term-termmatrix) 作为词向量的维度,一般称其为“词项—上下文矩阵”,其中矩阵的列上标记的是上下文单词而不是文献。这种矩阵的维度是|V| x |V|,其中的每一个单元记录着列中单词( 目标单词) 的出现频度,而在训练语料库的某个上下文中出现的单词则记录在行中。多数情况下,倾向于使用较小的上下文,这样的上下文一般是该单词出现的窗口,例如,在某些训练语料库中,左边为 4 个单词、右边为 4 个单词的窗口,在这种情况下,单元就表示矩阵列中的单词在 ± 4 个上下文单词窗口的行中的出现频度。图 4 是 Brown 语料库中的 4 个单词 apricot、pineapple、digital 和 information 在左右为 7 个上下文单词的窗口中出现的例子( 每一个单词只有一个实例) :

对于每一个单词,我们从包围每一个出现该单词的窗口中来采集上下文单词的出现频度。图5显示了根据 Brown 语料库计算出的 apricot、pineapple、digital 和 information 4个单词的单词—上下文共现矩阵。

图5 apricot、pineapple、digital 和 information 的单词—上下文共现矩阵

图5只显示了 aardvark、computer、data、pinch、result、sugar六个维度的上下文单词。单词 digital 的词向量分别为: 0,2,1,0,1,0。但真正的词向量计算需要的维度比这高得多,因而数据也就更加稀疏。从图4可以看出,apricot 和 pineapple这两个单词与诸如 digital 这样的单词比较起来显得更加相似( 上下文单词 pinch 和 sugar 都倾向于出现在它们的窗口中) ,相反,digital 和 information 这两个单词与诸如 apricot 这样的单词比较起来也更加相似。图 6 是这种情况的可视化表示。

图6 词项—上下文矩阵中,digital 和 information 的词向量的可视化表

示图6 中的单词 digital 和 information 只与上下文中的 data 和result 这两个单词关联,因此只是二维的。在实际的语料库中,|V|是词向量的长度,一般指词汇的规模,通常在 10,000 词到50,000 词之间( 在训练语料库中,一般使用 50,000 个高频词,高于 50,000 个高频词不会有什么帮助) 。当然,这些计数大多数都是零,从而导致数据稀疏,现在已经设计了有效的算法使用数据稀疏的矩阵进行存储和计算。

用来计数的窗口的大小可以根据表示目标的不同而有所变化,但通常是在目标单词的每一侧取 1 至 8 个单词,这样上下文的总长度就是 3 至 17 个单词。一般来说,窗口越小,表示的句法信息就越多,因为句法信息总是来自比较临近的单词,而窗口越长,表示的相关语义信息就越多。

4.词向量的计算方法

向量的计算方法有两种: 点互信息( pointwise mutual information,PMI) 和词向量夹角的余弦值( cosine) 。点互信息可以描述目标单词与上下文中单词的接近程度,从而揭示单词与上下文之间的语义联系; 词向量夹角的余弦值可以描述文本中单词与单词之间的接近程度,从而揭示文本中单词之间的语义联系。二者都是向量语义学研究中重要的数学指标。

4.1 点互信息

图5中的单词—上下文共现矩阵使用矩阵行中的单元来表示两个单词的简单的共现频度,但简单的频度并不是单词之间关联关系的最好的度量。因为行的频度偏差较大,区分度不太高。如果我们想知道什么类型的上下文是单词 apricot 和pineapple 共享的,而不是 digital 和 information 共享的,仅根据诸如 the、it、they 这样的高频度单词是不可能得到很好的区分度的,因为这些单词经常出现在各种类型单词的前后,而且对于任何一种特定类型的单词都没有区分度。我们更愿意使用对于目标单词具有特定区分度的上下文单词。单词之间关联性的最好的权重或度量能告诉我们两个单词共现的频繁程度,而不仅是它们是否共现。这样就可以揭示目标单词与上下文中具有特定区分度的单词之间的语义关联程度。点互信息正是这样的度量方法。点互信息是 Church & Hanks( 1989) 在互信息( mutual information) 概念的基础上提出来的。

两个随机变量 X 和 Y 的互信息 I ( X,Y) 是:

点互信息 PMI 公式中的分子 p( w,c) 表示我们观察到的两个单词共同出现的频繁程度。分母 p( w) p( c) 表示在两个单词彼此独立出现的情况下,我们期望这两个单词共同出现的频繁程度,所以,要把这两个单词的概率相乘。因此,其比值 PMI( w,c) 就可以估计出目标词和特征共同出现的频繁程度。

PMI 的范围可以从负到正无限地进行取值。但负值的 PMI意味着事物的共现比我们估计的更加不频繁,除非语料库非常大,否则,将会导致计算结果不可靠。为了凸显单独出现的概率分别为 10 - 6的两个单词是否比我们估计的共现得更加频繁,我们就需要这两个单词共现的有意义的区分度的概率不小于10 - 12,这样的颗粒度要求语料库的规模非常大,鉴于此,我们通常使用“正值点互信息”( positive pointwise mutual information,PPMI) 来计算,用零来代替所有的负值的 PMI ( Dagan et al.,1999) 。

由此可知,单词 information 与上下文中的单词data之间的正值点互信息 PPMI 为 0.568,可见它们之间的关联度比较高,对于目标单词 information 来说,上下文中的单词 data 具有较高区分度。在实际的语言中,information 与 data 经常一起出现,因此,点互信息符合我们的语言直觉。

4.2 词向量夹角的余弦值

为了定义两个目标单词 v 和 w 之间的相似性,我们需要取这两个单词的词向量并计算词向量之间的相似度。迄今为止,最常用的相似度的计算方法是使用词向量夹角之间的“余弦值”( cosine) 来进行。“余弦值”在自然语言处理中被广泛地用于计算词向量的相似性。余弦值的根据是线性代数中的“点积”( dot product) :

这样一来,两个词向量 v→和 w→之间的余弦值可以使用如下公式来计算:

在某些应用中,我们对于每一个词向量都要进行预先的归一化,也就是用其长度来除词向量,形成一个“单位向量”( unitvector) 。因此,我们可以用词向量长度 | a→| 来除词向量 a→,计算出单位向量。对于单位向量来说,点积与词向量夹角的余弦值是相同的。这个余弦值从 1( 指向同样方向的词向量) 经过 0( 正交的词向量) 到 -1( 指向反方向的词向量) 。不过,原始频率的值是非负的,所以,这些词向量夹角余弦值的范围是 0 到 1之间。现在我们使用图 7 中单词—上下文共现矩阵的粗略计数来计算词向量夹角的余弦值,探究单词 apricot 和 digital 在意思上与单词 information 的接近程度。

由于0.58>0.16,所以,这样的模型可以判定information与 digital 更加接近,而与 apricot 不太接近。

图 8 apricot 和 digital 与 information 语义接近程度的可视化表示

由图 8 可知,在使用上下文单词 data 和 large 的计数定义可视化表示的二维空间中,digital 与 information 词向量之间的夹角小于apricot与 information 词向量之间的夹角,这说明与 apricot 相比较,digital 更接近于 information。在实际的语言中,information与 digital 经常一起出现,而很少与 apricot 一起出现,因此,点互信息符合我们的语言直觉。

一般说来,两个词向量越相似,它们夹角的余弦值就越大,而夹角的角度就越小,当两个词向量之间夹角的角度最小时( 0o) ,它们夹角的余弦值最大( 1) ; 其他夹角的余弦值都小于 1。

5.词向量与人们的语言直觉

图 9 显示了 Sweden 这个国家的词向量与一些国家的词向量之间的余弦距离( cosine distance) ,即词向量夹角的余弦值。可以看出,Sweden 与 Norway、Denmark 等北欧国家的余弦距离都在 0.7 以上,说明这些国家与 Sweden 相似度高,与 Sweden 最为接近,而与其他国家的余弦距离都比 0.7 低,说明这些国家与 Sweden 的相似度较低,离开 Sweden 较远。这与我们的语言直觉也是相符的。因此我们认为,词向量可以反映人们的语言直觉。

图 9 Sweden 的词向量与一些国家的词向量之间的余弦距离比较

2006 年,Rohde et al.使用层次聚类的方法从词嵌入中把名词自动地分为 4 类: 身体类( wrist、ankle、foot 等) 、动物类( dog、cat、bull 等) 、城市类( Chicago、Atlanta、Tokyo 等) 、国家地区类( China、Russia、Africa 等) ,并加以可视化表示。这些词嵌入使·8·冯志伟: 词向量及其在自然语言处理中的应用用了一个大小为 ± 4的窗口,14,000 维,删除了 157 个封闭类的单词。与 PPMI 不同,这些词嵌入使用平方根通过正关联对于每一个单元进行计算( 词对之间的关联为负值时,用 0 来替换) 。可视化表示使用了层次聚类,关联起来的每一类单词之间具有较高相似度。例如,hand 与 foot、dog 与 cat、Chicago 与Atlanta 等( Rohde et al.,2006) 。图 10 使用向量聚类的方法来显示单词之间的相似程度,聚类的结果符合我们的语言直觉。

图 10 名词层次聚类的可视化表示

2013 年,Mikolov et al. 使用词向量研究中的skip-gram 算法对单词进行聚类,这种算法可以把相似的单词聚合在一起。例如,对于目标单词 Redmond?,算法把 Redmond Wash. 、RedmondWashington、Microsoft 等单词( 或短语) 聚在一起; 对于目标单词capitulate,算法把 capitulation、capitulated、capitulating 等单词聚在一起; 聚 类 的 结 果 ( 见 图 11 ) 与我们的语言直觉相吻合( Mikolov et al. ,2013) 。

图 11 使用 skip-gram 算法把与目标单词相似的单词( 或短语) 聚在一起

Mikolov et al.(2013) 发现,单词与单词之间在语义上存在着补偿 关 系 ( offset) ,如 果 用 单 词 King 的词向量减去单词Queen 的词向量,再加上单词 Woman 的词向量,就能得到单词Man 的词向量。类似地,如果用单词 Paris 的词向量减去单词France 的词向量,再加上单词 German 的词向量,就能得到单词Berlin 的词向量。这样的计算结果与我们对于这些单词的语义补偿关系的直觉相吻合,如图 12 所示。

由图13 可见,在单词偶对关系 France—Paris 中,还有Italy:Rome、Japan: Tokyo、Florida: Tallahassee,表示某地区与该地区首府之间的关系; 在单词偶对关系 big—bigger 中,还 有small: larger、cold: colder、quick: quicker,表示形容词基本形式与形容词比较级形式之间的关系?( Mikolov et al. ,2013) 。尽管有些小错误,但也说明词向量与我们的语言直觉基本相符。

这些关于词向量的计算结果揭示了词向量与语言意义之间的紧密联系,词向量在数学上的计算结果与我们在常识中的直觉不谋而合,这是非常令人振奋和激动的科研结果。词向量来源于语言学,而词向量的计算结果又与人们的语言直觉相符合,这说明词向量确实是描述自然语言数学面貌的一种可行的好方法。

词向量在自然语言处理中已经使用 50 多年了。在命名实体识别( recognition of naming entities) 、自动句法分析( automaticparsing) 、语义角色标注( annotation of semantic roles) 等应用领域都使用词向量作为特征来表示单词。词向量也是计算两个单词、两个句子、两个文献之间相似性的最常用的方法,在信息检索( information retrieval) 、神经机器翻译( neural machinetranslation) 、问答系统( question answer system) 、文本摘要( text summarization) 、自动文章分级( automatic essay grading) 等应用中,词向量也是一个重要工具( Jurafsky & Martin,2008) 。词向量在自然语言处理中受到了普遍欢迎,得到了广泛应用。本文着重讨论词向量对于神经机器翻译的作用。目前学术界对于神经机器翻译的机理还不十分清楚,其机理还是一个“黑箱”( black box) ,词向量有可能帮助我们揭开这个黑箱的神秘面纱。

6.词向量有助于揭示神经机器翻译“黑箱”的奥秘

2007 年以来,采用深度学习的方法,以大规模双语对齐口语语料库作为语言知识的来源,从双语对齐口语语料库中获取翻译知识,研制了神经机器翻译系统,机器翻译的水平大大提高,口语神经机器翻译正确率已经超过 90% ,针对日常口语的神经机器翻译基本上可以付诸实用,引起了自然语言处理学界的触目( 冯 志 伟,2018 ) 。神经机器翻译系统的翻译原理如图14所示:

图 15 神经机器翻译系统的编码—解码框架


在图15的编码—解码框架中,〈EOS〉-W 的左侧是编码器( encoder) ,〈EOS〉-W 的右侧是解码器( decoder) 。A,B,C,<EOS> 表示源语言的输入序列,X,Y,Z,〈EOS〉表示目标语言的 输 出 序 列,〈EOS〉表示一个句子的终结符 ( End Of Sentence) 。W 是编码器对输入语言序列 A,B,C,〈EOS〉编码的词向量表示,这样的词向量表示 W 在解码器中进行解码,得到线性化的目标语言的输出。这样看来,这个编码—解码框架的核心就是词向量。

构造单词的向量化特征表示也就是进行“词嵌入”( wordembedding) 。“嵌入”是一个数学上的概念,表示形如 f( X) →Y这样的 函 数,该函数需要满足“单 射”( injection) 和“态 射”( morphism) 两个特征。第一个特征“单射”要求函数 f( X) →Y中的每一个 X 的值只有一个 Y 的值与之对应。第二个特征“态射”也叫做“结构保持”( structure preserving) ,是一个与具体任务有关的概念,例如,在输入空间中存在某种偏序关系,如果对于任意的偏序关系 X1 < X2,都存在偏序关系 Y1 < Y2,那么,就可以说在这个偏序关系上满足了“态射”( 即“结构保持”) 的特征。在神经机器翻译系统中,“词嵌入”可以满足数学中“态射”的特征,能够把自然语言中的每一个单词映射到 N维空间中的一个向量,并且在这个 N 维空间中形式化地定义自然语言的单词与单词之间的相互关系,而这样的关系又符合我们日常的语言直觉,从而满足了“态射”特征。由于词向量可以表示源语言句子和目标语言句子的上下文信息,N 维空间的维数越高,源语言句子与目标语言句子的相似度就越大,能够充分地满足词嵌入的“态射”特征,因而有效地保证了输入端的源语言句子能够在输出端翻译成与之最接近的目标语言句子,从而提高机器翻译的准确度和忠实度。自然语言处理通过“词向量”和“词嵌入”这样的手段,把传统语言学中“价值”和“分布”的概念用到极致,终于产生了这样突出的效果。

因此,我们认为词向量是帮助我们打开神经机器翻译这个“黑箱”的一把钥匙,通过对词向量的深入研究,将可能帮助我们揭开神经机器翻译的奥秘。而词向量的语言学根据是“价值”和“分布”的概念,从这个意义上,神经机器翻译在理论上与语言学有着密切联系,促进神经机器翻译与语言学的结合。在神经机器翻译研究中充分地关注语言学理论,有助于我们进一步提高神经机器翻译研究的学术水平和理论高度。 


作者简介

冯志伟,1939年出生,计算语言学家,精通英语、德语、法语、俄语、日语等多门外语,具有宽厚、坚实的语言学、数学和计算机科学功底,是一位难得的横跨文理科的复合型专家。50多年来一直从事语言学、数学和计算机科学的跨学科研究,是我国最早从事自然语言处理和计算语言学研究的学者之一。


本文来源:《外语电化教学》,感谢冯志伟先生的支持。


延伸阅读

大家研学||陆俭明:认清汉语教学的学科性质 积极培养称职的汉语教师

专家观点||面向“一带一路”的我国翻译规划研究:内容与框架

专家观点||法律语言学是“‘法律语言’学”还是“法律‘语言学’”?抑或“‘法律与语言’学”?

专家观点||国内外翻译研究热点与趋势 ——基于译学核心期刊的知识图谱分析

专家观点||关于中国文化典籍翻译的若干问题与思考

专家观点||中国翻译研究40年:作为亲历者眼中的译学开放、传承与发展

专家观点||语言在全球治理中的重要作用

专家观点||与时俱进是语言学科建设发展的必由之路

专家观点||具身语言涉及的主要科学问题

专家观点||生物语言学核心问题及其过程哲学基础

专家观点||关于生态语言学作为一门学科的几个重要问题

韩礼德学术周||作为文化的语法 ——功能语言学的人类学解释

专家观点||袁毓林、卢达威:怎样利用语言知识资源进行语义理解和常识推理

专家观点||牛保义:关于外语界语言研究的几点思考——兼论具有汉语特质的中国语言学理论体系的构建

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存