查看原文
其他

句法在语言网络里究竟有什么作用?

YM 计量语言学
2024-09-03
自然语言处理专家弗雷德·贾里尼克(Fred Jelinek)有句很出圈的名言:“每当我解雇一个语言学家,语音识别系统的性能就能提高一些”(Every time I fire a linguist, the performance of the speech recognizer goes up)。语言学家肯定大多是不服气的,但尴尬之处在于他们也不好反驳:因为语言学家认可的不少理论在计算语言学这个试验场中吃了瘪——传统语言学以外的方法似乎更好用。
那么语言学研究者所研究的东西,比如句法,真的就没有用吗?
如索绪尔所言,语言是个系统。这种“系统”的表述不应该只停留在隐喻层面,更应该实现以系统的、科学的方法来研究语言,而复杂网络就是这样的方法。
我们先看看刊登在科学刊物的研究复杂网络的科学家是怎么说的。“句法只是一种副产品”,“句法依存网络和随机句法网络的统计特性没有显著差异”……这似乎是说句法没啥用。尽管此前也有研究者认为,出现这些问题的根源可能与指标的选取不适合有关,这一结果实在令人沮丧。但沮丧之余也有一些东西值得注意:句法网络和非句法网络实际上还是有区别的——如果完全没有区别,它们的各项统计特性应该是完全相等的。
那为什么有句法的和没句法的网络不一样呢?句法对于语言网络(想知道什么是语言网络?请参看往期推送:书讯 |《依存关系与语言网络》独家访谈这个星球上的第一本《计量语言学导论》即将上市)究竟有没有作用?有什么作用?
近期国际知名物理学期刊Europhysics Letters(《欧洲物理快报》)刊出了杨牧和刘海涛题为The role of syntax in the formation of scale-free language networks的文章,着重讨论了以上几个问题。


这项研究基于英汉两种语言的两种语体(口语和书面语)的4个树库,构建了对应的4个句法网络和4个非句法的同现网络。文章的主要发现包括:通过关注网络的出度分布、入度分布和度分布,给出了一种能让频次分布转换为度分布的方法;说明了频次和句法对于语言网络的不同影响;对比了句法和非句法因素对语言网络的影响能力,认为句法更有助于语言网络无标度特性的涌现。
**********************
该研究建立在我国学者刘海涛和冯志伟十多年前提出的“概率配价模式理论”(Probabilistic Valency Pattern Theory, PVPT)的基础上。该理论认为词的配价有离心和向心之分,即词支配其他词和被其他词支配的能力,且这种能力具有概率性。图1展示了词或词类的概率配价模式。其中,G1G2G3…Gn-2Gn-1Gn为支配词或支配词类的词,D1D2D3…Dn-2Dn-1Dn为词或词类支配的词,箭头代表词间的依存关系及其概率。


图1:词或词类的概率配价模式
如果将矩形内的词或词类视作节点,那么 GD 是其他与该节点有边的节点,箭头是有向边,概率则是边的权重。因此从语言学的角度来看,度反映了词与其他词的结合能力,即配价(还想再了解了解配价?这篇推送也很精彩!二语者与母语者的动词配价发展规律一样吗?)。出度代表该词支配其他词的能力,入度代表该词受其他词支配的能力。
在概率配价模式理论的框架下,可以把句法网络中节点的形成视为一种累积过程。词的所有使用叠加在一起后形成一个节点。因此我们可以去追踪每次使用所带来的每一次累积,每次累积只可能是图2这四种情况之一。


 图2:依存关系下词每次使用时的四种情况


情况1对应有一个支配词和n个从属词的使用案例,比如“他有三本书”中“书”有一个支配词“有”和一个从属词“本”;情况2对应无支配词和n个从属词的使用案例,如“他有三本书”中的“有”;情况3对应有一个支配词但没有从属词的使用案例,如“他有三本书”中的“他”;情况4对应没有支配词也没有从属词的使用案例,即独词成句的情况。
接下来以一个更具体的例子说明频次与度的关系。假设此时“有”的全部语料为以下几条:
                  ①“他有三本书。”
                  ②“有老鼠!”
                  ③“他有。”
                  ④“有。”
“有”的频次当然是1+1+1+1=4。那么它的度是多少呢?需要看每条语料里的配价情况并相加。①中“有”与“他”、“书”有依存关系,所以这次使用可以累积2个度;②中只有“老鼠”一个词与“有”存在依存关系,累积1个度;③只有“他”与“有”存在依存关系,累积1个度;④是独词句,不累积度。因此“有”的度是1*2+1*1+1*1+1*0=4。度和频次的关系是函数关系,可以表述为D=F*VD是度,F是频次,V是配价。
此时做出假设,度分布就是频次分布基础上考虑句法配价影响的产物。如果我们能够证实这一点,就能说句法对于语言网络形成是有作用的。参照以上所说节点的累积形成机制,给每个频次分配上相应的配价情况,将一个词的所有使用叠加,就可以得到一个节点。以此类推可以追溯所有节点的形成。经过这种调整后,频次分布的幂指数全等于相应的出度分布、入度分布和度分布。


图3:累积频次分布、累积出度分布、累积入度分布和累积度分布
能这么调整的理由正是句法,是句法造成了每个频次对应的度的弹性变化!结果证明刚才的假设是成立的。这时候可以说,句法对于语言网络肯定是有作用的。具体来说,在语言网络的形成过程中,频次起了基础性作用,句法则发挥了影响作用。
同现网络里也有类似句法(依存关系)的东西——同现关系,即线性的相邻关系。按照前人的研究,人类语言中大约有一半以上的依存关系是相邻的。它也存在四种情况,如图4所示。


图4:同现关系下词每次使用时的四种情况


如此一来,我们也可以认为同现关系对于语言网络有作用。此时无法说明句法相对于非句法有哪些不同,因此接下来就要讨论这个问题。
**********************
根据公式(1)和公式(2),计算可得词的配价能力和同现能力。


Vi是词Wi次使用时的支配词、从属词总数;Ai是词Wi次使用时的邻词的数量。
从分布上看,这两种能力的分布都不服从幂律,这说明它们自己根本没法带来无标度特性。这再次肯定了频次在网络无标度形成中起基础作用的观点。


 图5:配价能力和同现能力箱线图

(a)英语书面语(b)英语口语(c)汉语书面语(d)汉语口语

从图5的箱线图可以看出,同现能力比配价能力分布得更均匀,且配价能力显著或者边缘显著大于同现能力。这说明配价能力所代表的句法比同现能力代表的同现关系影响能力更强。
但此时无法确定这种影响是正向的还是反向的。
网络的无标度特性能帮助弄明白这个问题。无标度(scale-free),也叫无尺度,是多数真实网络都具有的特性。简单说,无标度网络里存在少量节点度数极大,大量节点度数极小。具体到语言网络表现为,少量词和其他词结合的能力特别强,比如汉语中的“的”、“在”、“是”;大量词和其他词结合的能力特别弱。以能与之配价的词数为横坐标,随机抽取一个词该词配价词数等于横坐标时的概率为纵坐标绘制直方图,会发现它服从幂律(这么做得到的实际就是度分布)。接下来探讨句法对于语言无标度特性形成的作用。
网络的平均度为,节点度数大于即可判断为度数极大,小于即可判断为度数极小。表1展示了四个句法网络的平均度以及对应三个区间内的节点数量。能看到极大区间内数量最少,极小区间内数量最多。

表1:平均度及节点数量分布


   此时给区间内每个节点加上它对应的配价能力。我们把配价能力大于1的视作强配价能力,等于小于1的视为弱配价能力。统计三个区间内强配价能力的占比,见表2

表2:三个区间内强配价的占比


可以看到极大区间内最多,而极小区间内最少。这说明频次高的词更倾向于有强的配价能力,这种趋势有利于拉大节点间的差别,从而形成无标度特性。我们之前讲频次分布是度分布的基础。频率高的词本身就很可能是度大的节点,而上述趋势又表明这个已经有很大优势的节点还很可能变得更大。频次小的那些词的度数变大的可能性远小于这些频次大的。比如“是”可以同时与两个词结合,“他是小王”。本身“是”的频次就大,这种配价情况又会使其在这次使用中累积到的度数变为两倍(频次=1,本次累积到的度数=本次配价数量=2)。这种情况下,“富者益富”,节点的差别会拉得越来越大。
此时就能够回答开始的问题了。句法对于语言网络的无标度特性形成有促进作用,而频次起着基础性作用。且相比于非句法因素,句法的作用更明显。
**********************
这个结果说明了句法的重要地位,语言研究是有必要的。不过正如刘海涛教授所说“我们正在进入数智时代,但对于大多数语言学家来说,基于数据驱动的语言研究方法则是陌生的、困难的”(数智时代语言研究的挑战与机遇)。这也是语言学家们屡屡被揶揄而无法反击的重要原因之一,因为传统方法忽略了语言系统最本质的属性之一概率性,没错,概率就是本研究所用PVPT中的第一个P。语言学研究者要想不被从这个“历史上最需要语言学家的时代”给“开除”,就得充分认识到语言的概率性,转变研究范式,采用更科学的方法来探究语言的规律。只有这样我们才可能看到语言学家在数智时代领跑的那一天!
**********************
文末点击“阅读原文”可直达论文网页浏览下载。
继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存