每日一星 | 许余龙 刘海涛 刘正光 :关于语言研究的理论与方法
点击蓝字关注我们
关于语言研究的理论与方法
许余龙 刘海涛 刘正光
摘要
本题分三部分。在第一部分,作者许余龙通过具体的例证分析,提出理论创新和方法创新是创新研究的两大途径,两者相辅相成。在研究具体的语言现象或问题时,理论创新的主要目的是为所研究问题提供一个新的更好的解决方案,在此过程中需要方法创新来开拓思路,并检验所提出的新方案是否确实能更好地解释相关语言现象。第二部分,作者刘海涛指出,在人工智能时代,语言研究在研究对象、研究方法和研究模型的选择上,都需要一些新的转变,才能抓住机遇,与时俱进。第三部分,作者刘正光从汉语出发对比分析英汉语时空认识及其与句法语义的关系,用自己提出的“英语时空分立,汉语时空同态”理论假设对汉语中的一些经典问题做出了新的解释。作者认为,只有基于汉语的本质特征进行理论抽象与建设,才能尽快构建汉语自身的理论体系。
关键词:理论与方法; 语言研究; 数据驱动; 英汉对比本文来源: 许余龙,刘海涛,刘正光.关于语言研究的理论与方法[J].外语教学与研究,2020,52(01):3-11.
01
外语研究理论与方法创新的互动
通常认为,语言学研究讲求的是三个充分性,即观察充分性、描写充分性和解释充分性。这三者之间往往具有如下的递进关系:(语言问题/现象)→观察→(分析)描写→解释。也就是说,我们通常首先需要对所研究的语言问题或现象进行观察,然后对其进行分析描述,最后对其之所以然做出解释。当然,解释的充分性还表现在对所提出的解释进行充分验证。
因此,这里理论创新与方法创新之间的“互动”主要想表达如下两层意思:1)对某一具体语言问题或现象的观察和描写似乎主要涉及方法,但创新的观察和描写本身就渗透着理论(theory-laden),是某一(新)理论视角下的观察和描写(尽管有时这种理论只是一种直觉),因此本身就涉及两者之间的互动;2)一个新的理论提出之后,需要新的方法来检验和完善,这需要在理论和方法方面各具专长的学者之间的互动,共同推动语言学研究的创新发展。
下面举一个英语复杂派生词构词规律研究的例子。Aronoff(1976:40)根据对词缀与词基(base)结合的密切程度的观察,将英语词缀分为两大类:一类为中性词缀(neutral affixes,以“#”号表示),另一类为非中性词缀(non-neutral affixes,以“+”号表示)。他进一步认为,就其形态特征而言,-able应分析为两个不同的后缀:一个是中性的#able,另一个是非中性的+able。这是他的描写工具和手段(即方法),但其本身是他对词缀和-able的形态特征提出的一个理论假设,是在新的理论视角下对英语复杂派生词所做的观察和描述。
该假设获得如下两方面形态特征差别的支持。首先,非中性的+able有-able和-ible两个形态变体,而中性的#able却只有-able一种形式。其次,与其他一些非中性词缀一样,非中性后缀+able附加在词基上以后,可能会使词基原有的语音或形态特征发生如下三类变化:1)重音及相应音素的语音改变,如repair/ri9p E@/→reparable/9rep@r@bl/;2)使一些拉丁词根产生语素变体,如perceive→perceptible;3)末尾音节截短,如cultivate→cultivable。而中性后缀#able则不会。
根据上述中性#able与非中性+able之分,以及形态学研究中的“次序假说”,即在词语派生过程中,通常是在词基上先添加非中性词缀,然后才添加中性词缀,次序不能颠倒(参见Siegel 1974),Aronoff(1976:125)认为,如果要用in+或un#来构成X-able词的否定词,“in+附加在X+able形式的形容词前,而un#则附加在X#able形式的形容词前”。也就是说,他认为,允许的组合有如下两种:1)in+[X+able];2)un#[X#able]。其余两种可能的组合,即un#[X#able]和in+[X#able],则是不合法的。
许余龙(1999)指出,根据中性与非中性词缀之分以及“次序假说”,似乎更为合理的逻辑推论是,如下三种组合应该是理论上允许出现的组合:1)in+[X+able];2)un#[X#able];3)un#[X+able]。而in+[X#able]则是不合法的派生形式,因为在这一派生过程中,词基X先与中性后缀#able结合,构成X#able,然后再与非中性前缀in+结合,违反了次序假说。
Aronoff是生成词汇学领域研究的权威,用以判断结构形式合法性的方法是生成语法学者惯用的内省法;而我们则采用《牛津英语词典》(第二版)(Simpson&Weiner 1989)、《韦氏第三版新国际英语大辞典》(未删节本)(Gove 1986)和《兰登书屋英语大词典》(第二版未删节本)(Flexner&Hauck1987)这三本英美最大、收词最全的英语词典,用实际出现、并收入词典的英语词汇来验证我们的上述推断以及Aronoff的论断。表1列出了四种结构的词在三本词典中的收词情况。表1显示,左起第一、二、三栏中都有个别词在上述三本词典中没有收入;但第四栏的6个词中,没有一个收入三本词典中的任何一本。这说明,我们的上述逻辑推论至少适用于解释表1中所列词的结构形式,哪些在理论上是允许的,哪些是不允许的。
三本词典的收词事实证明,in+[X+able]、un#[X#able]和un#[X+able]这三种结构都是合法的,个别词没有收入词典,只是偶然的词项空缺现象;而in+[X#able]这一结构形式则是理论上不可能出现的。而根据Aronoff(1976:125),只有in+[X+able]和un#[X#able]是合法的。
我们新的验证方法的理论意义是:1)结果清楚表明,Aronoff在形态学上区分中性的#able与非中性的+able确有必要;2)作为英语复杂派生词的一个构词规律,“次序假说”可以获得语言事实的支持;3)根据中性与非中性词缀之分以及“次序假说”,in+[X+able]、un#[X#able]和un#[X+able]是合法的结构形式,而in+[X#able]则是不合法的形式。此例同时也表明,只要研究方法没有大问题,即便母语是非英语的研究者,也能对英语国家某一研究领域中的权威专家做出的关于英语的某个论断进行质疑,并提出改进意见。
因此我们认为,理论创新和方法创新是创新研究的两大途径,两者相辅相成。在研究具体的语言现象或问题时,理论创新的主要目的是为所研究问题提供一个新的更好的解决方案,在此过程中需要方法创新来开拓思路,并检验所提出的新方案是否确实能更好地解释相关语言现象。
(上海外国语大学许余龙)
02
数据驱动的语言规律发现
外语界该如何适应人工智能(AI)时代所带来的种种变化?作为语言学研究者,我们该如何智能地迎接AI对自然智能的挑战,抓住机遇、与时俱进呢?
回顾AI的历史,这一次支撑智能技术发展的方法与往常有些不一样。如果说对早期的ELIZA(对话程序)、SHRDLU(自然语言理解)等AI应用,我们语言学家还能理解的话,今天的基于大数据和深度学习之上的智能应用,则不仅对语言学家,甚至对理工科的开发者而言,其机理差不多都是一个黑箱。
在与AI密切相关的学科中,语言学赫然在列,是唯一属于传统意义上文科的学科。这一点不难理解,因为很难想象一个没有语言能力的人工智能体能走多远。然而,遗憾的是,AI的历史已经证明,采用传统方法得到的语言学知识,很难被需要这些知识的领域所使用。在这种情况下,我们可能需要反思:是我们获得语言知识的方法有问题,还是许多与语言有关的知识本身就是不能规则化的,抑或是我们在建模过程中丢失了语言系统的某些本质特点。
AI的实践者们,基于大量真实的语言材料,采用深度学习的算法,取得了比以往都好的成绩。尽管他们还有些搞不清楚,为什么这个“人造黑箱”如此智能,但黑箱所展现的能力确是事实。作为一种与人类智能密切相关的基础学科,语言学有可能帮助AI的实践者破解这种“人造黑箱”,进而迈向“可解释”的AI。当然,其前提是,我们首先得搞清楚语言系统这个“自然黑箱”的运作规律。而探求语言系统的规律,原本就是语言学作为学科存在的最根本价值所在。
综上,智能时代对语言学的挑战与机遇可能是:反思学科存在的问题,基于大量可用的语言数据发现更坚实的语言规律,服务时代、服务国家,找回自己学科的尊严。近年来,国内外许多学者的研究表明,在大数据的加持下,语言学家有可能更好地解决用传统方法难以处理的人类语言最本质的一个特性——概率性,这不仅为语言研究从花园走向灌木丛提供了可能的路径,也为语言学家参与构建“可解释”的AI发展提供了机遇。
当然,倡导基于数据或数据驱动的方法,并不是要抛弃传统方法,而是在AI等领域成功实践的基础上,将真实语言材料中发现的规律与内省法以及其他科学的方法所发现的规律结合起来,进而破解人类语言之谜。
十多年来,我们采用自然语言处理领域广为使用的句法模型(依存句法),采用数十种语言的大规模真实语料,对人类语言线性结构与网络结构模式进行了一些共时和历时的探索。限于篇幅,这里简单提及几例。
语言与认知具有密切的关系,语言结构是认知机制约束的产物。这方面,心理语言学已有不少发现。然而,要研究语言普遍性与人类认知普遍性的关系,仅有心理实验是不够的。因为,语言的普遍性需要基于大量表面看起来多种多样的人类语言真实材料,才能获得更可靠的规律。我们采用数十种语言材料,在世界上首次发现依存距离最小化是人类语言句子结构的一个普遍模式,依存距离指的是两个具有句法关系的词在句中的线性距离,它与人类工作记忆的容量密切相关(Liu 2008)。在语言多样性方面,首次发现语序类型是一个连续统,这意味着,当我们说一种语言是VO语言时,只是因为它比其他语言更VO,这开辟了用大数据进行语言类型研究的新路子(Liu 2010)。采用真实语料与计算机仿真的方法,发现作为一种语言处理过程的动态单位,组块的存在有其合理性和必要性,因为它可以有效地降低句子的处理难度(Lu et al.2016)。这些发现不仅将语言的普遍性与人类认知的普遍性联系在一起,也让我们看到了生态多样性与语言多样性的关系,进一步加深了对语言作为一种人驱复杂适应系统的认识。
通过数据驱动方法所发现的语言规律不仅属于语言学领域,也有益于其他需要语言学规律的领域。比如我们2017年发表在《生命物理学评论》(Physics of Life Reviews,影响因子13.84)的有关依存距离的文章(Liu et al.2017),截至目前(2019年10月),在Scopus被引54次,属于人工智能、计算机科学、物理学等领域全球被引前1%的论文。这些引用除来自语言学所属的人文社科领域外,也包括计算机科学、心理学、数学、神经科学等10个学科领域。这在一定程度上展现了语言学家期待已久的“语言学是一门领先科学”的场景。
总的来说,语言与人是共同演化的。因为人处在不断变化发展中,所以语言系统也处于不断变化发展之中。语言系统的发展变化由人这个使用者带动,来自人内部(生理、心理等)和外部(自然、社会等)两方面的因素影响了语言的普遍性和多样性。因此,语言研究者不能撇开人的因素(刘海涛、林燕妮2018),只采用形式或内省方法研究语言是不够的,也应采用一般意义的科学方法,因为知识发现过程本身是一个科学研究过程。
在AI时代,语言研究可能还需要一些新的转变。具体而言,在研究对象上,应更多地关注真实的语言材料,关注人与语言系统的关系;在研究方法上,需要根据真实语言材料的特点,采用先进的技术手段和研究方法,以此来弥补内省法或定性手段的不足;在模型选择上,需要关注模型的跨语言有效性,因为语言学研究的是人的语言,语言学家所发现的规律更多的应该是人类语言的普遍规律,离开语言的普遍性,研究者可能也就偏离了语言学最根本的目标,也就可能离这个时代越来越远(同上)。
(浙江大学刘海涛)
03
非印欧语视角的英汉对比研究
理论探索
汉语的本质特征是在同其他语言的比较当中显现出来的。赵元任、王力、吕叔湘、朱德熙等语言学大家们为比较研究的路径与理论建设留下了宝贵的学术思想和方法。然而,截至目前,汉语研究(包括汉外对比研究)仍然有一些问题没有很好地解决,深刻影响着汉语语言学理论的创新与建设:如与英语相比,汉语为什么形态标记很少?汉语作为话题型语言的认知理据是什么,与思维的关系是什么?汉语为什么主观性强于英语?汉语语法的本质究竟是构成关系还是实现关系?汉语里谓语为什么不一定要求动词充当?名动功能为什么能方便地融合?汉语成句为什么不需要时态标记,而体表达手段非常丰富?英语谓语动词为什么是强时间性,而汉语是弱时间性且隐性表达?为什么汉语动补结构发达、复杂,与时间表达有何关系?汉语造字为什么既遵循线性原则又受非线性空间法则支配?等等。这些重大基本问题的解决实际涉及对世界的认识与表达,即时空认知与句法语义关系的表征及影响表征的认知与文化因素。
刘正光等人(刘正光等2018;刘正光、徐皓琦2019;刘正光、李易待刊)从汉语出发对比英汉语时空认识及其与句法语义的关系,提出了“英语时空分立,汉语时空同态”的理论假设,已经对汉语中一些经典问题做出了新的解释,如方位词时间指向对立、量词使用中的时空意义等问题。
1. 方位词的时间指向对立
英语里以运动来概念化时间,其根本依据是运动的方向,即物体在空间运动的方向作为确定时间运动方向的参照点(Lakoff&Johnson 1980:41-45),如:
(1)a.In the weeks ahead of us...(未来)b.That’s all behind us now.(过去)
(2)a.In the following weeks...(未来)b.In the preceding weeks...(过去)
英语里时间概念化体现时空分立,可以从两个角度理解。一是方位词表达的意义具有非对称性。英语里ahead作为方位词表达空间上的“前面”,投射到时间域表达“未来”。英语里时空分立可以从back、behind只能表示空间意义,不能表示与ahead相对应的“过去”,而要用past来专指时间上的“过去”,得到有力的证明。Behind表达时间意义须经过隐喻映射,如(1b)中的behind us(刘正光等2018)。
二是时间概念化的逻辑结构保持着空间结构的拓扑性。隐喻映射具有认知拓扑性,即源域的意象图式结构与靶域的内在结构具有一致性。如在TIME IS SPACE的概念隐喻中,空间的运动映射到时间的流失,空间运动的方向映射到时间的方向(前指未来,后指过去),空间运动的距离映射到时间的长度等。
“前、后”的时间指向对立指两个层次:1)英语里,“前”指未来,“后”指过去;而汉语里刚好相反;2)汉语里,“前”还可指未来,“后”还可指过去,看似汉语不讲逻辑。造成这种错觉的根本原因在于,以前的研究基本都是套用西方语言学和心理学所持的空间运动方向作为时间指向的参照体系的理论框架。刘正光等(2018)在充分检视汉语事实并深入比较英汉语差异的基础上提出了以下两个假设:1)汉语里判定时间指向是过去还是未来与英语不一样。英语里是以运动的方向作为概念化的参照点,而汉语是以运动是否发生或运动状态是否出现作为概念化的参照点。已经出现或发生了的,指向过去;没有出现或发生的,指向未来。2)前:空间上指前面或正面或靠前位置,引申出“初始”意义;时间上指过去。后:空间上指背面或靠后的部位或位置;时间上指未来。
(3)a.前天前妻前清前路前年前世前任前辈前尘前科前嫌(前:词缀,指过去)
b.前兆前震前奏前资本主义(时空意义同在)
c.前途前程前景前瞻前方前脚(前:空间意义;词汇化,指未来)
(4)a.后天后年后期后汉后世后任后辈后人后代后资本主义(后:词缀;指未来)
b.后尘后劲后效后患后话后市后事后账后遗症(时空意义)
c.后身后脚后部后方后房后头后行后者后花园(后:空间意义,词汇化,指未来)
汉语里“前”表过去,“后”表未来,看似矛盾,其实是汉民族在概念化时间的时候,并不是以“方向”作为参照点,而是以“是否经历或发生”为参照点。这是汉民族与英语民族概念化时间的根本差异。从这个参照点出发认识汉语里“前、后”的时间指向,表面上的矛盾现象都获得了内在的一致性解释。这也同时体现出汉语综合性思维的特征。
2. 量词的时空意义
汉语是量词型语言,英语是非量词型语言。量词的使用必然反映英汉语的本质差异。英语里的量词,从认知的角度看,一方面给事物计量,另一方面将集合性的事物个体化,并做进一步分类(Lehrer 1986)。例如:
(5)a group of philosophers/a flock of philosophers/a swarm of philosophers
例(5)的句法结构和意义都一致性地指向空间意义。而汉语里一般情况下,名量词用在名词前表达空间意义,动量词用在谓语动词前或后表达时间意义。但在实际的语言使用当中,名量词、动量词都可以表达时空意义。名量词表达时空同态意义主要有三种情形:1)用在名动兼类词前,在保留一定空间意义的同时,时间意义很显著,如“一项研究、一丝冷笑”。用作状语,表示“动作、行为的迅速和持久”,如“他一头扑进了工作当中”。2)表达工具意义的名词和一部分身体部位的名词可以借用为动量词,转喻性地表达行为事件在短时间内发生或完成,即短暂或快捷的意思,如“他一眼就认出了我”。3)典型名量词“个”在四种用法中表达时间意义,如例(6)所示:(6a)中的“个”相当于动量词“次”,(6b)中用于“一个+VP”构式,表达短时量的“突然、快速”意义,(6c)中“一N+一个”是一种固定的构式,强调动作“逐一”的连续性(何杰2008:165),(6d)被看作“结构助词”,相当于“得”,表示前后变化的结果,因而具有时间性。
(6)a.小孩洗了一个澡。b.一个刹车,他撞到玻璃上。
c.一枪(打)一个d.我本想去调和他们之间的矛盾,却落得个里外不是人。
动量词本来表达时间意义,但以下五种情形表达时空同态意义:1)动量词用在名词前,指向具体存在(空间意义)的同时,还表达描述性(时间)意义,如“下一场雨、吃一顿饭”。2)时间词做动量词使用,既具有时间性又具有空间性,一方面表示动词所表达事件的延续的时间量,另一方面表示它们后接名词时间的长短,如“走三小时路”。3)动量词后可以自由地接名词和动词,如“5次会议/扩建”。4)一部分身体部位名词借用为动量词后具有与时间词类似的功能和意义,如“踢一脚好球”。5)特殊动量词“些”、“点”既表示动词的动量,又表示名词的数量,如“说一些不三不四的话”。上述五种用法里,数量短语结构都可作两种解读:一是做补语修饰前面的动词,二是做定语修饰后面的名词。
特定构式里数量短语表达时空同态意义,主要有三种构式:1)量词重叠表示“重复存在”和动作行为连续不断,与时空观念有一定联系,体现在空间意义上时表现为周遍意义,体现在时间意义上时表现为连续意义(郭继懋1999),用作状语或谓语,如“螺声阵阵、渔歌声声”。2)动宾短语里插入量词,减弱事件意义,增加空间意义,如“摆谱/摆个谱/摆什么谱/摆一点点谱”。反之,名词前省略量词则是弱化空间意义,强化事件意义。3)数量短语的多重属性和位置灵活性意味着时空同态,如“去过一趟太原”(定语)与“去过太原一趟”(补语)。
汉语里的方位词时间指向对立、量词型的类型学特征,实则是汉语思维特征的根本反映,体现出汉语句法语义自身内在逻辑的一致性。
从洪堡特(1820/2001)的《论汉语的语法结构》算起,汉外对比有将近200年的历史了。国内早期的对比研究从马建忠(1898)的《马氏文通》就开始了。不过其对比是以印欧语为参照的,一直以来被认为削足适履的痕迹很明显。汉语语言学理论中留下的许多基本问题都是印欧语眼光造成的(徐通锵2004)。如果基于汉语的本质特征,进行理论抽象与建设,也许很多问题就不是问题了,汉语自身的理论体系的建立也就为时不远了。
(湖南大学刘正光)
本文来源:《外语教学与研究》2020年第1期
转自:“语言学通讯”公众号
往期推荐
今日小编:心得君
审 核:心得君