查看原文
其他

刘群:基于深度学习的自然语言处理,边界在哪里?

专注分享学习,一站式获取海量语言学资源

来源:汉语堂公众号

转载编辑:应用语言学研习

本文章转自公众号:AI科技评论




四大边界:数据边界、语义边界、符号边界和因果边界

作者 | 丛 末   

编辑 | Camel



当前,深度学习之于自然语言处理,有其局限性。那么它所能起作用的边界在哪里呢?对此问题,我们应当深思。

近日,在北京语言大学举办的第四届语言与智能高峰论坛上,华为诺亚方舟实验室语音语义首席科学家刘群教授高屋建瓴,细致分析了深度学习时代NLP的已知与未知。

他从自然语言处理基于规则、统计到深度学习的范式迁移出发,探讨了深度学习方法解决了自然语言处理的哪些问题以及尚未解决哪些问题。

刘群教授认为尚未解决的这些问题最终是由深度学习的四大边界——数据边界语义边界符号边界因果边界所共同造成的。要想在这些尚未解决的问题上寻找突破,需要从深度学习的这些边界出发,去探索新的解决方案。

这个报告主题为《基于深度学习的自然语言处理:边界在哪里?》。可谓是站在NLP塔尖上对整个领域的复盘。

我们一起来欣赏~


报告正文:

感谢大会给我这个机会来这里跟大家进行一次交流。今天我不讲我的具体工作,而是讲我多年来研究机器翻译、自然语言处理的一些体会和感想,从更加抽象的层面讨论一些问题,这些想法不一定成熟,如有不恰当的地方,希望大家指正!

  自然语言处理的范式迁移:从规则、统计到深度学习

相信大家对自然语言处理的范式迁移,都深有体会。以机器翻译为例,很多年前大家都是采用基于规则的方法,基本思想是依靠人来写规则并教机器如何去翻译。后来,大家也慢慢发现这条路走不通,因为人不可能将所有的规则都写穷尽,并且也写不出大量太细的规则。

因此大家之后就转向了基于统计的机器翻译方法,即给机器一堆语料让机器自己去学习翻译规则,不过它学到的还是一些符号层面的规则,但被赋予了概率。到一定程度后,统计机器翻译就遇到了一些瓶颈,也很难再度提高。

随着这几年来深度学习方法的引入,机器翻译的水平又有了一个大幅提高,使得机器不再在符号层面做翻译,而是将整个推理过程映射到一个高维空间中,并在高维空间中进行运算。不过,我们只能理解输入输出而不知道其在高维空间中具体如何进行运算的,并且机器自动学习了什么东西,我们也说不太清楚。

下面我试图来探讨几个问题:一是深度学习解决了自然语言处理的哪些问题?二是还有哪些自然语言处理问题是深度学习尚未解决的?三是基于深度学习的自然语言处理,其边界在哪里?

  深度学习解决了自然语言处理的哪些问题?

自然语言处理领域有很多难题,此前研究者费了好大劲去解决的问题,深度学习方法出现以后,一些问题被很好地解决了,或者虽然还没有彻底解决,但是提供一个很好的框架。这些问题主要包括:词语形态问题、句法结构问题、多语言问题、联合训练问题、领域迁移问题以及在线学习问题。这里我主要讲下前四个问题,不对后两个问题进行展开。

词语形态问题

词语形态问题,即 Morphology,研究的是词的构成。在中文中,它体现在词的切分上,在英语等大部分其他语言中则主要体现在形态的分析上。其中词语切分在包括机器翻译在内的中文信息处理中,曾是一个非常令人头痛的问题,我们也花了很多精力去解决。

在基于规则和基于统计的机器翻译方法下,词语形态分析是机器翻译首先需要解决的问题。

对于中文而言,由于基于汉字的翻译效果很差,因而分词是必须解决的问题,也就是说如果不做分词或分词做得不好,即便用统计方法,效果也会很糟糕。然而分词本身又面临很多问题,因为中文词语本来就不是一个定义很明确的单位,导致分词缺乏统一的规范,分词粒度难以把握。

而中文以外的很多语言都存在形态问题,其中英文的形态问题比较简单,因为英语词的变化比较少。而很多其他语言的变化是很多的,例如法语有四五十种变化,俄语则更多。另外以土耳其和波斯语为例的黏着语,一个词可能有上千种变化,即一个词后面可以加很多种词缀,这对于自然语言处理尤其是机器翻译而言,是非常棘手的。 

而且对于这些形态丰富的语言而言,分析的难度也很大,一般只有语言学家才能把词语的形态说得比较清楚。同时,形态本身其实是一层结构,所有统计机器翻译都建立在某种结构的基础上,例如词语层、短语层、句法层,或者说基于词的、基于短语、基于句法的方法,那如果想在这些结构中再加入一层形态结构,统计机器翻译的建模就会变得非常困难。

在统计机器翻译时代,复杂形态的语言处理非常困难,对此有一个比较著名的方法叫做 Factored statistical machine translation,即基于要素的翻译方法,就是将一个词分成很多要素,然后分别翻译每个要素,最后汇总起来。不过我很不喜欢这个方法,因为我认为它不够优雅,且非常冗余,效果也不是很好。

 

然而语言形态这个问题在神经网络框架下就基本不成问题了,这个领域的研究者对中文分词的讨论也不太多了,虽然也有一些关于如何在神经网络框架下将词分得更好的探索,我也看到过几篇挺有意思的相关文章,但是对于机器翻译而言,中文分词已经构不成根本性挑战了,因为现在机器翻译基本上可以不做分词了,大部分中文机器翻译系统基本上基于汉字来实现,性能跟基于词的系统比没有太大区别。

针对形态复杂的语言,现在提出了一种基于subword(子词)的模型或基于character(字符)的机器翻译模型,效果也非常好。我认为这是一个统一且优雅的方案。 

自动化所张家俊老师他们的一篇论文就介绍了基于子词的模型方案的解决思路,如下图所示,第一行是标准的中文,第二行是做了分词以后的。现在一般系统基于汉字即可,就是第三行,但是我们也可以做分词,比如第五行做BPE,将“繁花似锦”分成“繁花”、“似”、“锦”这三个子词部分。

 

基于字符的模型则是从字母的层面来做,对英文一个字母一个字母地建模和翻译,翻译效果也非常好。所以我认为在神经网络框架下,形态问题基本上不是什么太大的问题。

 

句法结构问题

下面看句法结构问题。

无论是在基于规则还是基于统计的机器翻译框架下,句法分析对机器翻译的质量都起着重要的影响作用。其中在基于统计的机器翻译中,基于短语的方法获得了很大成功,因此现在大部分统计方法都不做句法分析。

但是对于中英文这种语法结构相差较大的语言而言,做句法分析要比不做句法分析的结果好很多,所以句法分析还是很重要的。不过句法分析难度很大,一方面会带来模型复杂度的增加,另一方面句法分析本身存在的错误会影响翻译的性能。

而目前在神经网络机器翻译框架下,神经网络可以很好地捕捉句子的结构,无需进行句法分析,系统可以自动获得处理复杂结构句子翻译的能力。

大概 2005 年至 2015 年期间,我一直在做基于统计的机器翻译,也就是研究如何在统计方法中加入句法方法,在这么多年的研究中,我们提出了很多种方法也写了很多篇论文,下图中的这些模型概括了我们之前提出的那些方法。

 

我们的工作主要聚焦于树到树、树到串的方法。美国和欧洲很多学者在做串到树的方法,树到树的方法做得都比较少。另外我们还做了一些森林方法的研究,即如何避免句法分析错误。不过,这些问题在神经网络框架下基本上也不存在了。

举例来说,“第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名”是一个好几层的嵌套结构,但是机器翻译的结果“The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests”在结构上翻译得很好。下面一个例子在结构上也没有什么错误。

 

神经网络机器翻译方法是没有用到任何句法知识的,仅凭从网络中学到的复杂结构就能实现这么好的效果,这样的话,对机器翻译来说做句法分析就没有太大意义了。当然句法结构并不是完全没有意义,现在也有不少人在研究,但是我认为这已经不再是机器翻译的一个主要难点了。

多语言问题

 曾经,我们机器翻译研究者的一个理想,就是在基于规则的时代实现多语言翻译。当时很多人都在做多语言翻译,甚至是中间语言翻译,如下图,中间语言翻译其实是一个理想的方案,因为多语言的互相翻译通过某个中间语言来实现,是能够节省很多成本的:如果使用中间语言,开发系统的数量随翻译语言的数量呈线性增长;否则,开发系统的数量随翻译语言的数量呈平方增长。

但在基于规则方法的机器翻译时代,中间语言的方法是不可行的,正如日本机器翻译专家 Makoto Nagao 教授曾经说过的一句话,当我们使用中间语言的时候,分析阶段的输出结果必须采用这样一种形式:这种形式能够被所有不同语言的机器翻译所使用。然而这种细微程度实际上是不可能做到的。

 

在基于统计方法的机器翻译时代,普遍采用的是 Pivot 方法,即在两个语言的互译中,先将所有语言翻译成英语,再翻译成另一种语言。这样的话就能够使得多语言机器翻译成为可能。

但是这种方法也存在一些问题,即会导致错误传播和性能下降。另一方面,我们做多语言翻译的另一个想法是希望能够利用多语言之间互相增强的特点,即很多语言有相似的特点,因而如果无法利用上这种增强的话,这种方法就并非那么理想了。

在神经网络机器翻译时代,谷歌就直接利用中间语言的方法做出了一个完整且庞大的系统,将所有语言都放在一起互相翻译以及将所有文字都放在一起编码。虽然这个系统目前还不是很完美,但是距离理想的 Interlingua 已经很接近了。

之后,谷歌又推出了Multilingual BERT,将104种语言全部编码到一个模型里面,这在原来是不可想象的。 

虽然这两个方法现在还无法彻底解决多语言问题,但是它们整个框架非常漂亮,效果也非常好,所以我觉得针对这两个方面,我们还有很多事情可以做。

联合训练问题

在统计机器翻译时代,因为各模块都是互相独立训练的,导致错误传播的问题很严重,所以联合训练也成为了提高性能的有效手段。

但联合训练本身又会导致模型复杂度的大大增加,使得开发和维护变得困难。同时由于搜索范围急剧扩大,系统开销也严重增加。不仅如此,由于模块太多,只能有限的模块进行联合训练,所以不可能将所有模块都纳入联合训练。

而在神经网络机器翻译框架下,端到端训练成为标准模式,所有模块构成一个有机的整体,针对同一个目标函数同时训练,有效避免了错误传播,提高了系统性能。

 

  还有哪些自然语言处理问题深度学习尚未解决?

 由于深度学习的应用,我们以前费很大劲去做的一些事情,现在基本上不需要再去做了。但是深度学习本身还是存在很多问题的,包括资源稀缺问题、可解释性问题、可信任问题、可控制性问题、超长文本问题以及缺乏常识问题等等。

资源稀缺问题 

资源稀缺问题大家都很清楚,然而这个问题远比我们大部分人想象的要严重得多。一般而言,对于常见语言,机器翻译可以做得很好,然而现实世界中有几千种语言,曾经就有一篇报告统计出 7000 多种语言,当然有文字的语言并没有这么多,其中绝大部分语言都是资源稀缺语言,并且绝大多数专业领域实际上也都是资源稀缺的领域。 

以下面针对医疗领域的 WMT 2019 评测为例,它的语料库包括 3000多个文档、4 万多个句子。在机器翻译领域,几百万个句子的语料已经是小数量的了,商业系统基本上都有好几千万句子的训练语料。然而这里才4万多个句子,是存在严重资源稀缺问题的,翻译的质量也非常糟糕,基本上是不可接受的。另外从数据上来看,西班牙语有10万多个,法语有7万多个,中文没有,也就是说基本收集不到中文医疗领域的翻译数据。 

在工业界,想要解决的大部分问题都是没有标注语料的,需要自己去标,然而也基本上没有那么多钱去对很多的语料做标注。所以资源稀缺问题要比我们想象的严重得多。

资源稀缺对神经网络机器翻译的影响很大。从下图来看,上面两条线指基于统计的机器翻译方法,下面这条线指神经网络机器翻译方法,我们可以看到神经网络的方法只有在语料很多的情况下,表现才能超过统计方法,在语料不够大时,表现并不比统计方法更好。

可解释性问题和可信任问题

我们给神经网络输入一个东西,它就会输出一个结果,然而其在高维空间的计算过程我们是不知道的,这就存在可解释问题。但我认为这个问题的严重性要视情况而定,我们有时候需要解释性,却并不是所有时候都需要解释性,比如人脑做决定,有时间可能只是灵机一动的灵感,至于怎么来的,人自己都不一定能够解释得清楚。

而可解释性带来的一个更重要的问题是可信任问题。一些关键性领域如医疗领域,比如说病人看病,如果系统给出一个癌症的诊断而无法给出理由的话,病人是不敢治疗的。所以在这些关键性的应用上,可解释性是非常重要的,因为这个问题会导致信任问题。

机器翻译中的一个可信任问题是翻译错误。比如说重要的人名、地名和机构名是不应该翻错的,以翻译美国政府的一个工作报告为例,如果使用之前的语料来训练,机器就会直接将美国总统(特朗普)翻译成布什总统了,这就是一个很严重的错误了。 

第二个可信任问题是翻译出来的意思与原意相反,这在机器翻译中也很常见,且较难避免,因为这种意思相反的表达在语料库中的统计特征是非常接近的,都是在陈述同一件事情,因此在机器翻译中很容易导致翻译出与原意相反的结果。

第三个可信任问题则是机器翻译犯一些过于幼稚的、完全不该犯的问题,这就会直接给人带来不信任感。

可控制性问题

由于系统有时候的效果总不能令人满意或总出现错误,所以我们希望系统变得可控,即知道怎么对其进行修改从而避免犯这种错误。

基于规则的机器翻译方法中,我们是可以通过修改规则来纠正;基于统计的机器翻译方法,虽然改的方式绕一点,但是统计的数据都是可解释的,我们可以在其中加上一个短语表来纠正,而在神经网络机器学习方法中,我们几乎是不能进行修改的。

比如对于重要的人名、地名、机构名、术语,我们希望机器严格按照给定的方式进行翻译,不能随便乱翻。我之前在爱尔兰的时候带学生做过这方面的比较早期的工作,目前的引用量还比较高,现在我们对这项工作进行了一些改进,可以比较好地解决机器翻译的可控制性问题,但是这项工作还仅适用于机器翻译这一特例,而无法做到通用化去解决神经网络在整个自然语言处理领域存在的可控制性问题。

超长文本问题

现在的神经网络机器翻译在处理长文本方法取得了很大的进步。早期的神经网络翻译系统常被人诟病:短句子翻译得好但长句子却翻译得很糟糕。而现在,这种情况已经得到了非常大的改善,一般的长句都翻译得不错,但漏翻等小错误还是不可避免。

现在基于长文本训练的语言模型如BERT、GPT,其训练的文本单位一般都是几百字到上千字,所以长度在这个范围内的文本处理没有太大问题,并且 GPT生成一千字以内的文本都可以生成得非常流畅。

目前机器翻译能够处理比较长的文本,但是不能说长文本问题就解决了,它本身还存在很多挑战:

  • 一个是基于篇章的机器翻译问题,不光是我们,学术界还有很多同行都在研究这个问题。基于篇章的机器翻译实验证明,对改进翻译质量起作用的上下文只有前1-3个句子,更长的上下文反倒会降低当前句子的翻译质量。按理来说,上下文更长,机器翻译的效果应该是更好的,那为什么反而翻译得更差呢?这是不合理的。

  • 另一个是预训练语言模型问题。现在机器翻译的训练长度一般是几百字到上千字,然而实际处理的文本可能不止一千字,比如说一篇八页的英文论文,起码都两三千字了。因此预训练语言模型在实际处理更长文本的时候,还是会遇到很多问题,这种情况下,语言模型消耗计算资源巨大,计算所需时空消耗会随着句子长度呈平方或者三次方增长,所以现有模型要想支持更长的文本,还有很多问题尚待解决。

缺乏常识问题

这里我以不久前去世的董振东先生提供的例子为例(如下图所示),“bank”是翻译中一个经典的歧义词,有“银行”和“岸”的意思,在什么语境下翻译成哪个意思,对于人来说很容易理解,但是即使有 fishing、water这样的相关提示词存在,谷歌翻译器还是将这个词翻译成了“银行”。在神经网络机器翻译时代,这种常识性错误依旧比较普遍存在。 

另外一个例子就是 GPT 的文本生成。GPT 在文本生成方面已经做得很好了,然而即便如此,还是会犯很多常识性的错误。以下面这个经典案例为例,前面人类输入的句子是“在一项研究中,科学家们发现了一群独角兽,它们生活在安第斯山脉一个偏远的还没被开发山谷中,更令人惊讶的是这些独角兽会说一口流利的英语”,其中“独角兽会说一口流利的英语”在现实生活中是荒唐、完全不可能的事。然而,GPT系统就根据这一句话生成了一个故事。 

故事写得很漂亮,但是存在错误,比如第一句就是错误的,“科学家根据它们独特的角,将它们命名为Ovid’s Unicorn,这些有着银色的四个角的独角兽是原来科学家所不曾见过的”这句话本身就矛盾,独角兽怎么会有四个角呢?这是很明显的一个逻辑错误。所以常识问题,在机器翻译中依旧是一个非常严重的问题。


  基于深度学习的自然语言处理,其边界在哪里? 

那自然语言处理中哪些问题是可以解决的,哪些是不可以解决的呢?这就涉及到它的边界问题。我认为深度学习有几个重要的边界:数据边界、语义边界、符号边界和因果边界。

数据边界

数据边界是限制当前机器翻译技术发展的约束之一,这个比较好理解,就是指数据不够,这是现有方法无法解决的。

语义边界

人工智能在很多领域都大获成功,其中在围棋、电子竞技等项目上获得的成功最大,包括早期还没有深度学习乃至统计方法时,在 Winograd 系统上就很成功了,为什么会取得这么大的成功?

我认为这是因为这些领域能够对客观世界的问题进行精确建模,因此能做得很好;而现在自然语言处理系统大部分都无法对客观世界进行精确建模,所以很难做好。另外比如像智能音箱、语音助手系统能够取得一定成果,很大程度上也是因为这些系统对应着明确定义的任务,能对物理世界建模,不过一旦用户的问话超出这些预定义的任务,系统就很容易出错。 

机器翻译的成功是一个比较特殊的例子,这是因为它的源语言和目标原因的语义都是精确对应的,所以它只要有足够的数据而并不需要其他的支撑,就能取得较好的效果。

 现在的自然语言处理系统大部分,还只是流于对词语符号之间的关系建模,没 有对所描述的问题语义进行建模,即对客观世界建模。而人理解语言的时候,脑子里一定会形成一个客观世界的影像,并在理解影像后再用自己的语言去描述自己想说的事情。 

 实际上,自然语言处理的理想状态应该是能够对客观世界进行描述并建模,然而对客观世界建模相当复杂,实现并不容易。以颜色这个属性为例,可以用三个 8 位数进行建模,可以组合出数千万种颜色,但刻画颜色的词语只有数十个,词语和颜色模型的对应关系很难准确地进行描述。 

在机器翻译的研究中,对客观世界建模并不新鲜,早期的本体或者知识图谱、语义网络,都是人类专家试图对客观世界建立通用性模型的一种长期努力,其中一项集大成的成果便是知识图谱,但是它目前还没有办法很好地应用到深度学习中来。不过,我认为这是一个很值得探索的方向。

总而言之,我认为自然语言处理的一个理想的改进方向就是做世界模型或语义模型,换句话说,就是不仅仅只做文本间的处理,还必须落地到现实世界中,去对现实世界建模,而知识图谱这是其中一个较为值得探索的具体方向。

符号边界

心理学家将人的心理活动分为潜意识和意识,用我的话来理解就是,可以用语言描述的心理活动称作意识,而无法用语言描述的心理活动称为潜意识。

神经网络实际上则是潜意识的行为,可以输入语言和输出语言表达,但是无法对整个推理和计算过程进行描述,这本身就是它的一个重要缺陷。 

举一个简单的例子:使用有限状态自动机,可以精确地定义一些特定的表示形式,如数词、年份、网址等等,但再好的神经网络也很难准确地学习到有限状态自动机的表达能力,这是很多实用的自然语言处理系统仍然离不开符号这种规则方法的原因。

因果边界 

人类对客观世界中发生的事情中的因果关系都有明确的理解。所以很容易去芜存真,抓住问题的本质。

神经网络无法做到这一点,它根据数据学习到的东西去做出判断而并没有理解真正的因果关系,即并不知道哪些因素是事情发生的真正原因,哪些是辅助性的判断依据,因而很容易做出错误的判断 。

实际上,仅仅根据统计数据进行推断,很难得到真正的因果关系。真正的因果关系,只有通过精心设计的实验才能得出,例如药物的有效性,美国、中国药物局都需要花上几十年的时间做实验,最终才能确定出一个因果关系,相当不容易。

今天我讲了基于深度学习的自然语言处理依旧面临的几个问题,而我认为这些问题最终是由我前面提到的四个边界造成的,并且不是由边界中的某一个造成,而是由多个边界的共同干扰所造成的。对此,我用一个关系图来描述这种对应关系,如下图所示。

 


  附:问答部分

听众提问:在统计机器翻译时代,有分词分析、句法分析以及语义分析等共性任务,那在神经网络机器翻译时代是否也有这样一些共性任务呢?

刘群:显然是有的。

一个是预训练语言模型,它实际上就是在将语言当成一个共性任务来处理,其之所以现在取得这么大的成功,我认为某种程度上就是因为这种共性任务的处理方式。

第二个是知识图谱,它其实也是一种共性任务,这个领域的研究者做了这么多年的研究,我认为是非常有意义的,所以我们现在也在想办法将知识图谱和自然语言处理结合起来做研究。

另外在手机助手、音箱等语音对话系统中,也能够体现这种共性任务,比如说系统中的多个技能,包括控制家电、播放音乐等,如果进行单个处理的话,各项技能之间会“打架”,因此就需要将这些问题进行共性任务处理,这样的话就会变得非常复杂,所以对话系统在这种共性任务上的研究,是比较值得探索的。

感谢刘群教授对本文内容的审阅和校对。


今日责编:喜欢三毛的小卷毛


转载编辑:应用语言学研习

公众平台审核: 梁国杰

科研助力
2021年度国家社会科学基金后期资助暨优秀博士论文出版项目申报公告
一文讲清后期资助项目(国家社科&教育部社科后期资助项目)


文献延伸阅读(研习人指引)

本平台友情整理相关文献索引链接,

欢迎感兴趣的朋友按需选购。



精选推荐

点击左下方阅读原文,发现更多语言学好书!


一文讲清后期资助项目(国家社科&教育部社科后期资助项目)




2021年度国家社会科学基金后期资助暨优秀博士论文出版项目申报公告


社科基金后期资助项目书稿整合要点指南


推荐阅读:
汉语国际教育怎么办?大咖云集出谋划策(李宇明、刘利、王甬、吴应辉、王辉……)
重磅上市 |《国际中文教育中文水平等级标准》及解读本正式出版!
一文讲清后期资助项目(国家社科&教育部社科后期资助项目)
预告 | 南京大学119周年校庆人文社科高端系列讲座
【会议通知】第六届中国生态语言学战略发展研讨会
王俊菊:新文科建设对外语专业意味着什么?
CSSCI来源期刊&扩展期刊(2021-2022)目录完整版
语篇衔接与连贯的缺省语义学阐释
赵蓉晖 冯健高 | 区域国别研究视角下的语言能力:地位与内涵
基于文献计量学可视化技术的国内话语分析研究热点与主题演变
【征稿通知No.1】2021(第17届)语言智能教学国际会议
第四届跨文化教育服务国家战略高峰论坛暨《指南》背景下的大学英语教学跨文化能力培养研讨会
《文史哲》主编王学典:治学的功力与见识
写好的唯一办法:每天都写!
北大中文核心期刊投稿方式大汇总(最全版)
校友会2021世界一流大学建设高校排名!
校友会2021世界一流学科建设高校排行榜
2021中国高校国家级一流课程数量排行榜
全名单!CSSCI(2021-2022)期刊目录与情况分析,增减变化一目了然!
资讯丨CSSCI 2021-2022年扩展版期刊目录(附变动情况)
蔡静 张帅 唐锦兰│我国高校外语教育信息化主要问题调查
《外语教学》2021年第3期目录
王宁:新文科视域下的翻译研究 |《外国语》2021(2)
徐锦芬 | 应用语言学研究的国际动态与前沿分析
王克非 | 翻译研究拓展的基本取向
《外国语》| 傅敬民 刘金龙:中国特色应用翻译研究的特色问题
2021新增 9 本语言学类SSCI期刊 | CorpusTalk
国内最有代表性的17个语料库介绍
涨知识 | 世界语言文字知识知多少?
刚刚,2021 QS美国大学排名发布!
冯志伟先生讲座讲稿:词向量与语言学
会讯 | 第二十届中国认知语言学国际论坛日程(1号公告)
预告 | AI & Cognition Lab 人工智能与认知实验室2021年春季8场讲座
会讯 | 第三届中国外语教育高峰会议(5月27日)
2021年度国家社会科学基金后期资助暨优秀博士论文出版项目申报公告
语言学联合书单 | 外教社语言学图书年度盘点
语言认知科学国际学术研讨会(CLCS-1) 通知(第1号)
《外语教学与研究》2021年第3期目录和摘要
语言学家伤口撒盐:王冕死了父亲
秦丽莉等 | 生态给养视阈下英语知识内化机制构建——基于课堂展示活动
刘乐宁 | 美国外语教学委员会外语教学标准与《国际中文教育中文水平等级标准》的互鉴和互补
重磅 | 2020中国高被引学者榜单出炉,外语界有这些学者上榜
语言学、外国文学、中国文学CSSCI (2021-2022) 源刊目录及官微汇总
语言腐败的类型/表现形式
干货 | 228所高校学报投稿邮箱+472本社科领域经典文献!
重磅丨2021软科中国语言类大学排名出炉(附中国大学完整排名)
重磅 | 语言学CSSCI(2021-2022)来源期刊投稿方式大全
新文科背景下外语教育规划高端论坛(二号通知)
会讯 | 首届“国家翻译能力:理论建构与实践探索”学术研讨会
胡键丨语言、话语与中国的对外传播
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
文秋芳 | 大学外语课程思政的内涵和实施框架
文旭 | 语言学课程如何落实课程思政
王文斌 柳鑫淼:关于我国外语教育研究与实践的若干问题
首批国家级一流课程案例分享及评审标准
数说 | 国家社科思政专项2020年立项题目和2021年选题指南
胡壮麟:吾师韩礼德先生的为人和治学 | 纪念著名语言学家M. A. K. Halliday
黄国文 | Halliday的系统功能语言学理论与生态语言学研究
新书推荐 | 穆雷 等著《翻译学研究的方法与途径》
《当代语言学》2021年第2期目录
何宁 王守仁 | 高校外语专业学生外语运用能力的培养
抗击新冠疫情语境中的新语用现象
译者 | 林语堂翻译经验:“之乎者也”怎么译?
刘英凯 | 论中国译论的潜科学现状
许渊冲:翻译让中国文化走向世界 | 中国外文局
中国国家治理话语体系的构成与演化:基于语词、概念与主题的分析
文旭 | 大数据时代的认知语言学展望
新书 | 文秋芳著《产出导向法:中国外语教育理论创新探索》
会讯|第十二届中国认知语言学研讨会征文【一号通知】
冯志伟 | 神经网络、深度学习与自然语言处理
访谈视频 | Dan Jurafsky:AI 如何改变我们对语言的理解
徐赳赳 | 篇章语用研究70年
胡钦谙 顾曰国 | 计算语言学研究70年
王灿龙 | 现代汉语句法语义研究70年
刘海涛 | 数据驱动的应用语言学研究
刊讯 |《现代外语》2021年第3期目录
刊讯 |《现代外语》2021年第4期目录及摘要
《外语与外语教学》2021年第2期目录及文章摘要
许国璋语言高等研究院学术讲堂:2021上半年讲座预告
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
国家社科基金评审标准解读
“浙大学报”:建议科研人员培养一些庸俗的爱好!
刊讯 |《外国语》2021年第2期目录
陈旸:《论语》英译研究的功能语篇分析途径(黄国文序)
荐书 | 潘艳艳《多模态国防话语的认知批评研究》附:胡壮麟、张辉序
多模态批评话语分析: 理论探索、方法思考与前景展望

张伟年 段宛云等. 多模态话语分析:以“疫情防控外语通”为例

《乔姆斯基教授访谈实录》| 外国语
视频 | 乔姆斯基2021最新演讲:Genuine Explanations
讲座视频 | 乔姆斯基:Language, Creativity,and the Limits of Understanding
陆俭明:为何“人工智能对语言学的研究成果不是不需要,而是用不上”?
视频 | Martin Hilpert:为什么要学习语言学?
国内基于语料库的批评话语分析研究综述
批评话语研究的语境-指称空间模型
新文科背景下的外语教育与外语研究(一)|《中国外语》
何莲珍 胡开宝 胡壮麟|新文科背景下的外语教育与外语研究(二)
梁茂成 刘宏 宁琦|新文科背景下的外语教育与外语研究(三)
束定芳 王文斌 修刚 张辉|新文科背景下的外语教育与外语研究(四)
张天伟 | 我国外语教育政策的主要问题和思考
书讯 | The Routledge Handbook of Cognitive Linguistics 文旭&Taylor主编
冯志伟《现代语言学流派》读书笔记链接
韩礼德 | NEW WAYS OF MEANING: 对应用语言学的挑战
中国英汉语比较研究会教育语言学专业委员会第12届年会(2号通知)
王铭玉 | 语言符号学派行:中国符号学研究
新中国成立以来我国国家形象建构
何文忠:翻译质量差谁之过?
论文该发还得发!224本C刊最新投稿指南汇总
孙疆卫 王立非|Nvivo建模方法在翻译学研究中的应用
100所发布外语类专业研究生调剂信息高校汇总(不仅限于外语类)
刊讯 |《现代外语》2021年第2期目录
刊讯 |《外语电化教学》2021年第1期目录
《外语学刊》2021年第2期目录和提要
前沿 | 2021年度语言文学类学术会议集锦
会讯 | 第三届“美国学与国际研究”论坛预通知
张伯江:功能、语用、认知研究的深化
《中国外语》专号预告|外语课程思政建设
黄国文:思政视角下的英语教材分析
陆俭明 | 汉语研究的未来走向
胡键丨“一带一路”的实践与中国的语言战略研究
高雪松 康铭浩 | 国外语言政策研究的问题和路径
沈骑 | 新中国外语教育规划70年:范式变迁与战略转型
观点汇辑|“国际中文教育”大家谈
回放︱第五届全国高等学校外语教育改革与发展高端论坛
翻译必备 | 最好用的语料库了解一下,没有之一!
郭熙 林瑀欢:明确“国际中文教育”的内涵和外延(外一篇:白紫薇 | 孔子学院转型发展研究)
文秋芳 | 学术英语化与中文地位的提升:问题与建议
《外语教学与研究》2020年总目录
毛浩然:快速入门一个新学科领域的六部曲
视频合集 | Caroline Heycock:生成句法入门(课程共11讲+番外篇)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
基于普通语言学的当代英语功能分析 (胡壮麟等 序,陈建华等 译)
我们用爬虫和机器学习模型深挖了拜登的对华智库
国际顶级杂志《文体》以特刊形式集中探讨北大申丹教授首创的叙事理论
克里斯蒂娃:《普遍的语言学与“可怜的语言学家”》(龚兆华 王东亮译)
外语教学:国别和区域研究专题 |《外语学刊》
交流 | 盘点设立语言学/应用语言学本科专业的七所中国高校
交流 | 被评为“语言学”一流学科的高校建设得怎么样了?
“语言生活”研究热点︱语言政策与规划研究
科研助力 | (即将)读研究生的你,如何选择研究方法?
观点 | 汉语教学标准与大纲专题
蔡基刚:取消英语主课地位,无异于重新回到闭关自守年代
“不应以任何方式削弱英语教育的地位和价值”——外语界部分知名专家谈“取消英语在中小学主课地位”
北外教授张连仲:“小学开设英语课程是明智之举” 全球化时代英语教育更应加强
取消英语主科、淡化英语考试、削弱英语地位,谁最高兴?
王克非: 新中国翻译学科发展历程
纪念王德春先生逝世十周年暨当代语言学新视野国际研讨会 会议通知(第一号)
《中国小语种教育趋势报告》:在线教育优化供给端,小语种高考机会来临
重磅 | 2020年度全国高校新增和撤销的语言类本科专业名单汇总
会讯 | 第三届“‘一带一路’背景下的汉语国际教育” 国际学术研讨会
盘点 | 中国古代语言文字学名人录
汇总帖丨外文局审定600条新冠疫情相关词汇中英表达
科研贴士 | 如何写好研究计划(Research Proposal)?
乔姆斯基 | Minimalism: where we are now, and where we are going
李宇明:语言与人类文明 | 中国社会科学报
吴勇毅:国际中文教育“十四五”展望
张辉 张艳敏 | 批评认知语言学:理论源流、认知基础与研究方法
刘英凯:试论奈达“读者反应”论在中国的负面作用(修订稿)
盘点 | 各学科C刊 2021年重点选题方向汇总!(来源:人大复印报刊资料)
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
2020人大复印资料语言学·文学类最受欢迎文章集萃
李葆嘉:西洋汉语文法学三百年鸟瞰 | 华东师范大学学报(哲社版)
近五年国家社科基金年度项目 语言学立项名单一览
译词 | 64个跨文化核心词(含中英释义)
黄友义:疫情之后看外语和翻译的多与少 |《中国外语》
乔姆斯基:语言学的“当时”和“现在”
陈平:语言交叉学科研究的理论与实践
陈平 | 交叉学科教学与研究:做什么,怎么做?
吴应辉 梁宇:交叉学科视域下国际中文教育学科理论体系与知识体系构建
吴应辉:汉语国际教育面临的若干理论与实践问题
多模态视野下的国家媒介形象:概念与特征 | 中国社会科学报
刘英凯:归化——翻译的歧路
交流 | 那些隐藏在高校“文学院”中的“自然语言处理”专业
李晨阳:关于新时代中国特色国别与区域研究范式的思考
推荐 | 第二语言教学法主要流派全收录(值得收藏)
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
沈家煊:“能简则简”和“分清主次”——语言研究方法论谈
李强:关于区域与国别研究方法论的思考
神经语言学国际热点与趋势的科学知识图谱分析
姜望琪:Halliday的语篇衔接理论 |《语篇语言学研究(第二版)》
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
【高端笔谈】外国语言文学学科高质量发展的路径
邢向东:论语言研究中的问题导向
国内生态学视角外语教学的特征和趋势 ——基于CiteSpace的可视化分析
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
世界语言谱系及语种概览 | 语言学微课堂
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示
海外中国学研究机构名录一览表(2020年版)
干货 | 3000个常见公共场所英语标示!(国家英文译写规范)
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
语言专业师生必看的10部电影(附观看链接)
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
书讯 | 利奇《语用学原则》中译本出版
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
陈力:西方现代教学理论真的反对语法教学吗?
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
荐书 | 北京大学出版社语言学图书书单
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
王缉思:浅谈区域与国别研究的学科基础
“国家形象研究”高被引论文排行榜 TOP 10
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
所以,什么是语言学?| 语言学微课堂

扫码关注↑↑↑ 即可获取最新入群二维码!

目前已有2.79万语言文学、区域国别学

研习者关注本公众号

欢迎加入交流群,分享学习,共同进步!

研习人,何不点赞、在看、分享三连?!

一个,点亮在看

您可能也对以下帖子感兴趣

专题 | 数智化时代的翻译科研实证研究
技术洞察 | GenAl时代,外语专业教育如何转型?
2024教育部人文社科一般项目拟立项题目24个学科高频词词云图
外国语言文学博士学位一级学科授权单位汇总
语料库技术 | 特殊符号检索BCC语料库

文章有问题?点此查看未经处理的缓存