查看原文
其他

NLP短评 | 神经网络与自然语言处理关系演变

AINLP 2023-02-27

The following article is from TJUNLP Author B115

\ | /

GPT-3发布不久,有人根据GPT-1/2/3规模的对比,预测GPT-4参数规模将达到100万亿。但是最近几年,随着对大模型研究的深入,人们发现,单纯增加参数规模并不一定能获得最优的性能提升,计算量、数据量、参数量与性能之间存在某种Neural Scaling Laws,在给定算力的前提下,可根据这些Scaling Laws估算最优的参数规模、训练数据量。最近,斯坦福基础模型研究中心Percy Liang等人领导的对多个公开、半公开、封闭大模型的综合测评发现:模型规模超过一个阈值(500亿)时,性能基本上可以出现一个跃升,如果训练得当,500亿参数的模型性能可能显著优于5000亿参数的模型,增加规模,与其他方式相比,并不是一种提升性能的高效率方法。


本次短评简述了神经网络与自然语言处理关系的演变,大模型便是这种演变的成果之一,自然语言处理本身的固有挑战和科学问题,会继续推动神经网络的发展。

神经网络与自然语言处理关系演变


在上一章的短评中,我们主要介绍了机器翻译研究范式的变化以及不同范式之间的激烈碰撞。在本章的短评中,我们扩大一下视野,回顾在过去几十年中,神经网络与自然语言处理之间关系的演变。

神经网络大规模应用于自然语言处理早在20世纪八九十年代就开始了,神经网络代表的连接主义(Connectionism)与当时自然语言处理的主流方法——理性主义(Rationalism)——在基本思想上存在巨大分歧。理性主义采用符号和规则(词法规则、语法规则等)描述语言,通过有限规则的无限运用满足语言的无限性,符号和规则均是离散的。在纯正的理性主义者看来,语言规则是内生在大脑中的,而不是后天习得的。乔姆斯基把“刺激的贫乏”(Poverty of the Stimulus作为普遍语法(Universal Grammar)存在的重要证据。而连接主义使用连续的向量空间表示,描述大脑中语言分布的连续性,并认为能依靠神经网络强大的表征能力(如多层感知机是任意函数的近似器)从数据中学习向量空间表示和语言规则。

将神经网络方法应用于自然语言处理,早期主要存在两方面的质疑:变量联编(Variable Binding)和系统性(Systematicity)[1]。前一个质疑主要来自神经科学,即一个向量如何同时编码多个信息,比如“红色三角形中间的黄色圆圈”,如果用符号主义方法,可以表示为:


red(x) ∧ triangle(x) ∧ middle(x, y) ∧ yellow(y) ∧ circle(y)


上面多个变量实现了同时联编。显然,这个问题用现在的分布式表示学习很容易理解,神经网络通过分布式表示学习可以同时表征多个信息。

系统性问题或者系统组构性(Systematic Compositionality)问题,主要是指神经网络在将已知的概念根据系统规则组构成新概念的泛化能力不足,而自然语言一个很重要的特点就是通过规则组合已知概念或语言单元,从而形成无限的新概念或新语言表达。近年来,系统性问题在深度学习中得到重新重视,很多研究工作在这一领域中开始不断涌现。

理性主义与连接主义在自然语言处理中的碰撞实际上也代表理性主义与经验主义的碰撞。乔姆斯基将语言和语法重新定义为外化语言(Externalized Language,E-langauge)和内化语言(Internalized Language,I-language),他认为,内化语言(即语法)代表大脑的物理机制,是语言学家应该关注和研究的,外化语言只不过是内化语言的外在表现形式,是大脑思想的间接证据。与理性主义者截然不同,经验主义者更看重和关注外化语言的利用和研究。在20世纪90年代神经网络难以向更深层进展之后,作为经验主义的典型代表,基于语料库的统计方法在自然语言处理中获得了更广泛的应用(如统计机器翻译、统计句法分析等),并取代了理性主义成为自然语言处理的主流方法。支持向量机(SVM)、最大熵(Maximum Entropy)等通用机器学习方法在自然语言处理的各个任务中得到成功应用,这个阶段的统计自然语言处理以特征工程(Feature Engineering)为主要特点,即在给定的机器学习框架中寻找和设计合适的语言特征。

到了20世纪初, Yoshua Bengio 等人在2001年提出将前馈神经网络应用于语言模型,构建了第一个神经语言模型(Neural Language Model),用实数向量表示语言模型中的单词。2008年,Collobert 和 Weston提出了基于神经网络的自然语言处理多任务学习模型。在该模型中,多个自然语言处理任务,如词性标注、命名实体识别、语义角色标注等共享神经网络参数。2013年,Mikolov等人提出了Word2Vec,词向量或者词嵌入(Word Embedding)学习为深度学习在自然语言处理中的应用构建了更坚实的基础。2014年,基于循环神经网络的序列到序列、编码器-解码器模型开始应用于机器翻译。2015年,注意力机制被提出并得到广泛应用。

同年,国际计算语言学学会年会ACL首次在中国(北京)召开,此次会议形成了深度学习方法和传统统计方法在自然语言处理发展中的分水岭。从这次会议录取论文的数量上看,神经网络方法还没有形成压倒性的优势,但是神经网络方法在此次会议中,无论是正式会议报告、研讨会Panel,还是会议间隙期间自然语言处理研究人员私底下的讨论,都是最热烈和最激烈的话题。

当年的ACL主席、斯坦福教授Christopher D. Manning在《计算语言学》期刊2015年的后序(Last Words)中发表“计算语言学与深度学习”的评论[2],开篇即以“海啸”来形容深度学习对自然语言处理的冲击,并将2015年视为深度学习海啸全力冲击自然语言处理各大会议的元年。同年,在国际机器学习年会(ICML)的一个深度学习研讨会上,在研讨会讨论环节,Neil Lawrence说,自然语言处理如同深度学习机器大灯下的一只兔子,等着被碾平(“NLP is kind of like a rabbit in the headlights of the Deep Learning machine, waiting to be flattened.”)[2]。

2015年之后,在自然语言处理各大主要会议上,深度学习方法迅速取代传统统计方法,成为主流方法。2017年,研究者提出了完全基于注意力的Transformer模型,并将其应用于机器翻译,该模型不仅迅速成为机器翻译的主流神经网络架构,而且也成了自然语言处理的主要框架,尤其是在基于Transformer架构的预训练语言模型得到广泛应用之后,Transformer继续攻城略地,在语音和图像视觉中也得到广泛应用。

2018年,预训练语言模型(Pretrained Language Model)成为自然语言处理技术发展的重要里程碑,BERT、GPT及其各种变体(XLNet、RoBERTa、ALBERT、GPT-2)等陆续得到广泛应用。这些预训练语言模型训练的数据规模、所需的计算量在不断增加。

2020年,OpenAI发布了预训练语言模型GPT-3[3],在 5000亿单词的海量语料上训练了一个带有1750亿个参数的神经网络,通过大量学习各种语言的文本,GPT-3形成了强大的语言表示能力(通用语言智能)、迁移学习能力、小样本学习能力,可以进行多种任务,比如自动翻译、故事生成、常识推理、问答等,甚至可以进行加减法运算,比如两位数加减法100%正确,五位数加减法正确率接近10%。这么庞大的神经网络,如果用单精度浮点数存储,就需要700GB的存储空间;除此之外,模型训练一次就需要花费460万美元。即使如此,拥有强大算力的大公司仍然没有在预训练语言模型的研究中停止脚步。

2021年,单体稠密模型(Monolithic Dense Model)和基于MoE的稀疏模型(Sparse Model)双双向超大规模化继续发展。前者采用稠密神经网络构建,训练和推理时模型所有参数都会被激活和使用,计算量随参数量增加而增加;后者则采用稀疏网络构建,训练和推理时只有一部分模型参数会被激活和使用,计算量不随参数量成比例增加(关于稀疏模型与稠密模型的对比详见《神经机器翻译:基础、原理、实践与进阶》一书中18.5节)。

在单体模型方面:
• 2021年4月,华为发布了“盘古-α”,参数规模2000亿,采用大规模中文语料训练;
• 2021年9月,浪潮发布了“源1.0”,中文预训练模型,参数规模2450亿;
• 2021年10月,微软和英伟达联合发布了“Megatron-Turing NLG”,迄今最大规模的单体模型,参数规模高达5300亿,是GPT-3规模的3倍多;
• 2021年12月,DeepMind发布了“Gopher”,模型参数2800亿;
• 2021年12月,鹏程实验室与百度联合发布了“鹏城-百度·文心”知识增强预训练模型,模型参数量2600亿,是迄今最大的中文单体模型。

在稀疏模型方面:
• 2021年1月,Google发布了“Switch-C”,参数规模1万5710亿,拉开了2021年超大规模预训练模型竞赛的序幕;
• 2021年6月,北京智源人工智能研究院发布了“悟道2.0”,中文预训练模型,参数规模1.75万亿,是迄今最大的稀疏型预训练模型。

虽然超大规模预训练模型的发展受到了很多争议(详见《神经机器翻译:基础、原理、实践与进阶》一书中19.5节),但以上大模型的激烈竞争在未来还将持续。有人预测,GPT-4参数规模可能高达百万亿,实现如此庞大的模型,显然,在模型架构、算法、硬件、软件等方面均存在大量的技术挑战需要攻关。

从以上的发展中可以开出,自然语言处理显然已远不是深度学习大灯下的小兔子,而是反过来以其自身问题的特性和挑战性,迫使深度学习发展出新的模型和方法,引领和进一步推动了深度学习的发展。
儿童在学习语言期间没有足够的数据帮助他们理解语言的所有方面。

参考文献


[1]James Henderson. 2020. https://doi.org/10.18653/v1/2020.acl-main.561 The unstop-
pable rise of computational linguistics in deep learning. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 6294–6306, Online. Association for Computational Linguistics.
[2]Christopher D. Manning. 2015. https://doi.org/doi:10.1162/COLIa00239Lastwords:Computationallinguisticsan 701 − −707.
[3]Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf Language models are few-shot learners. In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. Curran Associates, Inc.

关于NLP短评

该短评系列计20篇,均来自《神经机器翻译:基础、原理、实践与进阶》(作者:熊德意、李良友、张檬),与自然语言处理、机器翻译技术发展及研究范式相关,或介绍技术发展历史,或评论技术背后的动机与思想,或讨论存在的争议,或畅想未来的发展趋势,如:

  • 神经网络与自然语言处理关系演变

  • 注意力机制与认知注意

  • Transformer带来的自然语言处理技术革新

  • 超参数设置——自动优化与实验可复现性

  • 神经机器翻译达到人类同等水平了吗

  • 预训练技术争议与符号奠基问题

  • 科幻中的机器翻与未来机器翻译

       短评不仅包含作者的观点,也涉及许多其他机器翻译、自然语言处理研究人员的发现、观察及思考等,可为自然语言处理与机器翻译爱好者提供一个观察技术的新视角。受限于作者水平,短评及书中观点难免存在错漏,敬请读者批评指正! 华为诺亚方舟实验室语音语义首席科学家刘群老师对短评提出了很多宝贵的建议,在此表示最诚挚的感谢! 

关于《神经机器翻译:基础、原理、实践与进阶》

全彩印刷,精致排版,提供绝佳阅读体验

机器翻译是计算机科学与语言学交叉形成的最早的研究方向,是自然语言处理技术的重要发源地。本书聚焦新一代机器翻译技术——神经机器翻译,系统梳理和介绍神经机器翻译的核心方法和前沿研究课题。全书分为基础篇、原理篇、实践篇和进阶篇,覆盖神经机器翻译的基础知识、经典框架、原理技术、实践方法与技巧,以及无监督神经机器翻译、多语言神经机器翻译、语音与视觉多模态机器翻译等前沿研究方向。全书理论与实践相结合,基础与前沿相交映。

购买链接

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。




阅读至此了,分享、点赞、在看三选一吧🙏

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存