大语言模型与语言研究的双向赋能与融合发展(杨尔弘 胡韧奋)
The following article is from 语言战略研究 Author 杨尔弘,胡韧奋
欢迎关注我们,一站式分享海量语言学术资源
来源编辑:语言战略研究、语言监测与智能学习公众号
我们的宗旨:助研助学,促进交流
敬请星标应用语言学研习,喜欢请点赞,分享请转发⭐
大语言模型与语言研究的双向赋能与融合发展
杨尔弘 胡韧奋
“
2024年第5期
”
专题研究一
大语言模型
● 主持人语 ●
本期嘉宾
杨尔弘
北京语言大学教授
胡韧奋
北京师范大学副教授
大语言模型与语言研究的双向赋能与融合发展
大语言模型(以下简称“大模型”[1])是当前生成式人工智能最主流的技术,具有强大的生成、迁移与交互能力。简单地说,该技术通过训练模型阅读海量文本,使其在语言表达、即时对话、任务规划、逻辑推衍等许多方面具备了与人类媲美的能力。目前,学界业界主要围绕3个方面开展大模型的研究:(1)倾尽所有算力,通过提高数据质量、优化模型架构和训练策略等各种手段来研发基础、通用大模型,提升模型能力;(2)深入探索大模型的机理,拓展其性能,将最初仅能处理文本的模型,推向兼具文本、语音、图片、视频处理能力的多模态大模型;(3)开发专用或领域大模型、多智能体框架,以满足特定目标,拓展其应用场景。这些研究为大模型应用奠定了物质基础,为大模型的使用者提供了模型选择空间。
大模型的评测研究是伴随其研发同时开展的。为了探究大模型各种能力的天花板,对比不同大模型对特定任务的适配性,引导模型不断地改进优化,满足应用需求,研究者开发了公共的评测平台,设计评测任务和测试试题,从语法、语义、语用、逻辑、知识、计算、推理、规划等各个维度开展大模型的能力评测。在所有评测任务中,语言能力的测试是其中最重要、最基础的内容。深入挖掘语言研究成果,精准地设计探测、激发大模型深层语言能力的测试试题,是利用语言学研究成果引导大模型技术推进的一种方式,同时也向语言学研究提出了挑战。
大模型超强的智能表现,不但大跨步地推进了人工智能的发展,改变了其研究范式,同时也深刻影响着社会生活,为各个领域的研究带来新的契机。就语言研究领域而言,大模型为语言研究带来了新的研究对象和工具。首先,大模型是通过海量阅读、自注意力机制、强大的神经网络、反馈学习等技术学到了与人类比肩的语言能力,这些技术与人类获得语言能力的过程是否一样?与已经存在的语言学理论是否一致?其次,大模型使自然语言不再是人类独有独用的产物与工具,机器生成的与人类产出的语言及其内容各自有什么特点?第三,大模型作为分析语言数据的强大工具,促进了大规模、深层次的语料加工,既可以辅助语言现象的系统描写和语言规律的挖掘,也可以为模型训练提供高质量的数据。因而,大模型与语言研究是双向赋能、融合发展。
将大语言模型与语言研究相结合,首先要了解模型的“能”与“不能”。前期研究表明,大模型擅长解决答问、闲聊(含角色扮演)、翻译、文本摘要、改写、创作、信息抽取、代码分析与生成等类别的任务,但在以下能力上存在缺陷:(1)大模型往往生成流畅但不准确的内容,即产生“幻觉”现象,表现为语义理解、逻辑关联、基本常识、领域知识等方面的错误。由于大模型的工作机制目前仍处于“黑箱”状态,解决幻觉问题还需要时日。(2)由于预训练模型的成本极高、微调数据规模有限,对于时效性、专业性较强的问题,大模型几乎没有能力处理。[2](3)大模型强依赖于预训练数据中的先验知识,生成文本极易受其影响,例如在修正语法错误时,模型往往存在过度修改润色的情况。(4)模型目前还无法准确理解、区分不同数字的含义。因而人们以试探、引导的方式应用大模型辅助人类提高效率。
利用大模型开展语言研究,有3种访问大模型的方式:(1)通过网页或者APP对话;如文心一言、ChatGPT、智谱清言等;(2)通过API调用,如GPT4、Qwen-turbo,智谱AI等都提供了API接口;(3)使用开源模型,如Llama系列、Qwen系列、ChatGLM系列等,还可对它们进行微调或二次开发。无论哪种方式,其本质主要是利用大模型强大的上下文学习能力和迁移能力,引导其适应具体的语言研究任务。因而先测试模型对应的能力,然后有目标地开展引导,诱发出大模型潜在的知识和能力,已经成为大模型应用的一种主要模式。
“提示”是当前最通用、最便捷的引导大模型的方式。“提示”有不包含任务样例(零样本),包含少量样例(少样本),以及附加额外知识等形式,而提示词的设计直接影响对模型引导的效果。设计提示词的常用策略包括:
第一,为模型设定角色,如“擅长分析语言现象和总结规律的语言学家”“经验丰富的国际中文教师”等。
第二,给出清晰具体的任务说明和解决方案,包括:(1)提供必要的背景信息和具体的任务说明;(2)给出问题和答案示例;(3)针对复杂任务设定分步骤解决思路;(4)提供外部知识库或工具检索等必要的专业知识作为参考;(5)设置限制和要求;等等。
第三,在提示词的格式方面,建议:(1)用换行符和###、"""等分隔符来区分提示的不同部分(如指令、背景信息、输入数据等),让模型更容易区分和理解;(2)可要求模型以特定格式输出,如列表、JSON等,以便在批量调用时获得结构化、易解析的结果。
第四,通过API调用模型或使用开源模型时,宜参考文档设置合理的参数值,例如,当追求模型输出的一致性和稳定性时,可将temperature参数设为接近0的数值。[3]
综上,利用大模型开展语言研究时,人的判断、决策与引导扮演着极为关键的角色。人工智能时代的语言研究亟需深入诊断模型机理,充分挖掘模型潜力,使得大语言模型和语言研究实现双向赋能。在这一探索过程中,或会引发诸多值得探讨的新问题,例如,语言学知识如何赋能语言智能技术发展,实现知识与技术的双向迭代?如何高效地为模型注入专门领域知识,以减轻幻觉现象,并促进解决专业性问题?人类社会存在高度多样性和复杂性,如何探究模型与人类价值观对齐的方法论?多模态大模型与多智能体等技术的发展又会为语言研究带来哪些新的挑战和机遇?为此,《语言战略研究》期刊专门组织了“大语言模型”专题,邀请语言学与计算机领域的研究者们共同探讨相关问题,围绕领域模型的研发、模型的特定语言能力测试任务设计与分析,利用大模型辅助具体语言问题的研究,交流他们的研究成果;同时,就语言知识的研究与利用、语言数据与人类知识的相互融合来为大模型提供资源,大模型及智能体对研究和应用产生的影响,以及大模型带来的安全、价值取向和伦理问题,交叉学科人才培养,等等,给出了研究者的观点,期待通过上述交流,推动语言学与人工智能技术的创新融合发展。
[1] 本应简称为“大语模”,但现在业界普遍使用“大模型”。
[2] 为缓解这一不足,研发团队往往会借助联网搜索等方式为模型提供额外参考信息,使其支持较好的实时反馈,但对于互联网无法检索到有效信息的专业性问题,模型仍难以提供理想回复。
[3] temperature和top_p等参数影响模型输出结果的多样性和随机性,网页或APP端产品往往会设置较高的参数值,因此同一个问题多次提问会收到不同结果。
该文发表于《语言战略研究》2024年第5期,引用请以期刊版为准,转发请注明来源。
编排:逯琳琳
审稿:王 飙 余桂林
综合编辑:应用语言学研习
微信公众平台审核:研习君
欢迎关注“高盟”微信公众号↓↓↓
语料库入门十讲 + 给文科生的Python编程课(卫乃兴 管新潮 甄凤超 庞双子等主讲)
平均立项率达27%!国家社科基金后期资助项目——从规划到结项
新书推荐
基础文献荐读
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有 10.6 万语言文学、区域国别与
跨文化传播学研习者关注本公号
欢迎加入交流群,分享学习,共同进步!
欢迎点赞、在看、分享三连!