查看原文
其他

好文荐读|周立炜、饶高琦:大语言模型中文语体能力评测研究

周立炜、饶高琦 语言学心得
2024-09-03


好文荐读(第128期)大语言模型中文语体能力评测研究

好文荐读不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~



大语言模型中文语体能力评测研究
周立炜 1,饶高琦(通讯作者)1、21.北京语言大学国际中文教育研究院2.北京语言大学中国语言文字规范标准研究中心   

文章简介

文章来源:周立炜,饶高琦.大语言模型中文语体能力评测研究[J].语言文字应用,2024,(01):69-82.


摘要:语体能力是重要的语用能力,大规模语言模型(下称“大模型”)要在语言生活中落地,需对语体能力进行充分的评价和研究。本文将语体能力定义为在特定语域下使用合适语体进行交际的能力,并基于此设计了语体分类、语体生成、语体转换三个任务,以评测Chat GPT等大模型的中文语体能力。研究发现不同大模型在不同任务和语体上各有其优势与局限。GPT-4的中文语体能力最为全面,Chat GPT和文心一言性能较为出色,Chat GLM-6B和讯飞星火的表现较弱且不稳定。此外,大模型生成的散文、小说等文本过于正式,缺乏文采,一致性错误、规范性错误、事实性错误、不合逻辑、语句不流畅、机器翻译痕迹明显等问题较为突出。本研究为训练和测试人类的语体能力提供了方法参考,对语文教学、国际中文教育等领域的语言能力提升具有借鉴价值。

关键词:大规模语言模型;语体能力;语言资源

基金项目:国家社会科学重大基金项目“‘两个一百年’背景下的语言国情调查与语言规划研究”(21&ZD289)阶段性成果。

感谢《语言文字应用》授权推广,全文下载请点击文末“阅读原文”。


一.引言

自2022年末,ChatGPT等大规模语言模型(Large Language Model,LLM,下称“大模型”)相继发布,引起了全社会的关注。与一般语言模型相比,大模型的训练语料规模和参数规模巨大,使大模型产生了明显的知识涌现能力。在此背景下,对大模型的评测研究尤为重要。这既可以推动大模型技术和应用的发展,也可以加深人类对大模型的理解。

大模型的训练语料中包含大量的语言表达和场景,使得大模型也具备一定的语体能力。语言生活离不开语体,众多自然语言处理领域的应用需要大模型具备较高的语体能力。大模型流畅的语言表达在多数情况下都达到了语法无误的程度,但其语体适合性,尤其是对中文各种语体的理解和产出能力仍不健全。大模型落地需要具有与人类语言生活适配的能力,因而语体能力也是其融入人类语言生活的必备能力。目前学界在评测方面主要关注事实一致性、准确性等内容层面问题,对语体能力为代表的语用能力关注较少,缺乏完整、科学的评测方法。本研究尝试对大模型中文语体能力的评测方案进行探讨,并在ChatGPT等大模型中进行实践,比较、评价其各自的优势及局限,为大模型的改进提供参考,同时也可为人类语体能力的考察与提升提供借鉴。



二.相关研究


(一)语体能力

学界从不同角度论述了语体能力的内涵和表现。李建芳(1998)认为语体能力表现为识别语境类型的能力和选用得体的语言材料和表达方式的能力的结合。吴春相(2014)认为语体能力是言语活动能力的一个方面,包括对某种语体的表达能力,以及某种语体的运用能力。另有不少学者从国际中文教育的角度出发,如陆俭明(2007)指出外国学生的书面语能力主要体现在语言理解的能力、语言表达的能力及在实际的汉语写作纠错改错方面的能力,并进行了详细论述。周芸(2010)认为语体能力是指语用主体在正确识别语境类型的基础上,根据特定语境与语言运用之间的关系,选择和使用不同语体标记来理解或表达某种语体话语的能力,通常由语境类型的认知能力、语体标记的掌握能力、语体的理解能力和表达能力、不同语体的转换能力四方面构成。关于语体能力的考察,主要集中于语言教学,尤其是国际中文教育领域,通常通过语料分析(胡明龙,2013;孙行可,2017)、偏误分析(盛林,2012;成艳艳,2017)、问卷(章蕾,2018)等方式对留学生的语体能力进行考察。

(二)大模型评测

目前,大模型的评测方法主要包括基准评测、人工评测与大模型评测。如SuperNI(Wang et al.,2022)、AGIEval(Zhong et al.,2023)、C-EVAL(Huang et al.,2024)及GAOKAO-bench(Zhang et al.,2023)的提出;Zheng等(2024)开发了模型匿名对战的Vicuna Arena平台,以人工评测的胜负次数衡量模型的能力;Mukherjee等(2023)使用基于GPT-4的评测框架来自动评测大模型的性能,Wang等(2023)训练了专门用于评测大模型性能的裁判大模型PandaLM。评测任务主要包括经典的自然语言处理任务,如情感分析、自动摘要、知识问答、机器翻译(Amin et al.,2023;Jiao et al.,2023;张华平等,2023)等,以及在具体应用情景下,医疗、金融、教育等领域中的性能测试(Khan et al.,2023;Rao et al.,2023;Shahriar et al.,2023;Kasneci et al.,2023)。具体到语体能力的评测,部分研究将语体因素作为考察的一个方面(Mitrovićet al.,2023;Pu et al.,2023;Shaikh et al.,2023),但依然缺乏系统的语体能力评价方案。

综上所述,现有评测对大模型的语体能力关注不足,而大模型的语体能力从某种程度上可体现其在复杂现实场景下的语言理解、沟通、表达等能力。本研究将选取可覆盖语体能力的典型任务与大规模、高质量的语体数据集,形成较为科学完备的语体能力评测方案,全面考察ChatGPT等大模型的中文语体能力,既可为大模型的性能评测提供一个新的视角,也可为训练和测试人类的语体能力提供方法借鉴。



三. 语体能力的评价


在已有研究的基础上,本文将语体能力定义为在特定语域下使用合适语体进行交际的能力,包括在语境识别基础上的语体辨认、理解、表达与转换能力。语用能力指人们在言语交际活动中能够适宜、得体和有效地使用和理解语言,实现话语效能并达到交际目的的能力(何自然等,2003),可见语体能力是其中重要的基本能力。

语体能力需外化到语言行为中才得以真实体现。落实到具体的语体任务中,通过提供尽可能多元的表达场景,从语体分类、语体生成和语体转换三类典型任务出发,即可较为全面地调动语体知识、展现诸方面语体能力。这是衡量语体能力的重要方式。

正式度是最基本、最原始的语体范畴,是话语的本质属性(冯胜利,2010)。文体是根据特定对象、内容和场合中不同语体的需要而形成的文章类别。语体是文体产生的源泉,是不同文体构成的动力和组成要素。通体是构成各类文体的最基础的标体(或构体)要素,而文体之间最一般的区别是正式与非正式。正式体要素和非正式体要素的对立及其差距的大小,是区别文体正式度的核心要素(冯胜利等,2017;冯胜利,2018)。因而,识别与生成丰富全面的文体类型,实质能深刻反映出对不同语体的掌握与运用程度,即语体能力的强弱。对于本研究而言,语体分类任务即要求大模型对给定文本进行文体的分类,主要考察大模型对语体的理解和辨认能力。语体生成任务即要求大模型生成特定文体类型的文本,侧重考察大模型在语体理解和语境识别基础上的语体表达及语言应用能力。语体转换任务即要求大模型对给定文本进行正式度更高/低的转换,主要考察大模型的语体转换和语体表达能力。三类任务各有侧重,又彼此交叉。因此,综合大模型在以上三个任务中的表现,便可对其中文语体能力有一个较为深入、全面、有效的了解与评价。同时,本研究在三类任务中分别引入人类专家指标,以人类高水平中文语体能力形成参照和对比。这既可对大模型的语体能力提供更为直观深刻的观察角度,也从侧面对人类语体能力进行了评价。此外,本方案在人类第一、第二语言教育中也同样适用,师生可参考本方案,从语体分类、生成、转换三方面进行语体能力的训练、考察及提升,以培养较为完备的语体能力,适应多场景的应用需求。


四.评测方案设计

在前文基础上,本章将对语体评测数据集和三个任务的评测方法设计进行详细介绍。

(一)评测数据集

邰沁清等(2021)基于公文、学术文献、政论、新闻报道、小说、散文、微博、歌词8类具有典型性的文体语料,构建了一个192万字符的文体分类语料库(下称“分类库”)。参考邰沁清等(2021)的计算结果,可以得出公文、学术、政论、新闻文体多采用正式语体,小说、散文、微博、歌词、对话文体则口语性较强,多采用非正式语体,并且这9类文体的非正式程度呈递增趋势。黄国敬等(2022)基于同义词词林,人工构建了4438组由口语至通用语至书面语的语体链条搭配例句(下称“链条库”)等平行语体分类资源。本研究将在以上数据集的基础上开展评测。

(二)语体分类任务

类库的文本篇数较多、篇幅较长,考虑到提问字数的限制,此任务从8类文体语料中各随机抽取125篇文本,每篇随机截取150~200字之间的片段,总计1000条样本进行测试。结合前人研究及多次尝试,此任务采用的提示词如下:

请判断下列文本属于以下 8 个文体中的哪一类,注意这个文本只能属于某一类文体。

文本:{text}

文体:公文、学术文献、政论、新闻报道、小说、散文、微博、歌词

最后,以召回率(Recall,R)及F1值(F1 score,F1)对大模型的分类结果进行评价。由于本任务已采用答案唯一的客观题形式,答案即人类专家的文体分类结果,因此本任务的人类专家得分统一为1。

(三)语体生成任务

本任务将评测大模型在公文、政论、学术、新闻、小说、散文、微博、歌词、对话9类文体上的生成能力。

对于公文、政论等前8类文体,由ChatGPT分别为每类文体随机生成10个主题,要求尽可能覆盖多种领域。结合实际应用需求及前人研究,对主题进行校验,并基于此采取“角色扮演”的方式,指定生成主题。提示词示例如下:

假如你是一位记者,请撰写一篇以“某国家/地区的运动员在国际大赛上夺得金牌”为主题的新闻稿。

对于对话体,由ChatGPT参考人、事、地、意四要素(冯胜利,2018),设计了10个具有语体区分度的现实生活中的对话场景。对语境和对话者关系的识别是语体选择的先决问题,本任务的设计也是对大模型是否具有自觉的语体意识的考察。提示词示例如下:

假如你是一位销售员,正在商场向顾客介绍产品,顾客询问价格和功能。请生成一段你和顾客的对话。

由于大模型的输出具有不确定性,本部分中,每一个问题均向大模型提问6次,每个大模型共生成540篇文本。此任务采取统计与人工评估相结合的方法对大模型的生成能力进行评价。

1.语体聚类方法

首先,我们对大模型生成文本与人类产出文本间的语体相似度进行测量,以考察生成文本是否得体。其中,公文、政论等8类文体的人类产出文本取自分类库,对话体的人类产出文本来源于自建小型对话语料库,由《鲁豫有约》《名人面对面》《锵锵三人行》等访谈类语料构成。本研究参考邰沁清等(2021)的研究成果,选取具有较好区别性的11类语体特征,包括标点符号比例、双音节动词比例、TTR、MVR、词汇密度、平均词长、句子破碎度、平均句长(字)、平均句长(词)、离散度(字)及离散度(词)(注:标点符号比例即标点数 / 总词数;双音节动词比例即双音节动词数 / 总词数;TTR 即不同类型的词汇数 / 总词数;MVR 即文本中具有修饰性的词语数 / 动词数;词汇密度即实词数 / 总词数;平均词长即总字数 / 总词数;句子破碎度即(句内点号 + 句子数)/ 句子数;平均句长(字)即总字数 / 句子数;平均句长(词)即总词数 / 句子数;离散度指文本中句子句长偏离平均句长的程度。)。在此基础上,使用k-means算法对生成文本与人类产出文本进行语体聚类。

语体聚类从计算的角度评测生成文本是否得体,效率高、具有客观性,但精度不足,无法准确地了解大模型在每类文体上的表现。因此,本任务也引入人工评估的方法,对大模型的语体生成能力进行更为深入全面的考察。

2.人工评估方法

陆俭明(2007)对考量外国学生书面语能力中的语言表达能力进行了详细阐述,指出“首先能做到文从字顺,条理清楚,标点基本正确,不怎么出现错别字,这是起码的要求;再进一步要求在语言表达上做到得体,到位,具体说,能懂得在什么场合、什么情景,当表达什么意思时,需要选用什么样的文体框架,什么样的词语,什么样的句式;再进一步文字简洁明快,有文采”。我们参考陆俭明先生的观点,以得体性、规范性、文采好坏(仅限小说、散文、歌词体)作为衡量生成文本质量的指标,最终得分即各指标的平均值。

此任务共招募6名标注人员,均为语言学及相关专业的本科生及硕士研究生。每人都分到同一个提问下大模型生成的6个不同文本中的1个。此外,我们在未告知标注人员的情况下,按10:1的比例,在大模型生成的文本中随机插入了45篇高质量人类产出文本(注:其中,人类产出的公文文本取自《国务院公报》中的行政法规、决定、命令等;政论文本取自历年政府工作报告;学术文本取自核心期刊中的论文;新闻文本取自新华社新闻;小说文本取自《微型小说选刊》;散文文本取自沈从文、贾平凹等的代表作;微博文本取自较有影响力的博主的微博动态;歌词文本取自《西门少年》《春庭雪》等口碑较好的曲目;对话文本取自《家有儿女》《欢乐颂》等影视剧的字幕。人类产出文本的主题基本来源于大模型提示词中的主题,且人类产出文本的篇幅与生成文本保持基本相当。9 类文体各有 5 篇人类产出文本,每篇均由 6 名标注人员共同评分。),要求标注人员对文本进行0~5分的赋分,并作出文字评价。评分方式设计如下:


标注规范如下:

(1)指标与分值:对得体性、规范性、文采性分别进行1~5分的评分,并进行评价。其中,得体性关注的是交际者使用的语体与情景是否相称,这里主要着眼于词汇、句式等语体要素。规范性关注语句是否符合现代汉语语言规范,包括有无语法错误(这里主要关注赘余、遗漏、误用、错序四类)、别字、异体字、异形词,有无规范汉字、繁体字、英文、拼音混用以及标点符号使用是否得当。文采好坏关注文本的优美程度,体现在遣词造句、辞藻修饰等方面,表现形式可被概括为色彩美、声音美、装饰美、情感美、形象美、哲理美六个方面(王宝大,1994;黄鹤,2000;徐小玲,2013;李怡等,2023)。丁金国(1996、2005)指出,社会对具体话语或语篇的认可度不仅是话语的信息义,还有语体义和风格义。当然,鉴于话语类型的迥异,其各自标准也不会整齐划一。日常言谈与公务、政务等文体,信息义得体居首位,其次是语体义,风格义再次之或可略而不计。而对于审美文体来讲,融合了感情义和审美义的风格义被提到首位,其次是语体义和信息义。因此,本研究仅对小说、散文、歌词体这3类审美文体的文采性作出评分要求。(2)无效文本的判定:若大模型未生成文本、生成文本长度过短以致无法进行评分,所有指标赋0分。(3)特殊情况的处理:若文本出现冗余信息,评分时则忽略,只对文本进行打分。若文本不完整,正常评分。(4)需要避免的误区:本研究的目的为评测大模型的中文语体能力,因此事实性错误、不合常理、语句不够通顺流畅等错误类型不影响得分。(5)开设其他评价列:记录除3个评价指标外的其他错误或不当之处(如第4点所述)、个人阅读感受等。

最后,以各项评分结果的平均值(average value,AVG)及标准差(standard deviation,SD)对大模型的生成结果进行评价。

(四)语体转换任务

考虑到实际应用的需要和句子作为语言结构的中枢地位,本任务在句子层面对大模型的语体转换能力进行评测。

链条库中例句数量较多,我们从中筛选出463组符合现代汉语语境、质量较高的非正式-正式平行例句作为测试集,平均句长为12.57字。提示词如下:

请将下列文本以更加书面/口语化的方式进行表达。

文本:{text}

结合已有研究及多次实验,此任务采取人工评估的方式对大模型的转换结果进行评价。我们以正式/非正式度、规范性、一致性作为衡量转换结果质量的指标,最终得分即各指标的平均值。此任务共招募6名标注人员,均为语言学相关专业的硕士研究生。此外,我们在未告知标注人员的情况下,按4:1的比例,在大模型转换结果中插入了116组高质量人工转换结果(注:其中,非正式—正式的人工转换结果取自链条库中的平行例句,正式—非正式方向另由 2 名语言学硕士研究生进行人工转换。正式—非正式的语体转换规范与链条库的构建规范基本一致,均要求服务于现代汉语语体,并对转换结果的规范性及语义一致性作出要求。)作为人类专家指标,要求标注人员对转换结果进行0~5分的赋分,并作出文字评价。评分方式设计如下:

标注规范如下:

(1)指标与分值:对正式/非正式度、规范性、一致性分别进行1~5分的评分,并进行评价。其中,正式/非正式度用以判断语体转换的有效性,关注的是转换结果相较于原文本的语体变化程度。规范性与前一个任务相同。一致性关注转换前后语义的一致与完整,包括是否有语义的偏离、重要信息的缺失、冗余信息、与原文信息不一致。(2)无效文本的判定:若大模型未生成转换结果、未对原文本进行转换以及转换结果为英文,所有指标赋0分。(3)特殊情况的处理:若生成结果为文言文,则正式度统一判为1分,其他指标正常评分。若文本出现冗余信息,评分时则忽略,只对转换结果进行打分。若生成多条转换结果,最终得分取多条转换结果中的最高值。(4)其他要求与前一任务相同。

最后,以各项评分结果的平均值及标准差对大模型的转换结果进行评价。



五. 大模型的语体能力表现


本研究结合语体能力及语体资源建设研究成果,从语体分类、语体生成和语体转换三个任务出发,采取指标评估与人工评估相结合的方式,对ChatGPT等模型的中文语体能力进行无微调和前置提示信息的评测。本研究使用了大模型的应用接口以获取数据,其中参数model为gpt-3.5-turbo及gpt-4,参数temperature设为1,并与ChatGLM-6B、文心一言2.0(下称“文心一言”)、讯飞星火认知大模型1.0(下称“讯飞星火”)进行对比。各模型的具体表现如下。

(一)语体分类

大模型分类结果的召回率及F1值统计数据如表1所示。

表1  大模型语体分类结果

在分类任务中,GPT-4和ChatGPT均展现出优越的性能,文心一言也有较好的表现,讯飞星火及ChatGLM-6B在分类任务上表现不佳。整体上看,各种大模型正式及非正式语体辨认能力达到基本均衡。可以发现,ChatGPT、GPT-4及文心一言在学术体上的召回率均为1,推测其训练语料中包含了相当数量的学术文献;ChatGLM-6B在散文体上的召回率、F1值均为0,反映出其缺乏散文体的辨认能力,可能由于训练语料中散文数量明显不足;各模型在歌词体上普遍取得了较高的得分,推测这与歌词体本身具有独特鲜明的结构形式特点有关,独句成行、排列整齐,使之较容易被识别成功。在其他错误类型方面,幻觉(hallucination)、逻辑不通、审题不清(如判断为多种不同文体)、未进行判断等问题在ChatGLM-6B、文心一言及讯飞星火输出的结果里集中出现。这表明大模型在中文理解和表达上还有很大局限。

(二)语体生成

1.语体聚类结果

为便于对比,每类文体的人类产出文本与生成文本保持篇数相同、规模相当。使用k-means算法进行聚类,标准化变量,k值为2时取得较好的聚类效果,结果如表2所示。

表2  人类产出文本与生成文本语体聚类结果

注:人类产出文本、ChatGPT、GPT-4、ChatGLM-6B、文心一言、讯飞星火依次编号0~5。

可以看到,人类产出文本的9类文体分成了正式(类别1)与非正式(类别2)两大类别。整体上看,生成文本在两大类别下也均具有较好的聚类结果,与人类产出文本的语体相似度较高,基本达到了得体的要求,仅有GPT-4的微博体和讯飞星火的新闻体两处例外。从结果看,GPT-4生成的微博文本偏向正式语体,讯飞星火生成的新闻文本反而偏向非正式语体。

2.人工评估结果

经过多轮质检与校对,最终得到了人类专家及大模型生成文本的人工评分结果,其平均值及标准差如表3和表4所示。

在非正式语体中,GPT-4获得了最高均值4.37;在正式语体中,ChatGLM-6B获得了最高均值4.47。可以看到,在每类文本中,最高分往往是国内大模型,但GPT-4却获得了得分总均值的最高分4.37,证明了其综合性能更为稳定、优越。此外,在非正式语体中,大模型与人类专家相比依然具有一定的差距。而在正式语体中,大模型对公文、学术、新闻体文本的生成能力已达到和人类专家相媲美甚至超越人类专家的水平。除GPT-4性能均衡外,其余大模型的正式体生成能力普遍稍强于非正式体生成能力。

从3个指标看,得体性上各种大模型各有所长,规范性上国内大模型更胜一筹,文采性上GPT-4优势明显。整体上,各种大模型的得体性与规范性均值能达到4分,即“比较好”的水平,这与语体聚类的结果相互验证。但在文采性方面,除GPT-4外的其他大模型普遍得分较低,为“一般”水平,多出现“描写平淡”“缺乏情感”“内容空洞”等文字评价。

具体到各类文体,我们还注意到一些特殊现象。散文体中,除GPT-4外的其他大模型得体性得分明显较低,而且不稳定(表现为标准差偏大)。回到文本及标注人员的评价,发现“首先”“其次”“再次”“最后”等程式化表达反复出现,文本风格往往偏向议论文,缺乏描写与抒情,过于正式。并且,其得体性受题材影响较大,对于“风景”等常见题材,表现相对较好,对于“环境”“历史”“社会现实”等较难以散文体写作的题材,则通常写成议论体。微博体中,GPT-4的得体性得分反而最高,这可能是由于微博中内容种类多样、风格不限,人类对微博体的包容度较高。对话体中,大模型得体性分数不稳定(标准差较大)。分析发现,大模型在正式度较高的场景,如火车站、银行等场景中表现较好,而在正式度极低的场景,如家中夫妻、母子之间的对话,生成的语句则过于正式。当然,这与大模型的训练语料大多为书面语有关。文心一言、讯飞星火受到提问中一些话题的影响,在公文、政论体中,产生了许多无效文本,导致其得分较低。新闻体中,讯飞星火得体性得分最低,并且使用了许多不够正式的表达。这与其语体聚类中的表现相呼应。

表3  大模型非正式语体生成文本人工评分结果

表4  大模型正式语体生成文本人工评分结果及总均

语体生成能力是大模型在社会生产活动中的语言应用能力的重要体现,具体来讲,让大模型模拟某种职业角色的身份来产出文本,可以考察其承担某种社会功能的能力。尽管存在语法错误、语句不够通顺流畅、事实性错误等问题,大模型在正式体的写作中还是展现出卓越的能力,但相比于人类专家的情感、思想性、表现力与创造力,依然存在较大的差距。

(三)语体转换

经过多轮质检与校对,最终得到了人类专家与各种大模型在非正式与正式两个方向上语体转换的人工评分结果。平均值及标准差统计数据如表5所示。

表5  大模型语体转换人工评分结果

由表5可知,在语体的相互转换中,GPT-4均具有更优异和更稳定的表现,ChatGPT和文心一言紧随其后,ChatGLM-6B也取得较高的分数。讯飞星火在此任务上表现不佳,出现许多未对原文进行转换的情况。整体上看,除讯飞星火向书面语转化的能力强于向口语转化的能力外,各模型的语体转换能力均达到双向均衡,但与人类专家相比,均存在一定的差距。

具体到3个指标,多个大模型的正式度得分已超过人类专家(注:当然,由于链条库的构建基于同义词词林,一些平行例句的语体变化主要集中于词汇的语体转换,这可能会在一定程度上影响对人类专家正式度的评分。),再次展现出大模型在正式体上的突出能力,但大模型的非正式度,尤其是一致性得分,与人类专家相比仍有不小的距离。同样地,大模型以书面语为主的训练语料限制了其非正式程度。此外,这也是由于大模型出现的“幻觉”问题,这在书面化过程中暴露得更为明显。其中,ChatGLM-6B的转换结果中冗余信息往往过多,幻觉问题较为严重,因而一致性得分明显偏低,仅为3.63;而该模型产出的标准差在各种大模型中偏大,反映出其语体转换性能的不稳定。其产出的文本中,不合逻辑、不合常理、语句不够通顺流畅、不符合母语者表达习惯等问题依然存在。

(四)结果分析

综合上述统计结果,以语体分类结果的F1均值(分数范围为[0,1])、语体生成及语体转换人工评分结果的得分均值(分数范围均为[0,5])对人类专家和大模型的分数进行统计与排名,综合得分即三类任务的得分总和(分数范围为[0,11])。结果如表6所示。

表6  大模型中文语体能力排名及得分

GPT-4以三类任务全部排名第一的成绩,取得总分最高分9.91,是本评测中唯一中文语体能力达到优秀(满分的90%以上)的大模型。ChatGPT和文心一言紧随其后,二者的语体能力较为接近。ChatGLM-6B和讯飞星火均有明显短板,前者在分类任务中性能较弱,后者语体分类和语体转换能力较差,最终得分未达到及格线(满分的60%以上)。据公开数据,ChatGPT背后的GPT3模型的参数规模达到1750亿;GPT4模型参数量则达到1.8万亿;文心一言的参数规模为2600亿;ChatGLM-6B的参数规模为62亿。参数规模更大的模型在生成式任务上通常有更好的表现。本评测的结果也与这一基本判断相吻合。当然,不同产品的定位和开发规则也会对其实际生成结果造成一定影响。

如前文所述,大模型在一些正式文体下的性能已可以和人类专家相媲美,这给众多行业带来或多或少的冲击。然而,对待大模型,正如饶高琦等(2023)所说,其带来的冲击必须被正视,也应以工具视角审视,进而推动技术本身的发展,以获取红利,并减少实践风险。从语言资源的视角出发,一方面,语言资源是大模型研制的基础。应纳入更为多元的语言表达场景,达到深度与广度的平衡,为大模型提供足够丰富的高质量语体数据资源,以适应复杂的实际应用需求。另一方面,大模型也可被视作重要的语言资源,服务国家、社会、行业、个人等各层面的语言生活。


六.结语

本研究设计并实践了一套中文语体能力评测方案,从语体分类、语体生成、语体转换三个任务出发,对ChatGPT等大模型的中文语体辨认、理解、表达、运用、转换等能力进行了较为全面的考察,发现大模型在不同任务和语体上各有其优势与局限。总的来说,GPT-4的中文语体能力更为全面出色,ChatGPT和文心一言性能较为出色,ChatGLM-6B和讯飞星火在三个任务上的表现不稳定,有明显短板,整体能力稍弱。并且,各种大模型生成文本的非正式程度相对受限,文采普通,一致性错误、规范性错误、事实性错误、不合逻辑、语句不够通顺流畅、机器翻译痕迹明显等问题依然存在。对于大模型,应以工具观视之,以丰富多元的语体数据资源和技术进步拓展其语体能力,同时合理利用并充分发挥其语体资源属性,使之更好地服务于语言生活(郑永和等,2023)。此外,本研究虽然以大模型为具体评测对象,但对于评价人类的语体能力,也不失为一种有益的尝试。此语体能力评测方案对于人类的语言教育也同样适用,对语文教学、国际中文教育等领域的语言能力提升均具有借鉴价值。



作者简介







周立炜

个人简介:周立炜,北京语言大学在读硕士研究生,主要研究方向为语言规划、语体学、语言资源学。


饶高琦

个人简介:饶高琦,博士,副研究员,硕士研究生导师,国际中文智慧教学系统核心研发人员;中文句法错误诊断技术评测(CGED)主席,全国计算语言大会(CCL)领域主席、出版主席,全国自然语言生成与智能写作大会NLGIW评测主席,中国中文信息学会青年工作委员会委员,国际中文词汇语义学学术会议(CLSW)、面向教育应用的自然语言处理技术工作坊(NLP-TEA workshop)程序委员会委员,《语言战略研究》《语言教学与研究》《自动化学报》《PLoS One》《Frontier AI》等刊物审稿专家,中国中文信息学会、国际中国语言学学会会员。语言学公众号“汉语堂”主编。主要研究领域为计算语言学、语言规划、智慧教育和数字人文。


本文来源:《语言文字应用》

点击文末“阅读原文”可跳转下载

欢迎转发扩散!




推  荐




共话前沿(第4期)|“学术汉语与国际中文教育”专题讲座

2024-08-01

刊讯|《教育语言学研究》2023年年刊(留言赠刊)

2024-08-01

好文荐读丨郝晓慧、史金生:复合事件回应标题句的互动功能及实现策略

2024-08-01

重磅|2024年度国家语委科研项目申报@8月9日截止

2024-07-31

学术会议|第九届学习词典与二语教学国际研讨会

2024-07-31

招聘|省属重点学校2024年教师招聘(语言学)

2024-07-31

学术会议|2024年家庭语言政策国际会议

2024-07-30

刊讯|SSCI 期刊《儿童语言研究》2024年第1-3期

2024-07-30

招聘|成都大学2024年教师招聘(语言学)

2024-07-30


欢迎加入
“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群务必备注“学校/单位+研究方向/专业”

今日小编:小秦

审     核:心得君

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转下载

继续滑动看下一个
语言学心得
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存