饶高琦,胡星雨,易子琳:语言资源视角下的大规模语言模型治理
2023年第4期
专题研究一 语言智能
本期嘉宾
饶高琦
北京语言大学助理研究员,主要研究方向为计算语言学、语言规划、数字人文
胡星雨
北京语言大学在读硕士研究生,主要研究方向为语法学、计量语言学、汉语史
易子琳
北京语言大学在读硕士研究生,主要研究方向为数字人文、语言规划、现代汉语语法
语言资源视角下的大规模语言模型治理
饶高琦1,2,胡星雨1,易子琳1
(1.北京语言大学 国际中文教育研究院 北京 100083;2.北京语言大学 中国语言文字规范标准研究中心 北京 100083)
提 要 近半年来,柴语生(ChatGPT)等大规模生成式语言模型的应用,引发了全社会的关注和反思。对这种大模型,应以工具观加以正视,认可其技术发展带来的益处,同时尽量规避其风险。对它们的治理,应减少对技术本身的干预,将目标定位于大模型赖以研发的语言资源和投放之后的使用。对大模型研发中的语言资源治理,应着力打破中文数据孤岛:发展以联邦学习为代表的分布式模型构建技术,建立国家知识数据开放机制,尽快健全开放、高效的语言数据交换市场;提倡世界知识中文表达,助推中文大模型研发:尽快实现中文精华知识资源面向网络开放,完善中文概念、术语资源,做大、做全领域中文资源。对大模型使用领域的治理,则因大模型本身也是一种重要的语言资源,故应强调其基础资源地位,从标准化、评测和伦理规制的角度进行。
关键词 柴语生;语言资源;大规模语言模型;语言治理
2022年末,以柴语生[1]为代表的一批基于大规模语言模型的智能应用进入公众视野,并引起了全社会的关注和众多行业的焦虑。然而如同人类历史上所有重要的技术突破,大规模语言模型带来的冲击必须被正视,也应以工具视角审视,进而推动技术本身的发展,以获取红利,并减少实践风险。作为依赖语言数据资源,并以语言服务为主的技术,大规模语言模型的研发依赖语言资源治理的支持,其自身也具有语言资源属性,适用于语言资源治理的诸多侧面。
[1] 即ChatGPT,国内一些学者确定其音意结合的中文译名为柴语生。
一、柴语生应用落地与治理需求
(一)柴语生与大规模语言模型
柴语生是2022年11月投放市场的新型聊天机器人,支持多任务连续对话和问答,其特点为:可进行多轮对话、语言自然流畅、会承认错误、能质疑不正确的前提等。[2]柴语生由大规模语言模型GPT–3.5支持,并在2023年3月升级到GPT–4,其服务也相应升级。GPT全称为生成式预训练转换器模型(Generative Pre-trained Transformer),是一种大规模语言模型(Large Language Model,LLM,以下简称大模型)。典型的大模型还包括BERT[3]、RoBERTa[4]、T5[5]、XLNet[6]和悟道[7]等规模不一、技术路线各异的模型。与一般语言模型相比,大模型的训练语料规模巨大,参数急剧膨胀。GPT–3的参数规模达到1750亿,GPT–4已突破万亿,[8]悟道2.0和Switch Transformer则达到了惊人的1.75万亿和1.6万亿[9]。
超大规模的训练数据和参数量,使得大模型产生了知识涌现能力。在面对提问时只需给出几个任务实例,大模型即可通过推理给出举一反三式的回答,且具备将复杂问题拆分开来的步骤推理能力。因此,它在阅读、答问、摘要、翻译等173项语言相关测试上均有优异表现,甚至在编程和画图上也可圈可点(Wei et al. 2022;Nanda et al. 2023)。
[2] 参见:https://openai.com/blog/chatgpt。
[3] BERT(Bidirectional Encoder Representations from Transformers),双向编码器表示与变换器,2018年发明。
[4] RoBERTa(Robustly Optimized BERT Pretraining Approach),强化优化BERT方法,2019年由脸书公司发明。
[5] T5(Text-to-Text Transfer Transformer),文本到文本传输变换器,2020年由谷歌大脑公司发明。
[6] XLNet(eXtreme MultiLingual Language Model),极大多语言模型,2019年由谷歌公司和卡耐基梅隆大学联合开发。
[7] 悟道大模型由北京智源研究院于2020年研发。
[8] 参见:https://arxiv.org/abs/2303.08774。
[9] 参见:https://hub.baai.ac.cn/view/8375。
(二)大模型落地引发使用热潮和行业反思
柴语生上线仅5天,用户数量就突破100万,发布后两个月达到1亿,成为史上用户量增长最快的应用程序。但柴语生收集实时信息的能力较弱,且中文知识能力显著弱于英文,更会经常出现“一本正经地胡说八道”的问题。虽然如此,依然有众多用户用它写作。用户给出大致框架和主题,柴语生即可生成文章,其流畅程度强于一般写作者。用户只需在此基础上简单修改即可使用,大大提高了写作效率。
众多行业都在不同程度上感受到了来自大模型的冲击和挑战。教育行业对大模型的滥用提出不少担忧与顾虑,认为它干扰了教学和科研秩序。美国在线教育平台的调研数据显示,89%的美国大学生使用柴语生写作业,48%的学生借助它完成考试。[10]乔姆斯基批评柴语生正在破坏教育系统,认为它本质上是一个高科技剽窃系统。[11]但是,也有许多人主张拥抱新技术。沃顿商学院有老师要求学生必须使用柴语生完成作业,认为正确使用人工智能工具有助于学生思维能力提高。[12]
在学术界,包括《自然》(Nature)在内的一些期刊规定大模型不得被列为文章作者,仅可出现在致谢或参考文献中。《暨南学报(哲学社会科学版)》与《天津师范大学学报(基础教育版)》等刊物要求暂不将语言模型工具列为单独或共同署名作者。[13]张华平等(2023)指出,科研工作者使用柴语生等工具,有助于提高科研效率,但可能导致文章质量和透明度降低。
面对柴语生和深度合成技术引发的冲击和争议,国家互联网信息办公室、工业和信息化部、公安部于2022年11月联合发布《互联网信息服务深度合成管理规定》,规范了包括语言合成在内的深度合成技术的使用规范,严格要求生成内容必须合法合规,并对使用场景进行约束。[14]
[10] 参见:https://study.com/resources/perceptions-of-ChatGPT-in-schools。
[11] 参见:https://m.tech.china.com/tech/article/20230222/022023_1226999.html。
[12] 参见:https://www.thepaper.cn/newsDetail_forward_21906428。
[13] 参见:https://m.thepaper.cn/newsDetail_forward_21896535。
[14] 参见:http://www.cac.gov.cn/2022-12/11/c_1672221949354811.htm。
(三)大模型的治理观
大模型与其他发明的不同之处,是人类第一次无法完全理解其具体运行机制。大模型的优异性能很大程度上依靠大数据中的涌现效应。这一现象如同黑盒遮蔽了其内部工作路径,造成了其结果的不可解释和一定程度的不可控制。这是前文所述各种伦理焦虑的根源。其本质是语言资源及其使用方式带来的科学、工程问题。然而大模型依然拥有作为技术发明的工具属性,而人与工具协同发展是历史的常态,如同搜索引擎革新了知识获取方式,大模型的应用将重塑“获取答案”和“获得陪伴”的方式,且使其大大简化。
在实践上,将大模型工具化要求我们以工具观对其进行治理。其要义在于尊重技术发展的客观规律,减少对技术本身的干预,而将规划和治理目标放在技术使用的行为与场景上。正如语言规划重在规划语言生活而不是语言本身(李宇明2022),大模型的主要治理对象也是大模型的研发者、研发要素、使用者、使用行为和使用环境(王春辉2022b)。在治理过程中应认可、正视工具化所带来的益处,尽量规避其风险,促进工具本身的发展。
基于这样的思想,我们认为,面对大模型,在技术之外有两种重要的治理实践:大模型研发阶段的语言资源治理和大模型投放之后的使用治理。大模型本身也是一种新型语言资源,因而其使用治理在一定程度上也可采用语言资源的视角。
二、大模型研发中的语言资源治理
(一)柴语生背后的语言资源
语言智能基于对大规模语言数据的加工利用而得以实现。语言模型对语言资源的利用能力是其性能的重要指标。自20世纪90年代统计机器学习成为主流后,从机器翻译到语言生成,语言大数据的加工和利用能力与语言智能的应用能力彼此促进(冯志伟,等2023)。
2022年,柴语生的研发机构OpenAI公布了柴语生背后语言模型GPT–3的训练数据集规模,约为2045亿词。[15]极端巨大的语言模型,使柴语生可以将语言大数据中所蕴含的语言知识以统计方法提取出来。人类绝大多数的知识和信息以语言形式存在。而语言所蕴含的知识又一定存在于某个或某几个具体的语种之中。因而语言资源的语种分布,在大模型时代具有了更加巨大的重要性。GPT–3的训练语料语种已经公开,其分布如表1所示。[16]
[15] 参见:https://github.com/openai/GPT-3/blob/master/dataset_statistics/languages_by_word_count.csv。
[16] 参见:https://github.com/openai/GPT-3/blob/master/dataset_statistics/languages_by_character_count.csv。
在GPT–3的训练数据中,英文占比超过92%,拥有绝对优势,而其他语言占比极低,这使得GPT–3在英语答问中表现惊艳,而在其他语言答问中则表现欠佳,错误较多。此外,众多非英语答问内容由英语生成后经机器翻译形成,更多体现了英语世界中的看法和解读,这无疑对非英语使用者十分不利,使其只能获得单一语种所蕴含的文化、知识和态度。可见,语种信息茧房在大模型时代中依然存在。对我们而言,解决该问题的关键在于做大中文语言资源。其路径是充分利用已有资源,打破中文资源数据孤岛;快速建设优质资源,实现世界知识中文表达。
(二)大模型研发需要打破数据孤岛
数据孤岛指一个组织内部,不同业务之间由于缺少信息共享,导致各自拥有的数据处于孤立状态,无法被其他业务利用(Davenport 1998)。还可以进一步把它抽象概括为,在数据集的形成、分析、使用过程中,由于技术、政策等不完备而形成的封闭、半封闭式现象(李希明,等2003)。
数据孤岛现象广泛存在。随着数据生产速度的加快,对通用的语言智能服务而言,一般数据的供给问题并不明显,数据问题集中出现在精加工数据的规模和质量上。但在大模型时代,情况开始发生变化。在算力提升的刺激下,大模型对语言数据的驾驭能力迅速提升,需求显著增加。GPT–3使用了约2000亿词的语料,类似的PaLM使用的语料达到7800亿词。据估计,整个互联网上的可用数据资源在4.6万亿~17.2万亿词之间。也就是说,目前人类已使用的文本数据已经和存量处在同一数量级上,且未来大模型的技术发展对文本的需求量很可能远高于文本数据的增长速度(1%~7% /年)(王昊2023)。可获取文本数据的规模与普遍认为的互联网数据规模(4ZB[17]字节)相去甚远,主要原因在于可公开获取数据(姑且不论版权归属)只占整个互联网的一小部分,多媒体数据、电子邮件和聊天等私人数据、行业或企业的业务数据库数据等占据了互联网的绝大部分,这还没有算上未接入互联网的大量数据,如行业局域网的业务数据、安全类数据等。可以说在大模型时代,数据孤岛造成的数据困窘已经开始出现。
这一问题在中文语言资源中尤为严重。截至2022年,中文互联网使用者已突破10亿,[18]占全球使用者的20%;而互联网中,中文网页信息占比则只有1.4%[19]。这一巨大反差是由于网页数据在中文互联网数据中所占比例很低,而中文数据中占比较大的文本、语音交互主要发生在即时通信软件、社交平台、电子商务平台中,出于法规、技术和市场等原因,这些数据无法有效获取和汇聚。
[17] ZB是一种超大规模计数单位,其文字表述为:10万亿亿。
[18] 参见:中国互联网络信息中心《第51次中国互联网络发展状况统计报告》,https://www.cnnic.net.cn/n4/2023/0303/c88-10757.html。
[19] Usage statistics of content languages for websites. https://w3techs.com/technologies/overview/content_language.
此外,一般文本数据的开放程度也不理想。如中文数据中知识价值最高的两类——当代科研、学术文献和数字化古籍,都无法在线开放获取。前者被控制在知网、超星等图情服务商手中;后者则由各大科研单位、图书馆占有,多处于不公开的状态。
严重的中文数据孤岛现象,使得任何机构(甚至政府)都难以整合中文语言数据资源,因而在数据基础层面,对大模型研发造成了严重的障碍。对此,本文提出以下几点建议。
1.发展以联邦学习为代表的分布式模型构建技术
大模型研发方法的核心是各类机器学习算法。联邦学习(Federated Machine Learning)是一种分布式机器学习框架,即一种算法可以在多处设备或数据储存地进行语言模型构建和参数调试,而后再将各处分散模型有效融合为功能更强大的统一语言模型。在这个过程中,原始数据并不共享,因而具有更强的安全性和私密性(Yang et al. 2019;谭作文,张连福2020)。这一技术路线可以兼顾数据隐私和模型规模。然而,由于设备、数据的异构性,不同设备间通信的速率受限,以及参数融合和参数更新等问题,该路线在当前大模型研制中的作用还十分有限。然而,结合联邦学习技术的思想,深挖多种分布式技术,仍可以期待其进一步提高性能,在兼顾数据隐私的情况下,汇聚中文语言资源,构建大规模语言模型。
2.建立国家知识数据开放机制
面对中文数据困窘,仅有技术支持是不够的。基于开放、共享的互联网精神,遵循尊重版权、善意使用的原则,促进优质内容上网,是助力中文在数智化知识管理时代占据优势的重要抓手。经典知识迅速开放,新增知识中文表达,应成为当下中文语言资源治理的一条主线。我们认为,应尽快建立中文资源的国家数据开放机制,尤其是高知识价值的科研论文、古籍资源等。这类资源大多由公共资金资助生产,因而向全社会开放具有内在合理性。为避免形成新的数据孤岛,公共知识数据的开放应由国家或相关公立机构稳步协调完成,以统一有序的标准和共享协议,服务社会使用。
近年来,国家语言文字工作委员会、中国科学院、中国社会科学院等单位,以国家语言资源服务平台、中国科学院知识服务平台、国家哲学社会科学文献中心等方式,大力推动语言资源、科技论文开放获取,取得良好反响。然而由于起步较晚,数据规模和服务能力仍十分有限。期待全社会在有关部门的统筹协调下,积极投入到中文知识资源上网、开放、汇聚的行列中来。
3.尽快健全开放、高效的语言数据交换市场
资源知识开放机制是基础,而在更大范围内服务多样化需求的大规模资源供给,仍需依靠开放、高效的语言资源市场。2020年在《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》)中,数据作为一种新型生产要素写入文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。文件指出,要加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值,加强数据资源整合和安全保护。构建开放、高效的语言数据交换市场是《意见》精神的应有之义。
在实践上,应对大模型需求,语言数据应做好确权、脱敏和开放三方面的工作。语言数据确权,指对语言数据的所有权和使用权进行确定并加以保护,使之清晰分离,以便语言数据摆脱单一机构控制,为全社会所使用。语言数据脱敏是所有权和使用权分离过程中必然进行的操作,指在保证语言数据可用的前提下,对其中的个人身份、隐私和其他敏感信息进行去标识化或加密处理,以确保语言数据的安全性和私密性。在此基础上,应大力做好语言数据开放工作,加速中文语言数据以合法、标准、可控的方式实现善意使用。最大受益者将是各类大模型和基于此开发的语言智能应用。
(三)大模型研发要求世界知识中文表达
如果说打破数据孤岛解决了已有数据的聚合和联通问题,针对的是已有资源(存量)的充分利用和有效开发问题,那么,强调和落实世界知识中文表达则是要进一步做大中文资源(增量)。
不可否认,柴语生代表了人类知识管理和知识使用的新样态。它和类似的产品极有可能成为如同搜索引擎和图书馆一样的信息基础设施,为全社会提供基础知识服务。在面向全球和全社会的知识服务中,中文和中文承载的知识可以占据多大席位,决定了在未来知识服务中可以体现多少中文世界的事实、观点、立场、态度和情感。
在以国际学术期刊为代表的世界学术领域中,经过几十年的努力,中文论文代表的中文知识表达已跻身第二集团中游(饶高琦,等2020)。然而,如上文所述,在互联网中,中文网页信息占比只有1.4%。在已经到来的数智化知识管理时代中,过低的占比无疑令中文处在十分不利的首发位置。近年来,有学者不断重申“世界知识,中文表达”的理念(李宇明,等2018,2020),呼吁防范中文作为科学语言步“印地语在印度”的后尘(汪品先2015;饶高琦,等2020),即在科研领域被边缘化,母语社群的知识获取成本更高、时效性更差。如果无所作为,听之任之,长此以往,将导致中文逐步丧失表达前沿概念、承载科学知识的能力,国民的知识获取将主要依赖外语,民族振兴便无从期待。
过去一段时间,学术界和政府都积极倡导在知识生产中重视语言的层级分布,提高研究者使用母语的自觉意识,这些讨论和举措都集中于知识生产密集的学术、科研领域,而以大模型为基础的新知识管理模式涉及全方位的知识生产(包括人文、艺术、商业、教育、意识形态等)和加工。在大模型上,不同语言的提问和交互带来显著的质量差距,可以说,这一新型知识管理模式加速了对语言知识承载能力的筛选。因而使用母语进行知识生产、信息沟通,不仅仅是语言尊严和文脉赓续的问题,更成为语言安全和知识安全的现实问题,关乎知识可否被触达、可否以中文直接触达,关乎有多少知识能以中文使用。
因此,“世界知识中文表达”不仅在学术、科研领域具有指导价值,如今看来对整个中文世界知识的积累和发展都有重要意义。基于此,我们认为这一理念的具体落地需要注意以下几点。
1.中文精华知识资源尽快实现网络开放
中文知识资源规模浩大,种类繁多。应以核心的知识密集资源为先导,探索知识资源的开放使用路径。这类资源以当代各学科的中文科技、学术文献和传世古籍为主。此两类资源分别代表了当代中国的知识贡献和古代中国的思想文化精髓。对于前者,有关部门已具有多年成熟的文献服务平台开发和运营经验,需要中国知网等运营商践行其国家知识基础服务工程的初心使命,实现公益转型,促进已有学术资源数据化、开放化。对于后者,则应加大对古籍修复、整理和数字化的投入,集成多种智能技术手段,推动古籍数字化工作提质增效,以发挥传世古籍助力数字中国发展的积极作用(黄少安,等2022)。
2.完善中文概念、术语资源
语言具有文化和思维属性,蕴含该语言社团独特的历史和世界观,且集中由该语言独特的概念、术语体系所承载(韩震2023)。完善中文概念、术语体系是构建中国特色话语体系和传承中华文化知识的基础工作。在应用层面,当前机器翻译在规范文本上的表现已接近直接可用的水平。但在正确、恰当使用中文概念和中国思想文化术语,精准表达中式思想方面,却还远远达不到原生中文的水平。正确、恰当使用中文概念和中华思想文化术语可以说是优质中文语言资源的重要标志。为此,相关部门应加速中文思想文化术语体系建构、阐释工作,快速整理优秀的相关文献,并汇聚这类术语的经典应用,形成高度体现中国文化特色的数据资源和知识资源。
3.做大、做全领域中文资源
基于任务目标领域数据进行训练,对语言智能落地起到至关重要的作用,在预训练模型范式下,尤其如此。大模型是一种预训练模型。预训练模型是已经在大规模通用语料库上进行过训练的模型,通常涉及不同领域的通用功能学习(李舟军,等2020)。预训练模型形成后,就可以作为其他自然语言处理任务的起点。微调(fine-tune)是将预训练模型放到小的特定领域数据集上,进一步进行训练,以在特定任务上实现更高的性能。特定领域的数据集被用于微调预训练模型,因为它们包含了特定任务或行业的数据,这些数据可以帮助模型学习与该领域相关的特征(车万翔,等2021)。这一方式极大节约了计算资源,提高了数据复用率。
目前,除了面向公众展示的柴语生系统和GPT–4外,大模型的产业落地都需要行业级和企业级的领域、业务数据。如金融业的摩根士丹利[20]和彭博社[21]都依托自身业务数据,构建了精准服务金融问答、情绪分析等任务的大模型;斯坦福大学依托PubMed医学文献数据集构建了专门服务生物医药领域的BioMedLM模型[22]。
大模型在具体行业中实现提质增效,同样需要优质、丰富的领域语言资源。目前中国通用语言资源建设逐步加速,而领域语言资源的质量良莠不齐,规模大小不一。数字化程度较高的行业如信息产业、金融业等具有较为丰富的积累,而人文领域、传统制造业、农林渔牧、基础教育等行业的数据化程度较低,[23]相应的语言资源积累也较为贫乏。因而,强化关键领域语言资源建设,补全空白领域语言资源,应成为当前阶段资源建设的重点。
领域语言资源不限于语言数据、标注语料库,还应建设涵盖行业知识、规则的领域知识库,以提高领域特征学习的速度和精度。大部分行业知识本身也以语言数据的形式呈现,所以也可纳入语言资源的行列,加以推进和规划。
[20] 参见:https://www.barrons.com/advisor/articles/morgan-stanley-chatGPT-open-ai-artificial-intelligence-advisors-377b072f。
[21] 参见:https://www.bloomberg.com/company/press/bloombergGPT-50-billion-parameter-llm-tuned-finance/。
[22] 参见:https://crfm.stanford.edu/2022/12/15/biomedlm.html。
[23] 参见:《中国制造业数字化转型研究报告》,https://pdf.dfcfw.com/pdf/H3_AP202208251577625437_1.pdf?1661445981000.pdf。
三、作为语言资源的大模型使用治理
(一)大模型是一种重要的语言资源
鲁伊斯(Ruiz 1984)首创了语言作为资源的规划理念。陈章太(2008)更深入地从语言能够产生社会效益、经济效益入手,将其定义为一种可利用的社会资源。邱质朴(1981)等也特别提到语言的资源性与语言能力息息相关。显然,这种能力由人经语言教育,机器经语言工程所获得。在信息时代,这种能力也越来越多地在语言智能上体现。李宇明(2012)和徐大明(2008)指出,语言及其知识已经成为信息工业的重要资源,是支撑多样化语言服务、形成社会和国家语言能力的重要基础。在信息产业中,以数据形式呈现的资源正在扮演越来越重要的角色。依照这些研究,语料库、语言知识库等被认为是重要的语言资源。这些资源仍然以较为自然的语言文字物质外壳存在。随着信息技术对标注数据的需求日益扩大,很多语料库中的数据被以各种形式、按照目标任务需求进行标注加工。对文本数据而言,常见的分词、词性标注、命名实体识别等是最基本的标注,情感、语义、事件、偏误等复杂标注任务需求也在快速增长。对语音数据而言,文本转写、韵律标记、话者分离等也是重要的标注项目。这些标注工作在原始自然状态的语言文字上叠加了标注者所给予的任务知识。两者共同发挥作用,为各类自然语言处理算法、模型所利用,最终用以提供语言智能服务。
在这个过程中,语言资源的属性未被改变,而标注资源已经逐步脱离了语言文字的自然状态。将大规模语言文字数据进一步抽象、加工,提取其特征和规律,即构成基于语言数据的神经网络。进一步,这一神经网络可以在具体任务中代替自然形态的语言数据,成为开发者使用的基础,并再基于此进行微调。在此过程中,神经网络就充当了传统自然语言处理任务中训练语料的角色。因而,神经网络在此也就可以被视作一种特殊的语言资源:它是语言资源,因其依赖于语言数据而形成,蕴含语言特征、规律和知识,并服务语言智能;它又较为特殊,因为它已完全脱离了语言文字的自然状态,呈现为一种仅对机器可读的状态。
今天的大模型正是这种神经网络集成后的形态。大模型作为一种高级的语言资源加工形式,在实践中成为更多上层应用的基础资源,具体表现为知识中间件和语言服务中间件两种形式。(1)作为知识中间件。大模型以神经网络结构的形式包含了从语言资源中获取的特征、规律和知识,可以被视作“语言知识压缩包”[24]。相较于传统搜索引擎,大模型支持以自然语言的形式进行交互,并可以将其训练语料中离散的信息,加以衔接和重组,生成合适的知识反馈。各类知识服务可以基于这一功能进行开发,如智能问答、辅助决策、摘要汇总等。(2)作为语言服务中间件。从语言服务的角度来看,大型深度学习模型又可以发挥中间件的作用,利用其强大的语言理解和生成能力,在其上搭建面向具体任务的语言服务项目,如翻译、文案撰写、陪聊等。
[24] “语言知识压缩包”这一形象表述源自作者与荀恩东教授在2023年2月的交流,特此感谢。
(二)大模型是国家语言能力的重要体现
语言信息处理技术和相关智能服务是国家语言能力的重要组成部分(李宇明2021;文秋芳2016),相应地,语言智能服务的质量和规模也是国家语言能力的体现。且大模型对语料、数据化能力、算力、算法提出了巨大挑战,涉及语言人才、产业、教育和规划、技术等诸多方面,是综合国力的体现。具体而言,大规模语言模型背后凸显了对语言资源、算力和算法等方面的要求。
首先,语言资源是大模型研制的基础。大模型需要包含大量的语言表达和场景,具备足够的广度和深度,来为大模型提供充足的训练数据。其次,大模型需要庞大的算力支撑。高达万亿参数规模的模型训练、迭代,需要强大的计算资源来训练和优化这些参数。例如,使用大规模集群和分布式算法确保模型能够高效地训练和优化。此过程中耗费的GPU芯片数量、服务器机时乃至电力,都已进入“大科学工程”的范畴,考验国家的工业化和信息化实力。最后,大模型对算法的要求也更高。对于大规模多源异构数据,需要使用更为先进的算法来提高模型的性能。
(三)大模型使用的治理
作为语言资源的大模型同样也需要作为语言资源来治理,以发挥其最大红利。资源治理包括资源的标准化与共享、资源的评价和资源使用的伦理法规建设等重要方面。我们也按此简要探讨大模型治理的方向和路径。
1.大模型的标准化
大模型研制成本高昂,由业务单位或个人自行开发并不现实。以云端服务,调用接口(API)的形式提供服务,是目前和未来一段时间的主流模式。同时,大模型技术在主要工业化国家间扩散,面向各种技术方案、领域服务、语种、资源的多样化实践将在短时间内快速出现。各类大模型的基础理论上差异较小,技术实现各具特色,训练数据的语种、领域、规模各有选择,大模型产品市场由此快速形成。这对大模型接口和服务的标准化提出了要求。
大模型服务的标准化应着重于服务接口的调用方式、模型微调方式、数据格式和系统交互方法等方面,应丰富面向各种编程语言的标准接口和标准库。基于此,还应寻求构建协议框架,开发各具特色的服务接口,推动建立行业标准,在最大程度上助力基于大模型的智能技术的二次开发工作。
2.大模型的评测
大规模预训练模型的评测是评估这些模型效果的关键环节,也是形成大模型应用服务时长的重要基础。预训练模型的评测可以通过两种方法:人工评测和基准测试。前者可以深入了解用户体验,并对模型的交互性能进行全面评估,更全面地评价模型的表现,但耗时长,效率低。现在更多采取基准测试的方式,即使用一系列可自动评价的测试任务,例如自然语言推理任务、问答任务、阅读理解、错误修改等常见的任务,并在这些任务上比较不同模型之间的精度和效率。基准测试的优势在于可以快速确定模型的主要性能。此外,基准测试问题集的使用将使各种模型之间的比较具有客观性。
在逐步形成的大模型应用服务市场中,基础模型性能的评测应以客观基准评测为主,在具体服务项目上引入主观人工评测。在安全、能源、交通等关键领域应结合两者。对评测事务的规划应着力于基准评测中的任务项目规划与任务数据集建设。任务项目应充分覆盖(中文)语言能力的主要侧面,如推理、问答、纠错、陪聊等。各项目的测试数据集应采样科学、平衡,具有代表性,注意随时更新维护(董青秀,等2021)。此外,评测中不可缺少的是安全伦理测试。大模型生成内容中不应包含带有歧视性、侮辱性等伦理风险的内容,不能生成有违国家法律法规和社会公序良俗的内容。
3.大模型使用的伦理
随着大规模预训练模型的普及,其所涉及的伦理问题也越来越受到关注。大部分伦理问题与数据相关,并适用于语言数据安全的相关理论(王春辉2022a)。当前较为主要的问题有以下几类。(1)隐私问题:大模型依赖海量训练数据,这就需要收集众多用户数据。其中可能包含用户的私人信息,如邮件、密码、地址等,这涉及隐私泄露问题。(2)偏见和歧视问题:大规模预训练模型可以学习到语言的模式和结构,但也可能学习到语言中带有偏见、歧视等的不良信息,进而在模型服务中产生隐患。(3)安全问题:大模型的功能越来越强大,攻击者可能会利用大模型进行恶意活动,如网络钓鱼、社交攻击、认知作战等。(4)社会分工问题:大模型的广泛应用必然会取代众多人力劳动。如何化解“羊吃人”问题,严重依赖大模型是否会削弱人类语言能力,都值得探讨。
对于这些伦理争议,我们认为应当将伦理规制主要集中于开发者、使用者、使用行为和使用场景4个方面。
在开发者方面,大模型应在互联网开放、共享精神的激励下,以适宜的商业模式,尽量扩大知识服务人群的范围。全社会的语言和知识资源是大模型存在的基础。利用这些开放资源研发的大模型,理应以服务形式回馈全社会。大模型的开发应弥合而非加大知识鸿沟。
在使用者方面,大模型应为全社会所有适龄成员使用。但使用者仍需明确了解大模型的工具属性和目的,以及善意、良好的使用方式。他们需要被告知大模型背后的数据来源、处理方式,以及可能存在的伦理问题,并承担相应的使用后果。
在使用行为方面,政府、企业和机构应积极引导制定规范,预防大模型的误用、滥用和恶意使用。中国学者2019年发出的《推进智能写作健康发展宣言》[25]和政府2023年1月实施的《互联网信息服务深度合成管理规定》就规定,生成式模型在使用时应当进行显著标识,避免公众将生成模型产生的结果与人类行为相混淆;不得制作、复制、发布、传播法律和行政法规禁止的信息等。这是对使用行为规制的具体落实,为后续探索更加全面的大模型治理奠定了基础。
在使用场景方面,大模型的使用需要至少遵循公平、安全、以人类为中心等原则。大模型不得用于对人类能力进行筛选和考评的场合,以免破坏公平性。“以人类为中心”的原则尤其需要强调:大模型不应干扰人类能力的发展,如不得在儿童和青少年关键能力发育和养成期,代替他们进行有关能力发展的实践等。
[25] 参见:https://cn.chinadaily.com.cn/a/201912/17/WS5df83e27a31099ab995f1eb0.html。
四、结论
大模型的出现和应用,对语言学、语言产业都提出了挑战。大模型的出现要求语言研究更多关注语言资源建设、语言知识表达和相应的语言伦理问题。这些将共同构成数智时代最重要的语言研究话题。而在大模型帮助下,人机共生的语言生活快速发展。这进一步拓宽了语言治理研究的视野,增添新的研究议题,并将在一定程度上改变其研究范式。
在众多研究取向中,我们采取了语言资源的视角关注大模型治理的问题。大模型作为未来重要的知识服务基础设施,其训练数据的规模、质量决定了其服务性能。这也在很大程度上影响了中国语言文化在未来语言生活中的地位。破除中文数据孤岛、强化世界知识中文表达应引起全社会的重视。此外,大模型自身也是一种基础语言资源,提供知识服务和语言服务。因此,对大模型的治理应遵循语言资源治理的诸多原则,即从标准化、评价和伦理规制等方面入手。李宇明等(2020)曾提出应创立机器语言行为学。这极具先见之明,值得学术界和产业界同人进行更深入的探索。
该文发表于《语言战略研究》2023年第4期,参考文献从略,如有需要请参照原文。
编排:逯琳琳
审稿:王 飙 余桂林
相关推荐
主持人语丨饶高琦:大模型时代语言智能应注重科学基础和社会应用
特稿丨冯志伟,张灯柯,饶高琦:从图灵测试到ChatGPT——人机对话的里程碑及启示
《语言战略研究》2023年第3期目录与提要《语言战略研究》2023年第2期目录与提要《语言战略研究》2023年第1期目录与提要
《语言战略研究》2023年重点选题(约稿启事合集)约稿启事丨“国际中文教育”专题(每年一期)约稿启事丨“国际语言冲突”专题
约稿启事丨“数字经济时代的语言生活”专题
《语言战略研究》2022年度盘点喜讯!我刊入选CSSCI(2021—2022)扩展版!我刊入编《中文核心期刊要目总览》2020年版语言、文字类核心期刊!喜讯!我刊入选人大《复印报刊资料重要转载来源期刊(2020年版)》!
本刊从未与任何第三方合作从事征稿、审稿及发稿活动,从不以任何形式收取版面费、审稿费请认准本刊官方网站界面→
(登录商务印书馆京东旗舰店,搜索《语言战略研究》即可下单。) 3.中国邮政-微商城,搜索“语言战略研究”,即可预订全年。
↓↓↓点击“阅读原文”可访问本刊官网