其他
行业观察 | 人工智能的负效应:没有大语言模型的语种未来会消亡
//
随着大语言模型技术的不断发展,解决语言表示和效率的不平衡问题变得至关重要。
“ en-US ”一直是美式英语的语言标识符,在ChatGPT横空出世之后,有了新的含义:英语/美国作为大语言模型(Large Language Model)的超级指令语言和超级大国,逐渐在新一轮AI竞争中领先世界其他语种和国家。在长期使用ChatGPT和其他大语言模型的过程中,我一直想探索这些模型对世界其他语种支持的边界。1
你讲的语言是高资源还是低资源
2
低资源语言在大语言模型
中的代表性仍然不足
尽管大语言模型具有变革潜力,但现实仍然是大语言模型主要迎合英语和少数其他高资源语言。对GPT-3等模型使用的训练语料库进行仔细检查后发现,各语种存在明显的不平衡:●英语占主导地位:GPT-3的训练语料绝大多数是英语,占数据的92.6% 。ChatGPT(基于 GPT-3.5)等后续模型延续了这一趋势。●有限代表的语言(分析仅限于GPT-3语料库):●只有两种语言占GPT-3语料库的1%以上,即法语 (1.8%) 和德语 (1.5%)。●另外14种语言落在0.1%到1%的范围内,包括西班牙语、意大利语、葡萄牙语、荷兰语、俄语、罗马尼亚语、波兰语、芬兰语、丹麦语、瑞典语、日语、挪威语。●值得注意的是,像中文和印地语这样的语言,总共有超过20亿人使用,甚至没有达到语料库0.1% 的门槛。●训练数据集中度:GPT-3训练语料库中排名前16位的语言有明显的头部效应:加起来一共占99.24%。●单词覆盖范围有限:GPT-3训练语料库中只有65种语言的单词数超过100万,其中第65种语言是高棉语。虽然在柬埔寨有1700万人使用高棉语,但它在GPT-3的训练语料库中只有区区100万个词。ChatGPT对英语和精选高资源语言的偏向并非OpenAI(ChatGPT的母公司)有意为之;因为语料大部分来自互联网,而互联网反映的是一个国家和语种的富裕、开放、和活跃程度。大语言模型在很大程度上忽略了世界上7,000 种现存语言中的大多数。例如,以下使用人数众多的语言贡献了不到 1% 的互联网文本内容,因此很难收集足够的数据来训练一个专门针对这门语言的大语言模型:1.印地语:6.02 亿使用者2.阿拉伯语:2.74亿使用者3.孟加拉语:2.73亿使用者4.乌尔都语:3.21亿使用者语言使用者和可用文本数据之间的差异导致了语言多样性之间的不平衡。这个问题的源头更多的是一个国家的发展情况和投资力度,我们会在下篇博文中详述。对于旨在支持更广泛语言的大语言模型来说,这也是一个根本性的挑战:如果一种语言在网络上只有少量文本,那就没有适合这门语言的大语言模型。如果一种语言在网络有大量文本,也需要其代表国家加大投资力度才能发展出有本身语言特色的大语言模型。于是我根据ChatGPT的支持力度对世界语言进行了分类:3
英语是大语言模型
最有效的“编程语言”
翻译同一文本后的长短
有人对公共互联网上谷歌隐私政策的不同语言翻译进行了评估。
以下是按字符总数排名的语言示例:
1.繁体中文:101个字符2.简体中文:124个字符3.日语:215 个字符4.英语:345 个字符5.西班牙语:376 个字符6.法语:417 个字符7.越南语:403 个字符8.印地语:500 个字符这样可以把各个语种的信息密度量化:繁体和简体中文确实是非常简洁的语言!(但ChatGPT不这么认为。)语速和简洁度
另一项研究测量了说话的速度,基本假设是“不简洁的语言要更快的说”。
研究发现,说西班牙语和日语的人语速很快,而说汉语和越南语的人语速很慢。如果以越南语的简洁度为1,那语言简洁度有以下排名:
1.越南语:12.中文:0.943.英语:0.914.西班牙语:0.635.日语:0.49当然,这项研究并不一定准确。因为一种语言的语速快慢也和当地人的生活节奏有关。结合这个排名和上面的表看,这也可以从侧面解释为什么西班牙语听起来更快。4
ChatGPT的词汇主要是英语
●词汇优势:像ChatGPT这样的大语言模型主要接受英语文本的训练,具备强大的英语词汇和并能理解到语言中用词的细微差别。●提示效率:英语通常也是效率最高的提示语言。●文化和语义丰富性:英语在许多领域都是一种通用语,提供了广泛的文化参考和语义深度。对于大多数大语言模型来说,英语是最有效的提示语言,原因来自OpenAI 如何给每种语言编码的。一般的规则是:1.对英语原生支持:英语在ChatGPT中被认为是“一等公民”并有深度优化。2.Unicode编码支持:Unicode语言共有161种,使用了字节对编码(byte pair encoding),以确保与ChatGPT处理框架的兼容性。3.非Unicode无法编码:遗憾的是,ChatGPT和众多大语言模型都不支持非 Unicode语言,因为这些语言无法用计算机通用的字节(byte)代表。您听说过ChatGPT-3.5词汇表吗?它包含100,261个词,大部分来自英语。下面是该词汇表的节选:1.Token举例a.token 0 是感叹号!b.第32至57个token是大写字母 A ... Zc.token 67853 是单词后缀 “-ish”d.token 75459 是“battery”e.不幸的是,“GPT”这个词并不在词汇表中2.变体和同义词a.英文二月的各种token代表:“February”(token 7552)、“Feb”(token 13806)、“February”(token 33877)、“Feb”(token 41691)、“feb”(token 78471)“-Feb”(token 94871)。请注意,有些token带有空格前缀。
ChatGPT词汇表专门用于英语,以至于它有9个专用于“Twitter”的token!遗憾的是,其他语言在这个100K大小的词汇表中没有获得应有的token份额。这至少表明英语对于GPT模型来说是多么占主导地位。
写作效率 != 提示效率
ChatGPT对语言的编码凸显在了在token的使用效率上。例如,中文字符“猫”由三个token(十六进制值:\xe7、\x8c、\xab)表示,而英语单词“cat”则仅需一个token表示。
两个其他语言的例子:克林贡语(Klingon)和爪哇语(Javanese)
大语言模型对一个语种的支持取决于该语种是否被包含在标准字符编码系统 Unicode中。如果Unicode缺少了某种语言,那大语言模型也不会支持这种语言。
以下是Unicode不支持的语言示例:●唐萨语——印度和缅甸唐萨族使用的语言。●托托语——印度西孟加拉邦托托部落所使用语言。●阿伊努语 - 日本阿伊努人使用,对片假名区中的一些字符的支持有限。●Pahawh Hmong 文——一种用于书写苗语的文字,创建于20世纪中叶。●Chakma——印度和孟加拉国的Chakma人使用。●Kpelle——利比里亚和几内亚的Kpelle人使用。●瓦伊语——利比里亚瓦伊语使用的音节文。●巴萨瓦语——一种用于书写利比里亚巴萨语的文字。克林贡语(Klingon)
克林贡语是《星际迷航》宇宙中的一种人造语言,但Unicode中却没有这种语言。
因此,由于缺乏Unicode支持,ChatGPT等大语言模型无法读取或处理克林贡语脚本。如果人类在ChatGPT基础上实现了通用人工智能(AGI),那在马斯克发往火星的飞船上听到了克林贡语是理解不了的。
爪哇语(Javanese)
印度尼西亚爪哇岛有6800万人口使用爪哇语,它与编程语言Java有着独特的历史联系。
尽管Java在推动Unicode在编程语言中的采用方面发挥着关键作用,但爪哇语言本身直到2009年才得到Unicode的正式支持(Unicode 5.2版)。这种延迟的纳入凸显了非西方语言在获得 Unicode 等全球标准认可方面所面临的挑战。
截至Unicode15.1版,该版本涵盖了161种文字和近15万个字符,而全球共有7,000余种语言。展望未来,确保Unicode和相关标准中包含多种语言对于促进语言多样性和在大语言模型 等新兴技术中提供全面的语言支持至关重要。5
甚至美国参议员也认识到“en”
与其他语言的不平衡
6
总结
来源:AI新智能
群内会定期推送语言服务行业最新动态、活动预告、竞赛通知📝等内容~
欢迎你的加入🥰!
往期回顾
2. 行业动态 | 中法关于人工智能和全球治理的联合声明
3. 行业动态 | 18个月,OpenAI这支团队搞出了GPT-4o4. 行业动态 | 热烈祝贺“甘肃省翻译人才培养创新平台”揭牌!5. 行业动态 | OpenAI又整活:ChatGPT再扛起数据分析大旗,Excel、Word全部拿下
行业洞见
行业洞见 | 《翻译技术研究》作者王华树教授 行业观察 | 国外机器翻译研究的知识图谱和发展趋势 行业观察|张井:生成式AI技术在翻译实践中的应用、探索与展望 行业观察 | 朱含汐、冯全功:翻译活动中的性别问题——《性别与翻译新视角:跨国对话的新声音》评介
行业技术
技术应用 | 大语言模型如何助力学生进行英语听说读写译自学 技术应用|Mac和Win如何协作制作双语平行语料库? 技术应用 | 翻译实践中术语库的应用 技术应用 | 术语库创建与应用 技术应用 | 7个技巧让你成为谷歌Gemini专家
精品课程1. 重磅来袭 | 游戏本地化与多模态翻译实战研修班
2. 活动预告 | 崔启亮老师:GenAI时代的语言服务行业实践与研究专题课
3. 精彩回顾 | ChatGPT等大语言模型如何应用到外语教学和研究中?【文末有免费试听课】
4. ChatGPT系列课程 | 亲身体验火爆AI学习热潮,拓展你的技能边界!
资源干货
技术科普 | 揭开手写文本识别“最先进”的秘密 资源干货 | 英语外刊获取途径、网站推荐 ChatGPT | AI外语写作助手,助力高效写作 双语干货 | 谢锋大使向中美媒体发表讲话 资源宝库|译者用“典”,多多益善——精选31款在线词典
招聘就业
1. 北京/西安 | 博硕星睿销售岗位,不限经验,等你来投!【可线上】
2. 实习机会 | 公众号及视频号运营实习招募,等你来投!【线上】