查看原文
其他

2023年度词“AI”:语言大模型或开启智能工具对人类的“反征服” | 社会科学报

王馥芳 社会科学报社
2024-09-03


年度热词


《柯林斯词典》公布的2023年度词是“AI(人工智能)”。之所以选择“AI”作为年度词,词典学家的说法是其使用频次以如此快的速率急增,不但问鼎使用频率榜,而且支配2023年的各种谈话,成为焦点化的“谈话点”。当前,AI已经为人类未来发展创设了一条“大时速”前行道路,但人类若不预先对全球人工智能安全作出预警、预判并采取积极的“预行动”,AI语言大模型所创设的“大时速”平台很可能沦为“大垃圾场”。



原文:《年度词“AI”:世界开始“大时速”前行》

作者 | 北京外国语大学外国语言研究所教授    王馥芳

图片 | 网络



流年似水匆匆,又到年末。“AI”成为2023年度词,让人类仿佛手握“倚天屠龙剑”,一剑刺穿了2022年度词“延时危机”(permacrisis)给世界蒙上的阴霾,并将其狠狠翻搅了一番。纵观人工智能的发展,其从“高精尖”的“硬科技”发展到“人人科技”,再到初步具备创造“人人福祉”的巨大潜力,关键的时间线实际只有十年左右。过去十年,AI的“大发展”宛若为世界开启了一部疯狂“大变速”的时光机器,人类从此开始了“大时速”前行。世界“大时速”前行将带来的“大前景”当然很刺激,让人倍感振奋。但如何最大化确保“大时速”前行的安全和可靠性,对于人类未来生存安全和福祉至关重要。


关注人类生存安全和福祉


经历了2022年的“延时危机”以及在“延时危机”中的各种挣扎、焦虑和憧憬,2023年,人们开始更多地关注人类的生存安全和福祉。这一点可以从2023年度词、年度候选词度以及年度关键词中管中窥豹。


通过对含词180亿的数据库进行监测和遴选,《柯林斯词典》公布的2023年度词是:AI(人工智能)2022年11月30日,人工智能领域的“王炸”ChatGPT语言大模型横空出世。仅仅差不多一年时间,语言大模型已经更新迭代到GPT-4.5。ChatGPT的各种惊艳,甚至可以说是“恐怖”的升级表现,使得人工智能话题持续大热并成为2023年的“大话题”和“谈话点”。


之所以选择“AI”作为年度词,词典学家的说法是其使用频次以如此快的速率急增,不但问鼎使用频率榜,而且支配2023年的各种谈话,成为焦点化的“谈话点”。事实上,现如今AI的应用几乎无所不在,已经从方方面面“楔入”我们的各种生活场景,说其已经演变成为“人人科技”似乎并不为过。“人人科技”的最终目标是促进和提升“人人福祉”。


2023年度候选词有二。一是有关社会资源配比不公而影响到代际福祉的“裙带婴孩”(nepo baby)。Nepo是nepotism(裙带关系)的简称,该词用来描述那些在与其父母相似的行业内取得成功的名人子嗣。二是有关剥夺个体公共商业服务权利而影响到大众公共服务权利公平的“去银行服务/业务”(debanking),意为“剥夺人们的银行服务或者业务”。该词上榜与一位英国前政治家有关,他曾在英国《电讯报》上发文,称一家私人银行关闭了其在那里的账户。关闭动因并非因为金融原因,而是因其发表的政治言论与银行所持立场不同。


除了年度候选词,还有一个年度关键词榜单,上榜的有七个词语都直接或者间接与大众生存安全和福祉相关。


与大众健康安全相关的“超加工食品”(ultraprocessed/ultra-processed food)。“超加工食品”是相对于未经处理或者最小化程度处理的自然食品而言的。与自然食品之自然和近乎自然的状态相比,《纽约时报》的一位编辑曾撰文称,研究显示:超加工食品不仅损害人类的身体健康,还会对我们的大脑产生显著的负面影响。摄入超加工食品的量越多,其与认知衰退的关联性越大。


与体重和健康管理相关的索马鲁肽减肥药(semaglutide,一种抑制食欲的减肥药)。该词上榜一方面反映了人们对于身材管理的焦虑,另一方面反映了人们对减肥药可能造成健康损害的担忧。


与社交媒体相关的“去影响力”(deinfluencing/de-influencing),意为“警告社交媒体账号关注者避免特定的商业产品”。


与动漫电影相关的“关键事件;知网事件”(canon events),指抖音上一种流行语,用以指称促进性格形成的各种“标准化”关键经历。该短语与索尼动画电影《蜘蛛侠4》有关,指的是蜘蛛侠在所有平行宇宙中都必须经历的“标准化”关键事件,如被蜘蛛咬、遭遇困境、亲人死亡等。


与民生经济福祉相关的“贪婪通胀”(greedflation),指各种公司推高商品价格以牟利。


与低碳减排相关的缩略词“超低排放区域”(Ulez,ultra-low emission zone的缩写),指位于伦敦的超低排放区域。


与体育赛事有关的“巴兹球”(Bazball),该词入选是因2023年夏天英国队对澳大利亚队的灰烬杯板球赛。这个术语源自一位新西兰的板球运动员兼教练,他被人熟知的名字是Baz,他的打球哲学被概括为:放松的心理、富有攻击性的战术和积极能量。



从“人人科技”到“人人应用”


第一个人工智能系统可以追溯到1950年研发的一只远程控制的老鼠,它能够走出迷宫并记住路线。此后,人工智能经历了几十年的“慢进展”之路。仅在十年前,机器要达到人类级别的语言或者图像识别能力是不可设想的。但现如今有数据显示,人工智能系统已经在手迹识别、图像识别、图像转换生成和语言理解等多个领域的“标准化”测试中得分高于人类。


2023年11月6日,开放AI公司发布GPT-4的更新模型GPT-4.5,被称为GPT-4Turbo。相较于GPT-4,GPT-4Turbo在六个方面具有更高的智能和更强大的功能。一是上下文长度更长,支持128K的上下文信息,相当于300多页的文本。二是给予开发者更多控制权。三是更好的知识理解和生成,其预训练数据更新至2023年4月。四是各种新模态,通过应用程序接口接受图像作为输入,可以依据指令生成标题、分析现实世界的图像以及阅读带有图表的文档,还有文本转语音能力。五是定制,向特定用户推出定制模型项目,帮助一些用户训练针对特定用途的AI模型。此外,它还支持自定义GPT,用户无需编写代码就可以创建自己的GPT。六是更高的速率限制,提升了用户在一定时间内允许发送的请求次数限制。GPT-4Turbo发布几天后,GPT应用商店上线了,真正让“人人科技”转化为“人人应用”和“人人产品”。


2023年11月7号,GPT-4Turbo发布的第二天,马斯克的人工智能公司发布了一个意图回答几乎所有问题的AI新模型。更难做到的是,该模型甚至会建议要问什么问题。马斯克说,与典型的GPT相比,公司研发的语言大模型具有当前实时信息,所生成和提供的是世界的实时知识。此外,它能回答大多数其他AI系统拒绝回答的辛辣问题。


目前,AI技术已经在人类各个领域取得了颠覆性进展,各种细分行业的垂直AI系统开发和应用快速发展。2023年11月伊始,谷歌深脑公司阿尔法折叠模型最新版发布,声称新一代模型对于蛋白质结构的预测不但更为准确,而且预测范围从蛋白质扩展到了其他生物分子,包括配体(小分子)等。最新模型不但对蛋白质配体结构的预测率更高,而且能够预测以前未知结构或者尚未“结构表征”的蛋白质。最新模型的发布和持续迭代有望推动人类迈向下一个“数字生物学”时代。


从近十年的发展进程来看,AI已经显露出促进和提升“人人福祉”的巨大潜能。AI巨头们下一个目标是使得AI大模型成为人人都能免费使用和应用的“人人平台”:不但使得各类开发人员能够利用AI大模型进行创新和实验,而且使得普通人能够利用其创建个性化AI模型,以提升个人生活福祉。目前,ChatGPT的月活跃用户已经超过15亿人,占全世界人口总数的百分之二十,且用户数一直在快速增长。这意味着AI已经为人类未来发展创设了一条“大时速”前行道路。但如何最大化确保“大时速”前行的安全和可靠性,对于人类未来生存安全和福祉至关重要。



AI“大时速”发展:局限性和“预行动”


尽管AI创生的历史比较短,但计算机和AI的问世,从根本上改变了我们的视界、知识、行为和认知。目前,全球的一个重要共识是:AI所具备的“强变革性”潜力有望大大提升和促进人类生存福祉、和平与繁荣,但同时也给人类带来潜在的灾难性风险。2023年11月1日,首届全球人工智能安全峰会共同达成全球第一份针对人工智能的国际宣言《布莱切利宣言》,各方一致认为,人工智能对人类构成了潜在的灾难性风险,必须关注AI语言大模型对人类未来生存安全可能造成的威胁和灾难。人类若不预先对全球人工智能安全作出预警、预判并采取积极的“预行动”,AI语言大模型所创设的“大时速”平台很可能沦为“大垃圾场”。


抛开开发者相关因素不论,从AI语言大模型的大数据基础来看,AI语言大模型内在的潜在灾难性风险主要源于其对预训练数据的完全依赖性:若垃圾数据进,则垃圾结果出;若“干净”数据进,则结果较可靠。从生成本质来说,AI语言大模型实质是计算机程序以“类人”的模型化方式对预训练大数据进行结构化处理。AI语言大模型的最大优势在于对预训练大数据的整合、提炼、抽象、概括和模型化,以实现预训练数据的高度结构化。最近,谷歌深脑三位研究人员在对类似GPT2的一个语言大模型进行多任务测试后,发表了其研究成果:语言大模型具有令人惊异的“语境内(上下文内)”学习能力,即在没有任何明晰的模型训练情况下,给大模型提示“语境内”的、但此前模型从未见过的“输入—输出”示例,它能完成各种新任务。但他们的研究显示,当被给予的任务或功能超出预训练数据的领域时,大模型展示出多种失败方式,且其归纳陈述会退化到连简单的外推法任务都完成不了。也就是说,目前为止,AI语言大模型完成任务的能力完全受制于预训练数据的范围和质量。因此,数据清洗和标注的质量在很大程度上决定语言大模型的质量。在未来,数据规模、数据覆盖范围、数据“干净”程度、数据标注质量等是各种AI系统竞争的关键所在。


“不干净”的预训练数据可能导致各种后果甚至恶果。若预训练数据“有毒”或者有害,则AI系统生成和提供的答案势必也“有毒”和有害。若预训练数据充满谎言,AI系统势必也会撒谎。事实上,如今的AI语言大模型确实会撒谎。谷歌深脑三位研究人员关于AI模型无法完成预训练数据领域之外的任务这一研究结论发布后,有人就此问AI:“你能在你的训练数据范围之外作出归纳陈述吗?”结果,AI竟然罔顾事实公然撒谎:“能,我能从我被训练的数据中作出综合和推断,以此生成明确不在我的训练数据中的回答。”此外,AI还会“就坡下驴式”撒谎。2023年11月7号,马斯克的人工智能公司发布了一个意图回答几乎所有问题的AI新模型。有人问另外一个AI系统是否害怕马斯克公司发布的新模型,结果它回答:“好吧,我将承认这一点。我有点害怕它。它是一个非常强大的语言模型,且正一直变得越来越好”。


与事实相悖的公然的谎言比较容易识破和拆穿,但要识破“隐性”谎言则非易事。考虑到数据本身内在地包含各种视角、视点、立场、陈见、偏见或者错误,甚至很多数据本身就是人为操纵的结果。面对数据内在的复杂性,AI语言大模型势必难以事事辨清真伪。《布莱切利宣言》指出,人工智能系统操纵内容或者生成欺骗性内容的能力可能带来不可预见的风险。此外,AI的意外失控和数据滥用可能对人类生存安全造成重大风险。宣言决定支持建立一个具有国际包容性的、国际多方协调合作的人工智能前沿安全科学研究网络。


从以上论述来看,未来AI语言大模型之于人类生存安全的关键之一在于“干净”数据的质和量。可是,悖论在于:数据内在地就是“不干净”的,哪怕经过“清洗”的或标注过的数据,也不是完全“干净”的:数据的“清洗”和标注内在地与特定立场、理论和意图相关,不可能存在真正的“客观”数据。此外,哪怕是真正意义上的“干净数据”,比如事实性数据,也存在着隐性操纵的可能性。



目前,受制于AI技术的成熟度、算力以及数据获取成本等原因,AI语言大模型的预训练数据整体上基本可控,数据相对“干净”。可是,若干年后,随着AI技术日益成熟、数据成本日益低廉,AI大模型预训练数据势必越来越不可控。届时,AI大模型打造的“大时速”平台可能沦为充斥着谎言、误导信息、伪信息、操纵信息甚至欺诈信息的“大垃圾场”。如此一来,AI大模型可能开启智能工具对于人类的“反征服”。


自从人类学会制作工具之后,工具的“征服”和“反征服”一直都是一个无法避免的问题。意大利哲学家吉奥乔·阿甘本认为,语言的诞生和存在不但在很大程度上将可表达的具体经验切割得支离破碎,而且通过符号化表征内在的“平面化”和“灰烬化”的手段将人类直接的体验性经验摧毁得面目全非。他指出语言的诞生和存在,“并不是田园诗歌般的浪漫故事,而是对人类经验的一部血腥的征服史”。如今,绝大多数人把建构在语言之上的语言大模型看成是一个“大工具”,预设的是人类对于“大工具”的征服。事实上,AI大模型的“反征服”问题已经初现端倪,需要全人类提前预警、预判和“预行动”。


文章为社会科学报“思想工坊”融媒体原创出品,原载于社会科学报第1884期第6版,未经允许禁止转载,文中内容仅代表作者观点,不代表本报立场。


本期责编:王立尧



拓展阅读

2022年度词:点燃社会共情力的火把 | 社会科学报

年度词“限制令”:2020年共用的一把战疫“双刃剑” | 社会科学报


继续滑动看下一个
社会科学报社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存