查看原文
其他

陈奇佳 徐阳 | AI艺术创作的理论构想——以文字叙事算法研究为例

艺术学研究 艺术学研究编辑部 2022-08-23

作者

 陈奇佳  徐阳中国人民大学文学院

原文刊于《艺术学研究》2022年第2期


摘要

AI艺术创作本质上仍是在执行某种或繁或简的算法,这是谈论AI艺术尤其是文字类AI艺术的前提。将艺术创作所需要的基本要素算法化,以形成AI创作所需的逻辑参数,进而评估AI对这些逻辑参数进行习得和转化的现实可能性,这是探讨AI写作的另一前提。探寻文字组合的规律性问题以及较大尺度的文字传情达意的类型模型,则是研究文字叙事写作可算化的前提。当前,AI写作主要在大尺度的类型组合的学习上取得了一定突破,但根据现有的计算机技术,AI写作的前景似不乐观。不过,目前的探索也不排除形成AI自身叙事方法和逻辑通解的可能性。


引言




自20世纪中叶以来,人工智能(Artificial Intelligence,简称AI)作为一种技术现实和文化想象,与人文科学、艺术实践的关系日益紧密。1983年,计算机程序雷克特(Racter)创作的名为《警察的胡子是半成品》(The Policeman’s Beard is Half-Constructed)的实验性书籍问世,这意味着AI的文学创作之路正式开始。进入21世纪后,随着相关领域技术水平、认知能力的飞速提升,AI在艺术实践上的潜能得到极大释放,AI的文学创作也取得了新的突破与发展。2008年,俄罗斯圣彼得堡出版了史上第一部AI创作的长篇小说《真爱》,其主人公借自名著《安娜 · 卡列尼娜》,情节取自17本经典小说组成的情节库,行文风格上则仿照村上春树。这部由计算机程序(PC Writer 2008)耗时仅三天便写就的长达320页的小说被予以厚望(不过PC Writer 2008程序的设定却耗费语言学家和程序员八个月之久),出版社宣称若此书销售量可观,之后会陆续推出AI撰写的其他小说,但此事并无进展。2016年,以科幻小说《计算机写小说的那一天》为代表的AI作品参选第三届日经新闻社的“星新一微型小说文学奖”,最终由日本公立函馆未来大学松原仁教授的团队研发的AI作品通过初审,但此后再无下文。综合考量,上述作品的基本内容、人物设定和故事框架等基本要素均由设计者所拟定,AI所做的仅是对这些素材进行加工和重组。因此,这类文学“制品”客气地说是人机合作的产物,不客气地说,仅是专门为展示而制作的样品,其中人工干预、拣选的因素恐怕过于强烈,距离真正的AI“写作”相去甚远。

AI Writing(图片来源:https://eka1.com/news/eka-software-sees-increased-adoption-of-cloud-offering/)

不过,近几年AI创作取得了较大的进步和发展,尤以微软小冰的创作为突出代表。截至目前,微软小冰在诗歌、绘画乃至音乐等诸多艺术领域都颇有建树。就文学创作而言,2017年5月,小冰出版了第一部由AI创作的诗集《阳光失了玻璃窗》;2019年,小冰与人类共同创作的诗集《花是绿水的沉默》被称为世界上第一部真正意义上由智能机器和人类共同创作的文学作品。就最新成果而言,AI在仿写中文长篇著作、续写英文长篇小说等方面所依赖的文本生成模型是GPT-3。GPT-3是由人工智能组织Open AI于2020年6月发布的自然语言处理模型,也是有史以来最为强大的语言模型。GPT-3采用单向语言模型训练方式,有着较大体量的训练模型,利用预训练-精调两段式框架进行训练。该模型通过将单词向量化形成矩阵,在许多自然语言处理数据集上均具有出色的性能,包括翻译、问答和文本填空任务,还包括一些需要即时推理或领域适应的任务等,有着较高的处理水平与能力。GPT-3模型的建构使得关于AI写作可能性的讨论再次提上日程。事实上,依照目前AI的发展形势,其一般的、可通过图灵测试的“写作”能力从理论上而言已成为现实。不过,这些写作的成品是否称得上“文学作品”、AI的工作在何种尺度上能够被纳入文学领域(或者说,介入到当代文学的实际生产环节)中讨论,都颇费思量。事实上,AI这些文本生成究竟在何种意义上能够被称为“写作”,也远不是一个自明的问题。因为就当前AI艺术的实践来看,在其自运作的条件下,较容易通过图灵测试的,大概都集中于抒情或抽象艺术的领域。因此,在进入相关具体问题的研究之前,我们最好不要用想象来代替现实,既不要低估AI未来的潜力,也不要凿空想象AI写作的无限未知和可能性领域。人类在这方面过于激进与过于保守的论断都会产生不少笑柄。著名人工智能专家雷 · 库兹韦尔(Ray Kurzweil)在其1999年出版的《灵魂机器的时代:当计算机超过人类智能时》一书中曾列举了不少技术保守主义的笑料:

“我想全球市场也许只需要5台计算机。”——国际商用机器公司董事长托马斯·沃森,1943年。

“未来的计算机也许不会超过1吨半。”——《通用机械学》杂志,1949年。

“对任何人来说,640K的内存都应该够用了。”——比尔·盖茨,1981年。

“互联网将在1996年灾难性地瘫痪。”——罗伯特·梅特卡夫(以太网的发明者)。

但如以“后见之明”去评论库兹韦尔的言论,我们会发现他的激进想象也有很多令人解颐之处。比如他认为到2019年,“电脑大部分是看不到的,嵌装在各处——墙上、桌子上、椅子上、服饰上、珠宝上和人体内。……大多数道路安装有自动驱动系统。人们开始与机器人建立联系,把它们当作同伴、教师、看管人和爱人。虚拟艺术家,靠着自己的声誉,出现于各种艺术领域”。显然,他很大程度上高估了AI的发展水平。

[美]雷·库兹韦尔:《灵魂机器的时代:当计算机超过人类智能时》,沈志彦等译,上海译文出版社2006年版

不妨往后退一步,搁置AI写作的艺术性、文学性、诗性,也暂且搁置AI写作的潜能等话题,回到问题的起始之点,叩问今天的AI何种层面、何种形式的活动能够与人类所谓的艺术活动相接近、相配称?其实也就是这样一个问题:当前的AI活动是否已经可以将某些人类公认的艺术形式转化为一种确定的算法?具体到写作领域,我们显然就有必要脱离一般文学研究的领域,撇开文学与其他艺术形式的共性与差异性讨论等传统模式,仅从文学表达的基本物质基础也就是文字表意的可算化这一前提出发,讨论当前AI文字写作算法的逻辑构造样态及其实践成效,分析其逻辑样态的必然结果,以此与人类文字写作的结果比照;并根据当代AI最新、最强大的深度学习模式,追问这种比照学习的发展潜力亦即其达成或超越人类同类型文字写作的可能性。

就AI当前的写作学习来说,其参考人类文字写作模式的逻辑构造,大抵可分作两种基本的类型,即抒情写作与叙事写作。抒情写作的基本学习对象是抒情诗,微软小冰的现代诗创作能力是通过对1920年后519位现代诗人的上千首诗学习上万次后而达成的;而叙事写作的基本学习对象是故事与小说,2015年阿里巴巴推出了声称拥有庞大的故事资料库的智能创作系统“阿里编编”,对外宣称平均创作一集电视剧剧本只要10分钟,而创作一个完整的电影剧本也只需30分钟。2021年,阿里巴巴作为第二大股东的科技公司“海马轻帆”又进一步推出“小说转剧本”智能写作功能。AI的抒情写作和叙事写作涉及两种迥然不同的算法构造逻辑,本文主要讨论AI在叙事写作上,按照人类的写作方式,需要建构什么样的底层的逻辑形态及其实践的可能性。

一、可算:AI创作

与人类创作可比较的基础



从根本上讲,人类的思维模式与计算机的处理模式所能直接相比较的地方是算法,这是我们讨论一切问题的前提。

早在20世纪中叶,“计算机之父”约翰 · 冯 · 诺依曼(John von Neumann,1903—1957)曾创造性地从数学的角度对计算机的数学运算和人脑思维的过程进行过比较研究,这一创举不仅为计算机的创新、人工智能的发展指明了方向,也为今天AI艺术与人类艺术提供了可比较的理论基础。这便是冯 · 诺依曼死后所出版的《计算机与人脑》(The Computer and the brain,1958)一书的基本思想。

目前计算机的理论架构仍基于冯 · 诺依曼体系结构(Von Neumann architecture),仅在其基础上略作改进,并没有真正超越。这意味着我们在讨论文字叙事算法研究的前提时仍可以从冯 · 诺依曼对人脑和计算机可比较基本点——算法开始,这也是我们从理论层面对AI创作进行合理分析的大前提。冯 · 诺依曼认为,任何为人类所用,特别是为控制复杂过程而建造的人工自动机,通常都具有纯粹的逻辑部分和算术部分。不论人类设计者制定何种程序,他们都必须用数值相等或不相等的方式对所要执行的任务予以设定,然后交由能够实现该任务的自动机去处理。类似的,人脑的神经系统也具有两种类型的通信——不涉及算术公式的通信和算术通信。前者属指令通信(逻辑形式),后者属数字通信(算术形式);前者可以用适当的语言来描述,后者可以用数字来描述。因此,依冯 · 诺依曼而言,人脑与计算机的相似点和可比较之处在算法上:计算机的处理系统能够在不同实用领域大展身手,是因为学习了人工算法的部分原理,而人脑的神经系统可以被视为能够以相当低的精度完成极其复杂工作、具有相当高可靠性的计算机。不过,虽然计算机的所有算法都由逻辑架构和逻辑演算两部分构成,但基于人脑和计算机的相似性对AI创作和人类创作予以比较时,我们着重讨论算法的逻辑架构部分,至于更为烦琐复杂的逻辑演算体系则属于程序员专攻的领域。

[美]冯·诺伊曼:《计算机与人脑》,王文浩译,商务印书馆2021年版

从理论上来讲,AI逻辑架构的实现与神经冲动(能量)产生的信号传递类似:计算机设定者给出一个目的性指令(从这个角度说,AI运作的底层机制必然是因果性的),计算机便根据一定验算框架(即代码)进行运作,之后根据相应电信号的回馈得到某种回应指令。一台机器若要通过计算来解决一个具体问题,就必须由一组完整的代码来控制它。现代计算机的使用是基于用户就该机器要解决的给定问题而开发和制定出必要的完整代码的能力。代码的复杂性在此也可暂时搁置不谈,因为正如冯 · 诺依曼所言,一台机器在任何复杂的、各种可能的指令系统的控制下做任何运算,都好像它只包含“基本”运算,即那些基本的、非复合的原始指令。因此,AI的所谓“创作”,只是按照既定算法程序进行演算,是这种演算逻辑的随机性成果。它之所以有时看起来跟人的创作有可比较性,是因为经过拣选的样本看起来与人类创作的某些文本类型有相似性,而不是AI真正按照人类的创作规则在写作。当前AI写作(创作)努力的方向,就是试图按照某一种算法,至少将人的某一类型的写作方式彻底地程序化,在这一程序逻辑中,以深度学习的方式,使得AI最终获得类型文本自生成的能力——就像当年围棋程序阿尔法狗(AlphaGo)曾经达成的目标那样。这是比较人类创作与AI创作是否可能具有相似性或者说可比较性的唯一基础。

基于此,本文就人类自身出发,将人类的艺术形式解析为一种算法。不过,当以算法为基础比较AI创作与人类创作时,我们所必须面对的问题便是算法无法将诸如情感、信仰、宗教等虽对艺术创作至关重要但却不可演算之物统筹在内。事实上,像情感、信仰、宗教等要素对人文艺术的发展功不可没,在中西文明的演进过程中扮演了至关重要的角色。但我们从现实层面让AI如科幻小说中的人物那样拥有情感、保有信仰既无可能更无必要。换言之,在真正对AI作品和人类作品予以比较之时,一是我们仅能讨论二者在客观上可被比较和可被计算的环节,也就是以人类身体为经验的建构艺术作品时所涉及的环节;二是在对比过程中我们的基本设想是将人类艺术创作算法化,而非漫无标准地设想AI依据何种高级程序能够达到人类创作的标准等。在这两大前提下,相较具体AI程序的运作而言,我们的讨论将不可避免地显得粗泛和宏观,但这确是目前研究首先需要澄清的问题。

二、具身习得的逻辑参数:

AI创作的理论构想




在对比AI创作和人类创作的过程中,我们所采取的基本思路是将艺术创作所需要的基本要素算法化,以形成AI创作所需的逻辑参数,评估AI对这些逻辑参数进行习得和转化的现实可能性,从而回应AI写作的潜能等话题。这里的逻辑参数是指将艺术创作所涉及的人类所有思维内容还原为明确的生理表征行为,描述为可被描述和必须被描述的要素,因为它们与人类身体经验直接相关,因此又可被称为具身习得的逻辑参数。这种具身习得的逻辑参数从人类自身经验出发,将与艺术创作相关的环节分解为最小的单元模块。最小单元模块是指在现有人类艺术经验层面,以现象学还原的方式考察各种与艺术活动相关的基础范畴,所设定的可算的基础艺术模块。在集合论的意义上,它们又是可算化艺术活动的最大单位。这些模块本身是可微的,但从与人类艺术经验的对应关系来说,它们其实是一种最大的集合,即只有在这些集合条件下,人类那些被具身化的逻辑参数才处于彼此平行、可有交集但互不包容的状态。当然,还有必要指出的是,我们在此讨论艺术活动的具身化,绝不意味着所有艺术活动的形式范畴都是一致或近似的,不同艺术形式所对应的逻辑范畴自然有所侧重,同一艺术形式之中也有非常复杂的逻辑范畴变异情况。

根据人类艺术的实践经验,我们可以将相关可算的具身化逻辑参数分成三种基本类型。

第一类可称为单纯描述性的逻辑参数。这类参数一般涉及人类天赋的理性认知能力,为全人类所共有,有希望以某种刚性的算法求得普通解(当然,这是极端乐观主义的猜想,这类所谓天赋能力完全有可能涉及神秘层次,最终并不能被彻底认识,这就无所谓“普通解”了)。语言问题就是其一。这里所说的语言只涉及音义传播与理解问题(书面文字之间有更复杂的运作机制,不能归入基础算法的层面)。从人类理解的层面来说,单纯语音的交流是完全可能的;单纯依靠语音而完成不同方言和语言体系的交流也是可能的,这足以证明人类拥有某种相同的关于语言习得和运用的类的能力,也就是说,我们获得关于语言的通解是可能的(尽管自乔姆斯基之后语言理论在这方面进展有限)。再比如在图形层面,人类也可能期望通过一种穷尽描述的方法获得准确的具身化逻辑参数。人类的图形认知,大致应当分为几何式、符号式和具象感知等不同类型。根据康德、胡塞尔、荣格、皮尔斯、德里达等人的讨论,也根据目前科学的发展(如费尔马大定理的证明等),在逻辑上AI有希望通过深度学习模式在这些方面获得结构性的突破进展。此外,如果以人的身体为基准作测量,进行命名和限定,那么,运动辨认、空间、时间,包括颜色、声音、触觉等感官认知的内容,也有可能通过刚性的力迫运算,实现其中包含内容的算法化。

第二类则是转化性的逻辑参数。这一类逻辑参数所涉及的现象,大多与个体精神体验相关,具有很大的个体差异性;并且它们牵涉部分大多缺乏客观世界相对应的客体事实,因此AI似乎不可能对其做直接的穷尽描述。但尽管如此,这些艺术现象仍然能够借助某些具身化手段,通过相关生理表征行为的抽样、建模、统计、概率计算等手段予以转化性的过渡描述。这类逻辑参数,多与人类情感相关。各种欲望因素如性欲等,毫无争议与艺术创作具有极为紧密的关联。AI本身没有欲望可言(可算化也许是其唯一欲望),它如果要深度习得人类的艺术创作能力,逻辑上说它应当有能力辨认艺术实践中那些与欲望相关的现象并把它们转化为可算的逻辑单元。但欲望在创作中介入的深度因人而异,比如在《金瓶梅》《索多玛120天》等书中,很多意象都与性欲相关,但在某些佛教作品中,性欲的因素差可归结到无。如何从具身习得的角度出发描述此种现象,从目前来看,人们尚只能借助血压、唾液、肾上腺素等的分泌、眼球转动等生理指标的测量、计算、模型化等予以转化性说明。这种转化有多少有效性,目前来看自然是很值得质疑的。但从长远来看,如果样本量足够,且当前的AI学习模式有长足进步,AI此种转化性逻辑参数测定、可算化仍有一定的理论实现可能。人类的激情和冲动,如愤怒、悲悯、仇恨、嫉妒、爱好(癖好、习性)、报复(复仇)欲等,以及参与到艺术创作的各种感觉因素(包括嗅觉、味觉等),都属于这个层次的问题。前面我们谈到了此类参数转化生成的可能性,但实践中可能问题重重。如果将各类激情和冲动都转化为生物指标,这类转化需要的人类学证据将是不可思议的庞大。如果还考虑到这些激情和冲动同时还能够构成多少种复杂艺术现象,这些现象且自有其历史演化过程,那么这种转化性可算表达几乎是不可能的。更何况过度依赖心电图、血压、分泌物等来作为艺术具身化的主要参考指标,看起来也过于线性与简单化了。

第三类为综合的逻辑参数。人类艺术活动的基本经验,除了来自那些类属性和个体情感(这些都与身体经验感知直接相关),还有部分与外在存在事实紧密相关。它们属于被建构的实体性精神事件:能够被身体所感知、明证,但一般来说只存在于某一特定的群体中——且在这群体中存在着极大的差异空间,有时涉及重要的时间变量。比如说对特定国家之爱,对现代人来说,它肯定是一个能够被理解的客体性事实,但此种爱意,大多数情况下只存在于该国家的公民群体中,并且群体中个体差别极大,既有勇于为国家之爱奉献生命者,也可能有背叛国家者。考察这类经验的可算化问题,除了适当引入前述描述性或转化性研究的部分要素,还必须分析其中所包含的各种综合性内容,如历史、地域、文化传承、共同体性质(政治、意识形态)、群体间关系、技术条件等。文化传承包含文字、伦理、信仰、趣味等,其中的信仰等内容也必然是从世俗化一面来作思考的,是去神秘化的、可算的。这些综合生成的东西,其根源尽管不是发自直接的身体经验,但对艺术创作往往具有强大的支配力,因此也可以将它们视同身体本能,必须归纳、总结某些特殊的逻辑参数形态,比如关于文字的感觉、意识模式。再以技术背景为例,在透视法没有被发明之前,它不可能被自觉地应用到绘画领域;在运动摄像技术没有兴起时,便无所谓蒙太奇手法等问题。而在今天,透视、蒙太奇已成为现代人观察世界、想象世界的精神本能,从这个角度说,现代视觉经验包括精神测量世界的基本姿态,就是包含着对现代视觉机器(技术)的理解(想象)的。因此在艺术活动中,它们就显然需要被处理成为一个独立的可算的集合(模块)。这是第三类逻辑参数需要被单独分立的理由。

截至目前,在AI艺术研发史上,绘画是尝试最多且成果最丰富的项目。无论是辅助绘画、模仿绘画,还是AI独立创作技术,都在不断推陈出新,进行着一场场技术革命,其中不少作品显然已经能够通过图灵测试。在此,我们以图像为例结合上述分析从理论上还原AI创作的基本逻辑。第一步,分解各种图像素材。无论进行何种图像创作,分解图像素材都是基础步骤。在这一过程中,可能涉及的基本分解逻辑是:(1)分解人、动物、植物与图形相关的基本构造单元(如将脸部肌肉按解剖学意义分解);(2)按某些功能、组合命名某些表情传意的最小单元(如笑、哭、恐惧等);(3)按照某些基本物理事态(如光影对比、轮廓变形等)分解最小的功能单位,如石头、皮肤、水、草木等不同的反射率、色彩变化等;(4)分解图形静止态与运动态最核心的姿态差异(如电影《长城》的穿帮镜头其原因就在于完全没有考虑风与毛发飘动的关系)。第二步,按一定的逻辑组合、命名这些素材,以期形成更具表现能力的图像模块。第三步,在更大的尺度上定义某些人类活动的精神运动态势,在此尺度上定义、分解某些人类工作的学习样本,从而使AI学习并模仿生成。

以上是关于一般艺术创作所涉及的内在算法逻辑架构的基本思考,并以图像生成为例尝试分析了AI的艺术创作过程。然而,除却以上的归纳是否还有其他要素类型?如何研究这些要素在不同的艺术形式和艺术类型之间的具体逻辑关系?上述笼统的要素分析其内涵如何更明确地界定?……相当多的问题都超出了现有科学与人文认识的水平,在此只能略过不谈。

三、算法叙事的逻辑参数:

AI写作的理论构想




前文讨论了艺术活动可能涉及的一般经验领域如何实现可算的逻辑架构问题,但现实中艺术活动还有很多具体形式架构规定性。简单来说,根据人类的艺术经验,上述要素还有某些结构性的(也许是固化的)稳定的形式样态。这些形式样态也需要做出可算化的逻辑描写,这可能是当前AI写作想要取得明显突破之处的关键。

第九代小冰之社交平台「小冰岛」(来源:https://www.shenzhenware.com)

总体来说,目前AI写作(也包括其他艺术领域)的实践分为抒情与叙事两种基本形式类型,这也吻合人类艺术文体实践的基本经验。我们在此主要探讨文字叙事可算化的前提。

首先需要指出的是,从可算化的角度进入,文字叙事需要与其他的叙事形态做出区别。恰如罗兰 · 巴特所言:“对人类来说,似乎任何材料都适宜于叙事:叙事承载物可以是口头或书面的有声语言、是固定的或活动的画面、是手势,以及所有这些材料的有机混合。”不同形态的叙事,其内核的递归逻辑不同。从算法角度来讲,基本叙事形态可分为文字叙事、图像叙事、人体姿态叙事、综合性叙事四种类型。文字叙事稍后有较详细讨论,在此对其他三种基本的叙事进路略作介绍。图像叙事指单纯依靠图形的连接完成意义显现、因果构成。儿童的看图说话,可以部分证明人类叙事可能摆脱文字甚至语言完成。当代诸多的图像理论以及荣格的原型理论、让-吕克 · 戈达尔(Jean-Luc Godard)的电影实践等,都为这方面的话题提供了一些重要的讨论前提。当前AI叙事创作的研究进路之一,就是以图画叙事寓意的分析为AI叙事逻辑构建提供学习样本。且不论此种逻辑构建成效如何,这也说明图像叙事的逻辑可能是自为的。姿态叙事则指以表情、身体动作、手势、态度等为媒介的叙事方式。布莱希特的史诗剧就可被称为姿态剧,另外像傀儡戏、哑剧、马戏、舞蹈、体操等都说明姿态具有自身自为的叙事潜能。朗西埃的《美感论》、吉奥乔 · 阿甘本(Giorgio Agamben)的《普尔奇内拉或献给孩童的嬉游曲》(Pulcinella ovvero Divertimento per li regazzi)以及当代诸多的姿态研究理论,都为这方面的话题提供了一些重要的讨论前提。所谓综合性叙事是指除了综合文字、图像、姿态等叙事外,还包括因为其综合性生成某种独有的叙事逻辑的叙事类型。比如以运动的方式综合各种叙事表现时,运动所造成的事态便将生成诸多新的叙事可能和样态;又如蒙太奇和长镜头两种理论为电影的叙事方法提供了不同可能性;再如剧场效应需考虑到空间范畴,需要声、光、电等诸种要素的结合才能够实现。由此观之,动态所能够形成的算法本质上与静态画面完全不同。这四种基本叙事形态的实现从理论上讲要依赖不同的AI算法逻辑才能得以实现。

文字叙事写作的可算化又可分为两大板块。

第一板块是文字组合的规律性问题。文字组合的可算化,所需要考虑的逻辑参数至少包含如下七个层面的内容。第一,文字符号的组合规律。涉及文字叙事的演算问题首先要考虑的是文字演算过程中会涉及的符号组合规律,主要是语法问题。相对而言,第一项是最易掌握也最具规律性的,也是目前AI本身取得突破最大的层面。第二,字的层面。这一项主要涉及音、义、字之间可能的不同组合方式。像方块文字、象形文字、表音文字等之间的组合均不一样,不过对于计算机程序本身而言,实现这一层面的突破从理论上讲并不困难,只要学习积累到一定层次,便可以较好地呈现出不同类型文字间的组合方式。第三,词的层面。根据一般的词性分类,在演算过程中必须考虑到名词、代词、动词、介词、形容词及其他如拟声词、数量词等不同的词性。一句话形成的关键在于词和词的搭配使用,从演算角度来讲,词的组合也是构成一个句子表意的关键所在。这其中又涉及两个难点。其一是词与词的组合,从现象上看描述的理论难度不大,但十分烦琐(比如如何限定一个词在什么样的情况下可以与另一个词搭配,且能够准确传达叙事构造所欲传达的涵义)。其二的问题由第一点引发。从人类心智的角度看,习得词的组合能力一定不是描述性的而是生成性的。原则上人类掌握不多的生成规律就能识别一切词义组合的可能性。从这个角度说AI也应当具备生成性的词义组合能力。这完全依赖于人类对各种类词性的本质功能界定和准确描述。但从目前语言学界的研究看,要在这方面取得大的突破可能还有很长的路要走。比如说,如何令AI习得识别专有名词及其向普通名词转化的能力,就可能是一件非常困难的事情。在所有的语法理论中,专有名词均是一个自明的语言现象,但各家定义有所不同(有趣的是,人类心智在很早的阶段就已具备这一能力)。第四,文字与声音层面。众所周知,所有的文字符号均来自声音,以至于我们在阅读文字时会不由自主地想象它的声音。不过文字符号的组合又有摆脱声音的过程。文字与声音的关系需要更为充足的、特别是结构主义语言学背景来予以支撑,但二者关系如何转化为文字叙事算法可以习得的逻辑框架仍是未知的问题。第五,文字的历史演变。在设计文字演算过程时,必须要考虑文字的历史演变因素。像汉语便有古今异义词的区分,一些词语意义发展至今其内涵也会有一定的发展变化。人类在创作过程中会有意无意间加入某个或某些词的古意以形成一种特殊的叙事效果,但这些词语如何进行算法,这对AI来讲目前还是一大难题。第六,外来词、生造词(如许多网络语言)的运用。人类对于外来词的识别和转化都不成问题,许多日常词汇如沙发、咖啡等都属于外来词的范畴。但在面对一些较为生僻的外来词时,对计算机而言,要进行合理的算法逻辑描述也具有一定的难度。第七,文字信号与因果律构建。词与词之间、句与句之间逻辑上的因果构造,某一些信号的联系必然会导引出某一种预定的结果。但这种描述若转化成相应的算法则十分困难,因为人类在使用文字来进行叙述时,通过文字的组合形成的与事件相关的演算信号,包含了许多因果律上的直观见解,其中的典型代表便是叙事中的省略问题。对文学叙事而言,省略是最重要的因果律的构建方式之一。而具体的省略如何进行,何种因果条件可以不提及省略的前提,何种情况又可以不谈及省略的过程,何种又不用论及结果,这些都是考验人类叙事能力最直观的部分。但这种能力对于算法的描述而言相当困难。不过,就文字信号和因果律这一层面而言,不排除在计算机层面可以被绕过的可能性(即通过算法与学习穷尽各种省略的必要条件)。关于这方面的具体讨论则需要更为专业的思考。

小冰创作诗歌的过程

(图片引自Heung-Yeung Shum, Xiaodong He, Di Li.“From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots.”Rontiers of Information Technology & Electronic Engineering 19.no.1 (2018):10–26.)

第二板块,即绕过文字组合规律的细节,根据风格论与叙事类型学的理论,在较大尺度上给出文字组合的基本模型。希望在足够的样本学习基础上,通过恰当调试,令AI掌握基本的文字表现形式,并通过图灵测试。当前AI文字写作的基本逻辑构造,看起来主要便基于第二板块的逻辑构造模式。根据这种模式,目前的AI抒情写作与叙事写作其实是一回事。从现实操作而言,二者的本质逻辑是相同的,即通过有联系的连续几张图像,提取其中可能包含的人物的情感色彩或故事的情节发展,以规定的文字方式呈现出来。不过,AI叙事写作就既有成果而言仍有很长的路要走。比如像同样基于图像学习的微软小冰叙事诗的创作,其生成重点更强调故事情节的连贯性与叙述的完整性。若要培养AI“自主创作”的发展方向,很有可能会无法兼顾AI的诗歌语言学习,这就导致生成的诗歌走向“按图说话”的模式,其叙事功能仅停留在表面,而忽略了诗歌的文学性和抒情功能的表达,这也是叙事诗歌质量较不稳定的原因。而在更为复杂的长篇叙事写作中,AI则面临着更多的挑战。最新的语言生成算法模型GPT-3体现了自然语言处理取得的进步。人工智能语言生成器中的挑战之一是在长文本范围内保持连贯性,像之前的GPT-2模型往往在几句话之后便失去了一致性。GPT-3确实能够在几段文字上仍保持一定的话题性,这主要是因为GPT-3最基本的功能是自动补全,给它一个词或句子,它就会逐字逐句地生成它认为接下来该出现的词句。但从根本上讲,GPT-3不会带来任何新变化,较GPT-2而言所独有的只是训练数据集和“计算”量,而若想在模型中灌输常识、因果推理或道德判断,仍是AI目前不能实现的挑战。

图灵测试(来源:https://analyticsindiamag.com/)

基于深度学习的AI写作技术想要真正取得突破必须具备一系列基本条件,包括须是单一任务,任务边界清楚,信息完备,结果判断量化、明确,等等。但就目前而言,AI叙事从理论上来讲就面临着几大难以突破的难题。首先,AI叙事缺乏目的,缺乏标准,样本量太大。事实上这种可再生成性的语汇的逻辑关系,还是需要获得重大突破才可能形成一种内在的可计算的、但是又能自由转化的语言。其次,AI叙事对名词的辨析较为困难。名词,特别是作为普通名词而言,往往包含了非常复杂的记忆性内容。这种记忆性的内容通常还包含家庭、宗教、社会以及文本、虚构科技等要素。人要辨析一个普通名词中所包含的特征即转化机制非常容易,但是对于机器来说却很困难。一旦小说涉及诸多非逻辑的话题如意志、欲望、叙事、暴力、道德、死亡等类似具身体验的东西,机器根本无法习得,就只能在一定逻辑框架中做外部模仿。再次,AI难以将虚构内容向实体性内容转化。实体性的内容是一个客观实在,它的存在不会因为别的任何方式的介入而改变或消失。从这一逻辑来讲,叙事包含着两种实体的天然的区别:一种实体能够找到世界情况的客观对应;另一种实体是人类虚构的,若让机器进行这种虚构向实体的转变则十分困难。最后,AI难以习得纯粹观念性的内容。机器最容易习得的是科学观念性的内容,但是对比如佛、上帝这种概念既找不到它的外延,也找不到它的内涵。

就目前技术水平而言,AI叙事写作之所以看起来像是叙事,是因为:第一,它用来组合的类型化样本片段比较大,这种既有的样本化素材本身就包含了一些事件的组合关系,根据格式塔心理,人们会强行为这些拼贴的样本的事件之间补足因果关系;第二,这些类型学习的样本内在逻辑构造是极其线性化与单调的。这种算法模型能否完成长篇的、有内在变化的因果律组合,颇可怀疑。

GPT-3(来源:https://itlize.com/)

结语




从算法角度出发,就计算机与人脑可比较的层面而言,根据现有的计算机技术(包括算法等),拷问AI是否可能具有艺术能力,很可能本质上就是一个缘木求鱼的问题。就目前的AI技术而言,它参与人类活动并能超越人类能力,一般都在可计算的领域。它的内部逻辑构造再复杂,其实目标是单一且确定的。就像阿尔法狗围棋上战胜人类,其突破主要是在发明了一种通过概率计算的方法,绕过了庞大数据对技术能力的考验。但其逻辑目标本身是简单的:设定一种程序,依照围棋的规则,争取在19路棋盘上达到或超过181点以上的点位,能够完成这一目的计算即为成功,否则就是失败。而对艺术工作而言,在大多场合都很难说有什么是非判断的标准;各艺术品之间也很难说有什么统一的标准,那么如何能够有效地根据一定的逻辑计算方法判定AI演算的有效性呢?即便人们在艺术标准等方面达成了一些极有弹性的、通解方面的认识,文中谈到的几个前提仍将对相关的工作提出巨大考验。

尽管如此,当前的AI艺术探索,仍然是极具价值的,我们不能排除AI未来会形成专属于自己的叙事方法的可能性,也不排除会产生一种诸多要素具有通解的逻辑框架。此外,还有一种理论上的可能,那便是计算机通过超大样本的学习,使得AI叙事自动覆盖或超越人类叙事。因为就计算机与人脑的对比而言,人脑的演算精度与计算机相距太远。而是否有可能设想这就是智慧生命最终本质的差距。如果情况是这样,据人类创作过程架构的逻辑框架对具有超精度计算能力的计算机而言,其本身就是一种不好的逻辑框架,我们依据人类艺术活动经验来规约、设想AI艺术的发展可能本身就是一种坐井观天的想法。当然,尽管科幻文艺在这方面已经谈了许多(如阿西莫夫的小说,如电影《银翼杀手》),但从目前AI发展的情况来看,这些基本都可以归于玄谈,暂可存而不论。 

本文系中国人民大学科学研究基金重大项目“新时期欧美戏剧理论译介与影响研究(1980—2019)”(项目批准号:2021030015)阶段性成果。

本文作者陈奇佳


责任编辑:秦兴华


本文图片由作者提供

为阅读方便,略去引注


点击以下链接即可阅读


《艺术学研究》稿约

《艺术学研究》2021年第1期文章荐读

《艺术学研究》2021年第2期文章荐读

《艺术学研究》2021年第3期文章荐读

《艺术学研究》2021年第4期文章荐读

《艺术学研究》2021年第5期文章荐读

《艺术学研究》2021年第6期文章荐读


《艺术学研究》2022年第1期文章荐读







点击左下角阅读原文即可购买往期杂志。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存