2019年,德国电信(Deutsche Telekom)组建了一支音乐和人工智能的国际专家团队,完成了贝多芬未完成的第十交响曲,以此纪念他诞辰250周年。完成的交响曲《贝多芬第十交响曲AI完成版》(Beethoven X - The AI Project)于2021年10月9日在德国波恩首演。现在能在各大音乐流媒体平台收听这张专辑,不过评分很低。封面图片为专辑封面。Artificial Aesthetics: Even an AI could do that作者:埃马努埃莱·阿里埃利(Emanuele Arielli,威尼斯建筑大学哲学系)来源:Lev Manovich and Emanuele Arielli, Artificial Aesthetics: A Critical Guide to AI, Media and Design, 2021.第一章
审美是什么?想想我们在日常生活中所做的许多审美选择——挑选和搭配衣服、点赞照片、选择发型、化妆、选择参观的去处、购买物品、听音乐等等。在所有这些例子中,审美指由我们的感官调节的愉悦体验。这个术语还可以包括一些概念,比如评估艺术品价值的风格和审美判断(aesthetic judgments)(尽管审美和艺术之间的关系在当代已经变得有争议)。在创建图形、捕捉和编辑照片和视频、绘制图像以及设计空间和建筑时,我们也要做出日常的审美决定。审美包括自然的和人造的客体(objects)和体验(experiences)。自21世纪初以来,计算、数据分析、机器学习、神经网络和人工智能(AI)都逐渐进入了审美领域。尤其是人工智能,这是一个似乎包括万象又引人瞩目的标签,但它的定义在不断变化。例如,Spotify、Apple music和Pandora等音乐流媒体服务会自动推荐我们可能喜欢的音乐;Instagram的“探索”标签自动管理照片和视频,为每个用户定制个性化服务;自动一键照片改进是所有移动和桌面应用程序编辑照片的标准功能;等等。这些系统依赖于越来越复杂的用来预测人们可能喜欢什么的方法。例如,深度神经网络通过直接观察人们的审美选择来学习审美品质的原则。早期对图像质量评级的预测基于经典的构图规则(如九宫格构图法、宽高比、饱和度等)以及程序员对审美价值的直觉,这种直觉来自于他们对最喜欢照片的观察。后来,神经网络逐渐被用于分配语义标签(“意义”,meaning),并通过分析喜欢图像的大型数据库自动提取审美相关特征。除了推荐和自动编辑,人工智能现在被广泛用于生成新的合成人工制品,包括艺术品、音乐、设计和文本。例如,2016年,一种深度学习算法通过分析伦勃朗(Rembrandt)的346幅已知画作来学习伦勃朗的风格。随后,该算法生成了一幅全新的肖像,结果看起来惊人地像一幅真正的伦勃朗画作。
深度学习算法生成的伦勃朗画作,2016年
同年,位于巴黎的“索尼电脑科学实验室”(Sony Computer Science Laboratories)的研究人员开发了一个名为“深度巴赫”(DeepBach)的神经网络,可以创作J.S.巴赫风格的圣咏清唱剧(chorale cantatas)。从那时起,其他的音乐生成算法也被创造出来。甚至YouTube视频也邀请观众参加音乐的“图灵测试”,挑战他们能否区分人工智能创作的音乐和人类创作的音乐。对于受过一些音乐训练的人来说,这个任务似乎仍然很简单,但对于没有经验的听众来说,就不一定能成功区分了。【译按】感兴趣的读者可以去YouTube搜TwoSetViolin的两个视频,标题分别是Artificial Intelligence Composed This Symphony!?和Can You Tell the Difference between AI and Human Composers?
2019年,德国电信(Deutsche Telekom)组建了一支音乐和人工智能的国际专家团队,完成了贝多芬未完成的第十交响曲,以此纪念他诞辰250周年。完成的交响曲《贝多芬第十交响曲AI完成版》(Beethoven X - The AI Project)于2021年10月9日在德国波恩首演。要跟上这样的快速进步是有挑战性的,因为渐进的技术变革会产生渐进的效果。2019年,人工智能利用新型智能手机(华为Mate 20 Pro)的计算能力完成了舒伯特的《第八交响曲》(Unfinished Symphony)——尽管这是在一位作曲家的帮助下完成的,他精心制作并生成了最恰如其分的旋律。2020年,普林斯顿大学的一名本科生使用一种所谓的“生成对抗网络”(Generative Adversarial Network,GAN)创作出了能够在视觉图灵测试中欺骗人类的传统中国山水画。
“生成对抗网络”创作的中国山水画,2020年
人工智能和审美之间的相遇至关重要,因为审美被认为是一个专属于人类的领域。长期以来,审美的“难以处理性”和复杂性一直被认为不受算法约简的影响。对一些人来说,艺术、审美和创造力是人类能力的顶峰,因此代表着对抗似乎势不可挡的人工智能进步的最后一道堡垒。换句话说,这个复杂的领域将成为人工智能可能性和局限性的最终试验场。尽管如此,仍然有一种流行的观点认为,像上面提到的那些例子只是模仿现有风格,根本没有创造性。在这种情况下,计算机接收到预先存在的例子,并产生符合这些模式的变体。有时,它们与“真正的艺术品”惊人地相似,但这也意味着,对于训练有素的专家来说,它们似乎有点偏离,缺乏最终的“润色”,使它们拥有令人信服的“人性”(human nature)。这些算法似乎不会生成全新的音乐风格或绘画风格。但是,即使是专家也会被骗,人工智能制作出比人类作品更有“美感”的艺术品,这可能只是时间问题。我们应该记住,上面提到的例子涉及到具有大量重复和“低可变度”的艺术品集。这些特性使神经网络能够提取一般特征并生成新的例子。换句话说,它似乎特别适用于传统或古典艺术作品,因为这些作品倾向于表现出一种清晰且可识别的风格,位于特定模式的艺术家、学派或传统的长河之中。机器学习系统非常适合来分析具有轻微变化的客体类型的反复,并提取相关的特征和模式。相反,再造杜尚风格的作品是非常困难的,因为人工智能必须从这位艺术家所有作品异常复杂的数据集开始着手,包括《泉》(Fountain)、《瓶架》(Bottle Rack)、《大玻璃》(The Large Glass)、《自从》(Étant donnés)等等。通常情况下,保守的艺术观点将技术掌握程度视为“真正艺术”的标准,许多人仍然认为需要技术能力的东西才是艺术。然而,技术能力意味着程序性知识,而人工智能正是用来处理这类知识的技术。清晰可辨的风格可以简化为计算任务,而不用遵循组合规则的变体和定义模糊的任务。不过至少到目前为止,人工智能的创作能力还创造不出杜尚的作品。以下简要概述我们将回答的主要问题。研究人工智能和机器学习对审美的影响,首先需要摸清审美和计算方法相结合并相互关联的领域。然后,我们将进一步展示所谓的实验审美和计算机应用之间的一些接触点,展示在前者中发现的一些限制和临界点如何转移到后者。技术体现了工具的发展,延伸着我们的范围和力量。我们的生理力量有限——多亏了杠杆、齿轮、引擎,我们才成功地克服了这些限制。我们的视力在生物学上是有限的,但显微镜和望远镜却能让我们放大可见的范围。同样,我们的认知能力,如计算和记忆也有上限,但计算器和计算机增强了这些能力。沿着这条论证路线,我们可以认为,人类的审美能力也有极限,可能会在某个点上达到创造力的顶峰,或美感的顶峰。这限制既因人而异,毕竟每个人都有自己的感知、创造力和技能;它也由文化来决定,因为文化在一种特定的艺术媒介中界定了何为可能。人工智能的审美可以被描述为我们审美技能的增强,深化我们的创造过程和我们对文化艺术品的理解与感知。如果传统意义上的媒介是人类感官的延伸,那么人工智能则进一步延伸了人类中介“人类与世界”之间关系的能力。我们与技术的接触扩大和修改了我们的创造方式,并最终塑造了我们的文化演变。问题是,这一切是否有可能推动我们对人类文化和艺术遗产的认识。在一个未来的场景中,机器可以获得对人类审美偏好的精确理解,最终以比人类更准确的方式记录我们在审美客体面前的感知和反应。机器可以学习、制作审美作品,并产生新的创意风格和流派。通过分析人类审美和文化的多样性,它们甚至能够创造新的“文化”——创造真正的新型艺术和审美。在围绕人工智能的讨论中,我们经常听到机器如何“解决”那些人类自认为专属的领域,或者取得比人类更好的表现。什么是真正的人类行为和智能行为?这个问题的答案标准每每提高,并被转移到其他领域。我们不无担忧地看到,我们认为不能由机器实现的领域似乎正在缩小。人们可能会问,我们现在是否正在见证审美领域的溃缩。这就提出了一些新的问题,比如——机器能否达到一个我们认为真正具有创造性的地步?机器如何处理当代艺术运动中的概念性转向?它们在帮助我们理解“好的品味”和“坏的品味”方面能起到什么作用?使用数据分析的系统是在挖掘我们文化的“无意识”结构,还是在见证一种全新的文化生成形式的出现?审美(美学)是一门哲学学科,这个定义最初由德国哲学家亚历山大·鲍姆加登(Alexander Baumgarten)在1750年提出,用来指涉古希腊的审美,意思是感知或知觉。康德(Kant)后来在他的《判断力批判》(Critics of Judgment,1790)中把这个词重新定义为主观的品味判断。这意味着审美将感知视为一个更复杂的概念,而不仅仅是感官体验(后者在今天属于研究感知的心理学领域),因为它还试图解决我们对情感与认知的反应。机器学会在数据中识别越来越复杂的、人类无法监测的模式。那么,机器感知机制和模式识别机制在多大程度上与“审美感知”相关,以及人类审美感知的哪些独特方面仍然需要被人工系统学习?正如我们所见,审美的计算方法涵盖了广泛的应用,从文化艺术品的分析到它们的生成,处理的问题包括:我们能否开发出能够提取人工制品(“器物”,artifact)或图像的所有相关特征的系统?我们能否从特定的文化传统中分析/描述人工制品的审美特征?从另一个角度来看,我们也对以下问题感兴趣:
我们是否可以使用人工智能来理解(并预测)人们喜欢什么?我们可以看到关于客体(objects)的问题和关于主体(subjects)的问题之间的区别。
关于第一个问题,我们关注人工制品的形式和表达特征,例如一幅画的风格、主题、笔触、与其他作品的形式相似性,以及它们的语义和意义。另一方面,当我们提出与主体有关的问题时,我们要思考观众的审美经验和感知,包括对艺术价值的判断、鉴赏、情感和认知反应等等。客体/主体区分了计算方法中两个完全不同的视角。第一个是关于客体的分析,目的是通过从审美人工制品和文化产品的大型数据库开始,提取模式和风格的不变量。主体分析则是探究一件艺术品的哪些属性与人们(无论是个体还是集体)的审美反应、感受和解释相关(并预测它)。还有一个区别要做。机器学习既被用来从数据中提取“模式”,也被用来在完成训练后生成“模式”。因此,这些技术的发展不仅允许我们描述人工制品,预测人们的行为,它们也可以被用来生成人工制品,模拟人们的行为。因此,我们应该增加其他类型的问题:我们能不能(重新)生成人们喜欢的东西并生成具有审美价值的新艺术品?我们能否建立人们审美偏好的计算模型,使我们能够模拟并自动处理他们的判断?通过跨越这两组维度——客体与主体、描述与生成,我们可以确定机器学习和人工智能在审美中的四种不同应用:
| 模式识别(分析和描述)
| 模式生成(生成和预测) |
客体
| 学习客体
| 生成客体
|
主体
| 学习主体
| 生成主体 |
我们来举例分析一下巴赫的作品。巴赫创作了高度结构化和数学化的音乐,可以说是“音乐中的国际象棋”,并且一直是算法描述和生成的客体(比如2016年的“深度巴赫”项目)。1. “研究客体”:人工智能使用包含巴赫所有作品的数据集,分析旋律模式,追踪不同乐谱之间的相似性,提取作曲家的特色风格。
2. “生成客体”:人工智能在经过巴赫作品数据集的训练后,被用来生成新的巴赫声音的变体。
然而,如果这些任务(分析音乐作品的形式特征和产生变体)不涉及人们对音乐的反应和体验,就会错过审美分析的一个重要方面。这就是主体反应的问题所在。因此:3. “研究主体”:收集并分析偏好,以确定哪些音乐特征特别受人喜欢,哪些音乐品质决定了特定的审美反应(一种感觉,一种情绪等等)——想想在线音乐平台如何通过算法跟踪用户的偏好。如果个人偏好之间的差异不是太大,就有可能在巴赫的作品领域建立一种审美评价模型。该模型产生了用户如何评价新的巴赫音乐的预测。反过来,听众听到这些新的作品并向模型提供进一步的反馈。如果用户反应差异太大,我们可以使用聚类分析(cluster analysis)来识别不同类型的偏好,并生成适合于每种类型的不同模型。这种方法与那些根据人口统计学、兴趣、需求、行为和/或位置将市场上的客户“分割”成更小群体的做法没有什么不同。事实上,根据以前的听觉选择来描述和预测人们的审美行为,构成了传统的消费者偏好分析在营销和社会学研究实践中的演变和完善。然而,现在的方法提供了新的分析能力,这是使用数据的新方式。传统的市场和社会学研究通常汇集数据,使用汇总的数据统计平均值,并根据人类类型的理论社会学模型形成集群。相较之下,对数据的算法跟踪和分析能够生成个人档案,将个人行为作为数据,例如在社交网络上点击或“点赞”特定图片或在Spotify或YouTube上收听特定的音乐。与其说这是对许多主体的数据进行聚类,不如说每份档案对每一个人来说是独一无二的。4)“生成主体”:在线平台的推荐系统使用模型来预测用户会钟爱什么。然而,通过对一个人的审美判断进行建模,也有可能产生行为和判断。对听众的偏好和审美反应进行建模,原则上使我们能够模拟人们在特定客体面前的行为和反应。如果一个作曲家(或人工智能本身)要创造一种新的巴赫音乐的变体,那么根据主体的审美模型训练出来的人工系统可以自己评价,而不需要重新听从人类主体。不难想象,“人工判断”系统在未来可能会被越来越多地使用。这些系统将自主地评估文化客体,为设计师工艺品、时尚的人工制品或图像评分,得出较高或较低的审美价值。“人工判断”可以做的不仅仅是告诉我们“人们可能会喜欢什么”(如传统的推荐系统),它还可以告诉我们“人们会有多喜欢”,人们会如何评判它,甚至预测人们会对它说些什么。预测图像审美分数的自动系统是人工判断的一个典型例子。这些系统通过使用客观指标(图像质量、清晰度、最佳对比度、颜色等)和主体评价的组合来发挥作用。为了创建这样一个系统,大量的人对大量的图像进行评价。此外,我们还可以补充说,这些算法可以识别人们甚至没有意识到的审美特性(在客体方面)和个人偏好(在主体方面),但这些都已然体现在他们的鉴赏行为中。
计算分析(computational analysis)可以让我们提取模式和形式结构,但它并没有帮我们理解这些模式如何影响人类感知、情感和认知。脱离人的意义而思考的模式最终是空洞的。艺术史学家巴克森德尔(Michael Baxandall)在他1985年出版的《意图的模式》(Patterns of Intention)一书中,颇有说服力地描述了我们在谈论任何艺术作品或文化产品时使用的批评语言的本质。巴克森德尔认为,我们创造的一切话语既不是对特征的简单事实描述,也不是对人的反应的主观报告,而是包括强调客体与人的反应之间的关系(被赋予的意义和表现出来的审美反应)。这种关系通过对客体的象征意义和文化意义得到进一步中介。按照巴克森德尔的说法,艺术中的文化和批评解释并不是单纯的描述或分类——它们“主要是对我们关于它的想法的表述”。我们所描述的是一种“部分解释性的描述”。“我们描述的不是图片,而是我们看到图片后的想法”,或者至少是关于这些想法的假设。例如,如果我们把爱德华·蒙克(Edvard Munch)的《呐喊》(The Scream,1893)描述为“激发了一种恐惧感”,那么恐惧感的概念作为一个审美概念,就会因为因蒙克的名画而变得更加丰富。合成媒体(synthetic media)中的人工制品(图像、歌曲、文本)是由一个“网络”生成的东西,这个网络被相似的、预先存在的大型人工制品数据库训练过。然而,如果期望生成的内容具有审美价值,生成网络不仅要考虑到形式维度(人工制品是如何制作的?),还要考虑到它们相应的主观解释和反应,包括人们的审美偏好。否则,我们将能够产生无限的图案变化,却不知道它们与我们的欣赏有什么关系。没有意义的模式描述是空洞的,没有人类解释的模式生成是盲目的。今天,在人工智能的媒介生成中,人类通过选择、适配和调整过程来操作生成网络,以获得一个理想的结果。这个结果也取决于人类遵循自己的审美感觉。只有对主观反应的算法分析(“研究客体”)才能使评价步骤逐步自动化。此外,“研究主体”涉及个人和集体的反应,后者涉及分析历史上沉淀下来的、对文化客体的反应。理想情况下,能够创造有意义的艺术和设计的人工智能将思考历史,不仅要从人工制品中推断出模式,而且要解释它们的集体接受情况——也就是说,随着时间的推移,人们对这些人工制品有什么反应。因此,使用人工智能来生成新的文化艺术品(并协助人类创造者)将重新要求使用人工智能来进行文化分析。这就需要将人工审美与处理这一问题的各个领域联系起来——哲学美学、艺术史、艺术心理学、人类学和文化社会学等等。诚然,新的技术发展可以产生全新种类的人工制品,而这些人工制品不需要与过去的文化生产一致。然而,如果我们想更好地掌握这些人工制品如何影响人们,那么,理解我们通常如何对审美客体作出反应并赋予其意义将有助于我们不在黑暗中徘徊。不久的将来可能会有全新的审美艺术品,但它不可能拥有全新的人性。
从低级的知觉机制到高级的情感和认知过程,审美现象涉及人类所有能力之间的复杂关系。截至19世纪末,实验心理学之父古斯塔夫·费希纳(Gustav Fechner)将审美视为科学心理学新方法的最大挑战,这并非巧合。事实上,研究人们在审美体验中如何反应和行动——我们将这个领域定义为“研究人”,一直是所谓的心理学实验或经验美学的传统。例如,费希纳研究人们是否更喜欢遵循黄金比例法则的形状。虽然费希纳的发现似乎证实了这一规律,但后来的研究未能重复同样的结果。这方面的研究稳步持续了近一个世纪。例如,乔治·伯克霍夫(George Birkhoff)的审美衡量标准试图用一个可量化的公式来捕捉形状的复杂性和秩序之间的最佳审美关系。他认为,高度的秩序和高度的复杂性将与较高的审美愉悦相关联。20世纪70年代,丹尼尔·柏林(Daniel Berlyne)的新实验美学引入了动机因素作为审美愉悦和鉴赏的关键组成部分。换言之,审美价值不仅是一种客体的特征功能,而且也是主体的享乐基调,这功能展现了他或她的兴趣和刺激水平。他在复杂和享受之间建立起“倒U形”关系,表明刺激的复杂性在太少和太多之间存在一个最佳的中间点。对此他也进行了实证研究,尽管结果不尽相同。世纪之交,研究人员认为有必要从基于简单抽象模式的心理物理实验转去观察人们在真实艺术品、人工制品或自然实体面前的反应。近来,神经心理学方法在这一领域很受欢迎,将他们的焦点扩展到诸如创造性和特定艺术形式的接受与阐释机制问题上,涉及视觉艺术作品、音乐、电影、文学等等。这个领域的研究人员通常在精心控制的条件下对一小群人进行实验,使用统计技术来分析所收集的数据。例如,在许多视觉审美的实验中,向一组人展示一组特定的图像(数据集可以是预先存在的,也可以是专门为实验而创建的),并要求人们以某种方式表达他们的偏好(例如在一个数字量表上对所有图像进行评分)。几十年来对实验美学的研究导致了许多发现。例如,心理学家表明,更长时间接触一个刺激物会导致对该客体越来越熟悉,诱发对它的偏好,以及对该客体类别中原型的偏好。也就是说,我们喜欢更典型的东西,而整体的流畅性。也就是说,处理一种经验的难易程度与审美偏好相关。此外,研究结果显示,我们对面部特征的对称性有偏好,对光滑和弯曲的形状有偏好,对自然景观的偏好超过了对人造场景的偏好,对具有自然主义特征的建筑场景有偏好。许多研究已经测试了和谐、平衡和“良好构图”的经典规则,如“九宫格构图法”或格式塔理论(Gestalt-theory)描述的原则,这些原则由鲁道夫·阿恩海姆(Rudolf Arnheim)在1954年的经典作品《艺术与视知觉》(Art and Visual Perception)中首次应用于艺术领域。我们应该注意到,这些实验经常使用大学生作为他们的测试对象。他们的审美判断可能反映了一种特定的品味,而不能代表艺术家、设计师或评论家的判断。不同研究一再证实,在审美判断方面,专家和非专家之间存在明显的差异。此外,应该注意的是,大多数的研究并没有指向结论,而是表明审美偏好取决于许多潜在的变量,如语境和主观态度。语境因素的一个例子是对艺术品的口头描述。标题会改变我们对绘画的鉴赏,改变我们看待它们的态度。呈现的顺序(我们先看到哪个?接下来是哪个?)、空间布局(哪个在左边?哪个在右边?)和并置(比较相似还是非常不同?)也影响人们如何判断客体。
例如,我们对一件艺术品的接受程度可能会有所不同,这取决于我们是在一个典型的 “白立方”(“white cube”)空间还是在一个更非正式的环境中看它。观察者的特点也存在差异,比如一个人的情绪状态和清醒水平、专业知识、个性特征和文化等因素都会影响审美体验和判断。实验研究不是寻找通用的普遍规则(如黄金比例、“倒U模型”等等),而是研究非常微妙的机制,同时思考背景、个人和文化方面的具体因素。总之,该领域已经产生并测试了许多相互关联的理论来解释人类的审美体验,同时也表明,这些理论似乎都不具有普遍性。今天的计算方法与传统的实验美学之间有两个关键的区别。首先,实验美学主要关注主体,而人工美学关注客体。此外,实验美学使用专门选择的、高度控制的刺激物,而人工美学使用来自现实生活中人类行为的“大数据”(“big data”),这些数据通常通过数字平台收集而来。
其次,实验美学通常在受控的环境中产生刺激,并观察人们的反应,而计算方法则利用了大量可用的表达偏好数据集,比如Photo.net或DPChallenge.com,使研究者能够探索人们如何在社交平台上“点赞”。此外,研究者捕捉并测量人们在网络平台上的实际消费行为,如音乐和电影的流媒体服务,目的是为了从最流行的人工制品中推断特征。在实验美学中,以主体为中心的方法强调对所谓“因变量”的分析。这些变量包括受试者的受控反应,通过在精心校准的量表上的判断来测量,以及生理反应(心率、皮肤传导、瞳孔扩张等)和大脑活动,通过脑电图描记器(EEG)或功能性磁共振成像(fMRI)来测量。相比之下,审美行为的计算分析是一种以客体为中心的方法,它描述“独立变量”,即人们每天消费和判断的审美内容。这种优势源于收集、分析图像、音乐和其他文化艺术品大量特征的能力。如前所述,审美的计算方法的关键优势在于,它们不一定要寻求审美的普遍性,也不一定要把(相对较小的)主体群体的共同反应作为普遍态度的代表。相反,算法可以跟踪个人的偏好和行为,而不需要根据总体和平均来建立审美反应模型。大数据并不要求我们假设一个普遍的人类审美主体。尽管有这些优点,专注于审美偏好的人工美学仍然必须面对一切实验方法所面临的方法论挑战。我简要提其中的两个挑战:1)很难分离出与我们的审美评价有关的特征;2)很难确定我们试图描述的是哪种反应。关于第一点,审美客体的特征很难分离。例如,为了研究一个设计的形状变化如何影响审美评价,实验应该使用受控的环境,分析形状的最小变化影响,并避免同时混杂多种变化(例如改变形状和颜色、形状和纹理等)。然而,审美变量也可以相互影响。因此,这种设定不允许我们在特定客体的特征和对该特征的审美反应之间得出一对一的对应关系。当然,确定人们偏好的普遍趋势是可能的事。例如,我们可以观察到某种音乐风格在某个国家的特定人群中比另一种风格更受欢迎。然而,要达到更细化的程度并理解每个因素在最终审美效果中的确切作用并不容易——究竟是什么让一种音乐风格比另一种更有吸引力?为了达到这样的理解水平,我们需要大量类似的审美作品,可是这些作品彼此之间只存在微小的差异。在某些情况下,数字平台允许我们研究网络上数量庞大但不太异质的刺激物。例如,在2014年的一项研究中,作者使用了微视频(最长6秒)分享平台Vine上的微视频做研究,作者分析了数百个特征来预测人们是否会判断这些视频“有创意”或“无创意”。该研究使用一个众包平台,让284人对3800个视频进行评判。这些特征包括场景内容、电影制作技术、摄影技术、构图、视觉效果、音频效果和新颖性。所有这些特征都是用数学方法定义的,并通过分析视频的帧数和背景音乐自动计算。作者报告了每组特征的分类准确性,并得出结论:“将新颖性特征与审美价值特征结合起来,才能达到最佳的效果,体现了创造性这一双重定义的实用性。”可是,要得到这样的结果,必须要有一个足够宽广的数据集,而且特征是可控的(比如时长6秒钟)。但是人类的文化生产并不总是这样。关于第二点,人类的审美反应(即心理学实验中的因变量)也带来了挑战。当我们询问主体审美体验时,我们实际上在“测量”什么?我们与审美客体的关系有许多层次和层面——它们的范围可以从服从个体的生理反应到复杂的批判性表述,从对社交网络中的图像“点赞”到实际的消费行为,等等。我们得到的答案各不相同,这取决于我们是问某人是否“喜欢”一部电影,还是认为它是一部杰作,或者我们只是观察她在观看这部电影时的生理反应。此外,我们应该区分价值判断和单纯的主观偏好/欲望。一般来说,我们可以说,价值判断比对某一客体的瞬间偏好或欲望更稳定。我可以认为歌曲X是一首名曲(并且优于歌曲Y),但目前缺乏听X的欲望,反而有听Y的更大欲望(也许是因为我的情绪状态或因为我听了太多次的X)。这意味着,我的消费行为可以显示出我的偏好,而这些偏好不一定是我对审美价值的普遍想法。我可能是一个狂热的商业电影消费者,但却认为文艺片在审美上更胜一筹,尽管我很少看这些电影。收集人类审美消费数据的人工系统应该考虑到这些问题,如果我们想避免人类审美经验和判断的模型过于简单化,这两者都应该被用于人工评价和生成算法中。【延伸阅读】