网络首发 | 人工智能生成内容(AIGC)的技术特征与形态演进
极具想象空间的元宇宙赛道
——AIGC,以扩圈之姿稳居内容生态C位
2021年被称作“元宇宙”元年,而2022年则可视为AIGC的“破圈”创作元年。在现实社会多个应用场景中,基于自主学习和强化训练的AI均给出了超乎想象却合乎情理,充满创意却不乏深意的内容作品。在算据、算法、算力等技术要素加持下,AIGC呈现出强大的内容创作力和内容生产力。
内涵之源:AIGC属于继PGC(专业生成内容)和UGC(用户生产内容)之后,人工智能技术自动生成目标内容的新型生成范式,在规模化预训练基础上发展起来的大模型为AI的内容创作带来了无限可能。
发展之阶:伴随着互联网形态的演化发展,AIGC在元宇宙内容赛道中跑出了黑马姿态。从静态只读模式的Web1.0到动态互动模式的Web2.0再到智能化交互的Web3.0,多感官沉浸体验,跨模态信息融合将带来“所见即所得”和“万物皆可元宇宙”的高度智能化内容,作为数字内容创新的AIGC也必定会催生出一片内容蓝海。
未来之势:底层基础技术的突破性发展和顶层集成技术的融合性发展激发了AIGC创造性输出的潜力与活力,一个以数据资源为基础,技术模型为核心,内容创作为依托的万物感知、智能互联的数字经济时代正在加速到来。
网络首发时间
2022-11-28
网络首发地址
https://kns.cnki.net/kcms/detail/42.1085.G2.20221128.1005.002.html
Photo by Singh on Unsplash. |
李白杨
南京大学数据智能与交叉创新实验室,南京,210023
南京大学数字经济与管理学院,苏州,215011
白云
武汉大学信息管理学院,武汉,430072
詹希旎
南京大学数据智能与交叉创新实验室,南京,210023
南京大学数字经济与管理学院,苏州,215011
李纲
武汉大学信息资源研究中心,武汉,430072
目的 | 意义 | 多模态内容的富集涌现推动着技术模型的更新迭代。探讨和理解信息资源管理视角下人工智能生成内容(AIGC)的挑战与机遇,对 AIGC 未来的应用拓展和场景落地具有积极作用。 | |
研究设计 | 方法 | 立足于互联网的演化发展,从网络形态演进、内容生产、人机交互模式、网络资源组织四个层面梳理了 AIGC 发展的基础条件。以数据赋值、模型赋智、空间赋能三个维度为着力点,分别探讨了 AIGC 的技术特征、基于算据、算法、算力的技术要素和基于实体孪生、学习创作、实时自主生成的发展阶段。 | |
结论 | 发现 | AIGC 与技术算法的融合应用,为信息资源管理的研究与实践带来了实质性的影响,具体表现在信息组织、数据资产管理、用户研究和信息伦理四个角度。 | |
创新 | 价值 | 信息资源加持下的 AIGC 具有强大的生产力,为整个内容生态和创作模式带来了全新的尝试。分析其要素、特征和影响,有助于促进 AIGC 在信息资源管理领域的探索和实践。 | |
关键词 | 人工智能生成内容;数据资产; 信息资源管理;信息组织 |
1 引言 |
2022年以来,人工智能绘画(简称“AI绘画”)凭借丰富的创意与便捷的创作工具迅速走红,国内外互联网巨头纷纷跟进推出AI创作类平台和工具,吸引了大量用户、研究人员和技术爱好者参与。知名开源AI创作工具有Disco Diffusion、Discord频道的Midjourney、OpenAI的DALL•E2、谷歌的Imagen和Parti、微软的NUWA等。可以说,随着人工智能算法、算力和算据的加速发展,以AI艺术创作(AI generated art)为代表的人工智能生成内容(AI Generated Content,AIGC)正成为数智环境下网络信息资源发展的重要趋势。
事实上,AIGC由来已久,目前正处于快速发展阶段。早期的AIGC是AI工具辅助生成固定模板的内容,主要应用于影视、娱乐、工业建模等专业任务场景,而随着AI技术日新月异的发展和元宇宙应用场景的出现,由产业驱动的AIGC迎来爆发式增长。代表性技术变革包括2014年出现的生成对抗网络GAN(Generative Adversarial Network)。GAN是基于对抗学习的生成模型,该模型采用生成器(generator)与判别器(discriminator)进行对抗训练,使二者对抗博弈、不断迭代从而生成新的能够以假乱真的内容。随后GAN模型成为生成式机器学习的主流模型,并衍生出深度卷积GAN(Deep Convolutional GAN,DCGAN)、有条件GAN(Conditional GAN,cGAN)、InfoGAN等修正模型,加快了模型的收敛速度,并增强了模型的可解释性。此外变分自编码器(Variational Auto Encoder,VAE)和基于流的生成模型(flow-based models)也推动了生成型机器学习的向前发展。2021年出现的CLIP(Contrastive Language-Image Pre-Training)通过构建文本编码器(text encoder)和图像编码器(image encoder)分别学习图像和文本特征,并使用多模态嵌入空间对比学习将图片分类任务转换为图文匹配任务,最后通过Zero-Shoot推理预测。通过利用无监督的文本信息作为监督信号,CLIP能够有效地学习视觉特征,实现了高效的多模态识别、融合与转换。2022年,扩散模型(diffusion model)的流行再次推动AIGC的技术变革和内容创新,扩散模型通过前向扩散过程和反向生成过程实现高效图文生成,已成为当前AIGC的热门研究方向。2022年11月,人工智能领域顶级国际会议ICLR2023发布评审结果,其中扩散模型关键词出现频率从2022年的第173位上升到14位,AIGC相关研究大幅度增长。随着产业界虚拟现实、数字孪生、融合共生等场景不断丰富,AIGC迅速扩展到数字建模、虚拟人、场景合成、艺术创作等更多领域,知名市场调研机构Gartner将生成式AI列入2022年顶级战略技术趋势之一,在最新的研究报告中提出到2025年生成式AI将占据网络内容的30%。随着AIGC技术不断革新和内容不断丰富,加之元宇宙、Web3.0等新概念对传统互联网形态的冲击,信息资源管理的研究和实践正迎来新的机遇和挑战:一方面人们获取和使用信息的广度、深度、复杂度正在快速演化,自动化生成的艺术作品、文档乃至代码给人们生活带来便利,AI赋能生产生活的效率和效果显著提升;另一方面,AIGC包含的大规模语料特征、多模态融合与转换、跨场景生成与应用等也为信息组织、版权确认、使用伦理等带来了难题。因此,有必要从信息资源管理视角全面了解和探究AIGC的技术特征、要素和发展阶段,并有针对性地提出化解挑战、放大机遇的对策建议。
2 AIGC 发展的基础条件: 互联网形态演化 |
AIGC是互联网、大数据、人工智能等信息技术综合发展的产物,尤其是互联网形态的演化对其概念、内容、特征产生了重要影响。
2.1 AIGC的概念
从概念源流来说,根据监督学习的方法差异,机器学习领域具有判别式(discriminative)和生成式(generative)两种典型模型:判别式模型是对条件概率建模,学习不同类别之间的最优边界,从而完成分类任务;生成式模型则面向类建立模型,计算基于类的联合概率,然后根据贝叶斯公式分别计算条件概率,进而根据输入数据预测类别。GAN模型出现后,人们开始利用生成式机器学习模型实现文本、图像、语音等内容的智能合成,学术界将其定义为生成式AI(generative AI)。
随着生成式AI内容大量出现,工业界开始用AIGC来描述这种特定类型的网络信息资源,并与专业生产内容(Professionally Generated Content,PGC)和用户产生内容(User Generated Content,UGC)加以区分。2022年9月,中国信通院和京东探索研究院共同发布了《人工智能生成内容(AIGC)白皮书》,将AIGC定义为“既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合”。该定义认为AIGC兼有内容特征和技术特征两个层面,总体上可以将AIGC概括为伴随着网络形态演化和人工智能技术变革产生的一种新的生成式网络信息内容。
2.2 AIGC的发展:基于互联网形态演化
互联网是承载内容的基础设施,要理解AIGC的技术发展和内容演化需要系统地回顾互联网及其信息资源发展的阶段和特征。从网络形态来看,第一代互联网(Web1.0)以个人电脑、信息门户和文件传输协议(FileTransferProtocol,FTP)为典型场景;第二代互联网也被称为Web2.0,以移动互联网、社交媒体和平台经济为典型场景;第三代互联网目前被称为Web3.0或元宇宙,但仍未有统一的定义,一般认为下一代互联网是以区块链技术为基础的包含人工智能、虚实共生、全真全息的互联网形态。目前,下一代互联网正处于基础构建阶段,其网络结构、核心技术、内容形式、价值实现方式等正处于不断变革中,本文用Web3.0代指第三代互联网。
如表1所示,互联网形态演化可从三个方面进行解析。
表1 互联网形态与 AIGC 的发展 |
2.2.1 内容生产演进
从内容生产来看,Web1.0以PGC为主,早期的各类门户、黄页、信息港是网络信息资源的主要供给方。到了Web2.0时代,以互联网企业为平台的UGC成为主流,各种类型的社交媒体、短视频APP、电商APP深刻地改变了人们的生产生活方式。而Web3.0的组织形态还未确定,但作为数字内容创新的AIGC已经开始攻城略地,AI绘画、AI辅助电影制作、AI生成非同质化通证(Non-Fungible Token,NFT)等的流行都显示出AIGC正成为下一代互联网内容的主要存在形式之一。
2.2.2 人机交互模式演进
从人机交互来看,Web1.0时代依赖键盘、鼠标、手写画板等传统的计算机输入设备。而Web2.0时代人机交互模式进一步丰富,触控操作、隔空手势识别、语音控制等成为主流。而Web3.0则将虚拟现实和人机交互提高到前所未有的地位,基于视觉、触觉、听觉等的多模态交互、基于脑机借口的脑电交互等将实现“所见即所得”“所想即所得”的高度智能化交互方式。
2.2.3 网络资源组织演进
从网络特征及其资源组织方式来看,Web1.0具有门户高度中心化特点,其资源组织方式是经典的目
录式分类和供给,同时诞生了最初以索引技术为核心的搜索引擎,如1998年出现的谷歌搜索和2000年出现的百度搜索。Web2.0具有平台中心化和大众参与的特点,所产生的网络信息资源具有多源、异构、异质等特征,也催生了大数据管理和应用体系的诞生,如2006年出现的推特和2009年出现的新浪微博。而Web3.0继承和延伸了Web2.0信息资源的特点,同时具有基于AI的自动化、大规模、智慧化内容生成特征,信息资源的多模态、自组织、虚实融合等属性凸显,典型应用如NFT、数字人、AI作画、AI作曲等。
3 AIGC 的技术特征、要素和发展阶段 |
AIGC既是当前新兴的人工智能应用,也将是未来网络信息资源的主要存在形式之一,并随着虚拟人、机器人的发展成为机器与人类交互的媒介和载体。
3.1 AIGC的技术特征
相较于UGC,AIGC的最大不同是新技术驱动了机器智能创作内容,这使得AIGC具有独特的技术特征,包括并不限于:
(1)数据巨量化
AIGC的“想象力”和创作能力是在海量数据的基础上由计算机学习和模拟生成的,每一幅AI画作背后都是不计其数的标注数据和训练数据。卷积神经网络和Transformer大模型的流行成功使深度学习模型参数量跃升至亿级,由此带来的数据巨量化推动了AIGC发展的进程。如知名的计算机视觉项目ImageNet在众包任务中有超过25000人参与,标准图片超过1400万张;而OpenAI更是收集了4亿个文本图像配对数据(LAION-400M)进行预训练。在零样本学习(Zero-Shot Learning,ZSL)成熟之前,AIGC通过巨量数据实现内容创作的发展路线仍难以撼动。
(2)内容创造力
正是因为有了巨量数据的加持,创造力成为AIGC最吸引用户的特色。借助海量语料库,AI工具仿佛超级画手或作曲家一样生成指定风格的图像、音乐或视频。例如神经风格迁移(neural style transfer)算法利用卷积神经网络识别图像内容表征和风格表征并在特定神经网络层对图像进行重构,这就使AI画作能够模仿特定风格的艺术作品。与人类创作过程相比,AI创作拥有时间短、规模大、风格多等特点,在艺术创作、插画、影视编辑等领域正在产生变革效应,人们甚至开始担心AIGC会不会冲击传统艺术创作者的工作岗位。
(3)跨模态融合
跨模态融合是AIGC区别于传统UGC和PGC的显著特征。2021年,OpenAI发布了多模态模型CLIP(Contrastive Language-Image Pre-Training),它使用LAION-400M进行超大规模的图文训练,能够分别提取文本特征和图片特征进行相似度对比,通过特征相似度计算文本与图像的匹配关系,从而实现跨模态的相互理解。2022年9月,百度发布“2022十大科技前沿发明”,位列第一的就是“跨模态通用可控AIGC”,跨模态生成的本质是文本、视觉、听觉乃至脑电等不同模态的知识融合,覆盖图文、视频、数字人、机器人等更多场景。随着国内外多家科技公司发布多模态AI大模型,AIGC的跨模态融合趋势将进一步加强。
(4)认知交互力
拥有一定程度的认知和交互能力,是AIGC发展的重要趋势。对于开发者而言,代码的输入输出是人与计算机交互的底层逻辑;对于用户而言,人们使用智能终端和网络平台实现人机交互和互联通信。在人工智能场景中,通常利用自动问答、视觉识别、姿态识别等实现人机交互,而AIGC的出现则为人与机器的沟通带来了更多可能,拥有人与人类沟通的媒介,在感知和交互上具备特色。
3.2 实现AIGC的三要素
如图1所示,理解AIGC的技术演化,需从人工智能三要素:算据、算法、算力的发展进行探究,其中算据是AIGC的基础“燃料”,算法是AIGC的核心驱动力,算力是AIGC运行的重要保障。
图1 AIGC 三要素支撑下的发展阶段 |
3.2.1 大数据为 AIGC 提供算据支撑
数据是人工智能的“燃料”,近年来人工智能技术的快速发展离不开大数据资源提供的算据支撑。在人工智能典型场景中,面向不同任务的监督学习、半监督学习、自监督学习、无监督学习等主要区别在于是否对数据进行标注和训练,但其共性是都需要足够的数据投喂以完成计算任务。通过使用更大规模、更为完备的数据集进行训练是提升人工智能性能的主要路径,如DeepMind的AlphaGo使用3000万局比赛数据作为训练集,成为第一个战胜围棋世界冠军的人工智能机器人;OpenAI的DALL-E模型包含120亿个参数;北京智源的“悟道2.0”模型参数量达到1.75万亿。
面向用户的创意创作需求,内容生成型AI对算据的体量、丰富程度要求更高。2019年2月,在深圳举办的“全球AI艺术大赛”(global AI art competition)上,最高荣誉一等奖《青春记忆》是由人工智能完全创作的音乐,该模型学习了超过15万首音乐歌词和诗歌。2020年5月,澳大利亚AI团队创作的《美丽的世界》获得荷兰广播公司举办的“AI欧洲歌唱大赛”冠军,该模型将超过200个欧洲歌唱大赛音乐数据集放入GPT2进行训练。2022年8月,AI画作《太空歌剧院》(Théâtre D'opéra Spatial)在美国首个艺术博览会获得数字艺术类别冠军,该幅画使用知名的AI绘画工具Midjourney生成,该模型收集和训练了数百万个互联网文本、图像数据。由此可见,大数据语料和训练集为AIGC创作提供了最基本的算据支撑。
3.2.2 算法模型是驱动 AIGC 的关键
人工智能领域算法、模型等核心技术的突破是AIGC逐步成熟的关键。AIGC涉及的技术包括自然语言理解、语音识别、图像识别、多模态融合和人机交互等,其中最具代表性的是GAN的出现。GAN提供了利用神经网络算法生成内容的方法,典型应用为颇具争议的深度伪造(deep fakes)。此外,更多的学者和开发者将GAN用于图像修复、风格迁移等创作中。
其次,多模态认识计算使AIGC更加具有感知力和交互性。人工智能能否理解文本、图像、语音、视频多媒体数据和听觉、视觉、嗅觉、触觉、脑电等多模态数据是与人类交互的关键所在。目前人工智能领域重点聚焦于多模态融合、关联、生成和协同,核心是将多源异构多模态数据在统一的框架下进行语义融合和知识对齐。得益于多模态认知计算的进步,计算机理解和模拟人类的多模态表达成为可能,这赋予AIGC更为宽广的应用场景。
再次,数字孪生和虚拟现实为AIGC提供了全息立体应用场景。随着元宇宙成为研究热点和投资风口,各类数字孪生工具和虚拟现实生产平台竞相亮相,较有代表性的是英伟达于2021年发布的Omniverse Avatar平台,这是一个用于3D工作流程的虚拟现实内容生成平台,融合自然语言处理、语音识别、计算机视觉、推荐引擎和虚拟现实等一系列技术,用于开发AI驱动的交互虚拟形象。
3.2.3 算力是 AIGC 应用的保障
人工智能的数据巨量化、算法复杂化、场景多元化等特征对算力要求较高,AIGC的模态复杂性、内容丰富性、实时交互性等也离不开算力保障。按照不同场景下的算力分配,可分为以下类型:
第一,本地化AIGC比较依赖硬件算力。硬件算力即由CPU、内存、显卡等计算设备带来的解题能力,芯片制程、设备架构、核心数量、内存容量等都对算力产生影响。例如近期被美国禁止出口中国的专业计算显卡英伟达A100和H100都是具有较强算力的本地设备。
第二,云计算为AIGC提供实时算力保障。由于人工智能对算力的要求较高,许多个人电脑无法处理计算任务,因此大数据、人工智能与云计算经常一起出现。AIGC通常使用跨模态、预训练的大模型技术实现创作功能,一般通过云平台进行开源,并通过云端算力进行训练和开展服务。例如谷歌云凭借较强的实时计算能力正在成为许多AIGC工具运行的“公共平台”。
第三,边缘计算为AIGC与人交互提供可能。边缘计算(edge computing)采用分布式运算结构,将数据、程序与服务的运算由网络中心节点迁移到网络边缘节点,以便在靠近用户的数据源头提供智能分析处理。边缘计算主要解决特定场景下的算力智能调配和实时数据处理问题例如机器人场景、自动驾驶场景、工业互联网场景等。随着人工智能机器人技术日益成熟,AIGC将作为智能机器人与人类交互的主要模型,边缘计算为人机交互中的多模态信息感知、生成和交流等复杂任务场景提供了算力解决方案。
3.3 AIGC发展的三阶段
如上文所述,在互联网形态演化和人工智能技术发展的条件下,AIGC今年在网络上迅速爆红。但AIGC的应用将走向何方,产生什么样的影响,仍需要从技术特征、应用内容、交互方式等多视角下进行回溯和展望。基于三要素支撑,图1 描述了AIGC 发展的三个阶段,具体如下。
3.3.1 基于实体孪生的AIGC 阶段
最初的AIGC是利用AI在数字空间对现实世界进行映射孪生,其算据来源于实物本体,算法主要为仿真和建模,算力主要由本地和云平台提供。该阶段的AIGC是按照现实世界人或物的本体生成虚拟内容,然后根据需求进行图层渲染、模态转换和内容编辑等任务。早期AI用来渲染和增强图像、视频的效果,如创建游戏中的非玩家角色(Non-Player Character, NPC)及其剧情、角色捏脸、生成卡通形象等。此外,在工业互联网、元宇宙等领域流行的数字孪生(digitalt win)也是基于实体孪生AIGC的典型应用,该技术强调在数字空间对物理世界的事物进行等价映射和融合共生。
3.3.2 基于学习创作的AIGC 阶段
基于学习创作的AIGC是在拥有大规模训练语料的基础上,根据输入的指令进行学习并生成内容,目前最为流行的AI绘画就是典例。该阶段的AIGC对算据的规模和质量要求较高,对算法和模型的利用较为成熟,无处不在的云平台则为创作型AIGC应用提供了充分的算力支持。学习创作型AIGC的应用场景广、用户参与度高,尤其是驱动了虚拟数字人的内容生成,可以预见在一段时间内将持续保持较高的影响力和创新度,各类AIGC工具将层出不穷。
3.3.3 基于实时自主生成的AIGC 阶段
基于实时自主生成的AIGC主要面向与人类的交互,处于更高层次阶段,目前正在探索期。该类型AIGC是算据、算法、算力综合进步的产物,通过“本地+云+边缘计算”的模式实时感知人、物、环境并与之交互。人形机器人是AIGC的典型应用场景:人形机器人通过机器学习、计算机视觉和神经网络工作,实时感知和计算文本、图片、音频、视频、触觉等多模态数据,并与人类进行交互。如果缺乏互动内容,那么人形机器人就是简单的重复指令;但如果有了AIGC的赋能,人形机器人就可以化身“艺术家”“翻译员”或者“工程师”等完成具有创造性的任务。
4 AIGC 对信息资源管理研究 与实践的影响 |
AIGC作为一种新形态的信息资源,为文化与艺术信息的表达、存储和传播提供了新范式,并将对GLAM(美术馆、图书馆、档案馆和博物馆)的信息生产、组织和治理带来变革。本文从四个方面分析AIGC对信息资源管理的机遇与挑战,如图2所示。
图2 AIGC 对信息资源管理的四方面影响 |
4.1 AIGC对信息组织的影响
信息的序化组织是实现信息资源化的前提,起着连接信息检索、信息挖掘与信息分析等流程的作用。相较于Web1.0时代的网络信息资源分类目录导航和Web2.0时代的多源异构数据语义关联,AIGC作为下一代互联网的新兴内容对传统的信息组织方式提出了挑战,包括多个层面。
4.1.1 信息描述层面
AIGC的虚实共生、实时生成等特征需要提出新的信息描述框架。例如,AIGC是用户、平台和AI工具等多元主体产物,创作者信息更加复杂。其次是AIGC的算法、版本、内容特征等很难如传统信息资源那样记录和描述。再次,AIGC的形态是多变的,尤其是跨模态融合的实时内容会对信息的有效描述造成困难,这就需要提出面向AIGC的信息资源跨模态描述框架。
4.1.2 语义关联层面
AIGC通过语义融合实现不同模态的转换,对文本、图片、视频等不同模态特征的提取和语义关联造成阻碍。视觉和语言是人类理解自然世界的两种主要途径,就如计算机通过文本、图像的语义融合实现智能计算。AIGC的语义关联是实现大规模资源有效利用的必要过程,但解析AIGC语义关系特征就需要测量其文本、图像乃至视频的语义相似度,这对包含了大量跨模态特征的AIGC而言是个难度较高的任务。
4.1.3 标引索引层面
标引索引是信息资源序化的基本任务,但AIGC复杂的语义特征使其主题标引和资源索引存在困难。以AI绘画为例,传统的图片数据库通过对图片主题关键词标引进行排序和检索,但AI绘画复杂的语义特征和多变的模态属性使得利用关键词标引和索引效率和准确度较低。
4.2 AIGC对数据资产管理的影响
AIGC的所有权归属、资产价值流通是区别于传统信息资源的显著特征。
4.2.1 AIGC 的知识产权归属问题
AIGC的数据所有权归属目前尚缺乏统一的法律规制,数据语料、人工智能机构、生成平台、用户之间的版权主客体关系仍待探索。2022年2月,美国版权局审查委员会判定AIGC作品《天堂最近的入口》(A Recent Entrance to Paradise)无法获得注册版权,理由是作品不包含人类作者身份。2022年9月,Getty Images、Newgrounds、Purpleport等互联网内容平台宣布禁止上传和使用AIGC插图,理由是出于对版权归属的担忧。
4.2.2 AIGC 的数据资产化路径
在元宇宙和Web3.0环境下,以NFT为代表的数字内容资产化是重要的发展方向。NFT以区块链公共账本的形式对数字作品的来源、流通、交易等过程加以记录,为著作权归属提供了保障。AIGC与NFT有一定的交叉,但距离实现资产化运营仍有差距,AIGC是数字内容的生产工具,而NFT则是数字内容的载体。
AIGC要解决资产化问题,考虑从三个方面入手:一是解决语料库版权合法化问题;二是明确用户、AI、平台的版权归属问题;三是借助区块链对AIGC的生成到流通过程进行记录。
4.3 AIGC对用户研究的影响
从信息资源管理的视角来看,用户参与AIGC的角色、行为及所产生的数据均发生变化,相应的研究范式也应从关注用户本身朝着人机交互的方向转变。
4.3.1 AIGC 强调以人为本和人智交互
AIGC是人机协同参与的数字内容生成方式,打破了人、机器与信息资源之间的边界,重塑了信息资源生成和使用范式。姜婷婷等(2022)提出人本人工智能的人智交互研究框架:交互的设计层面包括交互主体、交互任务、交互环境、交互体验四个要素;交互的主题层面包括人智协作、人智竞争、人智冲突和人智共生四个方向。这为开展人机协同、人智交互研究提供了基本框架。
4.3.2 虚实融合拓展了用户研究的情境
AIGC虚实融合的多模态化使用户数据的获取与处理变得更为复杂。在传统的用户研究设计中,无论是问卷、网络数据还是眼动、脑动等实验都是以单一模态数据为基础的,而在AIGC的人机交互中,人们通过语音、视觉、触觉、脑电等操控信息生成,模态多、转换快、效率高,这就需要用户根据AIGC的技术特征拓展相应情境。
4.4 对信息伦理的影响
2018年,以“AI换脸”为代表的深度伪造在社交媒体流行开来,借助AI生成以假乱真的图片或视频受到人们追捧,但由此引发的伦理道德和法律问题也饱受争议。AIGC基于风格迁移和模仿生成的内容在深度伪造、有组织信息操控等方面加深了信息伦理问题。
4.4.1 AIGC 加剧深度伪造负面作用
AIGC超强的模仿创作能力具有“双刃剑”属性,即AIGC技术使虚假信息更“真实”、更具欺骗性,而且在多模态情境下可以采用文本、语音、视频“半真半假”的形式欺骗用户,这被称为“骗子的红利”。2022年5月,有诈骗集团利用深度伪造技术冒充马斯克生成了谈话视频,以骗取受害者投资其加密货币交易平台。随着新型跨境网络有组织犯罪正在成为主流犯罪形式,可以预见越来越多的犯罪分子会使用AIGC进行诈骗、勒索等活动。正视AIGC加剧深度伪造、适时提出AIGC使用原则框架已成为不可回避的问题。
4.4.2 AIGC 的有组织信息操纵
AIGC的大规模自动生成特征会导致出现更为普遍的有组织信息操纵,即利用更加智能化的社交机器人、网络水军等进行舆论操纵。AI研究者Yannic Kilcher用超过1.3亿个帖子训练了社交机器人GPT4chan,该机器人在短时间内生成了3万多个包含歧视性言论的帖子,研究者们普遍认为这样的负面社交机器人违背了信息伦理和研究伦理。在突发事件、政治选举等活动中,如果有人恶意使用AIGC大量合成、投放虚假信息,会造成舆论场的混乱和失序。
5 结语 |
AIGC是数智时代的典型应用创新,它的快速发展不仅正在革新数字文化创作的生产范式,也在改变用户与人工智能的交互模式,更对信息资源管理领域带来新的研究问题。系统梳理AIGC的网络存在形态、技术特征、发展趋势等有利于全面理解作为新技术驱动的人工智能应用的本质属性,对开展AIGC的描述、检索、组织、管理等专业工作提供指引。随着算据、算法、算力的持续进步,AIGC的工具、平台、内容等也将持续发展,信息资源数智化的趋势更加明显。但是,AIGC复杂的语料来源、多变的模态转换、虚实结合等特征等使其在深度伪造、知识产权等方面存在合规安全问题,同时也对AIGC作为信息资源的语义组织、长期保存、开发利用等带来新的挑战。
如Web1.0的搜索引擎和网络信息资源分类和Web2.0的社交媒体信息处理和社会网络分析等,信息资源管理的理论和方法能够应对AIGC带来的新变化。应当开展和深化AI赋能智慧图书馆的资源生产与组织、AIGC特征挖掘与语义关联、多模态人机交互行为等方向的研究,推动信息资源管理的发展与数字技术的革新同频共振。
*参考文献略,请详见原文。 |
END
版式设计
陆澜
制版编辑
卢慧质
关注公众知识状态 / 引领学科发展潮流 Focusing on the State of Public Knowledge Leading the Development Trends of the Discipline |
网络首发 | 变与不变:我国乡村振兴政策主题、府际关系和扩散态势的变迁研究
网络首发 | 数据信托的内涵、生成逻辑与实现路径——基于数据流通视角的分析
网络首发 | 饶梓欣 邓璐芗 许鑫: 国际视野下面向人文研究的数据基础设施分析与探讨
网络首发 | 赵志耘 科技赋能文化遗产数字化发展新业态
网络首发 | 姚清晨 黄璜:聊天机器人在公共部门管理中的应用研究综述
网络首发 | 李国新:推动普惠性非基本公共文化服务发展