查看原文
其他

面向元宇宙的跨模态智能搜索技术

紫东君 人民中科 2024-01-09

#多模态AI#相关阅读

·从“可用”到“可信”,多模态AI发展的4个趋势

·多模态人工智能崛起,“白泽”强在哪里?

·人工智能通用化 | 多模态认知计算让AI走向“多专多能”



多模态技术是未来人工智能应用发展的方向前面的文章,我们分别从多模态概念、发展到未来方向做了解析,也详介了在网络空间治理,内容安全上“白泽”的跨模态能力。




随着AR、VR、5G、云计算等技术成熟度提升,元宇宙有望逐步从概念走向现实。元宇宙也已成为人们数字生活的核心入口。而元宇宙的本质是由人工智能所生成的内容。



今天我们从跨模态内容生成、多模态合成内容识别技术、多源协同伪造人脸鉴别技术三个方面,解析面向元宇宙的跨模态智能搜索技术。





“白泽”的核心技术就是以自主研发的以多源异构跨模态预训练模型为核心及其下游多种创新技术构成的多源跨模态数据理解与搜索的整体技术体系,整体架构如图1所示。

图1 “白泽”技术核心—多源异构跨模态预训练模型及其下游技术体系其中,多源异构跨模态预训练模型是整个体系的核心和知识库。该预训练模型充分利用了海量多源异构的互联网数据(文本、图像、视频、AR/VR、用户属性、行为等)进行训练。



元宇宙场景下的探索混合空间中,利用该模型能够实现多模态合成内容识别、多源协同伪造人脸鉴别以及跨模态生成等虚拟现实技术,为未来在VR+AR的应用中提供先导。




面向元宇宙的跨模态智能搜索技术



01基于上下文网络的跨模态内容生成


跨模态内容生成是元宇宙中重要的核心应用之一。我们基于“白泽”的跨模态预训练模型提出了一种基于上下文网络的跨模态内容生成模型,整体框架如图2所示。
该模型由一个编码器和一个解码器组成,编码器以文本和布局图作为输入,将两者编码为紧致的特征表达,解码器负责生成与输入文本语义一致且符合输入布局的图像。为了提高解码器的生成能力,本方案设计了一种语义结构嵌入模块(Semantic Structural Embedding Block, SSEB),如图2右下所示。该模块通过学习自适应的仿射变换,将编码器中的语义结构特征嵌入到解码特征中,同时也将解码器重的语义结构特征嵌入到编码特征,由此实现两者的信息互补与强化。

图2 基于上下文网络的跨模态内容生成模型


相比于现有方法,本方法充分利用了空间上下文和尺度上下文信息。一方面,通过空间上下文的信息交互,促进了对文本语义和场景语义的有效感知;另一方面,通过尺度上下文的信息融合,促进了生成图像细节的丰富度,从而提高了图像的逼真度。
02多模态合成内容识别技术


随着元宇宙的快速发展,由计算机渲染技术和生成对抗网络(generative adversarial networks, GAN)生成的虚拟图像(Computer-generated, CG)的质量越来越高也越来越逼真,与相机拍摄获取的真实图像(Photographic, PG)之间的区别越来越小。
为了促进CG图像鉴别领域的发展,我们构建了一个包含14万张图片的大规模计算机生成图像数据集(Large-Scale CG images Benchmark, NLPR-LSCGB)并提出一种鲁棒的多模态合成内容识别方法。
相比于现有数据集数据量小、内容单一的缺陷,NLPR-LSCGB图像数据集具有三方面优势:

1)规模大:数据集包含71168张生成图像和71168 张自然图像,比以往的数据集大两个数量级;2)多样性高:我们从245种不同的场景中收集不同的渲染技术生成的计算机图像;3)偏差小:该数据集中生成图像和自然图像在颜色、亮度、色调和饱和度分布上都非常接近。


在设计鉴别方法时,我们注意到现实中的合成内容具有多种存在形式,包括图像、视频、AR/VR等多种模态。

基于该数据,我们提出了一种适应于不同模态合成内容鉴别的多尺度纹理感知合成图像鉴别模型,如图3所示。该模型将不同模态的输入映射到高维特征空间中,然后基于图像特征之间的相关性进行特征增强,再通过GRAM矩阵对多模态合成内容在视觉上的相关性进行建模,进一步提取多模态合成内容的鉴别线索,然后将多个线索提取模块应用于特征提取网络的不同层以提取多尺度特征。

图3 多模态合成内容识别
最后基于多尺度特征进行计算机生成图像的判别。该方法在已有的数据库及NLPR-LSCGB大规模数据集中达到96.49%的平均准确率,超过了现有的鉴别方法,充分证明了算法的有效性。
03多源协同伪造人脸鉴别技术


近年来,由于生成技术的巨大成功,人脸伪造已经成为一个热门的研究课题。这些深度生成模型使非专业人士也能制作出逼真的伪造人脸。不幸的是,这些人脸操纵技术很可能被恶意使用,并造成严重的安全和道德问题。


因此,开发有效的人脸伪造检测方法是保证信息安全的当务之急。现有的方法主要关注换脸过程的特征和RGB域的显性特征,这可能导致对特定操纵技术的指纹特征的过度拟合。
为了构建一个更鲁棒的人脸伪造检测模型,我们进一步探索伪造过程中可能留下的鉴伪线索。我们发现,假脸生成过程中在多个空间域(RGB域、噪声域)会留下信息不一致的线索,以及视频、语音模态中会存在嘴部动作的视觉特征和语音特征不匹配的情况。这种区别有时对于人类观察者来说是不易捕捉到的,但可以通过算法学习。

图4 多源协同伪造人脸鉴别

为了充分利用多种模态下信息一致性的线索进行人脸伪造检测,我们精心设计了多源协同伪造人脸鉴别模型。首先将多种模态信息通过深度网络映射到高维特征空间中,并进行特征空间的对齐。然后基于残差学习的思想,我们分别提取不同模态特征中的噪声残差信息。
基于噪声一致性学习,我们分别学习不同模态下噪声残差之间的一致性相关矩阵,该矩阵衡量了在不同模态内部残差信息一致性的情况。接着我们将不同模态中挖掘到的一致性信息进行特征对齐后,进一步考虑不同模态信息之间的一致性情况。基于模态一致性信息来评估视觉特征空间中各个模态信息的重要程度,生成相应的特征加权权重,并对视觉特征进行加权增强,最后输入到分类网络进行真伪判别。

我们进行相关实验来证明了方法的有效性,在主流的假脸数据集上取得了优于其他比较方法的先进性能,跨数据集泛化性能的实验进一步验证了我们方法具有较好的泛化能力。


未来,我们将继续深度挖掘跨模态信息检索的应用与价值,将以技术手段应对数字化给国家、社会、经济、娱乐等带来的新机会和新挑战,为政企、机构内容安全运营与管理保驾护航。
责编:岳青植
监制:李红梅


往期回顾

10.25以国家为后盾,中国网络安全产业未来可期

10.21解析全球数据治理的变化与挑战

 

 

10.19主导智能产业未来,多模态AI走向场景应用新阶段


关于人民中科人民中科智能技术有限公司,是人民网与中科院自动化所共同发起设立的“人工智能技术引擎”和科技成果转化平台,拥有世界领先的内容理解技术,核心产品是跨模态智能内容搜索引擎“白泽”,初始应用场景是数字世界的安全,目标是成为全球内容科技领导企业。
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存