其他
面向元宇宙的跨模态智能搜索技术
·从“可用”到“可信”,多模态AI发展的4个趋势
·多模态人工智能崛起,“白泽”强在哪里?
·人工智能通用化 | 多模态认知计算让AI走向“多专多能”
多模态技术是未来人工智能应用发展的方向。前面的文章,我们分别从多模态概念、发展到未来方向做了解析,也详介了在网络空间治理,内容安全上“白泽”的跨模态能力。
随着AR、VR、5G、云计算等技术成熟度提升,元宇宙有望逐步从概念走向现实。元宇宙也已成为人们数字生活的核心入口。而元宇宙的本质是由人工智能所生成的内容。
今天我们从跨模态内容生成、多模态合成内容识别技术、多源协同伪造人脸鉴别技术三个方面,解析面向元宇宙的跨模态智能搜索技术。
“白泽”的核心技术就是以自主研发的以多源异构跨模态预训练模型为核心及其下游多种创新技术构成的多源跨模态数据理解与搜索的整体技术体系,整体架构如图1所示。
在元宇宙场景下的探索混合空间中,利用该模型能够实现多模态合成内容识别、多源协同伪造人脸鉴别以及跨模态生成等虚拟现实技术,为未来在VR+AR的应用中提供先导。
面向元宇宙的跨模态智能搜索技术
该模型由一个编码器和一个解码器组成,编码器以文本和布局图作为输入,将两者编码为紧致的特征表达,解码器负责生成与输入文本语义一致且符合输入布局的图像。为了提高解码器的生成能力,本方案设计了一种语义结构嵌入模块(Semantic Structural Embedding Block, SSEB),如图2右下所示。该模块通过学习自适应的仿射变换,将编码器中的语义结构特征嵌入到解码特征中,同时也将解码器重的语义结构特征嵌入到编码特征,由此实现两者的信息互补与强化。
02多模态合成内容识别技术
为了促进CG图像鉴别领域的发展,我们构建了一个包含14万张图片的大规模计算机生成图像数据集(Large-Scale CG images Benchmark, NLPR-LSCGB)并提出一种鲁棒的多模态合成内容识别方法。
相比于现有数据集数据量小、内容单一的缺陷,NLPR-LSCGB图像数据集具有三方面优势:
1)规模大:数据集包含71168张生成图像和71168 张自然图像,比以往的数据集大两个数量级;2)多样性高:我们从245种不同的场景中收集不同的渲染技术生成的计算机图像;3)偏差小:该数据集中生成图像和自然图像在颜色、亮度、色调和饱和度分布上都非常接近。
基于该数据,我们提出了一种适应于不同模态合成内容鉴别的多尺度纹理感知合成图像鉴别模型,如图3所示。该模型将不同模态的输入映射到高维特征空间中,然后基于图像特征之间的相关性进行特征增强,再通过GRAM矩阵对多模态合成内容在视觉上的相关性进行建模,进一步提取多模态合成内容的鉴别线索,然后将多个线索提取模块应用于特征提取网络的不同层以提取多尺度特征。
最后基于多尺度特征进行计算机生成图像的判别。该方法在已有的数据库及NLPR-LSCGB大规模数据集中达到96.49%的平均准确率,超过了现有的鉴别方法,充分证明了算法的有效性。
03多源协同伪造人脸鉴别技术
为了构建一个更鲁棒的人脸伪造检测模型,我们进一步探索伪造过程中可能留下的鉴伪线索。我们发现,假脸生成过程中在多个空间域(RGB域、噪声域)会留下信息不一致的线索,以及视频、语音模态中会存在嘴部动作的视觉特征和语音特征不匹配的情况。这种区别有时对于人类观察者来说是不易捕捉到的,但可以通过算法学习。
为了充分利用多种模态下信息一致性的线索进行人脸伪造检测,我们精心设计了多源协同伪造人脸鉴别模型。首先将多种模态信息通过深度网络映射到高维特征空间中,并进行特征空间的对齐。然后基于残差学习的思想,我们分别提取不同模态特征中的噪声残差信息。
基于噪声一致性学习,我们分别学习不同模态下噪声残差之间的一致性相关矩阵,该矩阵衡量了在不同模态内部残差信息一致性的情况。接着我们将不同模态中挖掘到的一致性信息进行特征对齐后,进一步考虑不同模态信息之间的一致性情况。基于模态一致性信息来评估视觉特征空间中各个模态信息的重要程度,生成相应的特征加权权重,并对视觉特征进行加权增强,最后输入到分类网络进行真伪判别。
我们进行相关实验来证明了方法的有效性,在主流的假脸数据集上取得了优于其他比较方法的先进性能,跨数据集泛化性能的实验进一步验证了我们方法具有较好的泛化能力。
责编:岳青植
监制:李红梅
往期回顾