多模态人工智能崛起,“白泽”强在哪里?
在传统的AI认知中,视觉领域、语音领域、自然语言领域等领域之前是独立演进的技术和应用,可以认为是单模态技术,而人是一个看、听、说多模态共同工作的智能体,所以多模态技术是未来人工智能应用发展的方向。
世界是多模态的,信息往往同时存在于语言、声音、图像等多个模态当中。当前人工智能发展迅速,在自然语言处理(NLP)、自动语音识别(ASR)和计算机视觉(CV)各自领域都有重大突破,但这种单一领域的突破仍然与真实世界有着明显不同。为构建真正理解人类世界的人工智能,它需要有对多模态数据识别和响应的能力。
因此人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念,从而更好地理解世界。
1
多模态学习与跨模态理解
多模态学习在多媒体领域并不新鲜。早在20世纪90年代中期,多媒体领域开始“起飞”之时,人们就开始研究多模态学习的问题。
近年来,由于多模态数据的快速增长,多模态学习再次受到了研究者的广泛关注。
通常,技术的崛起很大程度上取决于底层技术的发展和突破。多模态学习对于实际系统的性能优化至关重要,同时也是一个难题。它通常需要将不同模态数据嵌入到一个公共表示空间中,以便进行对齐、比较和融合。
在早期,人们使用手工方法,根据先验知识和常识寻找一个良好的嵌入空间,但如何找到最佳嵌入空间是一个极其困难的问题。而现在,借助深度学习技术已经能够有效地寻找良好的嵌入空间。一旦这个统一的嵌入表示空间构建成功,就能有效地对不同模态的数据进行统一的特征表达,不仅能够实现不同模态数据的融合,更能够将不同模态的信息进行相互转换(例如:文字到图像,视频到文字等),从而实现跨模态的智能理解与表示。
因此,跨模态理解可以理解为多模态学习的高级阶段。多模态学习的早期是期望实现不同模态间信息的融合,而跨模态则是更进一步实现不同模态的统一表达,从而实现不同模态信息的相互“翻译”和“跨越”。
2
“白泽”跨模态智能内容搜索
主要包括跨模态视频开集标签生成、跨模态标题生成、跨模态视频内容搜索、跨语种视频文字描述;
02面向物理空间的跨模态搜索技术体系主要包括:多源协同物体跟踪、跨尺度物体检测、基于拓扑结构的行为识别;
03面向元宇宙(混合空间)的跨模态搜索技术体系主要包括:多模态合成内容鉴别、多源协同伪造人脸鉴别、跨模态内容生成等。
“白泽”突破了内容的智能理解与结构化、跨模态统一的表示与度量、高通量数据的计算成本这三大跨模态搜索方面的核心技术,在内容的智能理解与结构化方面真正做到了多方面、多层次。
互联网中存在着大量如:图像、音频、视频、文本甚至不同语言的文本等多模态数据。
此外,这些数据的来源与结构也不尽相同。有的来自社交网络,有的来自用户属性,有的来自用户行为等。这些数据尽管表现形式各不相同,但都是对世界信息(world information)的一种体现。
而世界信息作为通用的载体,相同的信息之间具有相同的语义。因此,学习多源异质跨模态数据与世界信息的对齐,即可以世界信息为中介桥接各种不同的模态,并实现非常丰富的实际应用。
例如,中文的“苹果”和英文的“apple”都对应世界信息中的苹果实体,通过学习“中文-英文-图片”这三种模态之间的对齐,即可实现“中文-图片跨模态检索”、“英文-图片跨模态检索”甚至“基于图像的中英互译”等任务。
为此,我们专门为“白泽”设计了跨语种跨模态异构预训练大模型作为技术核心和基础知识核心。
该模型就是一种利用互联网上广泛存在的大规模多源异构数据进行训练的模型。
模型设计上,采用“单模态预训练”和“多模态预训练”两种方式相结合。单模态的预训练主要利用图像或视频的补全、文本掩码预测等自监督任务,可以有效地学习自身模态内部的特征表示,从而服务于检测、识别、跟踪、行为理解等单模态下游任务,为物理空间中实现多源协同物体跟踪、跨尺度物体检测和拓扑结构的行为识别等提供技术支撑。
多模态预训练主要利用图-文、视-文,通过不同模态之间的掩码不齐、模态对比学习、基于视觉的文本生成等代理任务,实现不同模态的对齐,从而服务于互联网场景下的跨模态检索、视觉问答等判别型任务及视觉-文本生成等创作型任务。
“白泽”结合对境内外多平台内容的检索,可跨平台实现文本搜图片、文本搜视频、图片搜视频、视频搜视频、图片搜文字、视频搜文字等功能。
此外,充分利用单模态捕捉局部细节的特点以及多模态捕捉不同模态之间的语义特性,联合训练能够充分发挥各自的优势,在元宇宙场景下的探索混合空间中,利用该模型能够实现多模态合成内容识别、多源协同伪造人脸鉴别以及跨模态生成等虚拟现实技术,为未来在VR+AR的应用中提供先导。
该模型的架构一方面极大地降低了预训练模型对数据标注数量和质量的要求,并引入外部知识自动有效地对不同模态数据的进行语义对齐。另一方面在模型训练过程中采用了多种学习策略,充分将自监督、弱监督、无监督各种学习模型进行协同训练,极大地提高了训练的效率和效果。
在使用上,“白泽”系统无需配置传统内容搜索所需的复杂匹配规则,通过自然语言描述即可快速检索出相同语义的视频,可有效应对新事件和突发事件,同时不需要依赖大规模算力,资源复用率高。
监制:李红梅