近日,西北工业大学的李学龙教授在《中国科学:信息科学》期刊上发表了《多模态认知计算》一文,以“信容”(Information Capacity)为依据,建立了认知过程的信息传递模型,提出了“多模态认知计算能够提高机器的信息提取能力”这一观点,从理论上对多模态认知计算各项任务进行了统一。
在如今数据驱动的人工智能研究中,单一模态数据所提供的信息已经不能满足提升机器认知能力的需求。与人类利用视觉、听觉、嗅觉、触觉等多种感官信息来感知世界类似,机器也需要模拟人类“联觉”来提升认知水平。
为使机器更好地模仿人类的认知能力,多模态认知计算模拟人类的“联觉”,探索图像、视频、文本、语音等多模态输入的高效感知与综合理解手段,是人工智能领域的重要研究内容,也是实现“通用人工智能”的关键之一。让机器像人类一样智能地感知周围环境并做出决策,是人工智能的目标之一。在对信息的处理模式上,人类与机器存在巨大差异。为构建模拟人类认知模式的智能系统,英国 Ulster大学的研究者在2003年将“认知计算”(Cognitive Computing) 的概念引入信息领域,重点关注认知科学与传统的视音频,图像,文本等处理之间互相联系的机理和机制, 并且开设了相应的教学课程。在本世纪初,X. Li 创立了 IEEE-SMC 认知计算技术委员会。十几年来,认知计算逐渐受到各领域学者的关注。在现实生活中,人类利用视觉,听觉,触觉等多种感官认识世界,不同感官刺激交融形成统一的多感觉体验。这种多感官协作对于机器而言即为“多模态”。
认知神经学研究表明,一类感官刺激可能会作用于其他感官通道,这种现象被称为“联觉”(Synaesthesia)。2008 年, Li 等人在“Visual Music and Musical Vision”一文中首次将“联觉”引入信息领域, 并从信息度量角度计算多模态数据的关联,尝试性地探讨了多模态认知计算的理论及应用。随着人工智能第三次发展高潮的影响 逐渐深化,多模态认知计算迎来了新的发展机遇,成为航空航天、智能制造、医疗健康等重大领域共同关注的研究课题,对推动我国人工智能战略发展具有重要意义。正如人类的认知提升离不开对现实世界的联想、推理、归纳与演绎,要想提升机器认知能力,也需从对应的三方面切入:关联、生成、协同,这也是如今多模态分析的三个基本任务。多模态关联、跨模态生成和多模态协同三个任务处理多模态数据的侧重点不同,但其核心都是要利用尽可能少的数据实现信息量的最大化。源自不同模态的内容如何在空间、时间和语义层级上关联对应起来?这是多模态关联任务的目标,也是提高信息利用率的前提。多模态信息在空间、时间和语义层面上的对齐是跨模态感知的基础,多模态检索则是感知在实际生活中的应用,比如依靠多媒体搜索技术,我们可以输入词汇短语来检索视频片段。受人类跨感官感知机制的启发,AI 研究者已经将可计算模型用于唇读、缺失模态生成等跨模态感知任务当中,还进一步辅助残障群体的跨模态感知。而在将来,跨模态感知的主要应用场景将不再局限于残障人士的感知替代应用上,而是将更多的同人类的跨感官感知相结合,提升人类多感官感知水平。
如今,数字模态内容快速增长,跨模态检索的应用需求也愈加丰富,这无疑为多模态关联学习提出了新的机遇和挑战。我们在阅读一段小说情节时,脑海中会自然浮现相应的画面,这是人类跨模态推理和生成能力的体现。与之类似,在多模态认知计算中,跨模态生成任务的目标是赋予机器生成未知模态实体的能力。从信息论的角度看,这一任务的本质就成了在多模态信息通道内提高机器认知能力的问题,这有两种途径:一是提高信息量即跨模态合成,二是减小数据量即跨模态转换。跨模态合成任务是在生成新模态实体时对已有信息进行丰富,从而增大信息量。以基于文本生成图像为例,早期主要采用实体关联的方式,对检索库的依赖程度往往很高。如今,图像生成技术以生成对抗网络为主,已经能够生成逼真的高质量图像。但人脸图像生成仍然十分具有挑战性,因为从信息层次上看,即使是微小的表情变化,也有可能传达出非常大的信息量。同时,将复杂模态转换到简单模态,寻找更加简洁的表达形式,则可以降低数据量,提升信息获取能力。作为计算机视觉和自然语言处理两大技术结合的典范,跨模态转换可以极大地提升在线检索效率。比如对一段冗长的视频给出简要的自然语言描述,或者给一段视频信息生成与之相关的音频信号等。目前主流的两种生成式模型 VAE(变分自编码器)和 GAN (生成对抗网络)各有长短,VAE 依赖假设条件,而 GAN 可解释性差,二者需合理结合。尤其重要的一点是,多模态生成任务的挑战不仅在于生成质量方面,更多在于不同模态之间的语义及表示鸿沟问题,如何在具有语义鸿沟的前提下进行知识推理是未来需要解决的难点。在人类认知机制中,归纳和演绎扮演着重要角色,我们可以对看到的、听到的、闻到的、摸到的等多模态感知进行归纳融合、联合演绎,以此来作为决策依据。同样地,多模态认知计算也要求协调两个或两个以上的模态数据,互相配合完成更加复杂的多模态任务,并提升精度和泛化能力。从信息论的角度看,它的本质是多模态信息之间的相互融合以达到信息互补的目的,是对注意力的优化。首先,模态融合是为了解决数据格式、时空对齐、噪声干扰等带来的多模态数据的差异问题。目前,机遇规则的融合方式包括串行融合、并行融合和加权融合,基于学习的融合方式则包括注意力机制模型、迁移学习和知识蒸馏。其次,多模态信息融合完成后就需要对模态信息进行联合学习,以帮助模型挖掘模态数据间的关系,建立起模态与模态间的辅助或互补联系。通过联合学习,一方面能够提升模态性能,如视觉指导音频、音频指导视觉、深度指导视觉等应用;另一方面可以解决以往单模态难以实现的任务,如复杂情感计算、音频匹配人脸建模、视听觉指导音乐生成等都是未来多模态认知计算的发展方向。现有多模态认知计算研究大都集中在图像视频数据中,聚焦视听模态的分析。这主要得益于近年来智能手机的普及和社交网络的快速发展,使得图像视频数据爆炸式增长,传播方式也日趋便利。
在具体应用场景上,拿内容安全来说,人民中科跨模态智能内容搜索引擎”白泽“,可跨越文字、语音、视频等多模态内容的语义鸿沟,自动关联多模态间关键要素,跨平台实现文本搜图片、文本搜视频、图片搜视频、视频搜视频、图片搜文字、视频搜文字等功能。
“白泽”的核心技术就是以自主研发的以多源异构跨模态预训练模型为核心及其下游多种创新技术构成的多源跨模态数据理解与搜索的整体技术体系,整体架构如图1。
图1 “白泽”技术核心—多源异构跨模态预训练模型及其下游技术体系
通过跨模态信息识别与检索,“白泽”可覆盖更为多样的信息形式和模态,为政企、机构带来更为全面的内容安全管理和保障。
近年来,深度学习技术已经极大地推动了多模态认知计算在理论和工程上的发展。但如今应用需求愈加多元化,数据迭代速度也在加快,这为多模态认知计算提出了新的挑战,也带来了许多机遇。
我们可以从提升机器认知能力的四个层面来看:
在数据层面,传统的多模态研究将数据的采集和计算分离为两个独立过程,这种方式存在弊端。人类世界由连续模拟信号构成,而机器处理的是离散数字信号,其转换过程必然造成信息变形和丢失。
在信息层面,认知计算的关键是对信息中高级语义的处理,比如视觉中的位置关系、图像的风格、音乐的情感等。目前多模态任务局限于简单目标和场景下的交互,而无法理解深层的逻辑语义或主观语义。例如,机器可以生成一朵花开在草地上的图像,但无法理解花草会在冬天凋谢的常识。
所以,搭建不同模态下复杂逻辑和感受语义信息的通信桥梁,建立特色的机器度量体系是未来多模态认知计算的一大趋势。
在融合机制层面,如何对由异构部件组成的多模态模型进行高质量优化是当前的一个难点。目前的多模态认知计算大多是在统一的学习目标下对模型进行优化,这种优化策略缺乏对模型内部异构组成部分的针对性调整,导致现有的多模态模型存在较大的欠优化问题,需要从多模态机器学习与优化理论方法等多方面切入。
在任务层面,机器的认知学习方式随任务而不同,我们需要设计任务反馈的学习策略,提升多种相关任务的解决能力。
另外,针对当前机器学习从图像、文本等数据中理解世界这种“旁观式”学习方式的弊端,我们可以借鉴认知科学的研究成果,如具身智能(Embodied AI)就是一个有潜力的解决方案:智能体需要与环境进行多模态交互,才能不断进化形成解决复杂任务的能力。
未来,随着感知能力的进一步提升,依托人类认知拓展物理感知边界,实现信息域和认知域的统一是大势所趋。我们将继续深度挖掘跨模态信息检索的应用与价值,不断释放引领数据智能前沿技术落地应用的新动能,为政企、机构内容安全运营与管理保驾护航。
责编:岳青植
监制:李红梅
参考来源:1.《多模态认知计算》图灵人工智能2.《IEEE Fellow 李学龙:多模态认知计算是实现通用人工智能的关键》AI科技评论3.《人大高瓴人工智能学院:尝试利用多模态基础模型迈向通用人工智能》机器之心专栏
往期回顾
关于人民中科人民中科智能技术有限公司,是人民网与中科院自动化所共同发起设立的“人工智能技术引擎”和科技成果转化平台,拥有世界领先的内容理解技术,核心产品是跨模态智能内容搜索引擎“白泽”,初始应用场景是数字世界的安全,目标是成为全球内容科技领导企业。