查看原文
其他

从“可用”到“可信”,多模态AI发展的4个趋势

紫东君 人民中科 2024-01-09


目前人工智能正在从 “可用AI” 走向“可信赖AI”。在全球范围内,“可信赖AI” 也正逐渐成为学术界和工业界研究和关注的热点问题。但是,“可信赖AI”依然面临很多问题。


“多模态交互”技术是近期AI领域的关注重点之一。前面的文章《多模态人工智能崛起,“白泽”强在哪里?》讲解了多模态人工智能技术的发展及“白泽”跨模态智能内容搜索的优势及在内容安全的应用。今天将继续聚焦多模态AI和“可信赖AI”的落地及实现。




01多模态AI的发展趋势


势一:多模态训练模型。越来越多的人在构建统一的、跨场景、多任务、多模态的技术原型。


比如Omvivore和Data2vec是Facebook近期的工作。前者采用统一的预训练模型处理视觉 (图片、视频、3D 图像) 三种模态的输入, 并将其映射到统一的特征空间;后者采用统一的模型和训练框架,分别训练文本、图像、语音的预训练模型(不同模态分别训练预训练模型)。
Bridge-Tower(MSRA)提出了多模态预训练模型新的特征融合方式,即在单模态表示学习的中间层也能进行跨模态的交互。其结构既能有效应对模态缺失的挑战(相比单流预训练模型),又能更好的学习模态的交互(相比双流预训练模型)。该多模态预训练模型在多个单模态任务上取得了不错的结果。


这三个模型反映了多模态预训练的趋势:设计统一的、跨任务、跨模态的多模态预训练模型,包括统一的结构、统一的参数、统一的训练方式,应对多个多模态任务或单模态任务。


趋势二在下游任务中的自监督学习通过构建自监督的任务,提高多模态模型的表征能力,缓解缺少大规模监督数据的挑战。

趋势三:知识表征与推理。表征跟知识的融合开始再进一步拓展。大模型中有很多隐性的知识,如何优化、迭代它们,都是非常重要的研究热点。


第一个是基于视觉的知识回答,融合 GPT3 导出的隐式知识和显式外部知识,通过 Transformer 融合文本、图像和知识的表示,执行基于知识推理的 VQA 任务。
第二个是对于隐性知识的描述,根据图片内容生成图片描述,并推测图片中发生的事件的原因,以文本的方式输出可能的解释。
第三个是在电商领域做的工作,将商品属性相关的结构化知识融入到电商多模态预训练任务中。通过构建链接预测损失,建模结构化知识与多模态实体概念间的关联。显式 / 隐式地融入知识,强化模型的知识和推表征理能力,提高模型的可解释性。


趋势四:多模态交互式AI成为趋势。传统研究大多是AI模型与数据之间的交互,包括各种预训练模型,本质上是学习互联网上海量文本、图片等不同模态数据的内在规律。


因算力、数据资源的限制,仅依赖互联网上数据学习很大可能会达到瓶颈,而反观人类往往能在交流中习得新的知识和技能,因此通过交互将有可能进一步提升AI的能力,包括模型之间的交互(通过梯度、模型参数甚至自然语言交流)、模型与人类的协同交互、模型与世界环境的交互等等。

此外,交互式AI也会面临一些问题,包括数据和模型等方面的问题,比如Meta Blenderbot数据导致的伦理问题,以及Google PaLM-SayCan在真实世界中交互使用可能面临模型可控性问题等。

02如何成为“可信赖AI”?


多模态理解+交互式学习+以人为中心的设计模式,在未来的应用空间会越来越大,但是在发展过程中存在着一项较大的挑战——如何让AI的理解和执行更可控,即如何让AI真正变成“可信赖AI”?

“可信赖AI”在发展的过程中主要面临着“鲁棒性”和“公平无偏”两项标准的挑战。AI的高度发展,最核心的贡献便是来自机器学习。然而,机器学习随着大量的应用和普及,在实操过程中也出现了瓶颈和短板,在实现“可信赖AI”这一目标的过程中也遇到了诸多难点。


首先是泛化能力不足。根据福布斯提供的相关数据,全球范围机器学习的项目能够真正投入生产的只有10%多一点,训练不足、数据质量不达标、数据漂移等问题导致绝大部分项目最后无法投产。

另一方面,可解释性缺乏,导致机器学习目前难以让用户理解为什么会做出这些决策,从而难以取得用户的信任,也成为了达到可信赖AI这一目标的障碍。

此外,机器学习目前对决策任务的支持能力并不足够,仅依靠对未来结果的预测很难提供有效的决策选项。

前面的文章《“可信AI”的两大瓶颈:算法安全和数据保护》分析了如何实现“可信AI”,有以下几个维度:1)数据的公平性02)算法的稳定性、03)算法的可解释性。

若要让AI技术真正成为“可信赖AI”,需要具备6个原则和要素,即稳健性、可复制、可解释、公平、价值对齐、负责任

03人工智能治理进入落地实践阶段


人工智能治理至今已经经历了以原则讨论为主的1.0阶段,以政策讨论为主的2.0阶段。进入2022年,随着全球人工智能治理进程的持续推进,以及可信、负责任人工智能等相关理念的持续渗透,有关验证人工智能治理如何落地实施的倡议日益增多。人工智能治理开始进入以技术验证为主的3.0阶段,即落地实践阶段。


人工智能治理的实现由低至高,可分为“可用”、“可靠”、“可控”、“可信”四个层次。而目前,人工智能治理的落地实践仍面临许多挑战,各行各业需要重点处理“理念与行动”、“政策与实践”、“技术与用户”三组关系,即将人工智能伦理的共同原则付诸实施;将政策要求转化为技术和业务团队可执行的实践标准;处理好技术与用户间的关系,推动用户对AI治理的认知,最终才能深入推进人工智能治理。

责编:岳青植
监制:李红梅

参考来源:
1.《发展负责任且可评估的人工智能 AI治理进入落地实践阶段》光明网
2.《中国信通院发布<可信人工智能产业生态发展报告(2022年)> 》中国信息通信研究院
3.《清华大学周伯文:从原则到实践解读多模态人工智能进展与可信赖AI》机器之心Pro
4.《“AI开发者日”观察:如何实现AI技术可信赖》21世纪经济报道


往期回顾

9.08数据合规 | 企业个人信息处理合规体系构建要点

9.05强强联合,人民中科与蜜度携手打造跨模态内容安全新应用

 

9.02第一梯队AI争夺战


关于人民中科人民中科智能技术有限公司,是人民网与中科院自动化所共同发起设立的“人工智能技术引擎”和科技成果转化平台,拥有世界领先的内容理解技术,核心产品是跨模态智能内容搜索引擎“白泽”,初始应用场景是数字世界的安全,目标是成为全球内容科技领导企业。
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存