其他
从“可用”到“可信”,多模态AI发展的4个趋势
目前人工智能正在从 “可用AI” 走向“可信赖AI”。在全球范围内,“可信赖AI” 也正逐渐成为学术界和工业界研究和关注的热点问题。但是,“可信赖AI”依然面临很多问题。
”“多模态交互”技术是近期AI领域的关注重点之一。前面的文章《多模态人工智能崛起,“白泽”强在哪里?》讲解了多模态人工智能技术的发展及“白泽”跨模态智能内容搜索的优势及在内容安全的应用。今天将继续聚焦多模态AI和“可信赖AI”的落地及实现。
比如Omvivore和Data2vec是Facebook近期的工作。前者采用统一的预训练模型处理视觉 (图片、视频、3D 图像) 三种模态的输入, 并将其映射到统一的特征空间;后者采用统一的模型和训练框架,分别训练文本、图像、语音的预训练模型(不同模态分别训练预训练模型)。
Bridge-Tower(MSRA)提出了多模态预训练模型新的特征融合方式,即在单模态表示学习的中间层也能进行跨模态的交互。其结构既能有效应对模态缺失的挑战(相比单流预训练模型),又能更好的学习模态的交互(相比双流预训练模型)。该多模态预训练模型在多个单模态任务上取得了不错的结果。
第一个是基于视觉的知识回答,融合 GPT3 导出的隐式知识和显式外部知识,通过 Transformer 融合文本、图像和知识的表示,执行基于知识推理的 VQA 任务。
第二个是对于隐性知识的描述,根据图片内容生成图片描述,并推测图片中发生的事件的原因,以文本的方式输出可能的解释。
第三个是在电商领域做的工作,将商品属性相关的结构化知识融入到电商多模态预训练任务中。通过构建链接预测损失,建模结构化知识与多模态实体概念间的关联。显式 / 隐式地融入知识,强化模型的知识和推表征理能力,提高模型的可解释性。
前面的文章《“可信AI”的两大瓶颈:算法安全和数据保护》分析了如何实现“可信AI”,有以下几个维度:1)数据的公平性、02)算法的稳定性、03)算法的可解释性。
监制:李红梅