查看原文
其他

科普|3分钟Get多模态是什么?

《追AI的人》之AI科普系列短视频,将持续用简单清晰的语言向公众解释对于人工智能的普遍疑问,推动社会就人工智能的发展和治理达成共识。


🤔️我们来思考一个问题:如果我告诉你不要在脑海中想象一头粉红色的大象,你会想到什么?


这其实是一个非常著名的问题,如果你看过电影《盗梦空间》,可能会在其中看到这样的场景。一位日本的大佬提出了一个问题,即是否可以将一个想法植入到某人的脑海中。盗梦师回应他说,假如我让你不要在脑海中想到一头粉红色的大象,你会想到什么?日本大佬回答,想到了大象。这是因为心理学上存在一种叫做“粉色大象效应”的原理,当我们被告知不要想到某个对象时,我们反而会越来越想到它,就像失眠时越想睡觉反而越睡不着,这是一种叛逆心理。



那么,假如我真的告诉你不要想一头粉红色的大象,而你的脑海中确实想到了粉红色的大象,那么你的脑海中实际上在想什么?是几个字描述的一头粉红色的大象吗?是这些离散的文字在你的脑海中飘动,还是你真的在想象出一幅大致的大象图像?需要注意的是,这里有一个重要概念,即“大概”。对于理解多模态或者未来的AI绘图来说,这个概念非常重要。你可能在脑海中有一个模糊的粉红色大象的概念,但你不知道大象具体有几根脚趾,是否有毛,尾巴是不是卷曲等等细节,这些你都不了解。


当我问你这个问题时,你可能才会意识到这些细节是模糊的,在思考的过程中,你在不断地细化细节。这就像AI作图,你一开始只有一个视觉概念,但在这个过程中,你不断优化细节,才能得到一个非常详细的图像。


人类的认知过程实际上也是类似的。当我们去理解一个概念时,最开始可能只是文字描述,比如要理解大象,你在视觉模态上能看到这头粉红色的大象,并且基于过去的书本或个人经历,你知道大象是一种长鼻子的巨型动物。否则的话,你看到这幅图,你也不知道这是大象。你可能想象得到大象的叫声并以此作为鉴别条件之一,而大象的气味可能是动物园里大象的体味,再加上一些大象粪便的味道。

所有这些的组合都最终让你知道大象是什么。你确认它是一头大象,而不是一条狗,因为它很大,鼻子很长。你知道大象的长相、气味,可能通过书本或自己的实际经历获得各种信息。所有这些信息最终融合在一起形成了大象的概念。因此,人类的认知一直都是跨模态和多模态的。



那么,如果让计算机或人工智能来完成这个任务,它能够成功吗?其实他也能完成,但是他目前完成的还没有人类那么好。对于人工智能来说,一切都是数据。比如,视觉数据是由一大堆像素组成的,一张图片就是一大堆像素。

而对于文本数据,人工智能会将其编码为各种不同的数字,然后通过这些数字将文本的知识真正输入到计算机中。因此,通过多模态的神经网络或多模态的深度学习,我们可以从动态的角度更好地理解大象这个概念。那么为什么我们需要多模态的能力呢?你可能会问,光看到文字或图片难道不足以理解含义吗?


让我们来看一个例子:“哇!好喜欢你今天的香水味。”初看可能会觉得这是在夸奖对方,因为听到这句话可能会让人感到开心。

但实际上,如果我加上一张臭鼬的图片,并说“哇!好喜欢你今天香水味”,你可能会觉得这是在侮辱对方,这是一种反讽。然而,如果我搭配的是一张玫瑰花的图片,并说“哇!好喜欢你今天香水味”,你可能会理解为我在夸奖对方像一朵花一样香。

因此,在同样的一句话中,通过不同的图片搭配,整个含义可以完全不同。要完全理解一个东西,你必须处理多模态的信息,以便更全面地复现整个过程。


学术界也有专门研究多模态领域的人。其中一个有代表性的数据集叫做Hateful Memes数据集,由Facebook团队创建,当然现在这个Facebook已经改名Meta。他们需要用AI来判断当前的表情包是否有恶意,比如辱骂、讽刺等。例如,右下角的由臭鼬与玫瑰花组成的表情包,根据不同的图片和文字组合,表达的内容完全不同。


这个数据集收集了各种类型的表情包样本,总共有几千个样本。然后,让AI去识别哪些是正面的、哪些是负面的、哪些是积极的、哪些是消极的。在左下角红框中,上面的部分是用单模态方式识别,只看文本或图片,准确率大约为52%左右。而下面的部分是多模态模型,准确率基本上可以达到61-64%。因此,在多模态的问题上,我们必须使用多模态方式才能真正解决它。

更多关于多模态的知识,点击阅读👇


📌往期推荐

🌟《人工智能治理与可持续发展实践白皮书》
 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平...👉点击查收白皮书全书连载

🔥《追AI的人》系列直播
教你掌握互联网的“流量密码”  | 如何避免ChatGPT被滥用...👉点击查收过往28期直播的全部文字回放

🎈《算法治理制度》系列丛书
内容和电商领域推荐算法的应用与治理差异“大数据杀熟” 的背后...👉点击阅读更多算法治理干货

📚《AI治理必修》月刊
为什么现在的LLM都是Decoder-only的架构? | 大脑视觉信号被Stable Diffusion复现成图像!"AI读脑术"来了...👉点击阅读往期36刊月刊全文

📺 AI治理科普短视频
流量为王的时代,教你如何“破圈”创作 | 信息茧房和马太效应是什么...👉点击观看往期20期精彩视频



👇AAIG课代表,获取最新动态就找她

 关注公众号发现更多干货❤️


有启发点在看喔👇
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存