大型视觉语言模型中对象幻觉的缓解:视觉对比解码(VCD)
阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了一种创新方法——视觉对比解码(VCD),有效解决大型视觉语言模型中的对象幻觉问题,同时为提升模型在复杂视觉任务中的性能开辟新路径。
在自然语言处理和计算机视觉领域,大型视觉语言模型(LVLMs)已经取得了显著成就,尤其是在图像和文本信息的交互处理方面。然而,尽管它们的高效能和多功能性,LVLMs 仍面临一个主要的挑战:对象幻觉。这个问题表现为模型生成与图像中实际不存在的对象相关联的描述,这直接影响了其输出的准确性和可靠性。面对这一挑战,业界探索了多种策略,但仍缺乏一种系统性的解决方案。
本文的研究成果展示了视觉对比解码(VCD)在多个 LVLM 基准测试中的有效性,并进一步探讨了其在不同场景下的适用性。通过详细的实验和案例分析,我们证明了 VCD 作为一种纠正机制和对比式集成方法的潜力。
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Constrastive Decoding
论文作者:
作者单位:
论文链接:
项目地址:
三分钟读论文
Powered by AI © PaperWeekly
对象幻觉是指 LVLMs 生成与给定图像中真实对象不一致但语义上连贯的文本内容。这一挑战不仅揭示了 LVLMs 的基本问题,例如对统计偏差和单模态先验的过度依赖,而且对 LVLMs 的实际部署产生了直接影响。在需要生成内容精准可靠的应用中,对象幻觉可能导致错误信息、误解和错误决策。因此,解决幻觉问题对于提高 LVLMs 的完整性、可靠性和广泛适用性至关重要。
1.2 主要贡献
为了解决LVLMs中的对象幻觉问题,我们分析了视觉不确定性对对象幻觉的两个主要原因(即统计偏差(statistical bias)和单模态先验(unimodal prior))的影响,并提出了视觉对比解码(VCD),这是一种无需训练的技术,旨在缓解 LVLMs 中的对象幻觉。VCD 基于对原始和扭曲视觉输入的输出分布进行对比的原则,作为一种纠正机制,校准模型对集成 LLMs 的语言先验和 LVLMs 预训练语料库的统计偏差的过度依赖。我们的实验表明,VCD 在不同 LVLM 家族中一致地提高了多个对象幻觉基准测试的表现(例如,在 POPE 上提高了高达 + 7.4 的 F1 分数,在 MME 上提高了 + 18%),包括 LLAVA-1.5、InstructBLIP 和 Qwen-VL。此外,我们的方法也有助于提高 LVLMs 的视觉感知能力,证明了其在对象幻觉缓解范围之外的潜在适用性。
方法
本文提出了视觉对比解码(VCD),一种新颖的方法,用于解决大型视觉语言模型(LVLMs)中的对象幻觉问题以及提升 LVLMs 的视觉感知能力。
2.1 大型视觉语言模型的解码
LVLMs 通过结合文本和视觉输入来生成响应。然而,在解码阶段,由于错误分配概率给与视觉输入不一致的词元,常常出现对象幻觉。研究表明,这个问题的两个主要原因是:(1)训练数据中固有的统计偏差(statistical biases),(2)过度依赖集成在解码器中的大型语言模型(LLMs)的语言先验(language priors)。
2.2 视觉不确定性会放大幻觉
视觉输入的准确性对于 LVLMs 正确编码视觉特征和生成忠实输出至关重要。我们采用最基本的方法——向原始图像覆盖高斯噪声——来引入视觉不确定性。我们的实验表明,视觉不确定性会强化语言模型对语言先验的依赖,并增强由于预训练数据集中存在的肤浅对象相关性而导致的偏差,从而加剧对象幻觉。
2.3 视觉对比解码
具体来说,对于给定的文本和视觉输入,模型生成两个不同的输出分布:一个基于原始视觉输入,另一个基于经过预定义扭曲(例如高斯噪声)的视觉输入。然后,通过利用两个初始获得的分布之间的差异,计算出一个新的对比概率分布。这个新的对比分布可以应用不同的采样策略,如 nucleus sampling 和 beam search。
2.4 自适应合理性约束
综上所述,VCD 不仅是一个纠正机制,减少幻觉,而且也是一种对比式集成方法,区分了两种概率分布的对数。通过结合视觉对比解码和自适应合理性约束,有效地缓解了 LVLMs 中的对象幻觉问题,同时保持了生成内容的准确性和可靠性。
实验
本节详细介绍了我们对提出的视觉对比解码(VCD)在不同大型视觉语言模型(LVLMs)中的评估。
3.1 实验设置
3.1.1 数据集和评估指标
POPE:一种评估对象幻觉的方法。它要求 LVLMs 回答特定图像中是否存在特定对象。该基准包括三种采样设置:随机、流行和对抗性,每种设置在构建负样本时各有特点。
MME:旨在全面评估 LVLMs,包括多个与感知相关的子任务和四个认知焦点任务。
LLaVA-Bench:包含多种场景下的 24 张图片和 60 个问题,用于评估 LVLMs 在更具挑战性的任务和新领域的适应性。
3.1.3 实验细节
在实验中,我们设置了一些特定的参数值,并使用直接采样作为基线解码策略,以进行一致的比较分析。
3.2 实验结果
3.2.1 POPE结果
VCD 在不同采样设置下的性能一致优于基线结果,这表明其在减少 LVLMs 中的对象幻觉方面发挥了关键作用。
3.2.2 MME幻觉子集结果
在 MME 子集评估中,VCD 在处理对象级幻觉方面对所有模型均有统一提升。同时,VCD 对属性级“颜色”得分也有整体积极影响。
3.2.3 MME全集结果
VCD 在感知任务中表现出一致的增强,同时保持了 LVLMs 的原有识别能力。
3.3 进一步分析
3.3.1 视觉不确定性对幻觉的影响
我们进一步研究了视觉不确定性增加时 LLaVA-1.5 的对象幻觉变化。结果表明,随着视觉不确定性的增大,对象幻觉问题将变得更加严重。
3.3.2 GPT-4V开放式生成评估
我们还将分析扩展到 LLaVA-Bench 上的开放式图片描述生成任务,并使用最新发布的 GPT-4V 进行评估。结果表明,VCD 在所有场景中对图片描述的准确度和细节程度都有一致的提升。
这些实验结果表明,VCD 在减少 LVLMs 中对象幻觉方面具有显著效果,且对提高 LVLMs 的视觉感知能力有积极影响。我们将更多的实验结果(比如超参数的消融实验,VCD 在更大的 LVLMs 上的效果,VCD 在其他解码策略上的效果等)放在了论文补充材料中,如果您对此感兴趣,可以查看论文原文。
结论与未来工作
尽管本研究采用了基本的高斯噪声方法来引入视觉不确定性,但更细致的技术,如对象级模糊,可能会带来更好的结果。此外,我们的研究仅限于处理图像和文本的 LVLMs,并未涵盖其在视频理解等新兴应用领域的使用。未来的研究方向包括探索不同的图像扭曲方法,并将视觉对比解码(VCD)框架扩展到更广泛的 LVLMs。
参考文献
[1] Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. Evaluating object hallucination in large vision-language models. EMNLP, 2023.
[2] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin,Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.
[3] LLaVA-Bench, https://huggingface.co/datasets/liuhaotian/llava-bench-in-the-wild.
[4] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
[5] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general-purpose vision language models with instruction tuning. arXiv preprint arXiv:2306.04387, 2023.
[6] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744, 2023.
[7] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. NIPS, 2023.
[8] GPT4-V, https://openai.com/research/gpt-4v-system-card
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧