ACL 2024 | 中科院等推出Table-LLaVA,多模态表格理解能力再创新SOTA
这种流水线的方式不仅繁琐,而且在某些现实场景中无法轻易获取到高质量的文本表格表示,比如扫描文档、网页截图等。此外,基于纯文本 LLM 的表格理解方法只能从一维文本的角度理解天然具有二维结构的表格,相比之下,人类可以直接借助视觉信息直观理解复杂多样的表格数据。因此,从便捷性和直观性的角度考虑,如何直接基于图像信息理解表格数据值得探索。
▲ 图1. 两种表格理解方法的对比
为了推动表格理解技术的发展,我们提出“多模态表格理解”问题(Multimodal Table Understanding),该问题要求模型基于表格图片和用户文本指令完成相关任务,比如表格问答、表格-文本生成等。由于缺乏相关数据集提供研究基础,我们构建了第一个大规模多模态表格理解数据集 MMTab,覆盖丰富多样的表格图片和下游任务。
论文题目:
Multimodal Table Understanding
郑明钰,冯欣伟,佀庆一,佘俏俏,林政(通讯作者,主页:https://people.ucas.ac.cn/~linzheng)),姜文斌,王伟平
ACL 2024 Main Conference
https://arxiv.org/abs/2406.08100
https://github.com/SpursGoZmy/Table-LLaVA
https://huggingface.co/datasets/SpursgoZmy/MMTab
https://huggingface.co/SpursgoZmy/table-llava-v1.5-7b
▲ 图2. Table-LLaVA和近期多模态LLM基线的对比
MMTab数据集 2.1 数据集构建
3. 基于原始样本和渲染后的表格图片构建多模态指令微调样本,样本格式统一为<表格图片,用户文本输入,期望模型输出>。
▲ 图3. MMTab数据集构建流程
3. 涵盖多种表格任务:9 种考察高阶推理能力的表格下游任务(表格问答、表格事实验证、表格-文本生成等)和 6 种考察基础结构理解能力的任务(表格尺寸识别、单元格提取等)。
2.3 数据样例
▲ 图5. MMTab数据样例
Table-LLaVA模型
1. 预训练阶段:
训练任务:图像描述任务 + 表格识别任务(根据表格图片还原 HTML 表格等);
训练数据:558K LLaVA 预训练数据 + 150K 新构建的表格识别数据;
训练目的:增强模型对于常见图片和表格图片的基础理解能力;
训练权重:跨模态连接层。
2. 指令微调阶段:
训练任务:传统多模态任务 + 多模态表格理解任务;
训练数据:665K LLaVA SFT 数据 + 232K 多模态表格理解数据;
训练目的:赋予模型在多种下游任务尤其是表格理解任务上的指令遵循能力;
训练权重:跨模态连接层 + 底座 LLM。
开源多模态 LLM:包括 BLIP、MiniGPT-4、Qwen-VL、InternLM-XComposer、mPLUG-Owl2、LLaVA-1.5、Monkey 等。 开源纯文本 LLM+OCR:包括 Llama2 及其表格指令微调模型 TableLlama。我们使用 PaddleOCR 提供的表格识别工具将表格图片转化为 HTML 表格序列以便构建纯文本 LLM 的输入。 闭源多模态 LLM GPT-4V:包括低分辨率和高分辨率两种输入设定。考虑到调用 GPT-4V API 的费用,我们从每个评估基准中随机采样 100 或 200 个测试样本,然后在这批样本上比较 Table-LLaVA 和 GPT-4V 的效果。
我们使用 MMTab-eval 中构建的 17 个内部(held-in)测试集和 7 个外部(held-out)测试集,外部测试集的表格和数据不出现在模型训练过程中。评测任务包括常见学界任务,比如表格问答、表格-文本生成、表格事实验证,以及我们新构建的表格结构理解任务,比如表格尺寸识别、单元格提取等。所有模型都采用 zero-shot 设定。
4.2 实验结果
图 7 和图 8 分别展示了在 11 个 held-in 学界测试集和 6 个 held-in 表格结构理解测试集上的实验结果,图 9 展示了 Table-LLaVA 和 GPT-4V 的对比。主要的实验发现如下:
1. 早期的多模态 LLM(如 MiniGPT-4、BLIP)的表格理解能力几乎为 0。得益于对文字密集场景和 OCR 能力的重视,近期的多模态 LLM(如 Vary 和 Monkey)的表格理解能力明显增强。
2. 相比于开源多模态 LLM,GPT-4V 的模型性能更优,尤其是在 held-out 测试集上的优势更加明显,这体现了 GPT-4V 在多模态表格理解任务中具备更好的泛化能力。
3. “LLM+OCR”的策略并没有明显优于端到端的多模态 LLM。通过观察具体样本,我们发现现有的表格识别 OCR 工具无法很好地处理复杂多样的表格图片,在文本内容识别和表格结构识别方面都经常出现错误,比如误将一个合并单元格识别为两个子单元格,进而影响 LLM 的理解能力。
4. Table-LLaVA 在 23 个评测基准上超过了近期的多模态 LLM,并在其中 14 个评测基准上取得了与 GPT-4V 有竞争力的表现,体现了 MMTab 数据集和两阶段训练策略的有效性。
5. 即使能完成较为复杂的下游任务(比如表格问答),多模态 LLM 也可能无法理解基础的表格结构,比如判断表格有几行几列,这体现出它们可能仍然无法真正地理解表格数据。
6. 多模态 LLM 支持的图片分辨率对于表格理解能力有重要影响。对于 GPT-4V 模型,在高分辨率设定下的效果普遍优于低分辨率设定;对于 Table-LLaVA 模型,随着输入图片分辨率增加,模型的性能逐步下降。
▲ 图8. 6个held-in表格结构理解测试集上的实验结果
▲ 图9. Table-LLaVA和GPT-4V的对比
除了上述实验结果,我们还进行了细致的消融实验来分析不同训练数据对于模型能力的贡献,比如 LLaVA 原始预训练数据对于模型表格理解能力的影响。我们发现表格理解任务数据和传统多模态任务数据之间存在互相促进的效果,这表明多模态表格理解是多模态 LLM 应该具备的一项基本能力。更多具体的实验结果和分析请参见我们的论文。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧