“所想即所得”变革3D分割！浙大等团队联合推出基于LLM的3D物品分割

陈天润 PaperWeekly

2024-08-23

©作者 | 陈天润

单位 | 魔芯（湖州）科技有限公司，浙江大学

研究方向 | 3D计算机视觉

近日，一项名为Reasoning3D的研究，由浙江大学、魔芯科技、中国科学技术大学、新加坡科技设计大学（SUTD）以及湖州大学等机构的科研团队携手推出。

这项技术采用多模态大型语言模型（LVLM），实现了一个领域的新突破：仅需简单的自然语言指令，AI 便能精确地识别并划分三维模型的各个组成部分——从此，只需要给予系统简单的指令，例如“汉堡的哪里最好吃”、“分割出人思考的部位”、“指出支撑椅子的部位”等，系统将会自动在 3D 中将结果标注出来，这是一个零样本方法，意味着其可以在开放世界工作，不限制在预先设定的类别——这将大大改变传统基于固定类别标签的语义分割工作流。

将大模型赋能3D视觉任务

Reasoning3D 的核心优势在于其利用了强大的多模态大型语言模型（LVLM）。LVLM 通过在文本-图片上的预训练，赋予了 AI 对自然语言指令的深入理解和解析能力，使得 AI 能够对物体进行深层次的分析与理解。此前，这种能力主要应用于二维图像处理领域，而魔芯科技等单位的研究人员此次将这一技术首次拓展到了三维空间。

具体而言，Reasoning3D 先通过将三维模型经过多视角图像渲染，得到不同角度的观察。基于预训练的视觉编码器、大语言模型和解码器，利用用户的自然语言输入，对每个二维投影进行分割，并同时输出一个置信度评分和对于分割的文本回答。

在得到若干个不同角度的 2D 分割图之后，作者提出通过创新的 2D 至 3D 多阶段融合算法，结合可视位置平滑和高斯地理距离加权等技术，将抽象的语言描述转化为三维空间中的识别任务，从而对复杂的三维物体进行精确的分割，得到多视角一致且准确的分割结果。

在这一阶段，作者使用了 top-k 方法过滤 2D 标签处理有噪音的 2D 分割标签；用高斯地理距离加权（Gaussian Geodesic Weights）和可见性平滑技术（N-Ring Visibility Weights）等手段聚合分数，并最终通过全局置信度过滤，确保了分割结果的自然和连贯性——这对于 3D 模型的分割来说尤为重要。

实验表现

作者在互联网上搜集了一批有纹理和无纹理的 3D 模型，然后让志愿者给予推理分割的指令——这些指令都并非直接的指令，而是需要一定推理的隐式指令，例如，用户输入“找出支撑桌子的结构”（而不是“桌子腿”），Reasoning3D 先将多视角图片进行分割，然后将分割得到的每张图的桌子的腿部区域在 3D 空间进行融合，得到完整的 3D 桌腿的标注。

同样，如果用户输入“找出电话中用于通话的部分”，AI 模型也能迅速识别出电话的听筒部分。这不仅体现了 AI 在理解自然语言方面的卓越能力，也展示了其在三维空间识别上的高精确度。

作者也定量测量了过去在开放标签分割的 benchmark 结果，显示 Reasoning3D 在自然语言输入情况下的开放标签分割能够实现良好的效果。

Reasoning3D 的另一大亮点是其不仅能够输出经过推理之后的分割结果，还能提供分割结果的解释功能，这有助于用户理解 AI 的识别和分割过程，从而增强对 AI 决策的信任。

展望未来 & 工作已开源！

这项技术的问世，预示着在具身智能和三维打印等领域将迎来一场重大的变革。在具身智能领域，Reasoning3D 能够为机器人提供更精确的空间理解能力以及更自然的物体操作和人机交互方式。

魔芯科技的研究人员指出，他们之前在基于大型语言模型的二维图像分割方面的工作已被计算机视觉顶级会议 CVPR 2024 收录（Llafs: When Large Language Models Meet Few-Shot Segmentation）。Reasoning3D 是他们在大型语言模型语义分割领域取得的又一重要成果。

作为一家消费级三维打印机公司，魔芯科技的产品 KOKONI 3D 打印机在小米有品首发，并成功进入二十多个国家和地区的市场，团队希望能继续致力于利用先进的三维视觉和 AIGC 技术，革新三维打印机这一创意工具。为此，作者还开源了一个可交互的用户界面，用于普通用户体验可推理的 3D 分割。

作者相信，Reasoning3D 在可推理三维分割领域的应用，将为三维模型理解、三维内容创作等领域带来深远的影响。为了促进该领域的进一步研究，研究团队已经公开了 Reasoning3D 的代码、模型权重、部署指南和评估方法。此外，他们还提供了一个为 Reasoning3D 的零样本推理三维分割任务设计的可视化交互软件，所有这些资源都可以在 Github 上获取。

论文地址：

https://arxiv.org/abs/2405.19326

项目主页：

http://tianrun-chen.github.io/Reason3D/

开源代码：

http://github.com/tianrun-chen/Reason3D-PyTorch/

论文第一作者陈天润来自魔芯科技和浙江大学计算机学院，师从中国人工智能和计算机图形学专家、前中国工程院常务副院长、前浙江大学校长潘云鹤院士。现为魔芯（湖州）科技有限公司董事长。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

从来就不缺傻子！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

“所想即所得”变革3D分割！浙大等团队联合推出基于LLM的3D物品分割

您可能也对以下帖子感兴趣

从来就不缺傻子！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲 帕尔马VS卡利亚里 【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

生成图片，分享到微信朋友圈

“所想即所得”变革3D分割！浙大等团队联合推出基于LLM的3D物品分割

您可能也对以下帖子感兴趣

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！