kaiyun开云体育世界杯中国网页版登录入口 > 开云体育 >

kaiyun体育网页版登录入口 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson

2026-06-14 09:40:54 107

蔡志鹏博士（https://zhipengcai.github.io/）是好意思国 Meta 公司的高档盘问员，博士毕业于澳大利亚阿德莱德大学。他的盘问主要集合在 Physical Intelligence，包括三维视觉、多模态大模子等。他的使命已在范畴顶级会议杂志上发表高出 20 篇。其中 10 篇著作被选为顶级会议表面或特邀文告，对鲁棒臆想计算复杂度的表面证据使命被选为 ECCV18 12 篇最好论文之一。

Meta 发布了一项令东谈主悠扬的盘问使命 VLM³，初度揭示了三维视觉学习的 Bitter Lesson：门径的视觉言语模子 + scale 数据就是最陋劣有用的范式，针对特定任务的架构、失掉函数以及数据增强的联想，以致是 regression 的 formulation，均不是三维视觉学习的必要要求。

现时的视觉言语 AI 模子（Vision Language Models， VLMs）通过调理的模子架构大概生动措置各种不同的视觉任务。相干词，尽管在语义剖释、视觉问答、图像提醒等任务上进展优异，它们在三维视觉方面仍然进展欠安。比较之下，群众视觉模子（expert vision models）在整个深度臆想（metric depth estimation）等三维理罢职务上，凭借专诚联想的采蚁合构、失掉函数及数据增强，仍是达到了越过东谈主类的精度。

这就带来了一个中枢问题：「视觉言语模子是否在三维视觉学习方面无法替代群众模子？」VLM³ 初度证据了该问题的谜底是含糊的！

VLM³ 通过极简的联想，在极为种种的三维视觉任务中忘形或越过群众视觉模子，并大幅越过起始进的视觉言语模子：1）在单目深度臆想上 match UnidepthV2 及 MoGe2；2）在策画级三维理罢职务上越过 SpatialRGPT；3）在像素匹配任务上越过 DKM 和 RoMa；4）在相机姿态臆想上 match DA3，越过 VGGT。

代码地址：https://github.com/facebookresearch/VLM3

二、亮点

在此之前，即即是起始进的 VLM 在门径的三维视觉任务中均远远过期于群众视觉模子。

VLM³ 通过详备的实验发现，门径的 VLM 仅需要 1）相机焦距归一化；2）像素空间归一化，就大概以令东谈主惊叹的浅近神志有用学会各种三维视觉模子，在 1）单目深度臆想中 match UniDepthV2 及 MoGe2；2）在策画级别三维剖释越过 SpatialRGPT；3）在像素匹配任务上越过 DKM 和 RoMa；4）在相机姿态臆想上 match DA3 并越过 VGGT。

和之前的三维视觉 VLM 不同，VLM³ 既不需要蜕变 VLM 的架构，也不需要在图片上渲染 marker。比较于群众视觉模子需要大齐的架构、失掉函数及数据增强方面的复杂联想，kaiyun体育网页版登录入口VLM³ 仅需要门径的 VLM 架构（如 Qwen3-vl-4B）和教师（基于笔墨的 SFT）就大概在极为种种的三维任务上达到 SOTA。

这种浅近的教师推翻了之前三维视觉的学习范式，并揭示了三维视觉的 Bitter Lesson：咱们其实完全不需要针对特定三维视觉任务东谈主为联想复杂的架构、失掉函数及数据增强。通过陋劣的视觉言语建模 + scale 数据就大概达到相似的服从，况且于其他非三维视觉任务在调理的言语模子教师框架下完全兼容。这使得三维视觉不再需要与视觉言语模子的大范围预教师分裂，同期咱们大概使用相似的神志来结束三维视觉的 scaling law。

同期 VLM³ 的到手也意味着三维视觉的学习远比咱们思象中的要容易：除开不需要特殊架构、失掉函数等，咱们以致不错不依赖追念（regression）来学会 fine-grained 3D understanding，这在之前的使命中是难以思象的，因为在结伙的输出空间进行追念是绝大多数三维视觉模子的中枢联想。

三、主要猖狂 / 性能对比

在四大三维视觉任务上性能权臣优于起始进的 VLM

在单目深度臆想上将 DepthLM 的准确率从 84 进步至 90，况且教师及推理愈加陋劣高效，无需渲染 marker。

在策画级别三维剖释上用相似的教师数据越过 SpatialRGPT，况且无需畸形的 encoder，模子参数少一半（4B vs 8B）。

在多视角几何任务上如像素匹配及相机姿态臆想上远超 Qwen3-vl-32B。

同期在与先进的群众视觉模子（如 MoGe2、DA3、RoMa 等）的对比中，VLM³ 也绝不失容，况且完全不需要复杂的架构、失掉函数及数据增强。

四、意旨 / 诈欺出息

VLM³ 再行界说了三维视觉的最勤学习范式：最陋劣的 generalist 架构如 VLM 及 scaling 就是最通用的三维视觉范式！畴昔三维视觉范畴渊博剿袭的东谈主为的 task-specific 的联想并非必须。

这将极猛进度地简化三维基础模子的构建。通过将三维视觉任务融入视觉言语模子的预教师，咱们也能有用地兼容三维视觉与其它视觉任务，并将 VLM 的上风，及生动性与泛化性从语义及二维视觉任务有用拓展至三维视觉，极猛进度进步模子的智商上限。

结语

开云体育app2026世界杯中国官网下载

VLM³ 的出现，初度买通了视觉言语模子与三维视觉之间的壁垒kaiyun体育网页版登录入口，使得调理的架构就大概浅近地学会各种视觉任务，并达到群众模子的性能。这既是科研层面的里程碑，也为翌日在实质系统中调理多模态推聪敏商提供了可能。咱们期待 VLM³ 后续在机器东谈主、自动驾驶、增强执行等场景中的落地诈欺。