横扫室内3D场景，港科大（广州）打造单目开放词汇占据预测新SOTA,港科大 ddm

在具身智能研究中，如何让智能体精准理解周围环境的精细几何结构与开放语义信息，始终是具身感知的核心难题。近年来，语义占据预测（Semantic Occupancy Prediction）将稠密几何与语义信息统一到三维体素网格中，用于构建 3D 语义占据地图，为机器人的空间推理、导航与交互操作提供了场景表达基础。

然而，现有方法大多建立在封闭词汇（Closed-vocabulary）设定下，模型只能识别训练阶段预先定义好的有限类别。一旦进入真实环境，场景中的语义往往是开放且长尾的 —— 用户可能会直接问：「鞋子在哪儿？」「纸巾在哪儿？」「遥控器在哪儿？」对于传统占据预测方法而言，超出预定义类别的目标几乎无法被正确识别。面对「一个带条纹的马克杯」「一把破损的木椅」这类更细粒度、描述性更强的目标时，封闭词汇模型往往无能为力。

近期，香港科技大学（广州）陈昶昊教授团队联合香港中文大学（深圳）研究者提出了 LegoOcc，首次面向具身场景实现了单目开放词汇三维占据预测。该工作被 CVPR 2026 收录为 Oral（大会口头报告）。

LegoOcc 以语言嵌入高斯（Language-embedded Gaussians）作为统一的三维表示，在仅使用几何标签（二值占据标签）训练的情况下，便能支持任意文本描述的目标类别查询，实现开放词汇的三维语义占据预测。

在 Occ-ScanNet 数据集上，LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的开放词汇预测结果，相比此前最强的开放词汇模型，mIoU 提升超过 2 倍；同时其整体几何占据预测精度也超越了多种封闭词汇方法，展现出极强的性能与泛化能力。

论文标题：Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes 论文地址：https://arxiv.org/abs/2602.22667

为什么具身场景的开放语义占据预测更困难？

传统的占据预测模型像仅仅背过单词书，只能认出学过的词汇类别，而开放词汇模型则掌握了语言能力，无论遇到什么新物体，都能根据文本描述进行推理。下图展示了这一差异：

封闭词汇模型- 只能识别「椅子」「桌子」等训练时见过的类别。开放词汇模型（LegoOcc）- 可以响应任意自然语言查询，如「鞋子」「纸」等未定义物体，并生成对应区域的热力图。

Figure 1 闭集 vs 开集 3D 占据预测

此外，室内具身环境与户外车辆驾驶场景也有不同：

室内场景的几何更稠密、结构更复杂，有大量的细小物体以及遮挡，对几何建模的精细度要求高。室内场景的物体类别繁多、细粒度要求更高且分布不均衡，很多类别在训练数据中只出现寥寥几次。

因此，直接将室外开放词汇占据预测模型迁移到室内，会出现性能下降，已有的少数室内占据预测方法仍然依赖固定基类模型，无法支持开放词汇类别推理。

LegoOCC 框架介绍

Figure 2 LegoOcc 整体算法框架

LegoOcc 将问题拆解为两部分：几何学习决定空间里哪里「被占据」，语义学习决定这些被占据区域「是什么」。为实现开放词表场景表达，LegoOcc 采用语言嵌入高斯（LE-Gaussians）作为统一的中间表示：每个高斯同时携带几何参数（位置、协方差、不透明度）与一个语言对齐的语义嵌入。

（1）从单目图像生成语言嵌入的 3D 高斯

给定输入图像，LegoOcc 首先通过前馈网络预测一组三维高斯，这里的每个高斯不仅包含位置、尺度、协方差和不透明度等几何参数，还携带一个与语言空间对齐的语义嵌入。LegoOcc 模型避免在几何分支和语义分支中使用两套独立表示，而是让同一组高斯同时服务于几何建模和开放词汇语义建模。由此，「空间哪里有东西」和「这个东西是什么」就被统一到了同一个场景表示框架中。

（2）泊松视角的高斯到占据转换

在仅有二值占据监督的设定下，进一步研究如何将高斯表示稳定地聚合为体素占据结果。现有方法在这一环节易出现训练不稳定，原因在于二维渲染时使用了基于不透明度的 α 混合，但三维占据聚合时却可能忽略不透明度信息，导致二维渲染监督与三维占据监督之间存在优化冲突。

为此，LegoOcc 提出了基于泊松过程的高斯到占据转换（Poisson-based Gaussian-to-Occupancy, G2O），将每个高斯在某个体素位置的有效贡献视作泊松事件强度，并将「该位置是否被占据」解释为「至少发生一次事件」的概率。相比伯努利并集式聚合，基于泊松过程的建模方式在弱监督条件下更稳定，也不容易退化到无效的不透明度分配，从而提升了模型几何学习阶段的稳定性与可优化性。

（3）渐进温度衰减减少沿光线的特征混合

在语义学习部分，LegoOcc 采用高斯泼溅将三维高斯的语义特征微渲染到图像平面，再与一个无需训练的开放词汇分割模型（文中采用 Trident）输出的图像特征进行余弦相似度对齐。由于 α 混合会让每个像素特征成为沿光线多个高斯嵌入的加权混合，然而室内场景对象密集、投影重叠多，易导致监督信号鼓励「混合后的特征」对齐语言，而不是每个高斯本身对齐语言。

因此提出了渐进温度衰减（Progressive Temperature Decay ），用带温度的 sigmoid 函数控制不透明度，并在训练中把温度从较高逐步退火到低，使不透明度逐渐变尖锐，减少了沿光线的特征混合，同时又保留连续梯度（区别于硬 Top‑k 的离散选择），提升语言监督落到单个高斯上的精度，增强了模型在开放词汇语义理解中的判别能力。

实验结果

论文从定量实验、消融实验和可视化结果三个方面验证了提出的 LegoOcc 模型有效性，LegoOcc 在开放语义占据预测、三维几何占据预测和推理效率上都展现出了明显优势。

（1）开放词汇设定下 mIoU 超过此前最佳方法 2 倍

论文展示了闭集评测和开放词汇评测两种设定下的定量实验结果。在闭集评测中，LegoOcc 在 Occ-ScanNet 的 11 个固定类别上，预测与真实标签更为一致，几何准确、语义泛化能力强。在开放词汇评测中，由视觉语言模型自动抽取名词作为文本查询（如「鞋子」「洗手池」），模型生成对应类别的三维语义占据结果，实现文本驱动的任意语义类别定位。

在 Occ-ScanNet 数据集上，LegoOcc 在开放词汇设定下取得了 21.05 mIoU 和 59.50 IoU 的结果。相比此前表现最好的开放词汇方法 LOcc，LegoOcc 的 mIoU 提升了 11.80 个点（超过 2 倍），整体 IoU 提升了 22.80 个点。LegoOcc 的 59.50 IoU 不仅领先开放词汇方法，甚至还超过了表中所有封闭词汇模型的最佳整体 IoU。

（2）Poisson 聚合的作用验证

本工作对提出的泊松式高斯到占据转换（Poisson-based G2O）进行了消融实验。

在开放词汇设定下，当使用 GaussianFormer2 风格聚合时，结果几乎退化到 0.00 mIoU / 0.00 IoU；当使用 Bernoulli 聚合时，性能恢复到 17.25 mIoU / 46.65 IoU；当使用 Poisson 聚合时，性能进一步提升到 21.05 mIoU / 59.50 IoU。这表明引入 Poisson 聚合能够让模型在仅有几何监督条件下稳定训练、有效学习。

（3）渐进温度衰减缓解特征混合问题

本文对温度控制策略进行了消融实验：若训练和测试都固定高温，虽然几何 IoU 尚可，但 mIoU 明显偏低，说明语义学习仍受特征混合影响；若训练时用高温、测试时突然切换到低温，则会出现训练测试不匹配（Train-test Mismatch）；若从训练一开始就使用低温，则优化会困难，甚至直接退化；当采用渐进温度衰减，模型能够兼顾训练稳定性与最终语义判别性，取得最佳结果。

（4）推理速度具备优势，更适合机器人平台部署

在单张 RTX 4090 上，LegoOcc 的推理速度达到了 22.47 FPS，明显快于多种对比方法。相比于自动驾驶等场景，机器人平台对推理速度和轻量化计算要求更高，因此 LegoOcc 更适用于具身机器人平台。

（5）可视化结果

1. 闭集评测结果

在 Occ-ScanNet 的固定类别评测中，LegoOcc 的预测结果与真实标签更为一致，几何和语义预测能力强。（a) 输入图像，（b) 真实标签，（c）LOcc（对比方法），（d）提出的 LegoOcc。

图 3 Occ-ScanNet 闭集测试结果（Closed-vocabulary Results on Occ-ScanNet）

2. 开放词汇测试结果

进一步使用视觉语言模型（Vision-language Model）自动从场景中提取名词作为文本查询，例如「鞋子」「洗手池」「显示器」等，并让模型生成对应类别的三维语义占据预测结果。LegoOcc 不局限于训练时给定的固定类别，能够根据自然语言描述进行三维空间中的目标识别，实现了文本驱动的开放词汇三维查询。

图 4 开放词汇测试结果（Open-vocabulary Results）

展望与意义

面向具身室内场景，本文提出 LegoOcc ，一种单目开放语义占据预测框架，采用语言嵌入的高斯统一表达几何与语义场景信息。几何侧以泊松聚合稳定弱监督训练，语义侧用渐进温度退火削弱特征混合，模型在无需体素语义标注的前提下，实现了文本驱动的三维语义占据预测。

未来的家用机器人能够高效地将三维场景表达为体素网格，只需一句「帮我找一下茶几上的遥控器」，即可在复杂空间中精准定位目标物体，而无需预先「学习」过遥控器这一类别。

作者介绍

周常青：香港科技大学（广州）博士生，致力于高效且稳定的三维场景理解方法研究，当前重点关注端到端轨迹生成模型，以及面向导航任务的高效世界模型构建。

张涵：香港科技大学（广州）红鸟硕士生，专注探索高效可靠的三维场景理解方法，现阶段重点探索三维视觉语义定位方法，以及适配导航任务的高效世界模型构建。

江泽宇：香港科技大学（广州）博士生，主要研究方向为高效的空间物理智能体，专注于将通用空间智能注入现实开放环境的具身应用场景。

陈昶昊（通讯作者）：香港科技大学（广州）智能交通学域和人工智能学域助理教授，博士生导师，香港科技大学跨学科学院联署助理教授，从事具身智能感知、导航与交互研究，组建港科大（广州）PEAK-Lab 课题组并担任独立 PI。