在具身智能研究中,如何让智能体精准理解周围环境的精细几何结构与开放语义信息,始终是具身感知的核心难题。近年来,语义占据预测(Semantic Occupancy Prediction) 将稠密几何与语义信息统一到三维体素网格中,用于构建 3D 语义占据地图,为机器人的空间推理、导航与交互操作提供了场景表达基础。
然而,现有方法大多建立在封闭词汇(Closed-vocabulary) 设定下,模型只能识别训练阶段预先定义好的有限类别。一旦进入真实环境,场景中的语义往往是开放且长尾的 —— 用户可能会直接问:「鞋子在哪儿?」「纸巾在哪儿?」「遥控器在哪儿?」 对于传统占据预测方法而言,超出预定义类别的目标几乎无法被正确识别。面对「一个带条纹的马克杯」「一把破损的木椅」这类更细粒度、描述性更强的目标时,封闭词汇模型往往无能为力。
近期,香港科技大学(广州)陈昶昊教授团队联合香港中文大学(深圳) 研究者提出了 LegoOcc,首次面向具身场景实现了单目开放词汇三维占据预测。该工作被 CVPR 2026 收录为 Oral(大会口头报告)。
LegoOcc 以语言嵌入高斯(Language-embedded Gaussians) 作为统一的三维表示,在仅使用几何标签(二值占据标签) 训练的情况下,便能支持任意文本描述的目标类别查询,实现开放词汇的三维语义占据预测。
在 Occ-ScanNet 数据集上,LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的开放词汇预测结果,相比此前最强的开放词汇模型,mIoU 提升超过 2 倍;同时其整体几何占据预测精度也超越了多种封闭词汇方法,展现出极强的性能与泛化能力。
为什么具身场景的开放语义占据预测更困难?
传统的占据预测模型像仅仅背过单词书,只能认出学过的词汇类别,而开放词汇模型则掌握了语言能力,无论遇到什么新物体,都能根据文本描述进行推理。下图展示了这一差异:
Figure 1 闭集 vs 开集 3D 占据预测
此外,室内具身环境与户外车辆驾驶场景也有不同:
因此,直接将室外开放词汇占据预测模型迁移到室内,会出现性能下降,已有的少数室内占据预测方法仍然依赖固定基类模型,无法支持开放词汇类别推理。
LegoOCC 框架介绍
Figure 2 LegoOcc 整体算法框架
LegoOcc 将问题拆解为两部分:几何学习决定空间里哪里「被占据」,语义学习决定这些被占据区域「是什么」。为实现开放词表场景表达,LegoOcc 采用语言嵌入高斯(LE-Gaussians) 作为统一的中间表示:每个高斯同时携带几何参数(位置、协方差、不透明度)与一个语言对齐的语义嵌入。
(1)从单目图像生成语言嵌入的 3D 高斯
给定输入图像,LegoOcc 首先通过前馈网络预测一组三维高斯,这里的每个高斯不仅包含位置、尺度、协方差和不透明度等几何参数,还携带一个与语言空间对齐的语义嵌入。LegoOcc 模型避免在几何分支和语义分支中使用两套独立表示,而是让同一组高斯同时服务于几何建模和开放词汇语义建模。由此,「空间哪里有东西」和「这个东西是什么」就被统一到了同一个场景表示框架中。
(2)泊松视角的高斯到占据转换
在仅有二值占据监督的设定下,进一步研究如何将高斯表示稳定地聚合为体素占据结果。现有方法在这一环节易出现训练不稳定,原因在于二维渲染时使用了基于不透明度的 α 混合,但三维占据聚合时却可能忽略不透明度信息,导致二维渲染监督与三维占据监督之间存在优化冲突。
为此,LegoOcc 提出了基于泊松过程的高斯到占据转换(Poisson-based Gaussian-to-Occupancy, G2O),将每个高斯在某个体素位置的有效贡献视作泊松事件强度,并将「该位置是否被占据」解释为「至少发生一次事件」的概率。相比伯努利并集式聚合,基于泊松过程的建模方式在弱监督条件下更稳定,也不容易退化到无效的不透明度分配,从而提升了模型几何学习阶段的稳定性与可优化性。
(3)渐进温度衰减减少沿光线的特征混合
在语义学习部分,LegoOcc 采用高斯泼溅将三维高斯的语义特征微渲染到图像平面,再与一个无需训练的开放词汇分割模型(文中采用 Trident)输出的图像特征进行余弦相似度对齐。由于 α 混合会让每个像素特征成为沿光线多个高斯嵌入的加权混合,然而室内场景对象密集、投影重叠多,易导致监督信号鼓励「混合后的特征」对齐语言,而不是每个高斯本身对齐语言。
因此提出了渐进温度衰减(Progressive Temperature Decay ),用带温度的 sigmoid 函数控制不透明度,并在训练中把温度从较高逐步退火到低,使不透明度逐渐变尖锐,减少了沿光线的特征混合,同时又保留连续梯度(区别于硬 Top‑k 的离散选择),提升语言监督落到单个高斯上的精度,增强了模型在开放词汇语义理解中的判别能力。
实验结果
论文从定量实验、消融实验和可视化结果三个方面验证了提出的 LegoOcc 模型有效性,LegoOcc 在开放语义占据预测、三维几何占据预测和推理效率上都展现出了明显优势。
(1)开放词汇设定下 mIoU 超过此前最佳方法 2 倍
论文展示了闭集评测和开放词汇评测两种设定下的定量实验结果。在闭集评测中,LegoOcc 在 Occ-ScanNet 的 11 个固定类别上,预测与真实标签更为一致,几何准确、语义泛化能力强。在开放词汇评测中,由视觉语言模型自动抽取名词作为文本查询(如「鞋子」「洗手池」),模型生成对应类别的三维语义占据结果,实现文本驱动的任意语义类别定位。
在 Occ-ScanNet 数据集上,LegoOcc 在开放词汇设定下取得了 21.05 mIoU 和 59.50 IoU 的结果。相比此前表现最好的开放词汇方法 LOcc,LegoOcc 的 mIoU 提升了 11.80 个点(超过 2 倍),整体 IoU 提升了 22.80 个点。LegoOcc 的 59.50 IoU 不仅领先开放词汇方法,甚至还超过了表中所有封闭词汇模型的最佳整体 IoU。
(2)Poisson 聚合的作用验证
本工作对提出的泊松式高斯到占据转换(Poisson-based G2O)进行了消融实验。
在开放词汇设定下,当使用 GaussianFormer2 风格聚合时,结果几乎退化到 0.00 mIoU / 0.00 IoU;当使用 Bernoulli 聚合时,性能恢复到 17.25 mIoU / 46.65 IoU;当使用 Poisson 聚合时,性能进一步提升到 21.05 mIoU / 59.50 IoU。这表明引入 Poisson 聚合能够让模型在仅有几何监督条件下稳定训练、有效学习。
(3)渐进温度衰减缓解特征混合问题
本文对温度控制策略进行了消融实验:若训练和测试都固定高温,虽然几何 IoU 尚可,但 mIoU 明显偏低,说明语义学习仍受特征混合影响;若训练时用高温、测试时突然切换到低温,则会出现训练测试不匹配(Train-test Mismatch);若从训练一开始就使用低温,则优化会困难,甚至直接退化;当采用渐进温度衰减,模型能够兼顾训练稳定性与最终语义判别性,取得最佳结果。
(4)推理速度具备优势,更适合机器人平台部署
在单张 RTX 4090 上,LegoOcc 的推理速度达到了 22.47 FPS,明显快于多种对比方法。相比于自动驾驶等场景,机器人平台对推理速度和轻量化计算要求更高,因此 LegoOcc 更适用于具身机器人平台。
(5)可视化结果
1. 闭集评测结果
在 Occ-ScanNet 的固定类别评测中,LegoOcc 的预测结果与真实标签更为一致,几何和语义预测能力强。(a) 输入图像,(b) 真实标签,(c)LOcc(对比方法),(d)提出的 LegoOcc。
图 3 Occ-ScanNet 闭集测试结果(Closed-vocabulary Results on Occ-ScanNet)
2. 开放词汇测试结果
进一步使用视觉语言模型(Vision-language Model)自动从场景中提取名词作为文本查询,例如「鞋子」「洗手池」「显示器」等,并让模型生成对应类别的三维语义占据预测结果。LegoOcc 不局限于训练时给定的固定类别,能够根据自然语言描述进行三维空间中的目标识别,实现了文本驱动的开放词汇三维查询。
图 4 开放词汇测试结果(Open-vocabulary Results)
展望与意义
面向具身室内场景,本文提出 LegoOcc ,一种单目开放语义占据预测框架,采用语言嵌入的高斯统一表达几何与语义场景信息。几何侧以泊松聚合稳定弱监督训练,语义侧用渐进温度退火削弱特征混合,模型在无需体素语义标注的前提下,实现了文本驱动的三维语义占据预测。
未来的家用机器人能够高效地将三维场景表达为体素网格,只需一句「帮我找一下茶几上的遥控器」,即可在复杂空间中精准定位目标物体,而无需预先「学习」过遥控器这一类别。
作者介绍
周常青:香港科技大学(广州)博士生,致力于高效且稳定的三维场景理解方法研究,当前重点关注端到端轨迹生成模型,以及面向导航任务的高效世界模型构建。
张涵:香港科技大学(广州)红鸟硕士生,专注探索高效可靠的三维场景理解方法,现阶段重点探索三维视觉语义定位方法,以及适配导航任务的高效世界模型构建。
江泽宇:香港科技大学(广州)博士生,主要研究方向为高效的空间物理智能体,专注于将通用空间智能注入现实开放环境的具身应用场景。
陈昶昊(通讯作者):香港科技大学(广州)智能交通学域和人工智能学域助理教授,博士生导师,香港科技大学跨学科学院联署助理教授,从事具身智能感知、导航与交互研究,组建港科大(广州)PEAK-Lab 课题组并担任独立 PI。