正文从这里开始。
📁 语义分割输出 .npz 文件说明
✅ 已完成任务概览
- 已对 TUM 数据集中的每帧 RGB 图像进行语义分割(SegFormer)。
- 每张图像对应一个
.npz文件,文件名为图像的时间戳。 - 每个
.npz文件包含:label: 每个像素的语义类别(整数 ID)confidence: 每个像素属于该类别的置信度(浮点数)
📂 文件结构示例
目录:semantic_masks/
示例文件名:
1311867170.462290.npz
对应图像帧:
datasets/tum/rgbd_dataset_freiburg2_xyz/rgb/1311867170.462290.png
🧠 .npz 文件内容
每个 .npz 文件包含两个数组:
1. label
- 类型:
np.uint8或np.int32 - 尺寸:
(480, 640) - 含义:每个像素的语义类别编号(根据 ADE20K 数据集)
2. confidence
- 类型:
np.float32 - 尺寸:
(480, 640) - 含义:该像素属于预测类别的置信度,范围
[0, 1]
📌 使用说明
这些文件将在后续步骤中用于:
- 动态目标剔除(例如:跳过
person、car等物体) - 构建带语义标签的 3D 高斯地图
- 可视化语义增强地图(例如按类别上色)
✅ 当前状态
| 项目 | 状态 |
|---|---|
| 完成语义分割预测 | ✅ |
保存 .npz 语义标签 + 置信度 | ✅ |
| 文件命名与 RGB 图像时间戳一致 | ✅ |
| 成功验证数据结构读取 | ✅ |
🧭 下一步
- 将这些
.npz文件的标签加载进 MonoGS 主程序。 - 在渲染 / 建图过程中引入语义信息。