bev-project/archive/docs_old/PROJECT_PROGRESS_REPORT_202...

4.4 KiB
Raw Blame History

BEVFusion项目进展报告

生成时间: 2025-10-30 11:17
Docker重启: 完成
环境修复: 完成


📊 环境状态检查

PyTorch环境

PyTorch版本: 1.10.1+cu102
CUDA版本: 10.2
CUDA可用: ✅ True
GPU数量: 8张 Tesla V100S-PCIE-32GB
显存: 32GB/GPU全部空闲

依赖库状态

mmcv-full: 1.4.0 ✅
torch: 1.10.1 ✅
torchvision: 0.11.2 ✅
torchpack: 0.3.1 ✅

⚙️ 环境修复记录

问题: Docker重启后mmcv无法加载报错 libtorch_cuda_cu.so: cannot open shared object file

根本原因: mmcv-full编译时期望的PyTorch库文件命名与当前PyTorch版本不匹配

解决方案: 创建符号链接

cd /opt/conda/lib/python3.8/site-packages/torch/lib
ln -sf libtorch_cuda.so libtorch_cuda_cu.so
ln -sf libtorch_cuda.so libtorch_cuda_cpp.so
ln -sf libtorch_cpu.so libtorch_cpu_cpp.so

验证结果: 所有依赖加载成功,训练环境已就绪!


🎯 项目训练历史

Phase 1-2: 基础训练 (已完成)

  • Epoch 1-19: 基础多任务模型
  • 最终checkpoint: epoch_19.pth

Phase 3: 增强版分割头 (已完成 )

配置: EnhancedBEVSegmentationHead + GroupNorm

  • Epoch 20-23 (4 epochs)
  • BEV分辨率: 0.3m (360×360)
  • Decoder: 2层 [256, 128]
  • 训练时间: 2025-10-21 至 10-29

最终性能 (epoch_23.pth):

3D检测:
  - NDS: 0.6941 (+1.3%)
  - mAP: 0.6446 (+0.9%)
  
BEV分割:
  - 整体mIoU: 0.41
  - Drivable Area: 0.83
  - Ped. Crossing: 0.57
  - Walkway: 0.49
  - Stop Line: 0.27 ⚠️
  - Carpark Area: 0.36
  - Divider: 0.19 ⚠️

Phase 3成果:

  • 3D检测性能保持领先
  • 大类别(可行驶区域)表现优秀
  • ⚠️ 细线类(停止线、分隔线)需要提升

🚀 Phase 4A: BEV 2x分辨率提升 (准备启动)

目标

核心改进: 通过提高分辨率和深化decoder来提升细线类IoU

技术配置

1. BEV分辨率提升 (2倍)

之前 (Phase 3):
  xbound/ybound: [-54.0, 54.0, 0.3]  → 360×360
  grid output: [[-50, 50, 0.5]]      → 200×200

现在 (Phase 4A):
  xbound/ybound: [-54.0, 54.0, 0.15] → 720×720 (2x)
  grid output: [[-50, 50, 0.25]]     → 400×400 (2x)

2. GT标签分辨率提升 (2倍)

之前: xbound/ybound: [-50.0, 50.0, 0.25]  → 400×400
现在: xbound/ybound: [-50.0, 50.0, 0.125] → 800×800 (2x)

3. Decoder升级 (深度翻倍)

之前: decoder_channels: [256, 128]  (2层)
现在: decoder_channels: [256, 256, 128, 128]  (4层)

4. 训练参数

基础模型: epoch_23.pth (NDS 0.6941)
GPU: 6张 (显存限制)
Batch: 1/GPU
Workers: 4/GPU
Epochs: 20
Deep Supervision: ✅ 启用
Dice Loss: ✅ 启用 (weight 0.5)

预期性能提升

Stop Line IoU: 0.27 → 0.42+ (+55%)
Divider IoU: 0.19 → 0.35+ (+84%)
整体mIoU: 0.41 → 0.54+ (+32%)

预计训练时间

  • 每个epoch: ~15小时 (基于Phase 3经验)
  • 20 epochs: ~300小时 ≈ 12.5天

📁 关键文件位置

配置文件

  • configs/nuscenes/det/transfusion/secfpn/camera+lidar/swint_v0p075/multitask_BEV2X_phase4a.yaml

启动脚本

  • START_PHASE4A_BEV2X.sh (推荐使用)
  • monitor_phase4a.sh (监控脚本)

Checkpoint

  • runs/enhanced_from_epoch19/epoch_23.pth (516MB)

预训练模型

  • pretrained/swint-nuimages-pretrained.pth

文档

  • PROJECT_STATUS_UPDATE_20251030.md
  • PHASE4A_STATUS_AND_ENVIRONMENT.md
  • RESTART_AND_LAUNCH_PHASE4A.md
  • 项目状态总览_20251030.md

⏭️ 下一步行动

🎬 立即启动Phase 4A训练

命令:

cd /workspace/bevfusion
bash START_PHASE4A_BEV2X.sh

监控:

# 终端1: 查看训练日志
tail -f phase4a_bev2x_*.log | grep "Epoch"

# 终端2: 运行监控脚本
bash monitor_phase4a.sh

# 随时: 查看GPU
nvidia-smi

📋 待完成任务

  • 启动Phase 4A训练
  • Epoch 5验证性能提升
  • 完成20 epochs训练
  • 评估最终性能 (Stop Line, Divider IoU)
  • 与Phase 3对比分析

准备就绪检查清单

  • Docker已重启
  • PyTorch 1.10.1 已恢复
  • mmcv-full 1.4.0 正常工作
  • 8张GPU全部空闲
  • epoch_23.pth checkpoint就绪
  • Phase 4A配置文件就绪
  • 启动脚本就绪
  • 监控脚本就绪

🚀 所有系统就绪可以立即启动Phase 4A训练


执行命令:

cd /workspace/bevfusion && bash START_PHASE4A_BEV2X.sh