bev-project/TRAINING_QUICK_REFERENCE.txt

367 lines
12 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

================================================================================
BEVFusion 训练快速参考
最后更新: 2025-11-06 15:46 (北京时间)
================================================================================
当前训练阶段: Phase 4A Stage 1 - Task-specific GCA优化
配置文件: multitask_BEV2X_phase4a_stage1_task_gca.yaml
状态: 🟢 正在运行
进度: Epoch 6, Iter 4950/15448 (32%完成)
启动时间: 2025-11-06 03:59 UTC
预计完成: 2025-11-13 (7天后)
================================================================================
1. 当前训练状态 - 实时更新
================================================================================
【最新状态 - 2025-11-06 15:46】
✅ 训练正常运行中
- Epoch: [1]/20 (从epoch_5.pth继续实际为Epoch 6)
- Progress: 4950/15448 iterations (32.0%)
- 运行时长: 3小时47分钟
- Loss: 2.4543 (稳定下降)
- GPU: 8卡全部满载
- 显存: ~29GB/GPU
- 速度: 2.66秒/iteration
【关键性能指标】
Divider Dice Loss: 0.5339 (vs Epoch 5: 0.5140, 改善+3.9%)
Detection IoU: 0.6179 (良好)
Overall Loss: 2.45 (从启动时2.47下降)
【预计时间】
- Epoch 6完成: 今晚23:26 (北京时间)
- 全部训练完成: 2025-11-13 (约7天)
================================================================================
1.1 历史训练状态
================================================================================
Phase 5 Enhanced训练: ✅ 完成
- 模型: EnhancedBEVSegmentationHead
- Epochs: 23/23
- 完成时间: 2025-10-29 23:21
- Checkpoint: enhanced_from_epoch19/epoch_23.pth (516MB)
- 特性: ASPP + Attention + Deep Supervision + GroupNorm
Phase 4A Stage 1 状态: ✅ 运行中
- 脚本: START_PHASE4A_TASK_GCA_BACKGROUND.sh (已启动)
- 配置: multitask_BEV2X_phase4a_stage1_task_gca.yaml
- 起点: epoch_5.pth (已加载)
- 当前: Epoch 6 进行中 (32%完成)
- 目标: epoch_20.pth (还需15个epochs)
- 日志: /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log
- PID: 1234388 (18个相关进程)
================================================================================
2. Task-specific GCA架构说明
================================================================================
【核心创新】
Decoder Neck → 原始BEV (512通道完整信息)
├─ 检测GCA (独立) → 检测最优BEV → 检测头
└─ 分割GCA (独立) → 分割最优BEV → 分割头
【配置参数】
task_specific_gca:
enabled: true
in_channels: 512
reduction: 4
object_reduction: 4 # 检测GCA降维比例
map_reduction: 4 # 分割GCA降维比例
【优势】
✅ 每个任务根据自己需求选择通道
✅ 避免统一选择的折中问题
✅ 参数增加: 仅0.26M
✅ 计算增加: ~1.6ms (0.06%)
【当前效果】
Divider性能改善: +3.9% (Epoch 6进度32%时)
Overall Loss稳定: 2.45 (波动2.3-2.5)
================================================================================
3. 快速监控命令 - 当前训练
================================================================================
【实时监控】
# 查看训练日志(最推荐)
tail -f /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep "Epoch \["
# 只看Loss和关键指标
tail -f /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep -E "loss/map/divider|loss:" | grep "Epoch \["
# 查看Divider性能
tail -f /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep "loss/map/divider/dice"
【GPU监控】
# 实时GPU状态
watch -n 5 nvidia-smi
# 查看GPU利用率
nvidia-smi --query-gpu=index,utilization.gpu,memory.used,temperature.gpu --format=csv
【进程监控】
# 检查训练进程
ps aux | grep train.py | wc -l # 应该显示18
# 查看主进程
ps aux | grep "[t]rain.py" | head -3
【日志分析】
# 查看最近进度
tail -100 /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep "Epoch \[" | tail -5
# 统计当前iteration
tail -1 /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep -oP '\[\d+/\d+\]'
# 查看日志文件大小
ls -lh /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log
================================================================================
4. 训练启动命令
================================================================================
【当前运行的训练】
启动命令:
cd /workspace/bevfusion && bash START_PHASE4A_TASK_GCA_BACKGROUND.sh
实际执行的命令:
torchpack dist-run -np 8 /opt/conda/bin/python tools/train.py \
configs/nuscenes/det/transfusion/secfpn/camera+lidar/swint_v0p075/multitask_BEV2X_phase4a_stage1_task_gca.yaml \
--load_from /workspace/bevfusion/runs/run-326653dc-2334d461/epoch_5.pth \
--data.samples_per_gpu 1 \
--data.workers_per_gpu 0
状态: ✅ 运行中 (PID: 1234388)
日志: /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log
【如需重启(请勿轻易执行)】
# 1. 先停止当前训练
killall -9 python
# 2. 等待GPU释放
sleep 5
# 3. 重新启动
bash START_PHASE4A_TASK_GCA_BACKGROUND.sh
================================================================================
5. Checkpoint管理
================================================================================
【当前可用Checkpoints】
runs/run-326653dc-2334d461/
├─ epoch_3.pth (525MB)
├─ epoch_4.pth (525MB)
└─ epoch_5.pth (525MB) ✅ 当前训练起点
runs/enhanced_from_epoch19/
└─ epoch_23.pth (516MB) ✅ Phase 5完成
/data/runs/phase4a_stage1_task_gca/
└─ (Epoch 6+的checkpoint将保存在这里每个~525MB)
【Checkpoint查看】
# 查看最新checkpoint
ls -lt /data/runs/phase4a_stage1_task_gca/*.pth 2>/dev/null | head -5
# 查看checkpoint大小
du -sh /data/runs/phase4a_stage1_task_gca/*.pth
================================================================================
6. 性能追踪
================================================================================
【当前性能 (Epoch 6, 32%完成)】
分割 (Dice Loss):
Drivable Area: 0.11 ✅ 优秀
Ped Crossing: 0.23 🟡 中等
Walkway: 0.22 🟡 中等
Stop Line: 0.35 🔴 困难
Carpark Area: 0.20 🟡 中等
Divider: 0.53 ⚠️ 最困难 (改善+3.9%)
检测:
Matched IoU: 0.6179 ✅ 良好
【预期最终性能 (Epoch 20)】
总mIoU: 52% → 61% (+17%)
Divider: Dice 0.51 → 0.42 (-18%改善)
检测mAP: 0.67 → 0.70 (+4.5%)
================================================================================
7. 评估和测试
================================================================================
【评估配置】
当前训练的评估设置:
- 频率: 每10 epochs (减少75%开销)
- 验证样本: 3010个 (load_interval=2, 减少50%)
- 下次评估: Epoch 10
【手动评估】
# 评估指定checkpoint
torchpack dist-run -np 8 python tools/test.py \
configs/nuscenes/det/transfusion/secfpn/camera+lidar/swint_v0p075/multitask_BEV2X_phase4a_stage1_task_gca.yaml \
/data/runs/phase4a_stage1_task_gca/epoch_6.pth \
--eval bbox map
================================================================================
8. 当前训练关键信息
================================================================================
【Task-specific GCA架构】
核心创新:
Decoder Neck → 原始BEV (512通道)
├─ 检测GCA (独立) → 检测最优特征 → 检测头
└─ 分割GCA (独立) → 分割最优特征 → 分割头
优势:
✅ 每个任务独立选择最优特征
✅ 避免shared GCA的折中问题
✅ 参数增加仅0.26M
✅ 计算开销仅+1.6ms
配置参数:
task_specific_gca:
enabled: true
in_channels: 512
reduction: 4
object_reduction: 4 # 检测GCA
map_reduction: 4 # 分割GCA
【当前性能观察】
Epoch 6进度32%时:
- Divider改善: +3.9% (0.5140 → 0.5339)
- Loss稳定: 2.45 (波动在2.3-2.5)
- 检测IoU: 0.6179 (良好)
【预期最终成果】(Epoch 20)
- 总mIoU: 52% → 61% (+17%)
- Divider: Dice 0.51 → 0.42 (-18%改善)
- 检测mAP: 0.67 → 0.70 (+4.5%)
【评估优化】
- 评估频率: 每10 epochs (减少75%开销)
- 验证样本: 3010个 (减少50%)
- 避免了之前Epoch 5的磁盘空间崩溃问题
================================================================================
9. 常见问题排查
================================================================================
【问题1: 训练卡住不动】
检查:
ps aux | grep train.py | wc -l # 应该是18
nvidia-smi # 检查GPU是否在工作
解决:
如果进程存在但GPU不工作可能是死锁
killall -9 python
bash START_PHASE4A_TASK_GCA_BACKGROUND.sh
【问题2: 磁盘空间不足】
检查:
df -h /workspace
du -sh /data/runs/phase4a_stage1_task_gca/
解决:
删除旧的checkpoint保留最新几个
rm /workspace/bevfusion/runs/run-326653dc-2334d461/epoch_3.pth
【问题3: Loss不下降或异常】
检查:
tail -50 /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep "loss:"
观察:
- Loss应该在2.3-2.5之间波动
- 如果突然暴涨到10+,可能需要降低学习率
【问题4: GPU OOM】
当前配置已优化:
- samples_per_gpu=1
- workers_per_gpu=0
- 显存占用~29GB/GPU
如果仍OOM:
- 检查是否有其他进程占用GPU
- 考虑使用FP16 (不推荐,已经很稳定)
【问题5: 查看详细错误】
tail -200 /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log
================================================================================
10. 重要文件路径
================================================================================
【配置文件】
/workspace/bevfusion/configs/nuscenes/det/transfusion/secfpn/camera+lidar/swint_v0p075/multitask_BEV2X_phase4a_stage1_task_gca.yaml
【训练脚本】
/workspace/bevfusion/START_PHASE4A_TASK_GCA_BACKGROUND.sh
【日志文件】
/data/runs/phase4a_stage1_task_gca/train_20251106_035913.log
【Checkpoints】
/data/runs/phase4a_stage1_task_gca/epoch_*.pth
/workspace/bevfusion/runs/run-326653dc-2334d461/epoch_5.pth (起点)
【监控脚本】
/workspace/bevfusion/MONITOR_TASK_GCA.sh
【状态文档】
/workspace/bevfusion/TRAINING_STATUS_LIVE.md (最详细)
/workspace/bevfusion/PROJECT_STATUS_SUMMARY.md (项目总览)
/workspace/bevfusion/BEVFUSION_TRAINING_STATUS.md (历史记录)
================================================================================
11. 训练时间线
================================================================================
【已完成】
✅ 2025-10-21: Phase 1-4基础训练 (19 epochs)
✅ 2025-10-29: Phase 5 Enhanced训练 (23 epochs)
✅ 2025-11-05: Phase 4A初始训练 (5 epochs)
✅ 2025-11-06 03:59: 启动Phase 4A Task-GCA
【进行中】
🟢 2025-11-06 15:46: Epoch 6训练中 (32%完成)
【预计】
⏳ 2025-11-06 23:26: Epoch 6完成
⏳ 2025-11-07 11:16: Epoch 7完成
⏳ 2025-11-10: Epoch 10完成 (首次评估)
⏳ 2025-11-13: Epoch 20完成 (最终)
================================================================================
12. 快速参考命令总结
================================================================================
# 查看训练状态
tail -f /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep "Epoch \["
# 查看GPU
watch -n 5 nvidia-smi
# 检查进程
ps aux | grep train.py | wc -l
# 查看最新Loss
tail -30 /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep "loss:" | tail -3
# 查看Divider性能
tail -f /data/runs/phase4a_stage1_task_gca/train_20251106_035913.log | grep "divider/dice"
# 检查checkpoint
ls -lht /data/runs/phase4a_stage1_task_gca/*.pth | head -3
# 磁盘空间
df -h /workspace
================================================================================
生成时间: 2025-11-06 15:46
下次更新: 明天查看Epoch 6完整结果
================================================================================