2.3 KiB
2.3 KiB
Phase 4A Stage 1 - 当前8卡训练配置
更新: 2025-11-01 12:20
状态: ✅ 训练进行中
🚀 关键配置
硬件
GPU: 8×Tesla V100S-32GB
显存: 28.8-29.3GB/GPU (88-89%利用率)
温度: 44-47°C
功耗: 65-70W/GPU
状态: 100%满载
训练参数
配置文件: configs/nuscenes/det/transfusion/secfpn/camera+lidar/swint_v0p075/multitask_BEV2X_phase4a_stage1.yaml
启动脚本: START_FROM_EPOCH1.sh
分布式: torchpack dist-run -np 8
Batch Size: 1/GPU (总batch=8)
分辨率: 600×600 GT
Epochs: 10
输出目录: /data/runs/phase4a_stage1/
性能指标
训练速度: 2.67秒/迭代
单epoch: ~11小时
10 epochs: ~9.5天
加速比: 1.7× (vs 4卡18天)
📂 重要路径
# 配置文件
/workspace/bevfusion/configs/nuscenes/det/transfusion/secfpn/camera+lidar/swint_v0p075/multitask_BEV2X_phase4a_stage1.yaml
# 启动脚本
/workspace/bevfusion/START_FROM_EPOCH1.sh
# 输出目录
/data/runs/phase4a_stage1/
# 预训练模型
/data/pretrained/swint-nuimages-pretrained.pth
# 初始权重
/data/runs/phase4a_stage1/epoch_1.pth
# 训练日志
/workspace/bevfusion/phase4a_stage1_new_*.log
# 文档目录
/workspace/bevfusion/project/
🔍 监控命令
# GPU状态
nvidia-smi
# 训练进度
tail -100 $(ls -t /workspace/bevfusion/phase4a_stage1_new_*.log | head -1) | grep "Epoch \[1\]\[" | tail -5
# 磁盘空间
df -h | grep -E "/workspace|/data"
# 进程状态
ps aux | grep "train.py" | grep -v grep | wc -l
# Checkpoints
ls -lh /data/runs/phase4a_stage1/*.pth
📊 当前进度
Epoch: 1/10
迭代: 4000/15448 (25.9%)
Loss: 2.63-2.78 (下降中)
学习率: 2.000e-05
IOU: 0.618-0.623
预计完成:
- Epoch 1: 2025-11-02 20:00
- Epoch 10: 2025-11-10 20:00
📖 详细文档
- 完整配置:
project/docs/Phase4A_Stage1_8GPU配置_20251101.md - 快速参考:
project/docs/8卡训练快速参考.md - 项目总览:
project/README.md
🎯 优化要点
- ✅ 8卡加速: 从4卡18天→8卡9.5天
- ✅ 磁盘管理: evaluation.interval 1→5
- ✅ 输出路径: work_dir → /data分区
- ✅ 显存优化: batch=1, workers=0
- ✅ 稳定运行: 无OOM,无异常
训练将在2025-11-10完成! 🚀