bev-project/多机训练快速参考.txt

================================================================================
BEVFusion 多机多卡训练 - 快速参考
================================================================================

【支持配置】
✓ 单机8卡:   8 GPUs  (当前配置)
✓ 2机16卡:  16 GPUs  (~3.0×加速, 5天完成)
✓ 4机32卡:  32 GPUs  (~4.5×加速, 3天完成)

【前置要求】
1. SSH免密登录
   ssh-keygen -t rsa
   ssh-copy-id root@node2

2. 网络互通
   ping node2
   nc -zv node2 29500

3. 数据集路径统一
   所有节点: /data/nuscenes/

【启动方式】

方案1: torchpack（推荐，简单）
─────────────────────────────────────
# 修改START_MULTINODE_TRAINING.sh中的IP
MASTER_ADDR="192.168.1.101"
WORKER1_ADDR="192.168.1.102"

# 启动
bash START_MULTINODE_TRAINING.sh

方案2: torchrun（灵活）
─────────────────────────────────────
# master节点
torchrun --nnodes=2 --nproc_per_node=8 \
  --node_rank=0 --master_addr=192.168.1.101 \
  tools/train.py config.yaml

# worker节点
torchrun --nnodes=2 --nproc_per_node=8 \
  --node_rank=1 --master_addr=192.168.1.101 \
  tools/train.py config.yaml

【监控命令】
# 查看所有节点GPU
ssh node1 "nvidia-smi" && ssh node2 "nvidia-smi"

# 查看训练进度
tail -f phase4a_stage1_multinode_*.log | grep Epoch

【常见问题】
1. SSH连接失败 → 检查ssh-copy-id
2. NCCL超时 → export NCCL_SOCKET_TIMEOUT=3600
3. 路径不一致 → 统一为/data/nuscenes

【详细文档】
project/docs/多机多卡训练配置指南.md

================================================================================