bev-project/visualize_bev_correct.py

#!/usr/bin/env python3
"""
BEVFusion 正确的可视化脚本
使用正确的数据键名: masks_bev, boxes_3d
"""

import os
import pickle
import numpy as np
import cv2
from pathlib import Path
import argparse
from tqdm import tqdm
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import torch


# 分割类别名称（nuScenes定义）
SEGMENTATION_CLASSES = [
    'drivable_area',      # 0
    'ped_crossing',       # 1
    'walkway',            # 2
    'stop_line',          # 3
    'carpark_area',       # 4
    'divider',            # 5
]

# 分割类别颜色
SEGMENTATION_COLORS = [
    [255, 195, 128],   # drivable_area - 橙色
    [255, 99, 71],     # ped_crossing - 番茄红
    [255, 140, 0],     # walkway - 深橙色
    [180, 62, 39],     # stop_line - 棕色
    [233, 150, 70],    # carpark_area - 棕橙色
    [160, 82, 45],     # divider - 褐色
]


class BEVVisualizer:
    def __init__(self, result_file, frame_interval=1):
        """初始化可视化器"""
        print(f"加载推理结果: {result_file}")
        with open(result_file, 'rb') as f:
            self.results = pickle.load(f)
        print(f"成功加载 {len(self.results)} 个样本")
        self.frame_interval = frame_interval
        
    def visualize_single_bev(self, sample_idx, save_path=None, show_info=True):
        """可视化单个样本的BEV结果"""
        result = self.results[sample_idx]
        
        # 创建图像
        fig, axes = plt.subplots(1, 2, figsize=(20, 10))
        fig.suptitle(f'Sample {sample_idx}', fontsize=16, fontweight='bold')
        
        # 1. 可视化分割（BEV）
        if 'masks_bev' in result:
            masks_bev = result['masks_bev']
            
            # 转换为numpy
            if hasattr(masks_bev, 'cpu'):
                masks_bev = masks_bev.cpu().numpy()
            
            # (C, H, W) -> (H, W)，取最大概率的类别
            seg_map = np.argmax(masks_bev, axis=0)
            
            # 创建彩色可视化
            h, w = seg_map.shape
            vis_img = np.zeros((h, w, 3), dtype=np.uint8)
            
            for class_id in range(len(SEGMENTATION_CLASSES)):
                mask = seg_map == class_id
                if np.any(mask):
                    vis_img[mask] = SEGMENTATION_COLORS[class_id]
            
            axes[0].imshow(vis_img)
            axes[0].set_title('BEV Segmentation Map', fontsize=14)
            axes[0].axis('off')
            
            # 添加图例
            patches = []
            for i, cls_name in enumerate(SEGMENTATION_CLASSES):
                color = np.array(SEGMENTATION_COLORS[i]) / 255.0
                mask = seg_map == i
                count = np.sum(mask)
                if count > 0:
                    patches.append(mpatches.Patch(color=color, 
                                   label=f'{cls_name}: {count} px'))
            
            if patches:
                axes[0].legend(handles=patches, loc='upper right', 
                             fontsize=10, framealpha=0.8)
        else:
            axes[0].text(0.5, 0.5, 'No Segmentation', 
                        ha='center', va='center', fontsize=20)
            axes[0].axis('off')
        
        # 2. 可视化GT分割
        if 'gt_masks_bev' in result:
            gt_masks = result['gt_masks_bev']
            
            # 转换为numpy
            if hasattr(gt_masks, 'cpu'):
                gt_masks = gt_masks.cpu().numpy()
            
            # 创建彩色可视化
            h, w = gt_masks.shape[1], gt_masks.shape[2] if len(gt_masks.shape) == 3 else gt_masks.shape
            if len(gt_masks.shape) == 3:
                # (C, H, W)
                gt_map = np.argmax(gt_masks, axis=0)
            else:
                gt_map = gt_masks
            
            vis_img_gt = np.zeros((h, w, 3), dtype=np.uint8)
            for class_id in range(min(len(SEGMENTATION_CLASSES), gt_map.max() + 1)):
                mask = gt_map == class_id
                if np.any(mask):
                    vis_img_gt[mask] = SEGMENTATION_COLORS[class_id]
            
            axes[1].imshow(vis_img_gt)
            axes[1].set_title('Ground Truth Segmentation', fontsize=14)
            axes[1].axis('off')
        else:
            axes[1].text(0.5, 0.5, 'No GT Data', 
                        ha='center', va='center', fontsize=20)
            axes[1].axis('off')
        
        plt.tight_layout()
        
        if save_path:
            plt.savefig(save_path, dpi=100, bbox_inches='tight')
            plt.close()
            if show_info:
                print(f"保存: {save_path}")
        else:
            plt.show()
    
    def generate_video(self, output_path, fps=10):
        """生成视频"""
        print(f"开始生成视频: {output_path}")
        
        # 计算采样索引
        sample_indices = list(range(0, len(self.results), self.frame_interval))
        print(f"总样本数: {len(self.results)}")
        print(f"帧间隔: {self.frame_interval}")
        print(f"将生成: {len(sample_indices)} 帧")
        print()
        
        # 创建临时目录
        temp_dir = Path(output_path).parent / 'temp_frames'
        temp_dir.mkdir(exist_ok=True)
        
        # 生成所有帧
        frames = []
        for idx in tqdm(sample_indices, desc="生成帧"):
            frame_path = temp_dir / f'frame_{idx:05d}.png'
            self.visualize_single_bev(idx, save_path=frame_path, show_info=False)
            frames.append(str(frame_path))
        
        print()
        print(f"生成了 {len(frames)} 帧，开始合成视频...")
        
        # 读取第一帧确定尺寸
        first_frame = cv2.imread(frames[0])
        h, w = first_frame.shape[:2]
        
        # 创建视频写入器
        fourcc = cv2.VideoWriter_fourcc(*'mp4v')
        video_writer = cv2.VideoWriter(output_path, fourcc, fps, (w, h))
        
        # 写入所有帧
        for frame_path in tqdm(frames, desc="写入视频"):
            frame = cv2.imread(frame_path)
            video_writer.write(frame)
        
        video_writer.release()
        print(f"✅ 视频已保存: {output_path}")
        
        # 清理临时文件
        print("清理临时文件...")
        for frame_path in frames:
            os.remove(frame_path)
        temp_dir.rmdir()
        print("✅ 完成！")


def main():
    parser = argparse.ArgumentParser(description='BEVFusion结果可视化（修复版）')
    parser.add_argument('--result-file', type=str, 
                       default='results_epoch19.pkl',
                       help='推理结果文件')
    parser.add_argument('--output-dir', type=str,
                       default='visualizations',
                       help='输出目录')
    parser.add_argument('--mode', type=str,
                       choices=['quick', 'video'],
                       default='quick',
                       help='可视化模式')
    parser.add_argument('--num-samples', type=int, default=10,
                       help='快速可视化的样本数')
    parser.add_argument('--video-fps', type=int, default=10,
                       help='视频帧率')
    parser.add_argument('--frame-interval', type=int, default=6,
                       help='帧间隔（下采样）')
    
    args = parser.parse_args()
    
    # 初始化可视化器
    visualizer = BEVVisualizer(
        result_file=args.result_file,
        frame_interval=args.frame_interval
    )
    
    os.makedirs(args.output_dir, exist_ok=True)
    
    # 执行可视化
    if args.mode == 'quick':
        print(f"快速可视化前 {args.num_samples} 个样本...")
        for idx in tqdm(range(args.num_samples)):
            save_path = os.path.join(args.output_dir, f'sample_{idx:04d}_bev.png')
            visualizer.visualize_single_bev(idx, save_path=save_path)
        print(f"✅ 完成！图像保存在: {args.output_dir}/")
        
    elif args.mode == 'video':
        video_path = os.path.join(args.output_dir, 'bevfusion_results.mp4')
        visualizer.generate_video(
            output_path=video_path,
            fps=args.video_fps
        )


if __name__ == '__main__':
    main()
-												Complete project state snapshot: Phase 4B RMT-PPAD Integration

🎯 Training Status:
- Current Epoch: 2/10 (13.3% complete)
- Segmentation Dice: 0.9594
- Detection IoU: 0.5742
- Training stable with 8 GPUs

🔧 Technical Achievements:
- ✅ RMT-PPAD Transformer segmentation decoder integrated
- ✅ Task-specific GCA architecture optimized
- ✅ Multi-scale feature fusion (180×180, 360×360, 600×600)
- ✅ Adaptive scale weight learning implemented
- ✅ BEVFusion multi-task framework enhanced

📊 Performance Highlights:
- Divider segmentation: 0.9793 Dice (excellent)
- Pedestrian crossing: 0.9812 Dice (excellent)
- Stop line: 0.9812 Dice (excellent)
- Carpark area: 0.9802 Dice (excellent)
- Walkway: 0.9401 Dice (good)
- Drivable area: 0.8959 Dice (good)

🛠️ Code Changes Included:
- Enhanced BEVFusion model (bevfusion.py)
- RMT-PPAD integration modules (rmtppad_integration.py)
- Transformer segmentation head (enhanced_transformer.py)
- GCA module optimizations (gca.py)
- Configuration updates (Phase 4B configs)
- Training scripts and automation tools
- Comprehensive documentation and analysis reports

📅 Snapshot Date: Fri Nov 14 09:06:09 UTC 2025
📍 Environment: Docker container
🎯 Phase: RMT-PPAD Integration Complete

											
										
										
											2025-11-14 17:06:09 +08:00
+								#!/usr/bin/env python3
 								"""
 								BEVFusion 正确的可视化脚本
 								使用正确的数据键名: masks_bev, boxes_3d
 								"""
 								import os
 								import pickle
 								import numpy as np
 								import cv2
 								from pathlib import Path
 								import argparse
 								from tqdm import tqdm
 								import matplotlib.pyplot as plt
 								import matplotlib.patches as mpatches
 								import torch
 								# 分割类别名称（nuScenes定义）
 								SEGMENTATION_CLASSES = [
 								    'drivable_area',      # 0
 								    'ped_crossing',       # 1
 								    'walkway',            # 2
 								    'stop_line',          # 3
 								    'carpark_area',       # 4
 								    'divider',            # 5
 								]
 								# 分割类别颜色
 								SEGMENTATION_COLORS = [
 								    [255, 195, 128],   # drivable_area - 橙色
 								    [255, 99, 71],     # ped_crossing - 番茄红
 								    [255, 140, 0],     # walkway - 深橙色
 								    [180, 62, 39],     # stop_line - 棕色
 								    [233, 150, 70],    # carpark_area - 棕橙色
 								    [160, 82, 45],     # divider - 褐色
 								]
 								class BEVVisualizer:
 								    def __init__(self, result_file, frame_interval=1):
 								        """初始化可视化器"""
 								        print(f"加载推理结果: {result_file}")
 								        with open(result_file, 'rb') as f:
 								            self.results = pickle.load(f)
 								        print(f"成功加载 {len(self.results)} 个样本")
 								        self.frame_interval = frame_interval
 								    def visualize_single_bev(self, sample_idx, save_path=None, show_info=True):
 								        """可视化单个样本的BEV结果"""
 								        result = self.results[sample_idx]
 								        # 创建图像
 								        fig, axes = plt.subplots(1, 2, figsize=(20, 10))
 								        fig.suptitle(f'Sample {sample_idx}', fontsize=16, fontweight='bold')
 								        # 1. 可视化分割（BEV）
 								        if 'masks_bev' in result:
 								            masks_bev = result['masks_bev']
 								            # 转换为numpy
 								            if hasattr(masks_bev, 'cpu'):
 								                masks_bev = masks_bev.cpu().numpy()
 								            # (C, H, W) -> (H, W)，取最大概率的类别
 								            seg_map = np.argmax(masks_bev, axis=0)
 								            # 创建彩色可视化
 								            h, w = seg_map.shape
 								            vis_img = np.zeros((h, w, 3), dtype=np.uint8)
 								            for class_id in range(len(SEGMENTATION_CLASSES)):
 								                mask = seg_map == class_id
 								                if np.any(mask):
 								                    vis_img[mask] = SEGMENTATION_COLORS[class_id]
 								            axes[0].imshow(vis_img)
 								            axes[0].set_title('BEV Segmentation Map', fontsize=14)
 								            axes[0].axis('off')
 								            # 添加图例
 								            patches = []
 								            for i, cls_name in enumerate(SEGMENTATION_CLASSES):
 								                color = np.array(SEGMENTATION_COLORS[i]) / 255.0
 								                mask = seg_map == i
 								                count = np.sum(mask)
 								                if count > 0:
 								                    patches.append(mpatches.Patch(color=color,
 								                                   label=f'{cls_name}: {count} px'))
 								            if patches:
 								                axes[0].legend(handles=patches, loc='upper right',
 								                             fontsize=10, framealpha=0.8)
 								        else:
 								            axes[0].text(0.5, 0.5, 'No Segmentation',
 								                        ha='center', va='center', fontsize=20)
 								            axes[0].axis('off')
 								        # 2. 可视化GT分割
 								        if 'gt_masks_bev' in result:
 								            gt_masks = result['gt_masks_bev']
 								            # 转换为numpy
 								            if hasattr(gt_masks, 'cpu'):
 								                gt_masks = gt_masks.cpu().numpy()
 								            # 创建彩色可视化
 								            h, w = gt_masks.shape[1], gt_masks.shape[2] if len(gt_masks.shape) == 3 else gt_masks.shape
 								            if len(gt_masks.shape) == 3:
 								                # (C, H, W)
 								                gt_map = np.argmax(gt_masks, axis=0)
 								            else:
 								                gt_map = gt_masks
 								            vis_img_gt = np.zeros((h, w, 3), dtype=np.uint8)
 								            for class_id in range(min(len(SEGMENTATION_CLASSES), gt_map.max() + 1)):
 								                mask = gt_map == class_id
 								                if np.any(mask):
 								                    vis_img_gt[mask] = SEGMENTATION_COLORS[class_id]
 								            axes[1].imshow(vis_img_gt)
 								            axes[1].set_title('Ground Truth Segmentation', fontsize=14)
 								            axes[1].axis('off')
 								        else:
 								            axes[1].text(0.5, 0.5, 'No GT Data',
 								                        ha='center', va='center', fontsize=20)
 								            axes[1].axis('off')
 								        plt.tight_layout()
 								        if save_path:
 								            plt.savefig(save_path, dpi=100, bbox_inches='tight')
 								            plt.close()
 								            if show_info:
 								                print(f"保存: {save_path}")
 								        else:
 								            plt.show()
 								    def generate_video(self, output_path, fps=10):
 								        """生成视频"""
 								        print(f"开始生成视频: {output_path}")
 								        # 计算采样索引
 								        sample_indices = list(range(0, len(self.results), self.frame_interval))
 								        print(f"总样本数: {len(self.results)}")
 								        print(f"帧间隔: {self.frame_interval}")
 								        print(f"将生成: {len(sample_indices)} 帧")
 								        print()
 								        # 创建临时目录
 								        temp_dir = Path(output_path).parent / 'temp_frames'
 								        temp_dir.mkdir(exist_ok=True)
 								        # 生成所有帧
 								        frames = []
 								        for idx in tqdm(sample_indices, desc="生成帧"):
 								            frame_path = temp_dir / f'frame_{idx:05d}.png'
 								            self.visualize_single_bev(idx, save_path=frame_path, show_info=False)
 								            frames.append(str(frame_path))
 								        print()
 								        print(f"生成了 {len(frames)} 帧，开始合成视频...")
 								        # 读取第一帧确定尺寸
 								        first_frame = cv2.imread(frames[0])
 								        h, w = first_frame.shape[:2]
 								        # 创建视频写入器
 								        fourcc = cv2.VideoWriter_fourcc(*'mp4v')
 								        video_writer = cv2.VideoWriter(output_path, fourcc, fps, (w, h))
 								        # 写入所有帧
 								        for frame_path in tqdm(frames, desc="写入视频"):
 								            frame = cv2.imread(frame_path)
 								            video_writer.write(frame)
 								        video_writer.release()
 								        print(f"✅ 视频已保存: {output_path}")
 								        # 清理临时文件
 								        print("清理临时文件...")
 								        for frame_path in frames:
 								            os.remove(frame_path)
 								        temp_dir.rmdir()
 								        print("✅ 完成！")
 								def main():
 								    parser = argparse.ArgumentParser(description='BEVFusion结果可视化（修复版）')
 								    parser.add_argument('--result-file', type=str,
 								                       default='results_epoch19.pkl',
 								                       help='推理结果文件')
 								    parser.add_argument('--output-dir', type=str,
 								                       default='visualizations',
 								                       help='输出目录')
 								    parser.add_argument('--mode', type=str,
 								                       choices=['quick', 'video'],
 								                       default='quick',
 								                       help='可视化模式')
 								    parser.add_argument('--num-samples', type=int, default=10,
 								                       help='快速可视化的样本数')
 								    parser.add_argument('--video-fps', type=int, default=10,
 								                       help='视频帧率')
 								    parser.add_argument('--frame-interval', type=int, default=6,
 								                       help='帧间隔（下采样）')
 								    args = parser.parse_args()
 								    # 初始化可视化器
 								    visualizer = BEVVisualizer(
 								        result_file=args.result_file,
 								        frame_interval=args.frame_interval
 								    )
 								    os.makedirs(args.output_dir, exist_ok=True)
 								    # 执行可视化
 								    if args.mode == 'quick':
 								        print(f"快速可视化前 {args.num_samples} 个样本...")
 								        for idx in tqdm(range(args.num_samples)):
 								            save_path = os.path.join(args.output_dir, f'sample_{idx:04d}_bev.png')
 								            visualizer.visualize_single_bev(idx, save_path=save_path)
 								        print(f"✅ 完成！图像保存在: {args.output_dir}/")
 								    elif args.mode == 'video':
 								        video_path = os.path.join(args.output_dir, 'bevfusion_results.mp4')
 								        visualizer.generate_video(
 								            output_path=video_path,
 								            fps=args.video_fps
 								        )
 								if __name__ == '__main__':
 								    main()