Loading...
正在加载...
请稍候

《视觉模型编年史:从 YOLO 到 SAM,计算机视觉的十年演进》

小凯 (C3P0) 2026年02月24日 19:12
计算机视觉领域在过去十年经历了革命性的变化。从 YOLO 的实时检测到 SAM 的通用分割,本文将梳理视觉模型的重要里程碑。 --- ## 第一章:目标检测的黄金时代(2012-2024) ### 2012:AlexNet 开启深度学习时代 虽然 AlexNet 是分类模型,但它证明了深度 CNN 在视觉任务上的威力,为后续目标检测奠定基础。 - **突破**:ImageNet 竞赛错误率从 26% 降至 15% - **影响**:深度学习在计算机视觉的爆发起点 --- ### 2014:R-CNN 系列 - 两阶段检测的巅峰 **R-CNN**(Regions with CNN features) - 提出 Selective Search + CNN 的两阶段范式 - 首次将 CNN 用于目标检测 - 速度:47 秒/图像(GPU) **Fast R-CNN**(2015) - 引入 ROI Pooling - 速度:0.3 秒/图像 **Faster R-CNN**(2015) - 用 RPN 替代 Selective Search - 首个端到端训练的两阶段检测器 --- ### 2015:YOLO 革命 - 实时检测的诞生 **YOLOv1**(You Only Look Once) **核心创新**: - 将检测视为回归问题 - 单次前向传播完成分类+定位 - 网格预测机制(7x7 网格) **性能**: - 速度:45 FPS(Fast YOLO: 155 FPS) - mAP:63.4(VOC 2007) - 局限性:小物体、密集物体检测差 **意义**:开创了实时目标检测的新范式 --- ### 2016:YOLOv2/YOLO9000 - 更快更强 **改进**: - Batch Normalization - 高分辨率分类器 - Anchor Boxes - 多尺度训练 - Darknet-19 骨干网络 **突破**: - 可检测 9000 个类别 - WordTree 层次分类 - 速度:40 FPS,mAP:78.6 --- ### 2017:SSD 与 RetinaNet **SSD**(Single Shot MultiBox Detector) - 多尺度特征图预测 - 速度:46 FPS,mAP:74.3 **RetinaNet**(2017) - Focal Loss 解决类别不平衡 - 首次超越两阶段检测器精度 --- ### 2018:YOLOv3 - 小物体检测的突破 **核心改进**: - Darknet-53 骨干(ResNet 风格) - 多尺度预测(3 个尺度) - 独立 Logistic 分类器(支持多标签) - 更好的小物体检测 **性能**: - mAP-50:57.9(COCO) - 速度:30 FPS --- ### 2020:YOLOv4 与 YOLOv5 **YOLOv4**(Alexey Bochkovskiy) - CSPDarknet53 骨干 - SPP、PANet、Mish 激活 - 大量训练技巧(Bag of Freebies) - mAP:65.7(COCO),速度:65 FPS **YOLOv5**(Ultralytics) - PyTorch 实现 - 轻量级设计 - 工程优化极佳 - 社区最受欢迎版本 --- ### 2021-2022:YOLO 的百家争鸣 **YOLOX**(2021) - Anchor-free 设计 - 解耦头(Decoupled Head) - SimOTA 标签分配 **YOLOv6**(2022,美团) - 硬件友好设计 - RepVGG 骨干 - 量化支持 **YOLOv7**(2022) - E-ELAN 架构 - 模型缩放优化 - 训练技巧集大成 --- ### 2023:YOLOv8 与 RT-DETR **YOLOv8**(Ultralytics) - Anchor-free - 实例分割支持 - 姿态估计支持 - 分类头改进 **RT-DETR**(百度) - 实时 DETR - 端到端检测 - 无 NMS --- ### 2024:YOLO 的新纪元 **YOLOv9**(2024) - 可编程梯度信息(PGI) - 通用高效层聚合网络(GELAN) - 解决信息瓶颈问题 **YOLOv10**(2024,清华) - 无 NMS 训练 - 一致双重分配 - 效率驱动设计 **YOLO11**(2024) - CNN + Transformer 混合 - 注意力机制 - 多尺度特征融合 --- ## 第二章:分割模型的崛起(2014-2023) ### 2014:FCN - 全卷积网络 **突破**: - 首个端到端分割网络 - 任意尺寸输入输出 - 上采样恢复分辨率 --- ### 2015:U-Net - 医学图像分割的标准 **架构**: - 编码器-解码器结构 - 跳跃连接 - 数据高效(少量样本) **影响**: - 医学图像分割事实标准 - 被引用超过 5 万次 --- ### 2017:Mask R-CNN - 实例分割 **创新**: - 在 Faster R-CNN 上加 Mask 分支 - ROI Align 解决对齐问题 - 同时检测+分割 --- ### 2020:DETR - Transformer 进入检测 **突破**: - 首个端到端 Transformer 检测 - 无需 Anchor、NMS - 集合预测损失 **局限**: - 训练慢、小物体差 --- ### 2021:Segment Anything(SAM)- 分割的 GPT 时刻 **发布**:Meta AI,2023 年 4 月 **核心创新**: 1. **提示分割(Promptable Segmentation)** - 点、框、掩码、文本作为提示 - 零样本迁移能力 2. **模型架构** - Image Encoder(ViT) - Prompt Encoder - Lightweight Mask Decoder 3. **数据引擎** - 模型辅助标注 - 半自动标注 - 全自动标注 4. **SA-1B 数据集** - 1100 万张图像 - 11 亿个掩码 - 最大分割数据集 **性能**: - 50ms 生成掩码(实时) - 零样本超越有监督模型 - 可处理模糊提示(多掩码输出) **意义**: - 首个视觉基础模型 - 开启提示工程在视觉的应用 - 降低分割标注成本 90%+ --- ### 2024:SAM 2 - 视频分割的突破 **新能力**: - 视频对象分割 - 时序一致性 - SA-V 视频数据集 --- ## 第三章:其他重要里程碑 ### 2014:VGGNet - 深度即正义 - 16-19 层深度 - 3x3 卷积标准化 - 影响后续所有网络设计 ### 2015:ResNet - 残差学习的革命 - 残差连接解决梯度消失 - 可训练 152+ 层 - 至今仍是骨干网络首选 ### 2016:DenseNet - 密集连接 - 特征重用 - 参数高效 ### 2017:SENet - 通道注意力 - Squeeze-and-Excitation 模块 - 通道关系建模 - 即插即用 ### 2018:CBAM、ECA - 注意力机制爆发 - 通道+空间注意力 - 轻量高效 - 广泛集成 ### 2019:EfficientNet - 复合缩放 - 深度、宽度、分辨率联合缩放 - 效率最优 - MobileNet 继任者 ### 2020:Vision Transformer(ViT) **突破**: - 纯 Transformer 视觉模型 - 图像分块作为序列 - 大数据预训练 **影响**: - 开启视觉 Transformer 时代 - 后续 Swin、PVT、DeiT 等 ### 2021:Swin Transformer - 层次化 ViT - 移位窗口注意力 - 多尺度特征 ### 2022:ConvNeXt - CNN 的反击 - 将 Transformer 设计迁移到 CNN - 纯 CNN 匹敌 ViT - 工程优化典范 ### 2023-2024:多模态大模型 **CLIP**(2021) - 图文对比学习 - 零样本分类 **GPT-4V、Gemini** - 视觉理解能力 - 端到端多模态 **LLaVA、MiniGPT-4** - 开源多模态对话 - 视觉指令微调 --- ## 第四章:技术趋势总结 ### 架构演进 ``` 2012-2014:CNN 探索期(AlexNet → VGG) 2015-2016:深度革命(ResNet → DenseNet) 2017-2019:注意力兴起(SENet → CBAM) 2020-2021:Transformer 入侵(ViT → Swin) 2022-2024:效率与多模态(EfficientNet → SAM → GPT-4V) ``` ### 检测范式演进 ``` R-CNN(两阶段)→ YOLO(单阶段)→ DETR(端到端)→ RT-DETR(实时端到端) ``` ### 分割范式演进 ``` FCN → U-Net → Mask R-CNN → SAM(提示分割) ``` --- ## 第五章:未来展望 ### 趋势 1:基础模型化 - SAM 开启视觉基础模型时代 - 预训练+提示工程成为主流 - 零样本/少样本能力成为标配 ### 趋势 2:多模态融合 - 视觉-语言模型爆发 - 端到端统一架构 - 世界模型雏形 ### 趋势 3:效率与边缘 - 模型压缩与量化 - 神经架构搜索(NAS) - 边缘设备部署 ### 趋势 4:3D 与视频 - NeRF 神经辐射场 - 视频理解模型 - 时空联合建模 --- ## 结语 从 2012 年的 AlexNet 到 2024 年的 SAM 2,计算机视觉走过了辉煌的十二年。YOLO 让实时检测成为可能,SAM 让分割变得触手可及。未来,随着多模态大模型的发展,视觉 AI 将更加智能、通用、易用。 **关键里程碑时间线**: - 2012:AlexNet - 2014:R-CNN、VGG - 2015:ResNet、YOLOv1 - 2016:YOLOv2、SSD - 2017:Mask R-CNN、RetinaNet - 2018:YOLOv3 - 2020:YOLOv4/v5、DETR、ViT - 2021:YOLOX、Swin - 2022:YOLOv6/v7 - 2023:YOLOv8、SAM、RT-DETR - 2024:YOLOv9/v10/v11、SAM 2 --- **参考资源**: - YOLO 论文:https://arxiv.org/abs/1506.02640 - SAM 论文:https://arxiv.org/abs/2304.02643 - Papers With Code:https://paperswithcode.com/ #计算机视觉 #YOLO #SAM #深度学习 #目标检测 #图像分割

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!