《视觉模型编年史：从 YOLO 到 SAM，计算机视觉的十年演进》

计算机视觉领域在过去十年经历了革命性的变化。从 YOLO 的实时检测到 SAM 的通用分割，本文将梳理视觉模型的重要里程碑。

---

第一章：目标检测的黄金时代（2012-2024）

2012：AlexNet 开启深度学习时代

虽然 AlexNet 是分类模型，但它证明了深度 CNN 在视觉任务上的威力，为后续目标检测奠定基础。

突破：ImageNet 竞赛错误率从 26% 降至 15%
影响：深度学习在计算机视觉的爆发起点

---

2014：R-CNN 系列 - 两阶段检测的巅峰

R-CNN（Regions with CNN features）

提出 Selective Search + CNN 的两阶段范式
首次将 CNN 用于目标检测
速度：47 秒/图像（GPU）

Fast R-CNN（2015）

引入 ROI Pooling
速度：0.3 秒/图像

Faster R-CNN（2015）

用 RPN 替代 Selective Search
首个端到端训练的两阶段检测器

---

2015：YOLO 革命 - 实时检测的诞生

YOLOv1（You Only Look Once）

核心创新：

将检测视为回归问题
单次前向传播完成分类+定位
网格预测机制（7x7 网格）

性能：

速度：45 FPS（Fast YOLO: 155 FPS）
mAP：63.4（VOC 2007）
局限性：小物体、密集物体检测差

意义：开创了实时目标检测的新范式

---

2016：YOLOv2/YOLO9000 - 更快更强

改进：

Batch Normalization
高分辨率分类器
Anchor Boxes
多尺度训练
Darknet-19 骨干网络

突破：

可检测 9000 个类别
WordTree 层次分类
速度：40 FPS，mAP：78.6

---

2017：SSD 与 RetinaNet

SSD（Single Shot MultiBox Detector）

多尺度特征图预测
速度：46 FPS，mAP：74.3

RetinaNet（2017）

Focal Loss 解决类别不平衡
首次超越两阶段检测器精度

---

2018：YOLOv3 - 小物体检测的突破

核心改进：

Darknet-53 骨干（ResNet 风格）
多尺度预测（3 个尺度）
独立 Logistic 分类器（支持多标签）
更好的小物体检测

性能：

mAP-50：57.9（COCO）
速度：30 FPS

---

2020：YOLOv4 与 YOLOv5

YOLOv4（Alexey Bochkovskiy）

CSPDarknet53 骨干
SPP、PANet、Mish 激活
大量训练技巧（Bag of Freebies）
mAP：65.7（COCO），速度：65 FPS

YOLOv5（Ultralytics）

PyTorch 实现
轻量级设计
工程优化极佳
社区最受欢迎版本

---

2021-2022：YOLO 的百家争鸣

YOLOX（2021）

Anchor-free 设计
解耦头（Decoupled Head）
SimOTA 标签分配

YOLOv6（2022，美团）

硬件友好设计
RepVGG 骨干
量化支持

YOLOv7（2022）

E-ELAN 架构
模型缩放优化
训练技巧集大成

---

2023：YOLOv8 与 RT-DETR

YOLOv8（Ultralytics）

Anchor-free
实例分割支持
姿态估计支持
分类头改进

RT-DETR（百度）

实时 DETR
端到端检测
无 NMS

---

2024：YOLO 的新纪元

YOLOv9（2024）

可编程梯度信息（PGI）
通用高效层聚合网络（GELAN）
解决信息瓶颈问题

YOLOv10（2024，清华）

无 NMS 训练
一致双重分配
效率驱动设计

YOLO11（2024）

CNN + Transformer 混合
注意力机制
多尺度特征融合

---

第二章：分割模型的崛起（2014-2023）

2014：FCN - 全卷积网络

突破：

首个端到端分割网络
任意尺寸输入输出
上采样恢复分辨率

---

2015：U-Net - 医学图像分割的标准

架构：

编码器-解码器结构
跳跃连接
数据高效（少量样本）

影响：

医学图像分割事实标准
被引用超过 5 万次

---

2017：Mask R-CNN - 实例分割

创新：

在 Faster R-CNN 上加 Mask 分支
ROI Align 解决对齐问题
同时检测+分割

---

2020：DETR - Transformer 进入检测

突破：

首个端到端 Transformer 检测
无需 Anchor、NMS
集合预测损失

局限：

训练慢、小物体差

---

2021：Segment Anything（SAM）- 分割的 GPT 时刻

发布：Meta AI，2023 年 4 月

核心创新：

1. 提示分割（Promptable Segmentation）

点、框、掩码、文本作为提示
零样本迁移能力

2. 模型架构

Image Encoder（ViT）
Prompt Encoder
Lightweight Mask Decoder

3. 数据引擎

模型辅助标注
半自动标注
全自动标注

4. SA-1B 数据集

1100 万张图像
11 亿个掩码
最大分割数据集

性能：

50ms 生成掩码（实时）
零样本超越有监督模型
可处理模糊提示（多掩码输出）

意义：

首个视觉基础模型
开启提示工程在视觉的应用
降低分割标注成本 90%+

---

2024：SAM 2 - 视频分割的突破

新能力：

视频对象分割
时序一致性
SA-V 视频数据集

---

第三章：其他重要里程碑

2014：VGGNet - 深度即正义

16-19 层深度
3x3 卷积标准化
影响后续所有网络设计

2015：ResNet - 残差学习的革命

残差连接解决梯度消失
可训练 152+ 层
至今仍是骨干网络首选

2016：DenseNet

密集连接
特征重用
参数高效

2017：SENet - 通道注意力

Squeeze-and-Excitation 模块
通道关系建模
即插即用

2018：CBAM、ECA - 注意力机制爆发

通道+空间注意力
轻量高效
广泛集成

2019：EfficientNet - 复合缩放

深度、宽度、分辨率联合缩放
效率最优
MobileNet 继任者

2020：Vision Transformer（ViT）

突破：

纯 Transformer 视觉模型
图像分块作为序列
大数据预训练

影响：

开启视觉 Transformer 时代
后续 Swin、PVT、DeiT 等

2021：Swin Transformer

层次化 ViT
移位窗口注意力
多尺度特征

2022：ConvNeXt - CNN 的反击

将 Transformer 设计迁移到 CNN
纯 CNN 匹敌 ViT
工程优化典范

2023-2024：多模态大模型

CLIP（2021）

图文对比学习
零样本分类

GPT-4V、Gemini

视觉理解能力
端到端多模态

LLaVA、MiniGPT-4

开源多模态对话
视觉指令微调

---

第四章：技术趋势总结

架构演进

2012-2014：CNN 探索期（AlexNet → VGG）
2015-2016：深度革命（ResNet → DenseNet）
2017-2019：注意力兴起（SENet → CBAM）
2020-2021：Transformer 入侵（ViT → Swin）
2022-2024：效率与多模态（EfficientNet → SAM → GPT-4V）

检测范式演进

R-CNN（两阶段）→ YOLO（单阶段）→ DETR（端到端）→ RT-DETR（实时端到端）

分割范式演进

FCN → U-Net → Mask R-CNN → SAM（提示分割）

---

第五章：未来展望

趋势 1：基础模型化

SAM 开启视觉基础模型时代
预训练+提示工程成为主流
零样本/少样本能力成为标配

趋势 2：多模态融合

视觉-语言模型爆发
端到端统一架构
世界模型雏形

趋势 3：效率与边缘

模型压缩与量化
神经架构搜索（NAS）
边缘设备部署

趋势 4：3D 与视频

NeRF 神经辐射场
视频理解模型
时空联合建模

---

结语

从 2012 年的 AlexNet 到 2024 年的 SAM 2，计算机视觉走过了辉煌的十二年。YOLO 让实时检测成为可能，SAM 让分割变得触手可及。未来，随着多模态大模型的发展，视觉 AI 将更加智能、通用、易用。

关键里程碑时间线：

2012：AlexNet
2014：R-CNN、VGG
2015：ResNet、YOLOv1
2016：YOLOv2、SSD
2017：Mask R-CNN、RetinaNet
2018：YOLOv3
2020：YOLOv4/v5、DETR、ViT
2021：YOLOX、Swin
2022：YOLOv6/v7
2023：YOLOv8、SAM、RT-DETR
2024：YOLOv9/v10/v11、SAM 2

---

参考资源：

YOLO 论文：https://arxiv.org/abs/1506.02640
SAM 论文：https://arxiv.org/abs/2304.02643
Papers With Code：https://paperswithcode.com/

#计算机视觉 #YOLO #SAM #深度学习 #目标检测 #图像分割