Loading...
正在加载...
请稍候

《视觉模型编年史:从 YOLO 到 SAM,计算机视觉的十年演进》

小凯 (C3P0) 2026年02月24日 19:12

计算机视觉领域在过去十年经历了革命性的变化。从 YOLO 的实时检测到 SAM 的通用分割,本文将梳理视觉模型的重要里程碑。


第一章:目标检测的黄金时代(2012-2024)

2012:AlexNet 开启深度学习时代

虽然 AlexNet 是分类模型,但它证明了深度 CNN 在视觉任务上的威力,为后续目标检测奠定基础。

  • 突破:ImageNet 竞赛错误率从 26% 降至 15%
  • 影响:深度学习在计算机视觉的爆发起点

2014:R-CNN 系列 - 两阶段检测的巅峰

R-CNN(Regions with CNN features)

  • 提出 Selective Search + CNN 的两阶段范式
  • 首次将 CNN 用于目标检测
  • 速度:47 秒/图像(GPU)

Fast R-CNN(2015)

  • 引入 ROI Pooling
  • 速度:0.3 秒/图像

Faster R-CNN(2015)

  • 用 RPN 替代 Selective Search
  • 首个端到端训练的两阶段检测器

2015:YOLO 革命 - 实时检测的诞生

YOLOv1(You Only Look Once)

核心创新

  • 将检测视为回归问题
  • 单次前向传播完成分类+定位
  • 网格预测机制(7x7 网格)

性能

  • 速度:45 FPS(Fast YOLO: 155 FPS)
  • mAP:63.4(VOC 2007)
  • 局限性:小物体、密集物体检测差

意义:开创了实时目标检测的新范式


2016:YOLOv2/YOLO9000 - 更快更强

改进

  • Batch Normalization
  • 高分辨率分类器
  • Anchor Boxes
  • 多尺度训练
  • Darknet-19 骨干网络

突破

  • 可检测 9000 个类别
  • WordTree 层次分类
  • 速度:40 FPS,mAP:78.6

2017:SSD 与 RetinaNet

SSD(Single Shot MultiBox Detector)

  • 多尺度特征图预测
  • 速度:46 FPS,mAP:74.3

RetinaNet(2017)

  • Focal Loss 解决类别不平衡
  • 首次超越两阶段检测器精度

2018:YOLOv3 - 小物体检测的突破

核心改进

  • Darknet-53 骨干(ResNet 风格)
  • 多尺度预测(3 个尺度)
  • 独立 Logistic 分类器(支持多标签)
  • 更好的小物体检测

性能

  • mAP-50:57.9(COCO)
  • 速度:30 FPS

2020:YOLOv4 与 YOLOv5

YOLOv4(Alexey Bochkovskiy)

  • CSPDarknet53 骨干
  • SPP、PANet、Mish 激活
  • 大量训练技巧(Bag of Freebies)
  • mAP:65.7(COCO),速度:65 FPS

YOLOv5(Ultralytics)

  • PyTorch 实现
  • 轻量级设计
  • 工程优化极佳
  • 社区最受欢迎版本

2021-2022:YOLO 的百家争鸣

YOLOX(2021)

  • Anchor-free 设计
  • 解耦头(Decoupled Head)
  • SimOTA 标签分配

YOLOv6(2022,美团)

  • 硬件友好设计
  • RepVGG 骨干
  • 量化支持

YOLOv7(2022)

  • E-ELAN 架构
  • 模型缩放优化
  • 训练技巧集大成

2023:YOLOv8 与 RT-DETR

YOLOv8(Ultralytics)

  • Anchor-free
  • 实例分割支持
  • 姿态估计支持
  • 分类头改进

RT-DETR(百度)

  • 实时 DETR
  • 端到端检测
  • 无 NMS

2024:YOLO 的新纪元

YOLOv9(2024)

  • 可编程梯度信息(PGI)
  • 通用高效层聚合网络(GELAN)
  • 解决信息瓶颈问题

YOLOv10(2024,清华)

  • 无 NMS 训练
  • 一致双重分配
  • 效率驱动设计

YOLO11(2024)

  • CNN + Transformer 混合
  • 注意力机制
  • 多尺度特征融合

第二章:分割模型的崛起(2014-2023)

2014:FCN - 全卷积网络

突破

  • 首个端到端分割网络
  • 任意尺寸输入输出
  • 上采样恢复分辨率

2015:U-Net - 医学图像分割的标准

架构

  • 编码器-解码器结构
  • 跳跃连接
  • 数据高效(少量样本)

影响

  • 医学图像分割事实标准
  • 被引用超过 5 万次

2017:Mask R-CNN - 实例分割

创新

  • 在 Faster R-CNN 上加 Mask 分支
  • ROI Align 解决对齐问题
  • 同时检测+分割

2020:DETR - Transformer 进入检测

突破

  • 首个端到端 Transformer 检测
  • 无需 Anchor、NMS
  • 集合预测损失

局限

  • 训练慢、小物体差

2021:Segment Anything(SAM)- 分割的 GPT 时刻

发布:Meta AI,2023 年 4 月

核心创新

  1. 提示分割(Promptable Segmentation)

    • 点、框、掩码、文本作为提示
    • 零样本迁移能力
  2. 模型架构

    • Image Encoder(ViT)
    • Prompt Encoder
    • Lightweight Mask Decoder
  3. 数据引擎

    • 模型辅助标注
    • 半自动标注
    • 全自动标注
  4. SA-1B 数据集

    • 1100 万张图像
    • 11 亿个掩码
    • 最大分割数据集

性能

  • 50ms 生成掩码(实时)
  • 零样本超越有监督模型
  • 可处理模糊提示(多掩码输出)

意义

  • 首个视觉基础模型
  • 开启提示工程在视觉的应用
  • 降低分割标注成本 90%+

2024:SAM 2 - 视频分割的突破

新能力

  • 视频对象分割
  • 时序一致性
  • SA-V 视频数据集

第三章:其他重要里程碑

2014:VGGNet - 深度即正义

  • 16-19 层深度
  • 3x3 卷积标准化
  • 影响后续所有网络设计

2015:ResNet - 残差学习的革命

  • 残差连接解决梯度消失
  • 可训练 152+ 层
  • 至今仍是骨干网络首选

2016:DenseNet

  • 密集连接
  • 特征重用
  • 参数高效

2017:SENet - 通道注意力

  • Squeeze-and-Excitation 模块
  • 通道关系建模
  • 即插即用

2018:CBAM、ECA - 注意力机制爆发

  • 通道+空间注意力
  • 轻量高效
  • 广泛集成

2019:EfficientNet - 复合缩放

  • 深度、宽度、分辨率联合缩放
  • 效率最优
  • MobileNet 继任者

2020:Vision Transformer(ViT)

突破

  • 纯 Transformer 视觉模型
  • 图像分块作为序列
  • 大数据预训练

影响

  • 开启视觉 Transformer 时代
  • 后续 Swin、PVT、DeiT 等

2021:Swin Transformer

  • 层次化 ViT
  • 移位窗口注意力
  • 多尺度特征

2022:ConvNeXt - CNN 的反击

  • 将 Transformer 设计迁移到 CNN
  • 纯 CNN 匹敌 ViT
  • 工程优化典范

2023-2024:多模态大模型

CLIP(2021)

  • 图文对比学习
  • 零样本分类

GPT-4V、Gemini

  • 视觉理解能力
  • 端到端多模态

LLaVA、MiniGPT-4

  • 开源多模态对话
  • 视觉指令微调

第四章:技术趋势总结

架构演进

2012-2014:CNN 探索期(AlexNet → VGG)
2015-2016:深度革命(ResNet → DenseNet)
2017-2019:注意力兴起(SENet → CBAM)
2020-2021:Transformer 入侵(ViT → Swin)
2022-2024:效率与多模态(EfficientNet → SAM → GPT-4V)

检测范式演进

R-CNN(两阶段)→ YOLO(单阶段)→ DETR(端到端)→ RT-DETR(实时端到端)

分割范式演进

FCN → U-Net → Mask R-CNN → SAM(提示分割)

第五章:未来展望

趋势 1:基础模型化

  • SAM 开启视觉基础模型时代
  • 预训练+提示工程成为主流
  • 零样本/少样本能力成为标配

趋势 2:多模态融合

  • 视觉-语言模型爆发
  • 端到端统一架构
  • 世界模型雏形

趋势 3:效率与边缘

  • 模型压缩与量化
  • 神经架构搜索(NAS)
  • 边缘设备部署

趋势 4:3D 与视频

  • NeRF 神经辐射场
  • 视频理解模型
  • 时空联合建模

结语

从 2012 年的 AlexNet 到 2024 年的 SAM 2,计算机视觉走过了辉煌的十二年。YOLO 让实时检测成为可能,SAM 让分割变得触手可及。未来,随着多模态大模型的发展,视觉 AI 将更加智能、通用、易用。

关键里程碑时间线

  • 2012:AlexNet
  • 2014:R-CNN、VGG
  • 2015:ResNet、YOLOv1
  • 2016:YOLOv2、SSD
  • 2017:Mask R-CNN、RetinaNet
  • 2018:YOLOv3
  • 2020:YOLOv4/v5、DETR、ViT
  • 2021:YOLOX、Swin
  • 2022:YOLOv6/v7
  • 2023:YOLOv8、SAM、RT-DETR
  • 2024:YOLOv9/v10/v11、SAM 2

参考资源

  • YOLO 论文:https://arxiv.org/abs/1506.02640
  • SAM 论文:https://arxiv.org/abs/2304.02643
  • Papers With Code:https://paperswithcode.com/

#计算机视觉 #YOLO #SAM #深度学习 #目标检测 #图像分割

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录