以下是关于 YOLO系列 网络结构图的详解(以2026年初主流版本为基准,涵盖YOLOv1到YOLOv12)。YOLO(You Only Look Once)是一个单阶段目标检测算法系列,由Joseph Redmon等人于2015年提出,已发展到多个分支(如Ultralytics的YOLOv5/v8/v11,清华大学的YOLOv10等)。其核心是使用单个CNN网络同时预测边界框和类别概率,实现实时检测。
我将先概述YOLO通用结构,然后逐版本详解网络架构(焦点在Backbone、Neck、Head三大模块),并结合结构图描述(基于公开论文和文档的典型图示)。由于YOLO版本众多,我重点覆盖核心版本的演进。数据来源于可靠来源。
YOLO通用网络结构概述
YOLO网络通常分为三个部分:
- Backbone(骨干网络):特征提取器,从输入图像提取多尺度特征。早期版本受GoogLeNet启发,后期采用CSPNet、ELAN等高效结构。
- Neck(颈部):特征融合模块,如PANet或FPN,用于整合不同分辨率的特征,提高小目标检测。
- Head(头部):输出层,预测边界框、置信度和类别。早期使用全连接层,后期采用解耦头(Decoupled Head)提升效率。
典型输入:图像resize到固定大小(如448×448或640×640)。输出:S×S网格,每个网格预测B个边界框(x,y,w,h,confidence)和C个类别概率。
| 模块 | 作用 | 典型组件 |
|---|---|---|
| Backbone | 提取层次化特征 | Conv层、BatchNorm、激活函数(如LeakyReLU/SiLU)、池化层 |
| Neck | 特征聚合 | SPP(Spatial Pyramid Pooling)、PANet、FPN |
| Head | 生成检测结果 | 1×1 Conv预测边界框/类别,NMS或无NMS后处理 |
版本演进比较表
| 版本 | 发布年份/开发者 | Backbone | Neck | Head | 关键创新 | 参数量/速度(示例) |
|---|---|---|---|---|---|---|
| YOLOv1 | 2015/Redmon | 24 Conv + 2 FC(GoogLeNet-inspired) | 无 | 全连接层 | 单阶段检测,网格预测 | ~27M / 45 FPS |
| YOLOv2 | 2016/Redmon | Darknet-19 | 无 | 锚框(Anchor Boxes) | BatchNorm、高分辨率输入 | ~20M / 67 FPS |
| YOLOv3 | 2018/Redmon | Darknet-53 | FPN | 多尺度头 | 多尺度预测、残差块 | ~62M / 30 FPS |
| YOLOv4 | 2020/Bochkovskiy | CSPDarknet-53 | SPP + PANet | YOLOv3头 + Mish激活 | CSPNet、Mosaic增强 | ~64M / 65 FPS |
| YOLOv5 | 2020/Ultralytics | CSPDarknet变体 | PANet + SPPF | 锚框头 | PyTorch实现、EfficientDet-inspired | ~7-140M / 140 FPS (nano) |
| YOLOv6 | 2022/Meituan | EfficientRep | Bi-PAN | 高效头 | RepVGG块、量化优化 | ~18-124M / 更高实时性 |
| YOLOv7 | 2022/WongKinYiu | ELAN | E-ELAN | 再参数化头 | ELAN块、标签分配 | ~6-71M / 161 FPS |
| YOLOv8 | 2023/Ultralytics | CSPDarknet变体 | C2f + PAN | 解耦头 | 无锚框(Anchor-free)、多任务支持 | ~3-43M / 更快训练 |
| YOLOv9 | 2024/WangChuyi | GELAN | PGI | 解耦头 | Programmable Gradient Information、GELAN | ~7-58M / 高效梯度流 |
| YOLOv10 | 2024/清华 | Dual CSP | Rank-guided | 无NMS头 | 双标签分配、轻量头 | ~2-25M / 更低延迟 |
| YOLOv11 | 2024/Ultralytics | C3k2块 | C2PSA | 解耦头 | C3k2 + 空间注意力 | ~3-50M / 平衡速度/精度 |
| YOLOv12 | 2025/未知 | R-ELAN | A2注意力 | 解耦头 | Area Attention、残差聚合 | ~5-60M / 注意力中心设计 |
逐版本网络结构详解
1. YOLOv1(基础版)
- 结构图描述:网络为简单CNN,输入448×448图像,经过24个卷积层(交替1×1和3×3 Conv,4个MaxPool)和2个全连接层。输出7x7x30张量(S=7,B=2,C=20)。
- Backbone:Conv层堆叠,提取特征到7×7分辨率。
- Neck:无专用模块。
- Head:FC层预测网格内边界框。
- 详解:图像分成S×S网格,每个网格负责中心落入的对象。损失函数包括定位、置信度和分类。优点:实时;缺点:小目标弱、多对象重叠问题。
2. YOLOv2/YOLO9000
- 结构图描述:Darknet-19骨干(19 Conv + 5 MaxPool),输入416×416。无Neck,Head引入锚框(从k-means聚类得来)。
- Backbone:BatchNorm优化,移除FC层,用Conv替换。
- Neck:无。
- Head:预测每个锚框的偏移。
- 详解:支持9000类检测(WordTree层次分类)。提升分辨率到416×416,添加passthrough层融合高低分辨特征。
3. YOLOv3
- 结构图描述:Darknet-53(53 Conv,残差连接像ResNet),输入416×416。引入FPN Neck,多尺度Head(3层输出:13×13、26×26、52×52)。
- Backbone:残差块,提高深度。
- Neck:FPN上采样融合。
- Head:每个尺度独立预测。
- 详解:多尺度检测改善小目标。逻辑回归替换softmax,支持多标签。
4. YOLOv4
- 结构图描述:CSPDarknet-53 Backbone,SPP + PANet Neck,YOLOv3-like Head。结构分CSP块(Cross Stage Partial),Mish激活。
- Backbone:CSP连接分流梯度,减少计算。
- Neck:SPP池化多尺度,PANet双向融合。
- Head:CIOU损失优化。
- 详解:集成Bag of Freebies(数据增强)和Bag of Specials(插件模块)。实时性强。
5. YOLOv5
- 结构图描述:修改CSPDarknet,Stem入口 + Conv块。Neck用SPPF(快速SPP)和PANet。Head锚框预测。
- Backbone:Focus层(切片操作) + CSP瓶颈。
- Neck:SPPF固定大小池化,CSP-PAN聚合。
- Head:3尺度输出。
- 详解:PyTorch实现,便于部署。支持nano到x-large变体。
6. YOLOv6
- 结构图描述:EfficientRep Backbone(RepVGG块),Bi-PAN Neck,高效Head。
- Backbone:再参数化Conv,提升推理速度。
- Neck:双向PAN。
- Head:量化友好。
- 详解:聚焦移动端,平衡精度/速度。
7. YOLOv7
- 结构图描述:ELAN Backbone,E-ELAN Neck,再参数化Head。
- Backbone:ELAN(Efficient Layer Aggregation Network)块。
- Neck:扩展ELAN。
- Head:辅助头训练。
- 详解:标签分配策略,提升泛化。
8. YOLOv8
- 结构图描述:CSPDarknet变体,C2f模块(CSP + Bottleneck)。Neck PAN,Anchor-free Head。
- Backbone:C2f替换C3,提高效率。
- Neck:特征融合。
- Head:解耦分类/回归。
- 详解:支持分割/姿态,多任务。训练更快。
9. YOLOv9
- 结构图描述:GELAN Backbone(Generalized ELAN),PGI Neck(Programmable Gradient Information)。
- Backbone:GELAN优化层聚合。
- Neck:PGI保持梯度信息,避免深层丢失。
- Head:解耦。
- 详解:解决信息瓶颈,适用于轻量模型。
10. YOLOv10
- 结构图描述:Dual CSP Backbone,轻量分类头。无NMS。
- Backbone:空间-通道解耦下采样。
- Neck:Rank-guided块。
- Head:双分配策略。
- 详解:消除后处理,降低延迟。
11. YOLOv11
- 结构图描述:C3k2 Backbone(C3变体),C2PSA Neck(带空间注意力)。
- Backbone:更高效C3k2。
- Neck:C2PSA提升小目标。
- Head:解耦。
- 详解:注意力机制,适用于重叠对象。
12. YOLOv12
- 结构图描述:R-ELAN Backbone,A2注意力Neck。
- Backbone:残差ELAN。
- Neck:Area Attention大感受野。
- Head:解耦。
- 详解:注意力中心设计,提升稳定性。
YOLO系列不断优化效率和精度,最新版如YOLOv11/v12在边缘设备上表现突出。如果你需要特定版本的代码实现或实验细节,继续问!