深入理解YOLO系列目标检测头的设定方式
目录
YOLOv1的检测头结构
1. 网络结构概述
2. 结构细节
3. 优缺点
YOLOv2的检测头结构
1. 网络结构概述
2. 结构细节
3. 优缺点
YOLOv3的检测头结构
1. 网络结构概述
2. 结构细节
3. 优缺点
总结:YOLO 系列检测头的结构演变
YOLOv1的检测头结构
1. 网络结构概述
YOLOv1的检测头采用了最基础的设计——全连接层(Fully Connected, FC)。YOLOv1采用的是一个卷积神经网络(CNN)作为基础网络进行特征提取,最后通过一个 全连接层(FC layer)将卷积层的输出映射到目标检测的最终结果。
2. 结构细节
卷积层:图像经过一系列卷积层和池化层后,提取出特征图。
全连接层:将卷积层提取出的特征图展平为一维向量,并通过一个全连接层来输出目标检测结果。
- 输出张量为:
S x S x (B * (5 + C))
,其中:S
是网格大小(例如 7x7),B
是每个网格单元的边界框数量(通常为2),5
是每个边界框的 4 个坐标(x
,y
,w
,h
)和置信度(confidence
),C
是类别数量。
3. 优缺点
- 优点:结构简单,推理速度非常快,适用于实时性要求较高的场景。
- 缺点:由于全连接层的设计没有保留空间结构信息,导致精度相对较低,尤其是小物体的检测性能差,定位精度不高。
YOLOv2的检测头结构
1. 网络结构概述
YOLOv2对检测头进行了显著优化,特别是引入了 直通层(passthrough layer) 和 Anchor Boxes。YOLOv2的骨干网络是Darknet-19,通过多个卷积层进行特征提取,最后通过一个卷积层来进行目标预测。
2. 结构细节
直通层(Passthrough Layer):YOLOv2引入了 passthrough layer,这是YOLOv2的一个重要创新。该层使得低层次的特征图可以与高层次的特征图结合,避免了丢失低层细节信息,从而提高了检测精度。Passthrough layer 连接了从某一层到另一层的特征,使得低层特征能够与高层的语义信息结合。
例如,在YOLOv2中,网络的最后几层不仅仅是卷积层,还会对低层和高层的特征进行融合。这使得网络能够保留更多的空间信息,有助于定位精度的提升。
卷积检测头:YOLOv2的检测头由几个卷积层组成。最终的卷积层输出为一个张量,表示每个网格单元的目标信息。
- 输出张量大小:
S x S x (B * (4 + 1 + C))
,其中:S
是网格大小(通常是 13x13 或 19x19),B
是每个网格单元的锚框数量(通常为 2 或 3),4
是每个边界框的坐标(x
,y
,w
,h
),1
是每个边界框的置信度(confidence
),C
是类别数量。
Anchor Boxes:YOLOv2采用了基于K-means聚类的方法来生成锚框,用于每个网格单元预测不同形状的边界框。通过锚框,YOLOv2能够更好地预测不同尺寸的物体。
3. 优缺点
优点:
- Anchor Boxes:能够更好地处理不同尺度和形状的物体。
- Passthrough Layer:保留了低层的细节信息,有助于提高小物体的检测精度。
- 卷积头:相比YOLOv1的全连接层,卷积层能够更好地保留空间信息,提高了检测精度。
缺点:
- 计算开销:相比YOLOv1,YOLOv2的计算量增加,尤其是引入Anchor Boxes和passthrough层后,计算复杂度增加。
- 锚框选择依赖数据:锚框的选择需要根据训练数据来优化,若选择不当,可能会影响精度。
YOLOv3的检测头结构
1. 网络结构概述
YOLOv3对检测头的设计进行了更深入的优化,特别是通过多尺度预测和**特征金字塔(FPN)**的引入,进一步提升了对不同尺度物体的检测能力。YOLOv3采用了基于 Darknet-53 的骨干网络,并结合了多尺度预测。
2. 结构细节
多尺度预测:YOLOv3通过在不同尺度的特征图上进行预测,来检测不同尺寸的物体。具体来说,YOLOv3在三个不同的尺度上进行预测:13x13
、26x26
和52x52
,这些尺度分别用于检测大、中、小物体。
每个尺度的输出为:S x S x (B * (4 + 1 + C))
,其中:
S
为不同尺度下的特征图大小(如13x13,26x26,52x52),B
为每个网格单元的锚框数(通常为 3),4
表示每个边界框的4个坐标(x
,y
,w
,h
),1
为置信度,C
为类别数量。
特征金字塔(FPN):YOLOv3并不直接使用标准的FPN,而是通过结合来自不同层的特征图来生成多尺度输出。YOLOv3通过跨层的融合(即对低层特征进行上采样,并与高层特征进行融合)来进行多尺度预测。这种结构类似于FPN的思想,但它并不严格地采用FPN的所有技术。
卷积检测头:YOLOv3的检测头由多个卷积层组成,并使用了3个不同尺度的卷积层,每个尺度用于预测不同尺寸的物体。
3. 优缺点
-
优点:
- 多尺度预测:通过在多个尺度上进行预测,YOLOv3能够高效地检测不同尺寸的物体,尤其在小物体检测上有显著提高。
- 特征融合:通过跨层特征融合,YOLOv3能够更好地捕捉物体的细节信息,特别是在小物体和复杂场景下。
- 高精度:YOLOv3采用了更深的网络和多个优化技巧,使得它在各种数据集上的表现非常出色。
-
缺点:
- 计算复杂度较高:多尺度预测和特征融合使得YOLOv3的计算量较大,尤其是在推理时,需要处理多个尺度的输出。
- 较慢:尽管YOLOv3的检测精度很高,但其推理速度相较YOLOv2稍慢,尤其是在高分辨率图像上的表现更为明显。
总结:YOLO 系列检测头的结构演变
版本 | 检测头结构 | 关键技术 | 优势 | 缺点 |
---|---|---|---|---|
YOLOv1 | 全连接层(FC) | 无 | 速度快,设计简单,适合实时检测 | 精度低,定位不准确,小物体检测能力差 |
YOLOv2 | 多卷积层 + passthrough | Anchor Boxes,passthrough | 更好的精度,适应不同尺寸物体,改进了小物体检测 | 计算复杂度增加,锚框选择依赖数据 |
YOLOv3 | 多卷积层 + 跨层特征融合 | 多尺度预测,特征金字塔(FPN) | 多尺度检测,精度更高,尤其是小物体检测 | 计算开销大,推理速度较慢 |
通过 YOLOv1 到 YOLOv3 的演化,检测头的设计逐步从简单的全连接层,发展为更复杂的卷积层和多尺度预测结构,提升了模型的精度和适应能力。然而,随着网络结构的复杂化,计算成本和训练难度也随之增加。
相关文章:
深入理解YOLO系列目标检测头的设定方式
目录 YOLOv1的检测头结构 1. 网络结构概述 2. 结构细节 3. 优缺点 YOLOv2的检测头结构 1. 网络结构概述 2. 结构细节 3. 优缺点 YOLOv3的检测头结构 1. 网络结构概述 2. 结构细节 3. 优缺点 总结:YOLO 系列检测头的结构演变 YOLOv1的检测头结构 1. 网络…...
智慧农业物联网解决方案:道品科技水肥一体化
在当今科技飞速发展的时代,农业也迎来了一场深刻的变革。智慧农业物联网解决方案中的水肥一体化技术,正逐渐成为现代农业发展的重要助推器。它不仅提高了农业生产效率,还实现了精准施肥和灌溉,为农业可持续发展带来了新的机遇。 …...
单片机上电后程序不运行怎么排查问题?
1.电源检查。使用电压表测量单片机的电源电压是否正常,确保电压在规定的范围内,如常见的5V。 2.复位检查。检查复位引脚的电压是否正常,在单片机接通电源时,复位引脚通常会有一个高电平,按下复位按钮时,复位…...
OceanBase 数据库分布式与集中式 能力
OceanBase分布式数据库与集中式数据库的差异 分布式数据库能解决金融行业最有挑战的高并发低延迟的核心交易系统的稳定性、扩展性、高性能问题。OB之所以一直强调分布式是说它具备很强的数据处理能力,当然从OB4.0开始也支持集中式了。 在实际业务场景中20%是分布式…...
C#多线程
C#中的多线程编程是开发高效并发应用程序的关键技术之一,它允许程序同时执行多个任务,从而提升应用程序的响应速度和性能。为了更好地理解C#中的多线程使用和定义,我们可以从以下几个方面来探讨:线程的基本概念、创建线程的方法、…...
Apache HTTP 服务器深度性能优化
引言 在前几篇文章中,我们讨论了基础和高级性能优化策略。现在,我们将深入探讨一些具体的优化实践,帮助您实现更精细的控制,并确保Apache服务器在各种复杂环境中都能保持最佳性能。 1. 细粒度的Apache配置调整 1.1 MPM参数微调…...
芯片级IO (Pad) Ring IP Checklist
SoC top顶层数字后端实现都会涉及到IO Ring (PAD Ring)的设计。这里面包括VDD IO,VDDIO IO, Signal IO, Corner IO,Filler IO,IO power cut cell等等。 数字后端零基础入门系列 | Innovus零基础LAB学习Day2 数字IC后端实现TOP F…...
无界wujie网址
文档网址:微前端是什么 | 无界 demo:https://wujie-micro.github.io/demo-main-vue/react17...
vulnhub靶场【DriftingBlues】之6
前言 靶机:DriftingBlues-6,IP地址192.168.1.63,因为重装靶机后期为192.168.1.64 攻击:kali,IP地址192.168.1.16 都采用虚拟机,网卡为桥接模式 主机发现 使用arp-scan -l或netdiscover -r 192.168.1.1…...
心情追忆- Nginx + OpenResty 构建高可用网关
之前,我独自一人开发了一个名为“心情追忆”的小程序,旨在帮助用户记录日常的心情变化及重要时刻。我从项目的构思、设计、前端(小程序)开发、后端搭建到最终部署。经过一个月的努力,通过群聊分享等方式,用…...
太速科技-527-基于3U VPX XCZU15EG+TMS320C6678的信号处理板
基于3U VPX XCZU15EGTMS320C6678的信号处理板 一、板卡概述 本板卡系我司自主研发的基于3U VPX风冷、导冷架构的信号处理板,适用于高速图像处理等。芯片采用工业级设计。 板卡采用标准3U VPX架构,板上集成一片Xilinx公司ZynqUltraScale系列F…...
Vue3源码笔记阅读1——Ref响应式原理
本专栏主要用于记录自己的阅读源码的过程,希望能够加深自己学习印象,也欢迎读者可以帮忙完善。接下来每一篇都会从定义、运用两个层面来进行解析 定义 运用 例子:模板中访问ref(1) <template><div>{{str}}</div> </template> <script> impo…...
多音轨视频使用FFmpeg删除不要音轨方法
近期给孩子找宫崎骏动画,但是有很多是多音轨视频但是默认的都是日语,电视上看没办法所以只能下载后删除音轨文件只保留中文。 方法分两步,先安装FFmpeg在转文件即可。 第一步FFmpeg安装 FFmpeg是一个开源项目,包含了处理视频的…...
AtomGit 开源生态应用开发赛报名开始啦
目录 1、赛项背景2、赛项信息3、报名链接4、赛题一:开发者原创声明(DCO)应用开发赛题要求目标核心功能 5、赛题二:基于 OpenHarmony 的开源社区应用开发简介赛题要求 6、参赛作品提交初赛阶段决赛阶段 7、参赛作品提交方式 1、赛项…...
使用 NVIDIA DALI 计算视频的光流
引言 光流(Optical Flow)是计算机视觉中的一种技术,主要用于估计视频中连续帧之间的运动信息。它通过分析像素在时间维度上的移动来预测运动场,广泛应用于目标跟踪、动作识别、视频稳定等领域。 光流的计算传统上依赖 CPU 或 GP…...
C语言学习day23:WriteProcessMemory函数/游戏内存数据修改工具开发
简言: 上一章我们说了获取应用进程的某数据(data),这一章我们就说说修改内存地址的数据。想要修改内存,那么就需要我们另一个WinAPI函数:WriteProcessMemory()函数。 WriteProcessMemory()函数 函数原型…...
利用 html_table 函数轻松获取网页中的表格数据
背景/引言 在数据爬取的过程中,网页表格数据往往是研究人员和开发者的重要目标之一。无论是统计分析、商业调研还是信息整理,表格数据的结构化特性都使其具有较高的利用价值。然而,如何快速、准确地从网页中提取表格数据始终是爬虫技术的一个…...
Postman接口测试:全局变量/接口关联/加密/解密
🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 全局变量和环境变量 全局变量:在postman全局生效的变量,全局唯一 环境变量:在特定环境下生效的变量,本环境内唯一 …...
手机银行模拟器,一款高仿真银行app的模拟器,可以修改姓名 卡号 余额 做转账记录 做流水
📱手机银行模拟器让你自由定制你的金融生活。无论是流水账单、金额,还是个人信息,一切都可以按照你的意愿来模拟修改,让你体验模拟器带来的快乐! 链接:https://pan.quark.cn/s/c2f614f3447f 提取码&#…...
HT7183:16V, 4.5A的DC-DC升压转换器,常用在数码相机里
HT7183描述: HT7183是一款高功率异步升压转换器,集成120mΩ功率开关管,为便携式系统提供高效的小尺寸解决方案。具有2.6V至5.5V输入电压范围,可为各类不同供电的应用提供支持。该器件具备3A开关电流能力,并且能够提供高…...
Cobalt Strike 4.8 用户指南-第十四节 Aggressor 脚本
14.1、什么是Aggressor脚本 Aggressor Script 是Cobalt Strike 3.0版及更高版本中内置的脚本语言。Aggressor 脚本允许你修改和扩展 Cobalt Strike 客户端。 历史 Aggressor Script 是 Armitage 中开源脚本引擎Cortana的精神继承者。Cortana 是通过与 DARPA 的网络快速跟踪计…...
【Qt】QWidget中的常见属性及其功能(二)
目录 六、windowOpacity 例子: 七、cursor 例子: 八、font 九、toolTip 例子: 十、focusPolicy 例子: 十一、styleSheet 计算机中的颜色表示 例子: 六、windowOpacity opacity是不透明度的意思。 用于设…...
对象的克隆 单例模式
1) 如何实现对象的克隆? 1、为什么需要实现对象的克隆? 在某些情况下,需要创建一个与现有对象完全相同的副本,这就是对象克隆。 例如,在需要对对象进行备份、在不同的上下文中使用相同的类型的对象或者实现某些设计…...
预处理内容
预处理是干什么的呢? 分为三点: 1.宏替换 2.头文件导入 3.删除注释 #ifdef #include <iostream> // 定义一个宏,表示当前处于调试模式,在实际调试时可以定义这个宏,发布时取消定义#define DEBUG MODE int ma…...
Docker笔记
1 安装docker b11et3un53m.feishu.cn/wiki/Rfocw7ctXij2RBkShcucLZbrn2d 项目的资料地址(飞书) 当使用docker pull +名字 拉取镜像时报 Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for co…...
条件随机场(CRF)详解:原理、算法与实现(深入浅出)
目录 1. 引言2. 什么是条件随机场?2.1 直观理解2.2 形式化定义 3. CRF的核心要素3.1 特征函数3.2 参数学习 4. 实战案例:命名实体识别5. CRF vs HMM6. CRF的优化与改进6.1 特征选择6.2 正则化 7. 总结与展望参考资料 1. 引言 条件随机场(Conditional Ra…...
C++类与对象学习笔记(一)
https://www.bilibili.com/video/BV1jm4y1w7pa?spm_id_from333.788.player.switch&vd_sourcee8984989cddeb3ef7b7e9fd89098dbe8&p6 🚩🚩🚩来自b站“码农论坛”的视频“类与对象”做的笔记🚩🚩Ὢ…...
wrk如何测试post请求
wrk git地址 https://github.com/wg/wrk wrk 默认是针对 GET 请求的,但它也可以通过添加自定义的 HTTP 请求体和 头部信息来进行 POST 请求的压测。以下是详细的步骤: wrk -t4 -c100 -d30s -s post.lua http://example.com-t4:使用 4 个线…...
rust使用log与env_logger两个crate实现同时向控制台和文件输出日志。并在隔日自动创建新日志文件。
还是老习惯,不用太多的废话。直接上代码。 不过我之说一句话,这块需要自定义一个输出的Target来实现这个功能。 log = { version="0.4.22", default-features = false } env_logger = "0.11.5"pub(crate) fn setup_log_env(log_level: LevelFilter) {...
异步将用户信息存入 Redis 缓存
主要是为了解决Redis的缓存问题,异步将用户信息存入Redis缓存 首先我们需要引入一部线性池 核心概念 异步执行: 异步执行是指任务提交后不会立即等待其完成,而是立即返回并继续执行其他任务。任务将在后台执行,执行结果可以通过…...
WebRTC服务质量(05)- 重传机制(02) NACK判断丢包
WebRTC服务质量(01)- Qos概述 WebRTC服务质量(02)- RTP协议 WebRTC服务质量(03)- RTCP协议 WebRTC服务质量(04)- 重传机制(01) RTX NACK概述 WebRTC服务质量(…...
MySQL 存储过程与函数:增强数据库功能
一、MySQL 存储过程与函数概述 (一)存储过程的定义与特点 存储过程是一组预编译的 SQL 语句集合,它们被存储在数据库中,可根据需要被重复调用。例如,在一个电商系统中,经常需要查询某个时间段内的订单数据…...
丹摩|丹摩助力selenium实现大麦网抢票
丹摩|丹摩助力selenium实现大麦网抢票 声明:非广告,为用户体验 1.引言 在人工智能飞速发展的今天,丹摩智算平台(DAMODEL)以其卓越的AI算力服务脱颖而出,为开发者提供了一个简化AI开发流程的强…...
springcloud-gateway获取应用响应信息乱码
客户端通过springcloud gateway跳转访问tongweb上的应用,接口响应信息乱码。使用postman直接访问tongweb上的应用,响应信息显示正常。 用户gateway中自定义了实现GlobalFilter的Filter类,在该类中获取了上游应用接口的响应信息,直…...
Scala项目(一)
1,创建dao,models,service,ui等软件包 2,在各软件包下创建scala类 软件包dao里的代码 package org.app package daoimport models.BookModelimport scala.collection.mutable.ListBuffer//图书,数据操作…...
node(2) - npm run 原理
1. npm run 执行原理 npm run 命令的原理是执行 package.json 文件中定义的脚本。当你在命令行中运行 npm run 时,npm 会查找 package.json 文件中的 scripts 字段,然后执行对应的脚本命令。 2. 示例 2.1 以 dev:weapp 为例 运行 npm run dev:weapp 命令;npm 会查找 packa…...
概率论得学习和整理24:EXCEL的各种图形,统计图形
目录 0 EXCEL的各种图形,统计图形 1 统计图形 / 直方图 / 其实叫 频度图 hist最合适(用原始数据直接作图) 1.1 什么是频度图 1.2 如何创建频度图,一般是只选中1列数据(1个数组) 1.3 如何修改频度图的宽度 1.4 hist图的一个特…...
【zlm】 webrtc源码讲解三(总结)
目录 setsdp onwrite 编辑 play 参考 setsdp onwrite play 参考 【zlm】 webrtc源码讲解_zlm webrtc-CSDN博客 【zlm】 webrtc源码讲解(二)_webrtc 源码-CSDN博客...
YashanDB共享集群产品能力观测:细节足见功底
本文基于前泽塔数科研发总监-王若楠2024年11月在“2024年国产数据库创新生态大会”-“根”技术专场的演讲整理形成,主要对崖山共享集群YAC的架构、功能、高可用性、性能四大方面进行全面测试,并分享了测试环境和测试结论。 年初,基于某些商业…...
游戏引擎学习第50天
仓库: https://gitee.com/mrxiao_com/2d_game Minkowski 这个算法有点懵逼 回顾 基本上,现在我们所处的阶段是,回顾最初的代码,我们正在讨论我们希望在引擎中实现的所有功能。我们正在做的版本是初步的、粗略的版本,涵盖我们认…...
前端部署实战:从人工发布到全自动化流程
"又发错环境了!"周四下午,测试同学小李急匆匆地找到我。原来是开发人员手动部署时,不小心把测试代码发布到了生产环境。这已经是本月第二次类似的事故了。 回想起每次发布时的场景:手动打包、手动上传、手动替换文件...每一步都战战兢兢,生怕…...
JVM系列之内存区域
每日禅语 有一位年轻和尚,一心求道,多年苦修参禅,但一直没有开悟。有一天,他打听到深山中有一古寺,住持和尚修炼圆通,是得道高僧。于是,年轻和尚打点行装,跋山涉水,千辛万…...
如何用3个月零基础入门网络安全?_网络安全零基础怎么学习
🤟 基于入门网络安全/黑客打造的:👉黑客&网络安全入门&进阶学习资源包 前 言 写这篇教程的初衷是很多朋友都想了解如何入门/转行网络安全,实现自己的“黑客梦”。文章的宗旨是: 1.指出一些自学的误区 2.提供…...
易语言OCR证件照文字识别
一.引言 文字识别,也称为光学字符识别(Optical Character Recognition, OCR),是一种将不同形式的文档(如扫描的纸质文档、PDF文件或数字相机拍摄的图片)中的文字转换成可编辑和可搜索的数据的技术。随着技…...
【人工智能】基于Python的自然语言处理:深入实现文本相似度计算
解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 文本相似度计算是自然语言处理(NLP)中的核心任务,广泛应用于搜索引擎、推荐系统、问答系统等领域。本文全面解析文本相似度计算的核心技术,使用Python中的spaCy和sentence-transformers库实现多种方法,包括基…...
基于wifi的火焰报警系统设计(论文+源码)
1 总体方案设计 在本次基于wifi模板的火焰报警系统中,整个系统架构如图2.1所示,其采用STM32F103单片机作为控制器,并结合DS18B20温度传感器,火焰传感器,ESP8266 WiFi通信模块,蜂鸣器,OLED液晶构成整个系统,…...
【第三节】Git 基本操作指南
目录 前言 一、获取与创建项目 1.1 git init 1.2 git clone 二、基本快照操作 2.1 git add 2.2 git status 2.3 git diff 2.4 git commit 2.5 git reset HEAD 三、 文件管理 3.1 git rm 3.2 git mv 四、Git 文件状态 5.1 工作目录 5.2 暂存区 5.3 本地仓库 5…...
GaLore和Q-GaLore:一种记忆高效的预训练和微调策略,用于大型语言模型(LLMs)
GaLore和Q-GaLore:一种记忆高效的预训练和微调策略,用于大型语言模型(LLMs) GaLore和Q-GaLore的设计背景、工作原理及其优势 设计背景 随着大型语言模型(LLMs)的发展,模型的规模和复杂性不断…...
免费开源了一个图床工具 github-spring-boot-starter
文章目录 第一步,新建一个SpringBoot项目第二步,在pom文件里面引入jar包第三步,配置你的github信息github.authorization1、进入github官网,登录账号,点击头像,选择setting2、选择[Developer Settings](htt…...
Android显示系统(13)- 向SurfaceFlinger提交Buffer
Android显示系统(01)- 架构分析 Android显示系统(02)- OpenGL ES - 概述 Android显示系统(03)- OpenGL ES - GLSurfaceView的使用 Android显示系统(04)- OpenGL ES - Shader绘制三角…...