论文精读:YOLO-UniOW: Efficient Universal Open-World Object Detection
文章目录
- 前言
- 1、出发点
- 2、方法
- 2.1.符号说明
- 2.2.Efficient Adaptive Decision Learning
- 2.3.Open-World Wildcard Learning
- 3、实验结果
- 总结
前言
本文介绍一篇来自Tencent的开放词汇和世界检测结合的论文:Yolo-uniow,开源地址。
1、出发点
本篇论文相当于开辟了一个新任务,将开放词汇检测和世界检测融合到一个任务:在给定一系列text prompt后,除了检测出对应单词的边界框,还要将其余未知的物体检测为"Unknown"。贴一张论文示例图:
2、方法
底下是论文总体结构图,在yolo-world基础上衍生出来的,总体来看结构比较简单,Detector用到的是yolov10,包含两个assign head: one2many和one2one;TextEncoder启用了LoRA微调,然后设计了一个通配符Wildcard Learning策略(其实就是object类别的嵌入向量),来挖掘Unknown物体。下面将逐一介绍。
2.1.符号说明
上述三个标黄的公式其实就是论文要实现功能。其中 c k c_k ck表示已知的文本类别; C u n k C_{unk} Cunk为未知的类别, T w T_w Tw就是通配符wildcard learning;当然,作为开放世界检测模型,需要能够不断从Unknown中迭代出新类别来更新 c k c_k ck,也就是第3个公式中表达意思。
2.2.Efficient Adaptive Decision Learning
论文创新点之一,但实际上就是 LoRA微调 TextEncoder。
2.3.Open-World Wildcard Learning
这里主要介绍下通配符学习策略,看模型是如何在train stage筛选Unknown物体的。先说两个子训练stage:
- 先训练open-vocabulary-detector,即完成类似yolo-world的训练;
- 设置可学习嵌入向量wildcard embedding,代表含义是 object,监督信息是所有box;
- 在完成上述训练后,需要将两个部分结合起来,将wildcard embedding发现所有物体的能力迁移到open-vocabulary部分:但结合时候会出现问题,因为通配符检测结果跟open-vocabulary的一部分检测框是重叠的,需要过滤掉。而将未过滤的则是 Unkonwn 物体,将其交给可学习嵌入向量Unkonwn Wildcard。
而具体筛选策略就是通过底下公式:
也可以按照下图示例说明:当迭代发现新的类别即CurrentKnown时,跟绿色的GTbox做监督训练。而Well-tuned Wildcard检测出 0.0001和0.2和0.8的虚线框,其中0.001因阈值太低过滤掉,而0.2去分配给Unkonwn Wildcard,而0.8因跟GTbox交并比过大也被过滤掉了。
3、实验结果
比yolo-world高。
LoRA微调TextEncoder涨点儿明显。
总结
总体来说结合起来挺有意思,从另一个角度来解决open-world问题。
相关文章:
论文精读:YOLO-UniOW: Efficient Universal Open-World Object Detection
文章目录 前言1、出发点2、方法2.1.符号说明2.2.Efficient Adaptive Decision Learning2.3.Open-World Wildcard Learning 3、实验结果总结 前言 本文介绍一篇来自Tencent的开放词汇和世界检测结合的论文:Yolo-uniow,开源地址。 1、出发点 本篇论文相当…...
网络协议分析 实验四 ICMPv4与ICMPv6
文章目录 实验4.1 ICMP协议练习一 利用仿真编辑器编辑ICMP回显请求报文练习二 ICMP差错报文1.目的端不可达2.超时 练习三 仿真发送ICMP时间戳请求报文实验4.2 IPV6与ICMPV6实验设计题:设计一个能产生ICMPV6超时类型差错报文实验,并截图记录实验结果。 实…...
《100天精通Python——基础篇 2025 第18天:正则表达式入门实战,解锁字符串处理的魔法力量》
目录 一、认识正则表达式二、正则表达式基本语法2.1 行界定符2.2 单词定界符2.3 字符类2.4 选择符2.5 范围符2.6 排除符2.7 限定符2.8 任意字符2.9 转义字符2.10 反斜杠2.11 小括号2.11.1 定义独立单元2.11.2 分组 2.12 反向引用2.13 特殊构造2.14 匹配模式 三、re模块3.1 comp…...
nginx配置反向代理支持CORS跨域请求
nginx配置反向代理支持CORS跨域请求 1. 环境2. 配置Nginx反向代理和CORS添加的响应头包括: 1. 环境 后端springboot,项目端口8080前端vue,项目端口8088 2. 配置Nginx反向代理和CORS server {listen 8088;server_name your_domain.com;location / {root /path/to/…...
英语学习5.13
take the place of 【短语】 👉 关键词:代替、取代、顶替 ✅ 释义: 代替,取代某人或某物的位置或作用 指一个人或事物代替另一个人或事物,履行相同的职责、功能或占据原有的位置。 ✅ 例句: Nothing c…...
NY182NY183美光固态颗粒NY186NY188
NY182NY183美光固态颗粒NY186NY188 在存储技术的竞技场上,美光科技(Micron)始终扮演着革新者的角色。其NY系列固态颗粒凭借前沿的3D NAND架构和精准的工艺控制,成为企业级存储和数据中心的关键支柱。本文将围绕NY182、NY183、NY1…...
数据库--处理模型(Processing Model)
本文将介绍数据库处理模型,处理模型定义了系统如何执行一个查询计划。三种处理模型:迭代器模型、物化模型、向量化模型。 向量化模型是现代OLAP系统所使用的处理模型,它结合了迭代器模型和物化模型的优点。 另外还介绍了查询执行的两种方向:自顶向下(Pull模式),自底向…...
TikTok矩阵运营干货:从0到1打造爆款矩阵
在TikTok的流量浪潮中,运营TikTok矩阵是提升影响力、扩大受众群体的有效策略。无论是品牌推广还是个人IP打造,一个成功的TikTok矩阵都能带来意想不到的收获。下面就为大家分享一些TikTok矩阵运营的实用干货。 一、为什么要做TikTok矩阵 TikTok矩阵就像是…...
如何访问云相关的api
问题 预研访问国外厂商云api相关的代码,发现请求国外厂商云获取token时,发生了下面的错误: com.google.auth.oauth2.GoogleAuthException: Error getting access token for service account: connect timed out, iss: testmanagebucketesot…...
数字IC后端实现教程 | Early Clock Flow和Useful skew完全不是一个东西
数字后端零基础入门系列 | Innovus零基础LAB学习Day10 Q: Early clock flow和useful skew都是做短某段路径,这两个有什么区别呢,既然这样还用useful skew是不是有点多余了? Useful Skew技术 在不使用useful skew技术,第一级FF到第二级FF的…...
用AI制作黑神话悟空质感教程,3D西游记裸眼效果,西游人物跳出书本
目录 一、前言二、作图步骤1.DeepSeek 生成画面场景2.AI作图3.下载高清无码图 一、前言 你是否也想打造这种立体效果?让人物仿佛从纸上跃然而出,质感逼真。这里我以西游记为例,大家完全可以根据个人喜好,尝试创作三国、水浒等题材…...
C++模板
C<模板初阶> 这一集讲一下模板, 这东西理解起来不难, 用起来也很简单, 大家顺着看就ok. void Swap(int& left, int& right)//参数是引用 {int temp left;left right;right temp; }void Swap(double& left, double& right) {double temp left;left …...
系统平衡与企业挑战
在复杂的系统中,一切都在寻找平衡,而这个平衡从不静止。它在不断的变化与反馈中调整,以适应外界环境的变动。就像一个企业,它无法完全回避变化,但却总是在挑战中寻找新的平衡点。 最近遇到一家企业,引入了…...
【AI News | 20250513】每日AI进展
AI Repos 1、iap-diffusion-labs 从零开始带我们构建完整的扩散模型。通过三个精心设计的实验练习,循序渐进地引导我们实现流匹配和扩散模型,从基础 SDE 到条件图像生成,每一步都有详尽指导和完整代码,让复杂理论简单易懂。主要内…...
upload-labs通关笔记-第3关 文件上传之黑名单绕过
目录 一、实验准备 1.构造脚本 2.打开靶场第三关 3.源码分析 4.修改配置使支持php后缀 (1)切换php ts版本 (2)定位httpd.conf文件 (3)修改AddType application字段 (4)重启…...
【Redis】RedLock实现原理
Redis的RedLock是一种分布式锁算法,旨在通过多节点协作解决传统单节点Redis锁的容错性问题。其核心原理如下: 1. 设计目标 互斥性:同一时刻只有一个客户端持有锁。死锁避免:锁自动超时释放,防止客户端崩溃导致死锁。容…...
IPD流程实战:产品开发各阶段目标、关注点和交付
目录 简介 1、概念阶段 2、计划阶段 3、开发阶段 4、验证阶段 5、发布阶段 6、生命周期阶段 作者简介 简介 IPD的产品开发是一个多阶段协同的过程,上一个环节的输出是下一个环节的输入,每个阶段的交替都体现出了用户思维。 尽可能确保最终的输…...
植物大战僵尸杂交版v3.6最新版本(附下载链接)
B站游戏作者潜艇伟伟迷于5月13日更新了植物大战僵尸杂交版3.6.5版本!!!,有b站账户的记得要给作者三连关注一下呀! 不多废话下载链接放上: 夸克网盘链接::https://pan.quark.cn/s/037…...
激光打印机常见打印故障简单处理意见
一、 问题描述: 给打印机更换新的硒鼓时拉开硒鼓封条时有微量碳粉带出; 原因: 出厂打印测试时,可能会有微量碳粉在磁辊上或者磁辊仓; 解决方法: 擦干净即可正常使用; 二、 问题描述&…...
代码随想录算法训练营第60期第三十五天打卡
今天是我们贪心算法章节的最后一天,今天有三道题目需要讲解,但是最后又一道题目叫做监督二叉树的题目难度比较大,我打算二刷代码随想录的时候再来给大家讲解,因此我们今天就只讲解前两道题目,昨天的区间重叠问题是贪心…...
我的五周年创作纪念日
五年前的今天,我在CSDN发布了第一篇《基于VS2015的MFC学习笔记(常用按钮button)》,文末那句"欢迎交流"的忐忑留言,开启了这段充满惊喜的技术旅程。恍然发觉那些敲过的代码早已成长为参天大树。 收获 获得了…...
OpenCV特征处理全解析:从检测到匹配的完整指南
一、计算机视觉中的特征处理概述 在计算机视觉领域,特征处理是指从图像中提取、描述和匹配具有辨识度的局部或全局特征的过程。一个完整的特征处理流程通常包括三个关键步骤: 特征检测:在图像中寻找具有独特性质的点或区域特征描述…...
C++11 ——右值引用和移动语义
目录 一、基本概念左值 vs 右值左值引用 vs 右值引用 二、右值引用使用场景和意义左值引用的使用场景左值引用的短板右值引用和移动语义右值引用引用左值右值引用的其他使用场景右值引用总结 三、完美转发右值前置知识万能引用完美转发保持值的属性完美转发的使用场景 四、总结…...
使用交互式半自动化标注工具制作语义分割数据集
参考的初始资源: GitHub项目文档 B站视频 1.安装工具 打开Anaconda Prompt 1.创建虚拟环境 conda create -n isat_env python3.8 conda activate isat_env2.安装GPU版本pytorch 4070 Ti CUDN12.5 pip install torch torchvision torchaudio --index-url https:/…...
阿里二面:聊聊 MySQL 主从同步方案的优缺点
大家好,我是君哥。今天来聊一聊 MySQL 主从架构。 MySQL Replication 是 MySQL 官方提供的主从同步方案,用于将 MySQL 主库的数据同步到从库中,从库可以供应用程序读取数据。 1 简介 Replication 是目前 MySQL 使用最多的灾备方案…...
YOLO11解决方案之物体模糊探索
概述 Ultralytics提供了一系列的解决方案,利用YOLO11解决现实世界的问题,包括物体计数、模糊处理、热力图、安防系统、速度估计、物体追踪等多个方面的应用。 物体模糊是指对图像或视频中的特定检测对象应用模糊处理,这可以利用YOLO11 模型…...
Elecron 相关介绍以及常见的面试问题
一、深入介绍 Electron Electron 是一个由 GitHub 开发和维护的免费开源软件框架,允许开发者使用 Web 技术(HTML、CSS 和 JavaScript)构建桌面应用程序 。它将 Chromium 渲染引擎和 Node.js 运行时环境相结合,为开发者提供了一套…...
基于STM32、HAL库的ADAU1701JSTZ音频接口芯片驱动程序设计
一、简介: ADAU1701JSTZ 是 Analog Devices 公司推出的一款高性能、低功耗音频编解码器 (CODEC) 芯片。它专为便携式音频设备设计,集成了麦克风前置放大器、ADC、DAC、耳机放大器等功能模块,支持多种音频接口和采样率,非常适合与 STM32 微控制器配合使用。 主要特性: 24…...
【氮化镓】电子辐照下温度对GaN位移阈能的影响
2024年,华东师范大学的彭胜国等人基于从头算分子动力学(AIMD)方法,研究了低能电子束辐照下温度对氮化镓(GaN)位移阈能(TDE)的影响。实验结果表明,在初始动能40至80 eV的范围内,镓(Ga)和氮(N)原子作为初级击出原子(PKAs)引发的位移对温度呈现不同的敏感性:Ga 的…...
NLTK库: 数据集3-分类与标注语料(Categorized and Tagged Corpora)
NLTK库: 数据集3-分类与标注语料(Categorized and Tagged Corpora) 1.二分类语料 主要是电影语料,和情绪(积极消极、主观客观)有关,有以下2个语料: 1.1 movie_reviews: IMDb 影评 IMDb(Internet Movie …...
物理:人的记忆是由基本粒子构成的吗?
问题: 基因属于人体的一部分,记忆也是人体的一部分,那么为什么基因可以代际遗传,但是记忆却被清空重置。如果基因是由粒子构成,那么记忆是不是也应该由粒子构成?如果记忆是粒子构成的,那么能否说明记忆永恒,即使死亡了身体被分解了,那么只要保证其身体有关的所有粒子被…...
加速度策略思路
一种基于技术指标和动态止损策略的交易方法,旨在提高交易的灵活性和风险控制能力。 1 -动态止损价格计算:该函数通过计算ATR(平均真实范围)和盈利峰值价,结合加速系数,动态调整止损价格。具体来说…...
【计算机组成原理】第二部分 存储器--分类、层次结构
文章目录 分类&层次结构0x01 分类按存储介质分类按存取方式分类按在计算机中的作用分类 0x02 层次结构 分类&层次结构 0x01 分类 按存储介质分类 半导体存储器磁表面存储器磁芯存储器光盘存储器 按存取方式分类 存取时间与物理地址无关(随机访问&#…...
Spring AI 开发本地deepseek对话快速上手笔记
Spring AI Spring AI是一个旨在推进生成式人工智能应用程序发展的项目,Spring AI的核心目标是提供高度抽象化的组件,作为开发AI应用程序的基础,使得开发者能够以最少的代码改动便捷地交换和优化功能模块 在开发之前先得引入大模型…...
Python训练打卡Day23
机器学习管道 pipeline 基础概念 pipeline在机器学习领域可以翻译为“管道”,也可以翻译为“流水线”,是机器学习中一个重要的概念。 在机器学习中,通常会按照一定的顺序对数据进行预处理、特征提取、模型训练和模型评估等步骤,以…...
【每天一个知识点】Dip 检验(Dip test)
Dip 检验(Dip test)是一种用于检验一维数据分布是否为单峰(unimodal)的非参数统计方法。该检验由 Hartigan 和 Hartigan 于 1985 年提出,通常用于探索性数据分析中,以判断数据是否仅具有一个峰值结构&#…...
AbstractQueuedSynchronizer之AQS
一、前置知识 公平锁和非公平锁: 公平锁:锁被释放以后,先申请的线程先得到锁。性能较差一些,因为公平锁为了保证时间上的绝对顺序,上下文切换更频繁 非公平锁:锁被释放以后,后申…...
【Qt】pro工程文件转CMakeLists文件
1、简述 Qt6以后默认使用cmake来管理工程,之前已经一直习惯使用pro,pro的语法确实很简单、方便。 很多项目都是cmake来管理,将它们加入到Qt项目中,cmake确实是大势所趋。比如,最近将要开发的ROS项目,也是使用的cmake语法。 以前总结的一些Qt代码,已经编写成pro、pri等…...
docker-compose部署thingsboard/tb-cassandra
1、配置 阿里云服务器2H8G 最低 系统:Ubuntu20.0.4 安装 docker 和 docker-compose 环境 ====================安装docker====================== # 更新包 sudo apt update# 安装docker sudo apt install docker.io# 查看是否安装成功 docker --version==================…...
MySQL 日期计算方法 date_sub()、date_add()、datediff() 详解-文中有示例帮助理解
1、date_sub()、date_add() date_sub() 和date_add() 语法相同,只不过一个加一个减。 从日期中减去指定时间间隔 语法: DATE_SUB(start_date, INTERVAL expr unit) start_date: 起始日期(如 now() , 字段名)。 INTERVAL expr…...
GPT-4.1和GPT-4.1-mini系列模型支持微调功能,助力企业级智能应用深度契合业务需求
微软继不久前发布GPT-4.1系列模型后,Azure OpenAI服务(国际版)现已正式开放对GPT-4.1和GPT-4.1-mini的微调功能,并通过Azure AI Foundry(国际版)提供完整的部署和管理解决方案。这一重大升级标志着企业级AI…...
如何将两台虚拟机进行搭桥
虚拟机网络搭桥配置指南 要实现两台虚拟机之间的网络互通("搭桥"),需要根据您的虚拟化平台选择合适的网络模式。以下是主流虚拟化软件的配置方法: 一、VMware 虚拟机互通配置 方案 1:使用桥接模式&#x…...
无缝对接主流电商平台接口,解决货源难题
行业调查显示,大多数代购商每天要花费数小时在淘宝、1688等平台寻找合适商品。手动复制商品链接、整理信息不仅耗时耗力,还容易出错——价格标错、库存不准等问题时有发生,直接影响客户体验。更麻烦的是,不同平台的商品信息格式不…...
GZip+Base64压缩字符串在ios上解压报错问题解决(安卓、PC模拟器正常)
java这边的压缩代码 引入的是java8 jdk自带的gzip压缩( java.util.zip.GZIPOutputStream)、BASE64Encoder( sun.misc.BASE64Encoder) public static String compress(String str) {if (str ! null && str.length() ! 0) {ByteArrayOutputStream…...
Cookie、 Local Storage、 Session Storage三种客户端存储方式
存储特性对比表 特性CookieLocal StorageSession Storage生命周期可设置过期时间永久保存会话结束自动清除存储容量4KB左右5-10MB5-10MB自动发送到服务器每次HTTP请求头携带不发送不发送访问方式服务端/客户端均可读写仅客户端仅客户端 使用场景及示例 1. Cookie - 用户身份…...
进程等待简单讲解
1. 基本概念 1.1 进程终止与退出状态 当一个进程终止时,它会向其父进程发送一个信号(通常是SIGCHLD),并保存退出状态(exit status)。退出状态可以是一个正常终止的返回值,也可以是一个信号导致…...
基于大模型预测胸椎管狭窄诊疗全流程的研究报告
目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 1.3 研究方法与数据来源 二、胸椎管狭窄症概述 2.1 疾病定义与分类 2.2 病因与发病机制 2.3 流行病学特征 三、大模型技术原理与应用现状 3.1 大模型基本原理 3.2 在医疗领域的应用案例 3.3 用于胸椎管狭窄…...
Oracle OCP认证考试考点详解083系列15
题记: 本系列主要讲解Oracle OCP认证考试考点(题目),适用于19C/21C,跟着学OCP考试必过。 71. 第71题: 题目 解析及答案: 关于在 Oracle 18c 及更高版本中基于 Oracle 黄金镜像的安装,以下哪…...
【老飞飞源码】新版高清飞飞源码+数据库+客户端+服务器端完整文件打包
【老飞飞源码】新版高清飞飞源码数据库客户端服务器端完整文件打包下载 编译环境 vs2022 搭建环境 sql2022 测试运行环境 windows 11 本地测试生成搭建都成功 功能包含: pvp排行榜 宠物特效 箱子预览系统 vip系统 宝箱系统 内挂系统 离线摆摊系统 特效帽子系…...
Maven 动态插件配置:Profile的灵活集成实践
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...