突破封闭集限制:OvSGTR引领开放词汇场景图生成新纪元
场景图生成(Scene Graph Generation, SGG),这个领域,旨在通过解析图像来构建描述性的结构化图表,不仅能够识别图片中的物体,还能捕捉它们之间的相互关系。
这种能力对于诸如图像字幕、视觉问答以及图像生成等众多下游任务至关重要。然而,传统的SGG方法往往受限于封闭集假设,即只能识别预先定义好的类别,这极大地限制了其在现实世界的广泛应用。
随着深度学习的发展,特别是开放词汇对象检测(Open Vocabulary Object Detection, OvD)的进步,研究人员开始探索如何让SGG模型突破这一局限,实现对未见过类别物体及其间关系的预测。
那我们这篇文章介绍的这个项目:
OvSGTR(Open-vocabulary Scene Graph Transformers),就是针对于这一场景应用的解决方案。
文章和项目链接:[2311.10988] Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
方法简介
在这篇文章中,作者提出了四个不同的场景图生成的设定,分别是Closed-set SGG、OvD-SGG、OvR-SGG、OvD+R-SGG
-
封闭集SGG (Closed-set SGG):这是最传统的SGG方式,所有参与训练和测试的对象类别及关系都是事先确定好的。这意味着模型只能识别那些它在训练阶段见过的东西。
-
基于开放词汇的对象检测SGG (OvD-SGG):不同于封闭集SGG,这里允许模型去认识那些不在初始集合内的新物体。想象一下,如果你给一个孩子看了一些动物图片,并教会了他们辨认猫、狗等常见宠物;而当遇到从未见过的动物如长颈鹿时,通过描述性的语言提示,孩子仍然可以做出合理的猜测。
-
基于开放词汇的关系SGG (OvR-SGG):如果说OvD-SGG是关于发现新的“名词”,那么OvR-SGG则更关注于捕捉新的“动词”或“形容词”。换句话说,它试图理解两个已知对象之间可能存在但未被记录过的新型关系。例如,在一张描绘人们跳舞的照片里,即使没有明确指出“拥抱”这个动作,系统也应该能够根据上下文推断出来。
-
基于开放词汇的对象+关系SGG (OvD+R-SGG):最后一种设定综合了前两者的特点,既考虑到了可能出现的新物体,又兼顾了它们之间可能存在的新颖联系。这无疑是最具挑战性的任务,因为不仅要处理未知元素本身,还要理解这些元素如何相互作用形成新的意义单元。
在明确了场景图生成(SGG)的四种设定之后,我们接下来将深入了解OvSGTR(Open-vocabulary Scene Graph Transformers)的具体架构。
OvSGTR架构的核心组件
OvSGTR是一个旨在解决开放词汇SGG问题的端到端Transformer模型,它由几个关键组件构成。
下图是它一整个的PipeLine:
视觉编码器与文本编码器
首先,OvSGTR采用了两个冻结权重的基础网络作为输入处理单元——视觉编码器和文本编码器。其中,视觉编码器负责从图像中提取多尺度特征,通常使用像Swin Transformer这样的先进结构;而文本编码器则用来获取描述性语句中的信息,一般选择BERT等预训练语言模型。
之所以选择“冻结”这些基础网络,是因为它们已经在大规模数据集上进行了充分训练,直接利用其强大的表征能力可以减轻后续优化的压力。
当一个图像-文本对被输入到OvSGTR时,这两个编码器会分别输出对应的视觉特征向量和文本特征向量。
为了使两者能够有效融合,研究者们引入了变形编码器模块(deformable encoder),通过交叉注意力机制(cross-attention)增强了不同模态间的信息交流。这种设计不仅提高了模型对于复杂场景的理解力,同时也为后续的关系预测提供了更加丰富的上下文支持。
物体检测与关系识别
一旦获得了高质量的多模态特征表示,下一步就是进行具体的物体检测和关系识别任务。
在这方面,OvSGTR借鉴了DETR(Detecting Objects with Transformers)的思想,即采用一组可学习的对象查询(object queries)来定位并分类图像中的实体。
具体来说,给定K个对象查询后,模型会输出同样数量的隐藏特征向量,每个向量对应一个潜在的物体位置及其类别信息。值得注意的是,这里的类别预测并不是依赖于传统的全连接层实现,而是基于一种称为“视觉概念对齐”的策略来进行的。
对于关系识别部分,OvSGTR并没有沿用以往复杂的图神经网络或消息传递算法,而是提出了一种轻量级的关系头(relation head)。该头部通过简单地拼接主体(subject)、客体(object)以及关系查询的特征向量,并经过两层感知机变换,最终得到表示两者之间联系的边特征向量。这一简化的设计既保持了高效的计算性能,又保证了足够的表达能力,从而能够在不增加过多参数的情况下准确捕捉物体间的互动模式。
视觉概念对齐与知识蒸馏
为了让OvSGTR具备开放词汇的能力,即能识别从未见过的新物体及关系,研究人员特别强调了两个重要机制:“视觉概念对齐”和“视觉概念保留”。
点击突破封闭集限制:OvSGTR引领开放词汇场景图生成新纪元查看全文。
相关文章:
突破封闭集限制:OvSGTR引领开放词汇场景图生成新纪元
场景图生成(Scene Graph Generation, SGG),这个领域,旨在通过解析图像来构建描述性的结构化图表,不仅能够识别图片中的物体,还能捕捉它们之间的相互关系。 这种能力对于诸如图像字幕、视觉问答以及图像生成…...
C语言基础之【程序流程结构】
C语言基础之【程序流程结构】 概述选择结构if语句if…else语句小练习:“三只小猪体重比较” if…else if…else语句小练习:“三只小猪体重比较” 三目运算符小练习:“三只小猪体重比较” switch语句小练习:**“成绩等级判断器”**…...
代码随想录35 动态规划
目录 leetcode 746.使用最小花费爬楼梯 leetcode 62.不同路径 思路: leetcode 63.不同路径|| leetcode 746.使用最小花费爬楼梯 给你一个整数数组 cost ,其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用,即可选…...
【游戏设计原理】98 - 时间膨胀
从上文中,我们可以得到以下几个启示: 游戏设计的核心目标是让玩家感到“时间飞逝” 游戏的成功与否,往往取决于玩家的沉浸感。如果玩家能够完全投入游戏并感受到时间飞逝,说明游戏设计在玩法、挑战、叙事等方面达到了吸引人的平衡…...
51单片机 06 定时器
51 单片机的定时器属于单片机的内部资源,其电路的连接和运转均在单片机内部完成。 作用:1、用于计时;2、替代长时间的Delay,提高CPU 运行效率和处理速度。 定时器个数:3个(T0、T1、T2)…...
4 前端前置技术(中):node.js环境
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 前言...
【Leetcode刷题记录】1456. 定长子串中元音的最大数目---定长滑动窗口即解题思路总结
1456. 定长子串中元音的最大数目 给你字符串 s 和整数 k 。请返回字符串 s 中长度为 k 的单个子字符串中可能包含的最大元音字母数。 英文中的 元音字母 为(a, e, i, o, u)。 这道题的暴力求解的思路是通过遍历字符串 s 的每一个长度为 k 的子串…...
C++效率掌握之STL库:string函数全解
文章目录 1.为什么要学习string?什么是string?2.string类对象的常见构造3.string类对象的容量操作4.string类对象的迭代器5.string类对象的元素访问6.string类对象的元素修改7.string类对象的查找、提取、对比8.string类的非成员函数及npos希望读者们多多…...
Linux命令运行原理及权限管理
目录 1.引言 2.shell命令以及运行原理 3.Linux权限 3.1Linux下的用户类型 3.2Linux权限管理 3.2.1文件访问者的分类(人) 3.2.2文件类型和访问权限(事物属性) 3.2.3文件权限值的表示方法 3.2.4文件访问权限的相关设置方法…...
linux内核源代码中__init的作用?
在 Linux 内核源代码中,__init是一个特殊的宏,用于标记在内核初始化阶段使用的变量或函数。这个宏的作用是告诉内核编译器和链接器,被标记的变量或函数只在内核的初始化阶段使用,在系统启动完成后就不再需要了。因此,这…...
系统学习算法:专题九 穷举vs暴搜vs深搜vs回溯vs剪枝
其中标题的深搜,回溯,剪枝我们之前专题都已经有过学习和了解,这里多了两个穷举和暴搜,其实意思都差不多,穷举就是穷尽力气将所有情况都列举出来,暴搜就是暴力地去一个一个情况搜索,所以就是全部…...
《深度洞察ICA:人工智能信号处理降维的独特利器》
在人工智能技术飞速发展的今天,信号处理作为关键环节,面临着数据维度不断攀升的挑战。高维信号数据虽蕴含丰富信息,但也给处理和分析带来诸多难题,如计算资源消耗大、分析复杂度高、模型易过拟合等。独立成分分析(ICA&…...
FASTA 和 FASTQ 格式详解|SRA转fastq
FASTA 格式 FASTA 格式是一种用于存储序列信息的简单格式,广泛应用于核酸(DNA/RNA)和蛋白质序列的存储。它主要由两个部分组成: 描述行:以“>”符号开头,包含序列的描述信息,如名称、来源等…...
Docker使用指南(一)——镜像相关操作详解(实战案例教学,适合小白跟学)
目录 1.镜像名的组成 2.镜像操作相关命令 镜像常用命令总结: 1. docker images 2. docker rmi 3. docker pull 4. docker push 5. docker save 6. docker load 7. docker tag 8. docker build 9. docker history 10. docker inspect 11. docker prune…...
为何在Kubernetes容器中以root身份运行存在风险?
作者:马辛瓦西奥内克(Marcin Wasiucionek) 引言 在Kubernetes安全领域,一个常见的建议是让容器以非root用户身份运行。但是,在容器中以root身份运行,实际会带来哪些安全隐患呢?在Docker镜像和…...
【人工智能】多模态学习在Python中的应用:结合图像与文本数据的深度探索
《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 多模态学习是人工智能领域的一个重要研究方向,旨在通过结合多种类型的数据(如图像、文本、音频等)来提高模型的性能。本文将深入探讨多模…...
以AI为翼:技术能力进阶的新路径
一、引言 1.1 研究背景与意义 在当今数字化时代,人工智能(AI)已成为推动各领域发展的核心驱动力。从最初简单的算法模型到如今复杂的深度学习架构,AI 技术取得了令人瞩目的进步。自 20 世纪 50 年代人工智能概念提出以来&#x…...
使用 HTTP::Server::Simple 实现轻量级 HTTP 服务器
在Perl中,HTTP::Server::Simple 模块提供了一种轻量级的方式来实现HTTP服务器。该模块简单易用,适合快速开发和测试HTTP服务。本文将详细介绍如何使用 HTTP::Server::Simple 模块创建和配置一个轻量级HTTP服务器。 安装 HTTP::Server::Simple 首先&…...
Jenkins 触发构建的几种常见方式
为了实现自动化构建,Jenkins 提供了多种触发构建的方式。这些触发方式可以根据开发团队的需求来选择,使得构建过程更加灵活和高效。 1. 手动触发构建 手动触发构建是最简单的一种方式,通常用于开发人员或管理员手动启动构建任务。 步骤: 登录 Jenkins 后,进入某个项目(…...
算法基础--二分查找
模板 #include <iostream> #include <cstring> #include <algorithm> #include <unordered_map> /** 二分查找(Binary Search)是一种高效的查找算法,其时间复杂度为 o(logn) */ using namespace std;const int N …...
Vue 3 30天精进之旅:Day 14 - 项目实践
在前面的学习中,我们已经掌握了Vue 3的基础知识,包括其核心概念、Vue Router、Vuex,以及异步操作等。今天是一个重要的里程碑:我们将把这些知识整合到一个实际的项目中。通过项目实践,你将能够深入理解所学知识&#x…...
【Java基础-42.4】Java中的包装类对象默认值:深入解析与注意事项
在Java编程中,包装类(Wrapper Classes)是将基本数据类型(如int、char等)封装为对象的类。它们提供了更多的功能和灵活性,例如允许基本数据类型参与面向对象的操作(如存储在集合中)。…...
Linux进程概念
目录 一.进程 二.进程状态 三.环境变量 四.程序地址空间 五.Linux2.6内核进程调度队列 一.进程 基本概念 课本概念:程序的一个执行实例,正在执行的程序等内核观点:担当分配系统资源(CPU时间,内存)的…...
Linux的简单使用和部署4asszaaa0
一.部署 1 环境搭建方式主要有四种: 1. 直接安装在物理机上.但是Linux桌面使用起来非常不友好.所以不建议.[不推荐]. 2. 使用虚拟机软件,将Linux搭建在虚拟机上.但是由于当前的虚拟机软件(如VMWare之类的)存在⼀些bug,会导致环境上出现各种莫名其妙的问题比较折腾.[非常不推荐…...
人工智能专业术语详解(A)
人工智能不仅是指寻求如何替代人类的机器人或人类寻求自我挑战的游戏,更是指运用复杂的程序化数学,其结果与高质量的训练数据相结合,推动了我们在日常生活中所看到的技术进步。从无人驾驶汽车到寻找癌症的治疗方法,人工智能正在逐…...
深度学习 Pytorch 基础网络手动搭建与快速实现
为了方便后续练习的展开,我们尝试自己创建一个数据生成器,用于自主生成一些符合某些条件、具备某些特性的数据集。 导入相关的包 # 随机模块 import random# 绘图模块 import matplotlib as mpl import matplotlib.pyplot as plt# 导入numpy import nu…...
deepseek的对话风格
概述 deepseek的对话风格,比一般的模型的回答多了思考过程,这是它比较可爱的地方,模型的回答有了思考过程,对用户而言大模型的回答不完全是一个黑盒。 deepseek的对话风格 train_prompt_style """Below is an…...
Spring Security(maven项目) 3.0.2.9版本 --- 改
前言: 通过实践而发现真理,又通过实践而证实真理和发展真理。从感性认识而能动地发展到理性认识,又从理性认识而能动地指导革命实践,改造主观世界和客观世界。实践、认识、再实践、再认识,这种形式,循环往…...
OpenAI新商标申请曝光:AI硬件、机器人、量子计算全线布局?
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...
TVM调度原语完全指南:从入门到微架构级优化
调度原语 在TVM的抽象体系中,调度(Schedule)是对计算过程的时空重塑。每一个原语都是改变计算次序、数据流向或并行策略的手术刀。其核心作用可归纳为: 优化目标 max ( 计算密度 内存延迟 指令开销 ) \text{优化目标} \max…...
AlexNet网络学习笔记(NIPS 2012)
题目:ImageNet Classification with Deep Convolutional Neural Networks 发文机构:多伦多大学 作者:Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton(人工智能教父,AI三巨头——杰弗里.辛顿(Geoffrey Hinton),约书亚.本吉奥(Yoshua Bengio)和扬.勒丘恩(Yan…...
Starrocks 对比 Clickhouse
极速查询的单表查询 StarRocks 在极速查询方面上做了很多,下面着重介绍四点: 1)向量化执行:StarRocks 实现了从存储层到查询层的全面向量化执行,这是 StarRocks 速度优势的基础。向量化执行充分发挥了 CPU 的处理能力…...
C++实现一款功能丰富的通讯录管理系统
在学习编程的过程中,如何设计一个实用的项目是许多同学头疼的问题。如果你是一位正在学习C的同学,想通过实际项目巩固知识,那么这个通讯录管理系统绝对是一个理想的练手项目。在本文中,我将详细拆解代码逻辑,帮助你理解…...
动态规划之背包问题
文章目录 0-1 背包问题1. 二维动态规划实现(0-1 背包):2. 一维动态规划实现(0-1 背包): 完全背包问题1. 二维动态规划实现(完全背包):2. 一维动态规划实现(完…...
Linux抢占式内核:技术演进与源码解析
一、引言 Linux内核作为全球广泛使用的开源操作系统核心,其设计和实现一直是计算机科学领域的研究热点。从早期的非抢占式内核到2.6版本引入的抢占式内核,Linux在实时性和响应能力上取得了显著进步。本文将深入探讨Linux抢占式内核的引入背景、技术实现以及与非抢占式内核的…...
Rust语言进阶之文件处理:BufWriter用法实例(一百零四)
简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【…...
EtherCAT主站IGH-- 30 -- IGH之master.h/c文件解析
EtherCAT主站IGH-- 30 -- IGH之master.h/c文件解析 0 预览一 该文件功能`master.c` 文件功能函数预览二 函数功能介绍`master.c` 中主要函数的作用1. `ec_master_init`2. `ec_master_clear`3. `ec_master_thread_start`4. `ec_master_thread_stop`5. `ec_master_enter_idle_pha…...
关于deepseek的一些普遍误读
最近deepseek成为全球最热门的话题,甚至没有之一,无论是北美,欧洲,各大IT巨头,各个投资机构,政府官员,乃至脱口秀演员,都在不断提及这个话题,而国内,自媒体也…...
刷题记录 动态规划-7: 63. 不同路径 II
题目:63. 不同路径 II 难度:中等 给定一个 m x n 的整数数组 grid。一个机器人初始位于 左上角(即 grid[0][0])。机器人尝试移动到 右下角(即 grid[m - 1][n - 1])。机器人每次只能向下或者向右移动一步。…...
7-2 拯救外星人
7-2 拯救外星人 你的外星人朋友不认得地球上的加减乘除符号,但是会算阶乘 —— 正整数 N 的阶乘记为 “N!”,是从 1 到 N 的连乘积。所以当他不知道“57”等于多少时,如果你告诉他等于“12!”,他就写出了“479001600”这个答案。…...
人工智能导论-第3章-知识点与学习笔记
参考教材3.2节的内容,介绍什么是自然演绎推理;解释“肯定后件”与“否定前件”两类错误的演绎推理是什么意义,给出具体例子加以阐述。参考教材3.3节的内容,介绍什么是文字(literal);介绍什么是子…...
一个开源 GenBI AI 本地代理(确保本地数据安全),使数据驱动型团队能够与其数据进行互动,生成文本到 SQL、图表、电子表格、报告和 BI
一、GenBI AI 代理介绍(文末提供下载) github地址:https://github.com/Canner/WrenAI 本文信息图片均来源于github作者主页 在 Wren AI,我们的使命是通过生成式商业智能 (GenBI) 使组织能够无缝访问数据&…...
Java 大视界 -- Java 大数据在智能电网中的应用与发展趋势(71)
💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…...
c语言练习题【消息队列、共享内存、信号灯集】
练习1:消息队列 请使用消息队列实现2个终端之间互相聊天 #发送端 key_t key; int id;typedef struct Msgbuf{long channel;char buf[128];}msg_t;int main(int argc, const char *argv[]) {if (argc<2){printf("传入频道号\n");return 1;}keyftok("./ipc&q…...
力扣 295. 数据流的中位数
🔗 https://leetcode.cn/problems/find-median-from-data-stream/ 题目 数据流中不断有数添加进来,add 表示添加数据,find 返回数据流中的中位数 思路 大根堆存储数据流中偏小的数据小根堆存储数据流中偏大的数据若当前的 num 比大根堆的…...
JavaScript原型链与继承:优化与扩展的深度探索
在 JavaScript 的世界里,万物皆对象,而每个对象都有一个与之关联的原型对象,这就构成了原型链的基础。原型链,简单来说,是一个由对象的原型相互连接形成的链式结构 。每个对象都有一个内部属性[[Prototype]]࿰…...
【建站】专栏目录
建站专栏的想法有很多,想写穷鬼如何快速低成本部署前后端项目让用户能访问到,如何将网站收录到百度,bing,google并优化seo让搜索引擎搜索到网站,想写如何把网站加入google广告或者接入stripe信用卡首款平台收款&#x…...
题目 1160: 出圈
题目描述 设有n个人围坐一圈并按顺时针方向从1到n编号,从第1个人开始进行1到m的报数,报数到第个m人,此人出圈,再从他的下一个人重新开始1到m的报数,如此进行下去直到所剩下一人为止。 输入格式 输入多行,每…...
Python小游戏29乒乓球
import pygame import sys # 初始化pygame pygame.init() # 屏幕大小 screen_width 800 screen_height 600 screen pygame.display.set_mode((screen_width, screen_height)) pygame.display.set_caption("打乒乓球") # 颜色定义 WHITE (255, 255, 255) BLACK (…...
力扣 【99. 恢复二叉搜索树】Java题解(二叉树的 Morris 遍历)
题目链接 Morris遍历 递归和迭代遍历,不管是前序中序还是后续,空间复杂度都是O(n)(递归是因为隐式调用栈的开销)。 而Morris遍历可以做到空间复杂度是O(1)。 思路就是节点的前序节点的右指针指向该节点,来保证可以通…...