当前位置: 首页 > news >正文

自回归图像编辑 EditAR: Unified Conditional Generation with Autoregressive Models

Paperhttps://arxiv.org/pdf/2501.04699

Code (coming soon)

目录

方法

实验


EditAR是一个统一的自回归框架,用于各种条件图像生成任务——图像编辑、深度到图像、边缘到图像、分割到图像。

next-token预测的功效尚未被证明用于图像编辑。

EditAR主要构建在Llamagen的基础上,这是一种基于Llama2架构的文本到图像自回归模型。然而,由于缺少条件图像输入,Llamagen不支持图像处理或转换等任务。

贡献:

(1)我们引入了一个新的自回归框架EditAR,它在各种图像处理和图像翻译任务上进行了联合训练,并展示了建立统一的条件图像生成模型的潜力。

(2)在自回归模型的学习中引入蒸馏损失来增强语义。

(3)实验表明,该方法在纹理操作、对象替换、对象移除、局部编辑、canny到image、depth到image和segmentation到image等任务上表现出了较强的性能。

方法

一般情况下,自回归模型将文本到图像生成作为序列到序列建模任务。一种常见的方法包括两个主要组件:将图像转换为离散令牌的VQAutoencoder和对这些令牌的分类分布进行建模的自回归Transformer。

EditAR:

图2:可以采用各种类型的图像条件来执行图像编辑或变换。图像标记索引和文本嵌入都被输入到自回归Transformer F以预测目标标记索引s。为了增强文本到图像的对齐,在训练期间引入蒸馏损失。输出序列s最后在推理期间经由VQ解码器DI解码成真实图像。

描述图像模态:通过修改文本输入的措辞,例如,从深度图生成图像,使用“给定深度,按照指令生成图像:<INSTRUCTION>“,指令是对生成图像的内容的描述。

蒸馏:从DINOv2视觉特征编码器中引入了蒸馏损失\varepsilon_{distill}。对齐网络A由单个卷积层组成,用于将自回归模型F(·)的嵌入空间的维度与基础模型的嵌入空间的维度相匹配。

对于F和Edistill,从最后一个隐藏层提取的特征用于计算此损失。从经验上讲,我们发现这种设计可以改善文本到图像的对齐。

训练和推理:L_CE是用于训练下一个令牌预测模型的交叉熵损失。

在5%的训练样本中设置c_\mathcal{T} = \phi, 在另外5%的训练样本中设置c_{\mathcal{I}_c} = \phi, 在最后5%的训练样本中设置c_{\mathcal{I}_c} = \phi,c_\mathcal{T} = \phi。在推理时,只给出c_{\mathcal{I}_c}c_{\mathcal{T}}作为输入,并顺序预测集合s。

在推理过程中使用无分类器指导:

实验

数据集:

我们使用来自SEED-Data-Edit-Unsplash的1.5M个示例,用于一系列图像编辑任务,包括修改样式,对象,颜色和材料。为了进一步支持对象添加和删除等编辑操作,我们添加了具有180万个示例的PIPE数据集。

在训练过程中,我们以50%的概率随机翻转每一对,并相应地将编辑指令从“添加”调整为“删除”。

对于图像转换任务,我们遵循ControlNet++ ,使用COCOStuff进行分割掩模到图像的转换,MultiGen-20M用于canny边缘和深度到图像任务。

相关文章:

自回归图像编辑 EditAR: Unified Conditional Generation with Autoregressive Models

Paperhttps://arxiv.org/pdf/2501.04699 Code (coming soon) 目录 方法 实验 EditAR是一个统一的自回归框架&#xff0c;用于各种条件图像生成任务——图像编辑、深度到图像、边缘到图像、分割到图像。 next-token预测的功效尚未被证明用于图像编辑。 EditAR主要构建在Ll…...

Java中的集合详解

下面是文章详细介绍了 Java 集合框架的基本思路、主要接口与实现、各类集合之间的区别与各自的适用场景&#xff0c;以及一些常见的使用技巧和最佳实践&#xff0c;供你参考。 Java中的集合详解 在 Java 开发中&#xff0c;集合&#xff08;Collection&#xff09;作为存储和操…...

前端mjs和js文件区别,mjs和cjs区别---.es.js和.mjs的区别

https://www.cnblogs.com/jocongmin/p/18432236 同一份配置如下,一般打包出来的结果时是一样的,只不过扩展名不一样 export default defineConfig({build: {rollupOptions: {output: [// 同一份配置&#xff0c;仅扩展名不同{ format: es, entryFileNames: [name].mjs },{ fo…...

【深度学习】Transformer 的应用

目录 一、自然语言处理领域 1、自然语言处理领域的应用 2、BART模型 3、BERTSum模型与自动文本摘要 4、SG-Net与机器阅读理解 5、SG-Net的应用 6、总结 二、计算机视觉领域 1、图像分类 &#xff08;1&#xff09;背景与挑战 &#xff08;2&#xff09;Transformer的…...

C#学习10——泛型

一、什么是泛型&#xff1f; 官方理解&#xff1a;允许开发者在定义类、接口、方法或委托时使用类型参数 个人理解&#xff1a; 类型模具&#xff08;类似Object变色龙&#xff09; 二、泛型有什么用&#xff1f; 通过参数化类型实现代码复用&#xff0c;提升类型安全性并…...

Spring Validation校验

使用 JSR 303 (Bean Validation) 校验接口参数 JSR 303&#xff0c;也称为Bean Validation规范&#xff0c;提供了一种在Java应用程序中执行验证的标准化方式。它允许你通过注解直接在领域或者DTO&#xff08;数据传输对象&#xff09;类上定义校验规则。 1. 添加依赖 首先需…...

精益数据分析(72/126):MVP的核心法则——消除阻碍与聚焦关键指标

精益数据分析&#xff08;72/126&#xff09;&#xff1a;MVP的核心法则——消除阻碍与聚焦关键指标 在创业领域&#xff0c;许多失败案例源于对产品开发的认知偏差——过度追求功能完善或盲目跟风增长&#xff0c;却忽略了用户核心需求的最直接满足。今天&#xff0c;我们结合…...

从头实现react native expo本地生成APK

根据github上老外的经验制作了一个react native expo项目起始模版,准备放到资源下载里(已经免积分放置好),这个起始模版带有个人非常喜欢的tailwindcss,由于raact native使用sheetstyle这种风格的样式,不太喜欢.当然,我们使用react native paper组件库时,就要对组件库里的组件使…...

打卡第二十三天

仔细回顾一下之前21天的内容&#xff0c;没跟上进度的同学补一下进度。 作业&#xff1a; 自行学习参考如何使用kaggle平台&#xff0c;写下使用注意点&#xff0c;并对下述比赛提交代码。 使用Kaggle平台的注意点 Kaggle是一个数据科学竞赛平台&#xff0c;提供了丰富的数据…...

关于汇编语言与接口技术——单片机串行口的学习心得

学习目标&#xff1a; 1.了解AT89S51单片机片内串行口的基本工作原理 2.掌握与串行口有关的特殊功能寄存器以及四种工作方式 一、串行口内部结构 单片机串行口有两个独立的接收、发送缓冲器SBUF&#xff0c;属于特殊功能寄存器&#xff0c;可以同时发送、接收数据&#xff1b…...

汇川PLC通过Profinet转ModbusTCP网关读取西门子PLC数据案例

Modbus TCP主站即Modbus TCP客户端&#xff0c;Modbus TCP主站最多支持同时与31个Modbus TCP从站 。&#xff08;Modbus TCP服务器&#xff09;进行通信。 第一步设置PLC IP地址&#xff1b; 默认PLC IP地址为192.168.1.88。根据需要判断是否需要修改。 第二步添加Modbus TCP…...

2025-05-20 模型下载--文本向量化--Faiss检索

模型下载 使用Python脚本进行下载 from huggingface_hub import snapshot_download # import os# os.environ["HF_ENDPOINT"] "https://hf-mirror.com" # 自定义下载目录&#xff08;Windows 路径建议用 raw string 或 pathlib&#xff09; download_di…...

idea本地debug断点小技巧

idea本地debug断点小技巧 简单的设置断点条件 断点后&#xff0c;右键这个断点&#xff0c;可以在 condition 中填写能得出布尔的表达式 a 1 你如果写如下&#xff0c;表示先给他赋值&#xff0c;然后断住 a 2; true 断点后设置某个变量的值 在 debug 区域可以设置变量…...

Mybatis面向接口编程

添加与Mapper接口的映射 <!--UserMapper.xml--> <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper.dtd"> …...

谈谈对《加密算法》的理解

文章目录 一、什么是加密算法&#xff1f;二、常见的加密算法有哪些&#xff1f;2.1 对称加密2.2 非对称加密2.3 哈希算法 三、加密算法代码展示3.1 MD5加密3.2 秘钥加密3.3 AES加密解密 四、加密算法的使用场景 一、什么是加密算法&#xff1f; 加密算法是一种通过数学方法将…...

代码随想录算法训练营第60期第四十二天打卡

大家好&#xff0c;今天还是继续我们的动态规划里面的背包问题&#xff0c;前面我们主要接触的是0-1背包和完全背包&#xff0c;其实这两个背包问题主要就是看看每一件物品我们是否有多件&#xff0c;如果每一件物品我们只能取一次的话那这样我们就是0-1背包&#xff0c;如果每…...

Java并发进阶系列:深度讨论官方关于jdk1.8ConcurrentHashMap的computeIfAbsent源代码修复逻辑

在文章中《深度解析官方关于jdk1.8的resizeStamp的bug处理过程》&#xff0c;我们讨论关于CHM的核心设计——resizeStam需要修复的处理过程&#xff0c;本文再次基于openJDK的bugs讨论组提出的CHM源代码另外一个会造成死循环的bug&#xff0c;默认读者已经掌握CHM的核心源代码实…...

npm vs npx 终极指南:从原理到实战的深度对比 全面解析包管理器与包执行器的核心差异,助你精准选择工具

npm vs npx 终极指南&#xff1a;从原理到实战的深度对比 全面解析包管理器与包执行器的核心差异&#xff0c;助你精准选择工具 一、核心定位差异 #mermaid-svg-xM2GZt0lejj6hYk6 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}…...

RK3588 IREE+Vulkan ResNet50推理测试

RK3588 IREE+Vulkan ResNet50推理测试 背景一.性能数据【暂不考虑该框架】二.操作步骤2.1 搭建NFS服务,解决IREE编译时,空间不足的问题2.2 编译、安装`IREE`2.2.1 挂载NFS2.2.2 安装依赖2.2.3 编译`IREE`2.2.4 获取驱动及设备信息2.2.5 下载推理图片2.2.6 生成`onnx`模型转换脚…...

Blaster - Multiplayer P77-P89: 武器瞄准机制

P78_ Blaster HUD And Player Controller P78_1 创建PC和HUD P78_2 Tick Component > SetHUDCrosshairs() P79_ Drawing the Crosshairs DrawHUD() Call Every Tick. #include "HUD/BlasterHUD.h"void ABlasterHUD::DrawHUD() {Super::DrawHUD();FVector2D View…...

【每天一个MCP】【记录向】:准备工作,创建github项目

记录一下&#xff1a; 新建一个仓库 各种填写项目信息 点击创建 &#x1f446;不错&#xff0c;开张了~ 尝试一下这个桌面版的github 登录 果然方便 太高级了。~...

元宇宙中的虚拟经济:机遇与挑战

随着元宇宙概念的兴起&#xff0c;虚拟经济逐渐成为全球科技和经济领域关注的焦点。元宇宙不仅是一个虚拟的社交和娱乐空间&#xff0c;更是一个充满经济活动的全新生态系统。从虚拟货币到数字资产&#xff0c;从虚拟商品交易到去中心化金融&#xff08;DeFi&#xff09;&#…...

多环境回测模拟不同市场条件下的策略表现

Backtrader库的核心组件包括数据源、策略、执行引擎和结果分析器。通过组合这些组件,可以构建一个完整的交易系统。 在进行回测之前,需要准备历史市场数据。Backtrader支持多种数据格式,如CSV文件、Pandas数据框等。 加载数据 可以使用Backtrader提供的bt.feeds.YahooFina…...

nRF Connect SDK开发之(1)环境搭建

目录 一、安装 nRF Connect SDK 开发环境 1)git 2)python 3) J-Link ​编辑 4)nrfutil 1.将nrfutil应用程序所在目录添加到系统路径PATH 2.在命令行中输入nrfutil检测是否可以正常运行 3.运行命令以列出可用命令:nrfutil search 4.安装 device 、toolchain-man…...

武汉火影数字|数字展厅展馆制作:沉浸式体验,全方位互动

在科技飞速发展的当下&#xff0c;数字技术正以前所未有的速度渗透到各个领域&#xff0c;展厅展馆行业也不例外。数字展厅展馆作为传统展厅展馆的创新升级&#xff0c;正逐渐成为展示领域的新宠&#xff0c;为观众带来前所未有的沉浸式体验。 与传统展厅相比&#xff0c;数字展…...

MinIO集群故障,其中一块driver-4异常

现象 driver-4 Offline,驱动状态为未知。 处理过程 建议每个驱动下面新建个文件&#xff0c;便于根据目录里面的drive-x文件区分驱动 rootpve:/mnt/drive-4# df -h Filesystem Size Used Avail Use% Mounted on /dev/sdb 3.7T 695G 3.0T 19% …...

整型数相加的溢出

当正溢出时&#xff0c;返回TMax&#xff0c;负溢出时&#xff0c;返回TMin。这种运算常用在执行数字信号处理的程序中。 程序代码 int saturating_add(int x,int y);void main() {static int x,y;static int i1,sum;x(i<<15)-1;y(i<<15)-1;sumsaturating_add(x,…...

科目一知识点快速回顾与总结

科目一知识点笔记 扣12分的情况 高速上倒掉逆12&#xff1b;普通路上倒掉1逆3 使用伪造&#xff0c;变造的驾驶证&#xff08;行驶证&#xff09;一次记12 饮酒驾驶12 代替实际机动车驾驶人接受交通违法行为处罚和记分牟取经济利益的&#xff0c;一次记12 驾驶校车&#x…...

大模型高效微调技术全面解析:从PEFT原理到实战应用

目录 1. 大语言模型与微调概述 1.1 大语言模型(LLM)简介 1.2 微调的必要性与挑战 2. 参数高效微调(PEFT)技术原理 2.1 PEFT概述 2.2 主要PEFT方法 2.2.1 适配器(Adapters) 2.2.2 LoRA(低秩自适应) 2.2.3 QLoRA(量化LoRA) 2.2.4 IA3(通过抑制和放大内部激活注入适配器)…...

51单片机编程学习笔记——无源蜂鸣器演奏《祝你生日快乐》

大纲 蜂鸣器分类有源蜂鸣器无源蜂鸣器 电路图发声演奏《祝你生日快乐》模拟88键钢琴发声音符时值&#xff08;Note Value&#xff09;演奏完整代码 蜂鸣器是一种常用的电子发声器件&#xff0c;有源蜂鸣器和无源蜂鸣器在工作原理和特性上有明显区别。 蜂鸣器分类 有源蜂鸣器 …...

大语言模型的评估指标

介绍 语言模型的 BLEU、ROUGE 和 困惑度&#xff08;Perplexity&#xff09; 三种常用的语言模型评估指标&#xff0c;帮助你快速理解它们的含义、计算方法及优缺点。 概览 这些指标都是为了解决&#xff1a;「我们自动生成的句子到底有多好&#xff1f;」这个问题&#xff1…...

绿色免安装 批量重命名软件 标签管理,文件整理提升效率

各位文件整理小能手们&#xff0c;今天给大家介绍一款超牛的工具——拖把更名器&#xff01;它是专门搞批量文件重命名的实用家伙&#xff0c;能对文件名、扩展名还有音乐文件标签进行高效管理。 咱先说说它的核心功能。首先是基础重命名操作&#xff0c;它能添加、删除、替换…...

python-leetcode 68.有效的括号

题目&#xff1a; 给定一个只包括“&#xff08;”)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串 s &#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a;左括号必须用相同类型的右括号闭合&#xff1b;左括号必须以正确的顺序闭合&#xff0c…...

ES(Elasticsearch) 基本概念(一)

Elasticsearch作为当前最流行的开源搜索和分析引擎&#xff0c;广泛应用于日志分析、全文搜索、业务智能等领域。Elasticsearch是一个基于 Apache Lucene 构建的分布式搜索和分析引擎、可扩展数据存储和矢量数据库。它针对生产级工作负载的速度和相关性进行了优化。使用 Elasti…...

软考软件评测师—— 操作系统综合知识

目录 嵌入式操作系统 三态模型 操作系统概念 其他操作系统 绝对路径与相对路径 段页式管理 嵌入式操作系统 嵌入式操作系统&#xff08;EOS&#xff09;具有以下特点&#xff1a; 可裁剪性&#xff1a;支持开发性和可伸缩性的体系结构&#xff0c;能够根据需求进行功能…...

简单的re(零基础AI做题)

签到题一般简单&#xff0c;上来就是IDA&#xff08;不管了&#xff0c;IDA&#xff01;&#xff01;&#xff01;&#xff09; 找主函数&#xff0c;这个题类似的做过好几个了 int __fastcall main(int argc, const char **argv, const char **envp) {__int64 v3; // rdx__i…...

一文掌握 LoRA 常见变体

上文主要是对于 LoRA 的原理和一些常见问题进行了讲解&#xff0c;该篇主要是讲解一些常见的 LoRA 变体。本笔记供个人学习总结使用。 QLoRA QLoRA 是在 LoRA 的基础上进行的改进&#xff0c;旨在进一步减少微调大语言模型时的内存占用&#xff0c;同时保持或仅轻微牺牲性能。主…...

QT高DPI支持

核心函数&#xff1a; qputenv("QT_SCREEN_SCALE_FACTORS", envVar); 如: qputenv("QT_SCREEN_SCALE_FACTORS", "1.2"); 这是我个人目前用的效果最好的&#xff0c;可惜数值不能小于1&#xff0c;小于1的时候&#xff0c;会出问题。 需要程序…...

数据仓库是什么?常见问题解答

在当今数字化时代&#xff0c;企业每天都会产生和收集大量数据。如何有效地存储、管理和分析这些数据&#xff0c;从而为企业决策提供支持&#xff0c;成为了一个关键问题。数据仓库作为一种专门设计的数据存储和管理系统&#xff0c;正是为解决这一问题而生。 数据仓库的定义…...

Java 02入门,封装继承多态

static关键字 1.介绍 静态的意思&#xff0c;可以修饰变量以及函数2.特点 1.被类的所有对象所共享 2.多了一种调用方式&#xff0c;可以通过类名进行调用 3.随着类的加载而加载&#xff0c;优先于对象存在*****3.作用 1.在一个对象里面的一个变量改为static&#xff0c;那么…...

企业级 Hosts 自动化管理实战:基于 HTTP 检测的高可用域名解析方案

摘要 本文针对企业级域名解析稳定性需求&#xff0c;提供一套从IP 检测到Hosts 更新的完整自动化解决方案。通过 HTTP 状态码检测、权威 DNS 解析、原子化文件操作等核心技术&#xff0c;结合多行业真实案例&#xff0c;详细阐述方案设计、脚本实现与生产部署&#xff0c;帮助…...

HTTP/HTTPS与SOCKS5协议在隧道代理中的兼容性设计解析

目录 引言 一、协议特性深度对比 1.1 协议工作模型差异 1.2 隧道代理适配难点 二、兼容性架构设计 2.1 双协议接入层设计 2.2 统一隧道内核 三、关键技术实现 3.1 协议转换引擎 3.1.1 HTTP→SOCKS5转换 3.1.2 SOCKS5→HTTP转换 3.2 连接管理策略 3.2.1 智能连接池 …...

AGI大模型(29):LangChain Model模型

1 LangChain支持的模型有三大类 大语言模型(LLM) ,也叫Text Model,这些模型将文本字符串作为输入,并返回文本字符串作为输出。聊天模型(Chat Model),主要代表Open AI的ChatGPT系列模型。这些模型通常由语言模型支持,但它们的API更加结构化。具体来说,这些模型将聊天消…...

鸿蒙开发进阶:深入解析ArkTS语言特性与开发范式

一、前言 在鸿蒙生态开发体系中&#xff0c;DevEco Studio作为核心开发工具为开发者提供了高效的集成环境。而在掌握工具使用之后&#xff0c;深入理解鸿蒙开发语言成为构建高质量应用的关键。本文将聚焦于鸿蒙系统的核心开发语言——ArkTS&#xff0c;全面解析其起源演进、声…...

数据库 1.0.1

表 数据库是一个非常大的仓库&#xff0c;里面的东西就是表&#xff0c;数据都在表里面 use yyy_company就意思是指定使用哪个仓库 show tables;就是show一下有几张表 因为主包的库是刚创建的&#xff0c;所以只有empty set&#xff08;没有表&#xff09; 创建表 创建的时候…...

Leetcode 01 java

两数之和 /* 给定一个整数数组 nums 和一个整数目标值 target&#xff0c; 请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案&#xff0c;并且你不能使用两次相同的元素。 你可以按任意顺序返回…...

30天自制操作系统day5(vram和显存)(GDT和IDT)(c语言结构体)(汇编-c)(ai辅助整理)

day5 harib02d c语言结构体的一些解释 struct BOOTINFO { char cyls, leds, vmode, reserve; short scrnx, scrny; char *vram; }; //最开始的struct命令只是把一串变量声明集中起来&#xff0c;统一叫做“struct BOOTINFO”。 //最初是1字节的变量cyls&#xff0c;接着是1字…...

Linux僵死进程以及文件操作

僵死进程 僵死进程产生的原因&#xff1a; 当子进程先于父进程结束&#xff0c;父进程没有获取子进程的退出码&#xff0c;此时子进程变成僵死进程。 如何处理僵死进程&#xff1a; &#xff08;1&#xff09;父进程先结束&#xff08;子进程会变成孤儿进程&#xff0c;孤儿…...

19 C 语言位运算、赋值、条件、逗号运算符详解:涵盖运算符优先级与复杂表达式计算过程分析

1 位运算符 位运算符是对整数的二进制表示&#xff08;补码形式&#xff09;进行逐位操作的运算符。以下是主要的位运算符及其功能描述&#xff1a; 运算符描述操作数个数副作用&按位与2无|按位或2无^按位异或2无~按位取反1无<<按位左移2无>>按位右移2无 1.1…...

ubuntu下实时检测机械硬盘和固态硬盘温度

sudo apt update sudo apt install smartmontools然后&#xff0c;使用smartctl命令查看硬盘的详细信息&#xff0c;包括温度&#xff1a; sudo smartctl -a /dev/sda实时监控硬盘温度 虽然smartctl不能直接实时显示温度&#xff0c;你可以使用watch命令结合smartctl来定期查…...