HunyuanCustom:文生视频框架论文速读
《HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation》论文讲解
一、引言
本文提出了 HunyuanCustom,这是一个基于多模态驱动的定制化视频生成框架。该框架旨在解决现有视频生成模型在身份一致性(identity consistency)和输入模态多样性方面的不足。HunyuanCustom 支持图像、音频、视频和文本等多种条件输入,能够生成具有特定主题身份的视频,广泛应用于虚拟人广告、虚拟试穿、唱歌头像和视频编辑等领域。
二、相关工作
(一)视频生成模型
近年来,扩散模型推动了视频生成技术的发展,从静态图像合成进化到动态时空建模。现有方法主要集中在文本引导的视频生成或基于单一参考图像的视频生成,但在生成内容的精细控制和概念驱动编辑方面仍存在不足。
(二)视频定制化
1. 实例特定视频定制化
这种方法通过使用与目标身份相同的多张图像对预训练的视频生成模型进行微调,每种身份单独训练。例如,Textual Inversion 和 DreamBooth 将图像身份信息嵌入文本空间,实现与文本的有效交互。然而,这些方法依赖于实例特定优化,难以实现实时或大规模视频定制化。
2. 端到端视频定制化
这种方法通过训练额外的条件网络将目标图像的身份信息注入视频生成模型,使模型在推理阶段能够泛化到任意身份图像输入。一些工作专注于保持面部身份,如 ID-Animator 和 ConsisID 等。但现有方法在处理多个主题身份的维护和交互时仍有较大提升空间。
三、方法
(一)概述
HunyuanCustom 以 Hunyuan Video 生成框架为基础,通过引入基于 LLaVA 的文本 - 图像融合模块和图像 ID 增强模块,实现对文本和图像的交互理解,增强模型对身份信息的把握。此外,为支持音频和视频条件注入,分别设计了音频和视频的特定注入机制。
(二)多模态任务
HunyuanCustom 支持以下四类任务:
-
文本驱动视频生成:基于 HunyuanVideo 的文本 - 视频生成能力,根据文本提示生成对应视频。
-
图像驱动视频定制:以输入图像提取身份信息,结合文本描述生成对应视频,支持人类和非人类身份以及多身份输入。
-
音频驱动视频定制:在图像驱动定制基础上融入音频,在文本描述场景中使主题与音频同步行动。
-
视频驱动视频定制:实现基于身份定制的对象替换或插入,可将目标身份插入背景视频。
(三)多模态数据构建
数据来源广泛,涵盖人类、动物、植物等八大类别。数据处理包括过滤和预处理、主体提取、视频分辨率标准化、视频标注和掩码数据增强等步骤,确保数据质量以提升模型性能。
1. 数据过滤和预处理
利用 PySceneDetect 分割视频为单镜头剪辑,使用 textbpn-plusplus 过滤含过多文本的剪辑,对视频进行裁剪和对齐,并通过 koala-36M 模型进一步优化。
2. 主体提取
-
单主体提取:使用 Qwen7B 模型标记帧中所有主体并提取 ID,用 Union-Find 算法计算 ID 出现频率,选择最高频 ID 作为目标主体。利用 YOLO11X 和 InsightFace 分别进行人体分割和面部检测。
-
非人类主体提取:使用 QwenVL 提取视频主体关键词,并通过 GroundingSAM2 生成掩码和边界框。
-
多主体提取:使用 QwenVL 和 Florence2 提取边界框,再通过 GroundingSAM2 进行主体提取,并进行聚类以去除不包含所有主体的帧。
(四)图像驱动视频定制
-
基于 LLaVA 的文本 - 图像交互:通过设计图像嵌入模板和图像追加模板,利用 LLaVA 的多模态交互理解能力,实现文本和图像的有效融合。
-
身份增强:通过时间轴拼接图像特征,并利用视频模型在时间维度上的高效信息传递能力,增强视频身份一致性。
-
多主体定制化:在单主体定制模型基础上进行微调,为每个条件图像分配不同的时间索引,以区分不同身份图像。
(五)多模态主体中心视频生成
1. 音频驱动视频定制
提出身份解耦音频网(Identity-disentangled AudioNet),提取音频特征并通过空间交叉注意力机制将其注入视频特征,实现层次化音频 - 视频对齐。
2. 视频驱动视频定制
采用高效的视频条件注入策略,先通过预训练的因果 3D-VAE 对条件视频进行编码和压缩,再通过特征对齐将其与视频潜在表示融合,最后直接将对齐后的特征添加到视频潜在表示中。
四、实验
(一)实验设置
使用以下指标评估视频定制性能:
-
身份一致性:使用 Arcface 检测并提取参考人脸和生成视频各帧的嵌入,计算平均余弦相似度。
-
主体相似性:使用 YOLOv11 检测并分割人类,再计算参考与结果的 DINO-v2 特征相似度。
-
文本 - 视频对齐:使用 CLIP-B 评估文本提示与生成视频的对齐程度。
-
时间一致性:使用 CLIPB 模型计算各帧与其相邻帧及第一帧的相似度。
-
动态程度:根据 VBench 测量物体的运动程度。
(二)单主体视频定制化比较
1. 基线方法
将 HunyuanCustom 与包括商业产品(Vidu 2.0、Keling 1.6、Pika 和 Hailuo)和开源方法(Skyreels-A2 和 VACE)在内的多种先进视频定制方法进行比较。
2. 定性比较
HunyuanCustom 在保持身份一致性的同时,具有更好的视频质量和多样性。
3. 定量比较
HunyuanCustom 在身份一致性和主体相似性方面表现最佳,与其他指标表现相当。
(三)多主体视频定制化实验和应用
1. 定性比较
HunyuanCustom 有效捕捉人类和非人类主体身份,生成符合提示的视频,且视觉质量高、稳定性好。
2. 虚拟人广告
HunyuanCustom 能够生成具有良好互动性的广告视频,保持人物身份和产品细节,使视频符合提示。
(四)音频驱动视频定制化实验
1. 音频驱动单主体定制化
HunyuanCustom 实现了在文本描述的场景和姿势中,使角色说出相应音频,生成多样化的视频。
2. 音频驱动虚拟试穿
结合文本提示和音频,生成具有指定服装的人物视频,同时保持身份一致性。
(五)视频驱动视频定制化实验
在视频主体替换任务中,与 VACE 和 Keling 相比,HunyuanCustom 有效避免边界伪影,实现与视频背景的无缝融合,并保持强烈的身份保护。
(六)消融研究
比较完整模型与三种消融模型(无 LLaVA、无身份增强、通过通道级拼接进行身份增强)的性能,结果表明 LLaVA 不仅传递提示信息,还提取关键身份特征;身份增强模块在细化身份细节方面有效;时间拼接有助于通过强大的时间建模先验有效捕捉目标信息,并最大限度地减少对生成质量的影响。
五、结论
HunyuanCustom 是一种新颖的多模态定制视频生成模型,能够实现主体一致的视频生成,并支持图像、音频和视频与文本驱动条件的结合。通过整合文本 - 图像融合模块、图像 ID 增强模块和高效的音频及视频特征注入过程,确保生成的视频符合用户特定要求,达到高保真度和灵活性。大量实验证明,HunyuanCustom 在各项任务中均优于现有方法,在身份一致性、真实性和视频 - 文本对齐方面表现出色,是可控视频定制领域的领先解决方案,为未来可控视频生成研究铺平了道路,并拓展了人工智能生成内容(AIGC)在创意产业及其他领域的潜在应用。
六、核心技术汇总表格
相关文章:
HunyuanCustom:文生视频框架论文速读
《HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation》论文讲解 一、引言 本文提出了 HunyuanCustom,这是一个基于多模态驱动的定制化视频生成框架。该框架旨在解决现有视频生成模型在身份一致性(identity consistenc…...
HTTP、HTTPS、SSH区别以及如何使用ssh-keygen生成密钥对
HTTP、HTTPS、SSH区别以及如何使用ssh-keygen生成密钥对 HTTP (HyperText Transfer Protocol) 定义:应用层协议,用于通过Web传输数据(如网页、文件)默认端口:80机制:客户端发送Get请求,服务器…...
如何启动vue项目及vue语法组件化不同标签应对的作用说明
如何启动vue项目及vue语法组件化不同标签应对的作用说明 提示:帮帮志会陆续更新非常多的IT技术知识,希望分享的内容对您有用。本章分享的是node.js和vue的使用。前后每一小节的内容是存在的有:学习and理解的关联性。【帮帮志系列文章】&…...
Ubuntu22.04安装显卡驱动/卸载显卡驱动
报错 今日输入nvidia-smi报错,在安装了535和550,包括560都没办法解决,但是又怕乱搞导致环境损坏,打算把显卡卸载然后重新安装系统默认推荐版本的显卡驱动 qinqin:~$ nvidia-smi Failed to initialize NVML: Driver/library version mismatch NVML library version: 560.35卸载…...
【桌面】【输入法】常见问题汇总
目录 一、麒麟桌面系统输入法概述 1、输入法介绍 2、输入法相关组件与服务 3、输入法调试相关命令 3.1、输入法诊断命令 3.2、输入法配置重新加载命令 3.3、启动fcitx输入法 3.4、查看输入法有哪些版本,并安装指定版本 3.5、重启输入法 3.6、查看fcitx进程…...
Web3 初学者学习路线图
目录 🌟 Web3 初学者学习路线图 🧩 第一步:搞懂 Web3 是什么 ✅ 学什么? 🔧 推荐工具: 🎥 推荐学习: 🛠️ 第二步:了解智能合约和 Solidity(核心技能) ✅ 学什么? 🔧 工具: 📘 推荐课程: 🌐 第三步:连接前端和区块链,创建简单 DApp ✅ 学…...
python打卡day21
常见的降维算法 知识点回顾: LDA线性判别PCA主成分分析t-sne降维 之前学了特征降维的两个思路,特征筛选(如树模型重要性、方差筛选)和特征组合(如SVD/PCA)。 现在引入特征降维的另一种分类:无/有…...
KNOWLEDGE-BASED SYSTEMS(KBS期刊)投稿经验分享
期刊介绍: KBS是计算机一区,CCF-c期刊,(只看大类分区,小类不用看,速度很快,桌拒比较多,能送审就机会很大!) 具体时间流程: 7月初投稿…...
vue使用rules实现表单校验——校验用户名和密码
编写校验规则 常规校验 const rules {username: [{ required: true, message: 请输入用户名, trigger: blur },{ min: 5, max: 16, message: 长度在 5 到 16 个字符, trigger: blur }],password: [{ required: true, message: 请输入密码, trigger: blur },{ min: 5, max: 1…...
[CANN] 安装软件依赖
环境 昊算平台910b NPUdocker容器 安装步骤 安装依赖-安装CANN(物理机场景)-软件安装-开发文档-昇腾社区 apt安装miniconda安装 Apt 首先进行换源,参考昇腾NPU容器内 apt 换源 Miniconda 安装miniconda mkdir -p ~/miniconda3 wget …...
代码随想录算法训练营第三十七天
LeetCode题目: 300. 最长递增子序列674. 最长连续递增序列718. 最长重复子数组2918. 数组的最小相等和(每日一题) 其他: 今日总结 往期打卡 300. 最长递增子序列 跳转: 300. 最长递增子序列 学习: 代码随想录公开讲解 问题: 给你一个整数数组 nums ,找到其中最长…...
Qt开发经验 --- 避坑指南(11)
文章目录 [toc]1 QtCreator同时运行多个程序2 刚安装的Qt编译报错cannot find -lGL: No such file or directory3 ubuntu下Qt无法输入中文4 Qt版本发行说明5 Qt6.6 VS2022报cdb.exe无法定位dbghelp.dll输入点6 Qt Creator13.0对msvc-qmake-jom.exe支持有问题7 银河麒麟系统中ud…...
vue 组件函数式调用实战:以身份验证弹窗为例
通常我们在 Vue 中使用组件,是像这样在模板中写标签: <MyComponent :prop"value" event"handleEvent" />而函数式调用,则是让我们像调用一个普通 JavaScript 函数一样来使用这个组件,例如:…...
青藏高原东北部祁连山地区250m分辨率多年冻土空间分带指数图(2023)
时间分辨率:10年 < x < 100年空间分辨率:100m - 1km共享方式:开放获取数据大小:24.38 MB数据时间范围:近50年来元数据更新时间:2023-10-08 数据集摘要 多年冻土目前正在经历大规模的退化,…...
[6-2] 定时器定时中断定时器外部时钟 江协科技学习笔记(41个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 V 30 31 32 33 34 35 36 37 38 39 40 41...
抖音视频去水印怎么操作
在抖音上保存或分享视频时,水印通常会自动添加。如果想去除水印,可以尝试以下方法,但请注意尊重原创作者的版权,仅限个人合理使用。 方法 1:使用第三方去水印工具(手机/电脑均可) 复制视频链接 …...
Java并发编程
Java并发编程的核心挑战 线程安全与数据竞争 线程安全的概念及其重要性数据竞争的产生原因及常见场景如何通过同步机制(如锁、原子类)避免数据竞争 // 示例:使用synchronized关键字实现线程安全 public class Counter {private int count …...
【ospf综合实验】
拓扑图:...
NVMe控制器之仿真平台搭建
本设计采用Verilog HDL语言进行实现并编写测试激励,仿真工具使用Mentor公司的QuestaSim 10.6c软件完成对关键模块的仿真验证工作,由于是基于Xilinx公司的Kintex UltraScale系列FPGA器件实现的,因此使用Xilinx公司的Vivado2019.1设计套件工具进…...
深入探究 InnoDB 的写失效问题
在 MySQL 数据库的世界中,InnoDB 存储引擎凭借其卓越的性能和可靠性,成为众多应用的首选。然而,如同任何复杂的系统一样,InnoDB 也面临着一些挑战,其中写失效问题便是一个值得深入探讨的关键议题。本文将带您全面了解 …...
边缘计算从专家到小白
“云-边-端”架构 “云” :传统云计算的中心节点,是边缘计算的管控端。汇集所有边缘的感知数据、业务数据以及互联网数据,完成对行业以及跨行业的态势感知和分析。 “边” :云计算的边缘侧,分为基础设施边缘和设备边缘…...
智能商品推荐系统技术路线图
智能商品推荐系统技术路线图 系统架构图 --------------------------------------------------------------------------------------------------------------- | 用户交互层 (Presentation Layer) …...
SpringMVC面试内容
SpringMVC运行流程 SpringMVC的运行流程SpringBoot Vue交互流程HTTP 的 GET 和 POST 区别跨域请求是什么?有什么问题?怎么解决?浏览器访问资源没有响应,怎么排查Cookie的理解Session的理解 Cookie和Session的区别 SpringMVC的运行流程 1、域名解析…...
Python 核心概念速查清单
本文大纲 1. 变量与字符串 (Variables and Strings) 变量 (Variables): 用于存储值。字符串 (String): 由单引号或双引号包围的字符序列。 示例:打印 “Hello world!” print("Hello world!")使用变量打印: msg = "Hello world!" print(msg)字符串拼接…...
Unity.UGUI DrawCall合批笔记
前言 昨天在通过FrameDebug查看DrawCall时,发现批次结果与理解中的不一致,又去补充了一下这方面知识,笔记记录下,只关乎UGUI。 基础场景 首先列一下无法合批的一些基础场景 1.图片无图集或图集不同,图片是运行时生成的…...
高精度加减
1、高精度加法 主要有以下几步: 输入处理:使用字符串来存储大整数,避免数值范围限制。对齐数字:确保两个数字的数位对齐(前面补零)。逐位相加:从最低位开始,逐位相加并处理进位。最…...
day21python打卡
知识点回顾: LDA线性判别PCA主成分分析t-sne降维 还有一些其他的降维方式,也就是最重要的词向量的加工,我们未来再说 作业: 自由作业:探索下什么时候用到降维?降维的主要应用?或者让ai给你出题&…...
DataBinding与Kotlin优化视图绑定
在 Android 开发中,DataBinding 与 Kotlin 的结合可以显著提升代码的简洁性和可维护性,彻底摆脱传统 findViewById 的繁琐操作。以下是如何通过 DataBinding 优化视图绑定的完整指南: 一、为何要告别 findViewById? 模板代码冗余…...
CDGP主观题题库与范例解答
本文共8400字,涉及数据建模、数据安全、主数据、数据架构等主观题解答范例 数据建模题目 初次访问网购网站的访客,如试图在网站上购物,则需要申请会员。申请会员时需要填写会员姓名、性别、身份证号码、联系电话、会员ID、密码等信息。会员申请成功后,通过会员ID和密码便…...
2.商户查询缓存
2.0 问题记录 2.0.1 为什么要给缓存 TTL 1. 防止内存泄漏:如果不设置过期时间,缓存数据会永久存在于 Redis 中,随着时间推移可能导致 Redis 内存耗尽。2. 数据一致性:设置合理的过期时间可以确保缓存不会长期存储过时数据&#…...
vs python“““标记注释报错,vs使用自带环境安装 python第三方库
文章目录 vs python"""标记注释报错vs使用自带环境安装 python第三方库 vs python"""标记注释报错 解决方法: 切换编码 文件-高级保存选项-编码处选择下拉菜单中的“Unicode(UTF-8带签名)-代码页65001”-确定 这里更详细:…...
区块链技术中的Java SE实战:从企业级应用到5大核心问题解析
区块链技术中的Java SE实战:从企业级应用到5大核心问题解析 问题1:如何在Java SE中实现区块链的基本数据结构? 回答1: 区块链的核心数据结构是链式区块,每个区块包含数据、哈希值以及前一个区块的哈希值。以下是一个…...
数据结构—(概述)
目录 一 数据结构,相关概念 1. 数据结构: 2. 数据(Data): 3. 数据元素(Data Element): 4. 数据项: 5. 数据对象(Data Object): 6. 容器(container): 7. 结点(Node)ÿ…...
UE5 PCG学习笔记
https://www.bilibili.com/video/BV1onUdY2Ei3/?spm_id_from333.337.search-card.all.click&vd_source707ec8983cc32e6e065d5496a7f79ee6 一、安装PCG 插件里选择以下进行安装 移动目录后,可以使用 Update Redirector References,更新下࿰…...
Harness: 全流程 DevOps 解决方案,让持续集成如吃饭般简单
引言 在当今快速发展的软件开发世界中,高效的 DevOps 工具变得越来越重要。Harness 作为一个开源的运维平台,为开发和运维团队提供了从代码托管到 CI/CD 的全流程解决方案,同时实现自动化的开发环境和制品管理。这种集中化的工具可以显著减少运维难度,提高团队效率,真正解…...
Windows:Powershell的使用
文章目录 零、格式化输出命令1、Format-List(别名:fl) 一、服务管理SC命令二、软件管理命令三、权限管理命令1、Get-Acl2、Set-Acl 总结 零、格式化输出命令 1、Format-List(别名:fl) 可通过管道符传递对象…...
AIGC时代大模型幻觉问题深度治理:技术体系、工程实践与未来演进
文章目录 一、幻觉问题的多维度透视与产业冲击1.1 幻觉现象的本质特征与量化评估1.2 产业级影响案例分析 二、幻觉问题的根源性技术解剖2.1 数据污染的复合效应2.1.1 噪声数据类型学分析2.1.2 数据清洗技术实现 2.2 模型架构的先天缺陷2.2.1 注意力机制的局限性2.2.2 解码策略的…...
JMeter 中通过 WebSocket (WS) 协议发送和接收 Protocol Buffers (Proto) 消息
在 JMeter 中通过 WebSocket (WS) 协议发送和接收 Protocol Buffers (Proto) 消息,需要使用 JMeter WebSocket 插件,并结合 JSR223 脚本处理 Proto 的序列化和反序列化。以下是完整步骤: 1. 准备工作 1.1 安装 WebSocket 插件 下载插件&…...
PyQt5基础:QWidget类的全面解析与应用实践
在Python的GUI编程领域,PyQt5是一个强大且广泛应用的库。其中,QWidget类作为所有用户界面对象的基类,是构建丰富多样用户界面的基础。今天,我们就来深入了解QWidget类及其相关应用。 QWidget类概述 QWidget类是PyQt中所有窗口和…...
DA14585墨水屏学习
一、do_min_word void do_min_work(void) {timer_used_min app_easy_timer(APP_PERIPHERAL_CTRL_TIMER_DELAY_MINUTES, do_min_work);current_unix_time time_offset;time_offset 60;// if (isconnected 1)// {// GPIO_SetActive(GPIO_LED_PORT, GPIO_LED_PIN);// …...
AI日报 · 2025年5月10日|OpenAI“Stargate”超级数据中心项目掀起美国各州争夺战
1、OpenAI“Stargate”超级数据中心项目掀起美国各州争夺战 《华盛顿邮报》披露,OpenAI 与 Oracle、SoftBank 合作推进的“Stargate”项目(首期投资 1000 亿美元,四年内总投资 5000 亿美元)已收到超过 250 份选址提案ÿ…...
浅谈装饰模式
一、前言 hello大家好,本次打算简单聊一下装饰者模式,其实写有关设计模式的内容还是蛮有挑战性的,首先呢就是小永哥实力有限担心说不明白,其次设计模式是为了解决某些问题场景,在当前技术生态圈如此完善的情况下&#…...
《Python星球日记》 第54天:卷积神经网络进阶
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 一、深度CNN架构解析1. LeNet-5(1998)2. AlexNet&#x…...
R 语言科研绘图 --- 桑基图-汇总
在发表科研论文的过程中,科研绘图是必不可少的,一张好看的图形会是文章很大的加分项。 为了便于使用,本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中,获取方式: R 语言科研绘图模板 --- sciRplothttps://mp.…...
JDBC工具类
目录 引言 一、JDBC连接数据库步骤 1. 加载驱动 2. 获取连接(URL 用户名 密码) 3. 编写sql 4. 获取执行sql的stmt的对象 5. 执行sql 拿到结果集 6. 遍历结果集 7. 关闭资源(先开的后关 后开的先关) 二、JDBC工具类 版…...
【深度学习-Day 8】让数据说话:Python 可视化双雄 Matplotlib 与 Seaborn 教程
Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...
InnoDB结构与表空间文件页的详解
目录 1.InnoDB的概览 表空间文件在哪里? 为什么要设计成内存结构和磁盘结构? 表空间与表空间文件关系? 用户数据如何在表空间文件存储? 2.页 如何设置页的大小? 页的结构及在表空间的位置? 页头包…...
计算机网络基础科普
IP地址是计算机网络中标识设备的唯一地址 IPv4(32位)IPv6(128位) 1.IPv4(32位) 简介:IPv4(Internet Protocol version 4)是互联网协议(IP)的…...
PostgreSQL 的 pg_advisory_lock_shared 函数
PostgreSQL 的 pg_advisory_lock_shared 函数详解 pg_advisory_lock_shared 是 PostgreSQL 提供的共享咨询锁函数,允许多个会话同时获取相同键值的共享锁,但排斥排他锁。 共享咨询锁 vs 排他咨询锁 锁类型共享锁 (pg_advisory_lock_shared)排他锁 (pg…...
Win11安装APK方法详解
1、官方win11系统 预览版 开发版 正式版 都行 2、同时你还需要开启主板 BIOS 虚拟化选项(具体名称不同主板略有不同) 这一步自行百度 开始:先去确定有没有开启虚拟化 任务管理器检查—— 虚拟化是否已经开启,如果没有自己去BIO…...