当前位置: 首页 > news >正文

畅游Diffusion数字人(21):基于Wan2.1的音频驱动数字人FantasyTalking

畅游Diffusion数字人(0):专栏文章导航

前言:AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具,如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型,虽然效果不错,但是收费昂贵。而开源解决方案,如Hallo3、Sonic,效果与商业工具仍存在不小差距。FantasyTalking是一个基于Wan2.1的对口型工作,相比之前的开源方案在效果上进步显著。

目录

效果速览

原理简介

两阶段音频-视觉对齐

身份保持

运动强度调节

论文和代码


效果速览

可以去原始项目主页观看视频:FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

 

原理简介

核心的创新点有三个:两阶段音频-视觉对齐、身份保持和运动强度调节

 

两阶段音频-视觉对齐

 

动机:以往的方法通常过于关注唇部同步而忽视了如动作、表情等微妙但重要的非唇部运动,这导致了在真实的“wild talking”场景下表现不是很好。

做法:FantasyTalking 提出了一种名为DAVA的两阶段学习策略:

  • Clip-level:首先在片段级别上学习音频与视觉元素(包括表情、身体动作甚至是背景变化)之间的弱相关性,建立全局的视听依赖关系,允许整体特征融合。

  • Frame-level:然后在帧级别上专注于那些高度与音频相关的视觉特征细化,特别是针对唇部为中心的动作进行精确的音频-视觉对齐。

身份保持

动机:无论是在动作驱动、虚拟换衣、对口型等Diffusion-based的任务中,使用从主干网络复制权重的Reference Net是常规做法,这些Reference Net的输入是整张参考图,这可能会限制视频中人物和背景的大范围自然的变化。

做法:FantasyTalking案聚焦于面部区域并通过交叉注意力机制来解耦身份保留与动作生成,确保在整个生成的视频序列中保持角色的身份特征。这种做法相比于Reference Net不仅更轻量级,聚焦面部的也可以解放Reference Net对背景和人物自然运动的限制。

运动强度调节

动机:不同的人说话风格不一样,例如有的人说话喜欢频繁使用手势,有的人说话表情很夸张。但是只通过音频是很难对这些进行显式控制的,因此需要引入更多的条件作为辅助。

做法:通过基于面部关键点和身体关节的运动强度调节模块,可以控制角色动作的强度,对说话的表情和动作运动强度进行显式的控制。

论文和代码

论文地址:FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

代码地址:https://github.com/Fantasy-AMAP/fantasy-talking/tree/main

代码和模型将于8月前开源~

相关文章:

畅游Diffusion数字人(21):基于Wan2.1的音频驱动数字人FantasyTalking

畅游Diffusion数字人(0):专栏文章导航 前言:AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具,如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型,虽然效果不错,但是收费昂贵。而开源解决方案…...

CentOS禁用nouveau驱动

1、验证 nouveau 是否在运行 lsmod | grep nouveau如果命令返回结果,说明 nouveau 驱动正在运行。 2、编辑黑名单文件 通过编辑黑名单配置文件来禁用 nouveau 驱动,这样在系统启动时不会加载它。 vi /etc/modprobe.d/blacklist-nouveau.conf修改以下…...

《Operating System Concepts》阅读笔记:p587-p596

《Operating System Concepts》学习第 52 天,p587-p596 总结,总计 10 页。 一、技术总结 1.Recovery (1)consistency checking consistency checking 工具:fsck。 (2)log-structure file system (3)WAFL file system 2.Veritas (1)Ve…...

k8s 1.24.17版本部署(使用Flannel插件)

1.k8s集群环境准备 推荐阅读: https://kubernetes.io/zh/docs/setup/production-environment/tools/kubeadm/install-kubeadm/ 1.1 环境准备 环境准备:硬件配置: 2core 4GB磁盘: 50GB操作系统: Ubuntu 22.04.04 LTSIP和主机名:10.0.0.231 master23110.0.0.232 worker23210.0…...

通信协议详解(十):PSI5 —— 汽车安全传感器的“抗干扰狙击手”

一、PSI5是什么? 一句话秒懂 PSI5就像传感器界的“防弹信使”:在汽车安全系统(如气囊)中,用两根线同时完成供电数据传输,即便车祸时线路受损,仍能确保关键信号准确送达! 基础概念…...

Kafka生产者和消费者:数据管道的核心引擎与智能终端

在分布式系统中,数据的高效流动如同人体的血液循环,而Kafka的生产者(Producer)与消费者(Consumer)正是驱动这一循环的核心组件。它们不仅是Kafka客户端的基本形态,更是构建实时数据生态的基石。…...

特权FPGA之按键消抖

完整代码如下所示: timescale 1ns / 1ps// Company: // Engineer: 特权 // // Create Date: // Design Name: // Module Name: // Project Name: // Target Device: // Tool versions: // Description: // // Dependencies: // // Revision: // …...

实时比分更新系统的搭建

搭建一个实时比分更新系统需要考虑多个技术环节,以下是一个完整的实现方案: 一、系统架构 1.数据获取层 比分数据API接入(如熊猫比分、API-Football等) 网络爬虫(作为备用数据源) 2.数据处理层 …...

【Linux】线程的概念与控制

目录 1. 整体学习思维导图 2. 线程的概念 2.1 基础概念 2.2 Linux下的线程 初步理解: 2. 分页式存储 3.1 页表 3.1.1 页框/页 3.1.2 页表机制 3.1.3 从虚拟地址到物理地址的转换 总结: 3.2 TLB快表 3.3 缺页异常(Page Fault&am…...

K8s 老鸟的配置管理避雷手册

Yining, China 引言 对于这种案例,你们的处理思路是怎么样的呢,是否真正的处理过,如果遇到,你们应该怎么处理。 最后有相关的学习群,有兴趣可以加入。 开始 一、血泪教训:环境变量引发的真实灾难 1.1 …...

飞速(FS)解决方案验证实验室搬迁升级,赋能客户技术服务

飞速(FS)解决方案验证实验室近日顺利完成搬迁升级,标志着飞速(FS)在解决方案可行性验证、质量保障以及定制化需求支持方面迈上新台阶,进一步提升了产品竞争力和客户信任度。 全新升级的实验室定位为技术验证…...

柔性关节双臂机器人奇异摄动鲁棒自适应PD控制

1 双臂机器人动力学模型 对于一个具有多个关节的机器人来说,机器人端动力学子方程及关节驱动电机端动力学子方程为: 以上为推导过程,MATLAB程序已完成,若需要可找我。...

遵循IEC62304YY/T0664:确保医疗器械软件生命周期合规性

一、EC 62304与YY/T 0664的核心定位与关系 IEC 62304(IEC 62304)是国际通用的医疗器械软件生命周期管理标准,适用于所有包含软件的医疗器械(如嵌入式软件、独立软件、移动应用等),其核心目标是确保软件的安…...

Kafka和RocketMQ相比有什么区别?那个更好用?

Kafka和RocketMQ相比有什么区别?那个更好用? Kafka 和 RocketMQ 都是广泛使用的消息队列系统,它们有很多相似之处,但也有一些关键的区别。具体选择哪个更好用,要根据你的应用场景和需求来决定。以下是它们之间的主要区别: 1. …...

空对象模式(Null Object Pattern)在C#中的实现详解

一 、什么是空对象模式 空对象模模是靠”空对孔象式是书丯一种引施丼文行为,行凌,凌万成,个默疤"空象象象象来飞䛿引用用用用电从延盈盈甘仙丿引用用用职从延务在仅代砷易行行 」这种燕式亲如要目的片片 也说媚平父如如 核心思烟 定义一个人 派一个 � 创建…...

【Windows】Win2008服务器SQL服务监控重启脚本

以下是一个用于监控并自动重启 SQL Server 服务的批处理脚本,适用于 Windows Server 2008 和 SQL Server 2012(默认实例): echo off setlocal enabledelayedexpansion:: 配置参数 set SERVICE_NAMEMSSQLSERVER set LOG_FILEC:\SQ…...

Spring MVC 操作会话属性详解(@SessionAttributes 与 @SessionAttribute)

Spring MVC 操作会话属性详解(SessionAttributes 与 SessionAttribute) 1. 核心注解对比 注解作用范围功能SessionAttributes类级别声明控制器中需要持久化的模型属性(存入 HttpSession)SessionAttribute方法参数/返回值显式绑定…...

416. 分割等和子集

416. 分割等和子集 给你一个 只包含正整数 的 非空 数组 nums 。请你判断是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 示例 1: 输入:nums [1,5,11,5] 输出:true 解释:数组可以分割成 [1, 5, 5] 和…...

Composer安装Laravel步骤

Composer安装Laravel步骤 要使用 Composer 安装 Laravel,请按照以下步骤操作: 确保已经安装了 Composer。如果还没有安装,请访问 https://getcomposer.org/download/ 下载并安装。 打开命令行或终端。 使用 cd 命令导航到你的项目目录&…...

游戏引擎学习第209天

调整椅子α 昨天,我们实现了将数据输出到调试流中的功能,之前的调试流大多只包含性能分析数据,而现在我们可以将任意数据放入调试流中。 完成这个功能后,我们接下来要做的是收集这些数据并显示出来,这样我们就能有一…...

更新vscode后链接远程服务器出现了报错‘无法建立连接:远程主机不满足运行vscode服务器的先决条件’20250408

更新了vscode之后再链接远程服务器出现了报错,如下: 1. 确认服务器上的库版本 1.1 检查 glibc 版本 在服务器终端运行: ldd --version 最低要求:VS Code 远程开发需要 glibc ≥ 2.28。 1.2 检查 libstdc 版本 在服务器终端运…...

电磁兼容特种测试

并非所有的检测都能在实验室的标准场地中完成。今天,就带大家走进电磁兼容特种测试中需要现场测试的情况,看看哪些场合和设备有着特殊的测试需求。 哪种场合需要现场测试? 大型设备由于物理尺寸或供电功率上的限制,无法在一般…...

PyTorch 基础要点详解:从模型构建到评估

在深度学习领域,PyTorch 作为一款广受欢迎的开源框架,为开发者提供了便捷高效的工具。今天,我们就深入探讨一下 PyTorch 中的几个关键要点:torch.nn.Linear、torch.nn.MSELoss、model.train() 以及 model.eval(),了解它…...

Dockerfile中CMD命令未生效

今天在使用dockerfile构建容器镜像时,最后一步用到CMD命令启动start.sh,但是尝试几遍都未能成功执行脚本。最后查阅得知:Dockerfile中可以有多个cmd指令,但只有最后一个生效,CMD会被docker run之后的参数替换。 CMD会…...

Linux平台MQTT测试抓包分析

Linux平台搭建MQTT测试环境-CSDN博客基于这里的测试代码抓包 sudo tcpdump -i any -w mqtt1.cap 上述源码中 tcp://localhost:1883 配置连接: Broker Address: localhostPort: 1883 整体通信流程 1. Subscriber和Broker(代理服务器)建立…...

Docker全方位指南

目录 前言 第一部分:Docker基础与安装 1.1 什么是Docker? 1.2 Docker的适用场景 1.3 全平台安装指南 1.4 配置优化 第二部分:Docker核心操作与原理 2.1 镜像管理 2.2 容器生命周期 2.3 网络模型 2.4 Docker Compose 第三部分&…...

【经典DP】三步问题 / 整数拆分 / 不同路径II / 过河卒 / 下降路径最小和 / 地下城游戏

⭐️个人主页:小羊 ⭐️所属专栏:动态规划 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 动态规划总结Fibonacci数列BC140 杨辉三角杨辉三角三步问题最小花费爬楼梯孩子们的游戏解码方法整数拆分不同路径不同路径II过…...

Koji/OBS编译节点OS版本及工具版本管理深度实践指南

引言 在分布式编译框架Koji/OBS中,有效管理编译节点的操作系统(OS)版本及工具版本是确保构建环境稳定性、兼容性和安全性的关键。本文将从多版本共存、自动化更新、兼容性管理等多个维度,系统阐述如何高效管理编译节点的OS版本及…...

39、web前端开发之Vue3保姆教程(三)

四、Vue3中集成Element Plus 1、什么是Element Plus Element Plus 是一款基于 Vue 3 的开源 UI 组件库,旨在为开发者提供一套高质量、易用的组件,用于快速构建现代化的 web 应用程序。 Element Plus 提供了大量的 UI 组件,包括但不限于: 表单组件:输入框、选择器、开关…...

多类型医疗自助终端智能化升级路径(代码版.下)

医疗人机交互层技术实施方案 一、多模态交互体系 1. 医疗语音识别引擎 # 基于Wav2Vec2的医疗ASR系统 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC import torchaudioclass MedicalASR:def __init__(self):self.processor = Wav2Vec2Processor.from_pretrai…...

Git代码管理

这里写目录标题 分支管理策略TrunkBased🌱 核心理念✅优点❌缺点适用场景 GitFlow✅ GitFlow 的优点❌ GitFlow 的缺点适用场景 AOneFlow✅ AOneFlow 的优点❌缺点适用场景 如何选择分支策略?代码提交规范🌱分支管理🔄代码更新⚔️…...

CubeMX配置STM32F103PWM连续频率输出

要求: 输出2-573Hz频率,输出频率步长小于1Hz 一、CubeMX配置 auto-reload preload在下个周期加载ARR Output compare preload 在下个周期加载CCR 二、 程序 1.启动PWM输出 HAL_TIM_PWM_Start(&htim2,TIM_CHANNEL_1); 2.根据频率调整PSC、ARR、…...

举例说明计算机视觉(CV)技术的优势和挑战。

计算机视觉(CV)技术是人工智能领域的一个重要分支,通过让计算机“看”和“理解”图像或视频,可以实现许多实际应用。以下是计算机视觉技术的优势和挑战的例子: 优势: 自动化处理:CV技术可以自动化地处理大量图像或视频数据,实现快速而准确的分析和识别。提高效率:在许…...

工程师 - FTDI SPI converter

中国网站:FTDIChip- 首页 UMFT4222EV-D UMFT4222EV-D - FTDI 可以下载Datasheet。 UMFT4222EVUSB2.0 to QuadSPI/I2C Bridge Development Module Future Technology Devices International Ltd. The UMFT4222EV is a development module which uses FTDI’s FT4222H…...

河畔石上数(C++)

在 C 里,std::set 是标准模板库(STL)提供的一种关联容器,它能高效地存储唯一元素,并且元素会按照特定的顺序排列,默认是升序。下面从多个方面为你详细介绍 std::set。 1. 头文件包含 若要使用 std::set&a…...

《线性表、顺序表与链表》教案(C语言版本)

🌟 各位看官好,我是maomi_9526! 🌍 种一棵树最好是十年前,其次是现在! 🚀 今天来学习C语言的相关知识。 👍 如果觉得这篇文章有帮助,欢迎您一键三连,分享给更…...

【用Cursor 进行Coding 】

「我」:“添加 XXX 功能” [Claude-3.7]:“好的,我完成了,还顺手做了 19个你没要求不需要的功能、甚至还修改了原有999行正常代码 ~ 不用谢” [Gemini-2.5]:“好的,我会…...

vue2 打包时增加时间戳防止浏览器缓存,打包后文件进行 js、css 压缩

文章目录 前言一、什么是浏览器缓存二、展示效果三、vue.config.js 代码四、代码压缩部分服务器不支持五、感谢 前言 vue 开发过程中,项目前端代码需要更新,更新后由于浏览器缓存导致代码没有及时更新所产生错误,所以在打包时增加时间戳防止…...

TIM定时器

一、TIM定时器 STM32高级定时器实战:PWM、捕获与死区控制详解-CSDN博客 二、相关函数 1.TIM_TimeBaseInitTypeDef结构体讲解 typedef struct {uint16_t TIM_Prescaler; // 预分频器,用于设置定时器计数频率uint16_t TIM_CounterMode; /…...

S130N-ISI 全栈方案与云平台深度协同:重构 PLC 开发新范式

一、什么是 PLC? 1.技术定义 PLC(Power Line Communication)是一种创新的通信技术,它以电力线作为天然的传输介质,通过先进的信号调制技术将高频数据信号叠加于工频电流之上,实现电力输送与数据通信的双频共…...

Jenkins 插件文件优先使用 .jpi 后缀

.hpi 和 .jpi 文件本质上是 Jenkins 插件的打包格式,两者的区别主要体现在历史和命名习惯上: ✅ .hpi(Hudson Plugin) 来源:最初是 Hudson 项目的插件格式。含义:Hudson Plugin 的缩写。用途:早…...

# 决策树与PCA降维在电信客户流失预测中的应用

决策树与PCA降维在电信客户流失预测中的应用 在数据分析和机器学习领域,电信客户流失预测是一个经典的案例。本文将通过Python代码实现,探讨决策树模型在电信客户流失预测中的应用,并结合PCA降维技术优化模型性能,同时对比降维前…...

go语言的语法糖以及和Java的区别

1. Go 语言的语法糖及简化语法 Go 语言本身设计理念是简洁、清晰,虽然不像某些动态语言那样“花哨”,但它提供了几种便捷语法,使代码更简洁: 1.1 短变量声明(Short Variable Declaration) 语法&#xff1…...

WebRtc 视频流卡顿黑屏解决方案

// node webrtc视频转码服务 const url "http://10.169.xx.xx:8000" <video :ref"videoRefs${index}" :id"videoRefs4_${index}" :src"item" controls:key"item" autoplay muted click"preventDefaultClick"…...

信息安全测评中心-国产化!

项目上使用产品&#xff0c;必须通过国家信息安全测评/ 信息技术产品安全测评&#xff0c;有这个需求的话&#xff0c;可以到CN信息安全测评中心官网中的--测评公告一栏中&#xff0c;找符合要求的产品。 测评公告展示的包括硬件产品、系统、服务资质等。 网址及路径&#xf…...

MySQL学习笔记九

第十一章使用数据处理函数 11.1函数 SQL支持函数来处理数据但是函数的可移植性没有SQL强。 11.2使用函数 11.2.1文本处理函数 输入&#xff1a; SELECT vend_name,UPPER(vend_name) AS vend_name_upcase FROM vendors ORDER BY vend_name; 输出&#xff1a; 说明&#…...

DFS 蓝桥杯

最大数字 问题描述 给定一个正整数 NN 。你可以对 NN 的任意一位数字执行任意次以下 2 种操 作&#xff1a; 将该位数字加 1 。如果该位数字已经是 9 , 加 1 之后变成 0 。 将该位数字减 1 。如果该位数字已经是 0 , 减 1 之后变成 9 。 你现在总共可以执行 1 号操作不超过 A…...

动态规划dp专题-(上)

目录 dp理论知识&#x1f525;&#x1f525; &#x1f3af;一、线性DP &#xff08;1&#xff09;&#x1f680;斐波那契数 -入门级 &#xff08;2&#xff09;&#x1f680;898. 数字三角形-acwing ---入门级 &#xff08;3&#xff09;往期题目 ①选数异或&#xff1a;在…...

正则表达式(一)

一、模式&#xff08;Patterns&#xff09;和修饰符&#xff08;flags&#xff09; 通过正则表达式&#xff0c;我们可以在文本中进行搜索和替换操作&#xff0c;也可以和字符串方法结合使用。 正则表达式 正则表达式&#xff08;可叫作 “regexp”&#xff0c;或 “reg”&…...

需求变更导致成本超支,如何止损

需求变更导致成本超支时&#xff0c;可以通过加强需求管理、严格的变更控制流程、优化资源配置、实施敏捷开发、提高风险管理意识等方法有效止损。其中&#xff0c;加强需求管理是止损的核心措施之一。需求管理涉及需求明确化、需求跟踪和变更的管理&#xff0c;有效的需求管理…...