当前位置：首页 > news >正文

EasyAnimateV5 视频生成大模型原理详解与模型使用

news 来源：原创 2025/9/15 22:55:00

在数字内容创作中，视频扮演的角色日益重要。然而，创作高质量视频通常耗时且昂贵。EasyAnimate 系列旨在利用人工智能技术简化这一过程。EasyAnimateV5 建立在其前代版本的基础之上，不仅在质量上有所提升，还在多模态数据处理和跨语言支持上有了进一步的增强。

EasyAnimate 是阿里云人工智能平台 PAI 自主研发的一款基于 DiT 的视频生成框架，能够生成高质量的长视频。它具备视频数据预处理、VAE 训练、DiT 训练、Lora训练、模型推理和模型评估等功能。此外，EasyAnimate 在预训练模型的基础上，通过少量图片进行 LoRA 微调，可实现视频风格的转变，大大增强了系统的扩展性和完整性，使其在众多方案中更具竞争优势。

EasyAnimate在人工智能平台PAI上进行了集成，供用户一键训练和部署，在之前EasyAnimate版本的基础上，EasyAnimateV5重点突出了以下特点：

应用MMDIT结构，拓展模型规模到7B与12B。
支持不同控制输入的控制模型。
更大幅度的图生视频策略。
更多数据和更好的多阶段训练。

用户可以使用EasyAnimate来进行任意风格视频模型的训练和推理。目前，EasyAnimate将持续优化来达到更好的生成效果，欢迎大家持续关注。

开源地址：https://github.com/aigc-apps/EasyAnimate

DSW测试地址：阿里云登录 - 欢迎登录阿里云，安全稳定的云计算服务平台

技术报告：https://arxiv.org/abs/2405.18991

技术原理详解

模型规模拓展与结构更新

在我们的模型中，我们借鉴了CogVideoX与Stable Diffusion 3的方法，将文本和视频的嵌入连接起来，进一步通过自注意力机制进行特征融合，相比于原来Pixart通过Cross Attention实现文本特征融合方法，该方法不仅节省了计算次数，提高了计算效率，还让模型可以根据输入的不同条件自适应地调整注意力权重，灵活地融合多模态信息。

不过，文本和视频两种模态的特征空间存在显著差异，这可能导致它们的数值相差较大，不利于对齐。为了解决这一问题，我们参考Stable Diffusion 3，采用MMDiT架构作为基础模型。我们为每种模态设计了不同的to_k、to_q、to_v和前馈网络，并在一个自注意力机制中实现信息交互，以增强模态间的对齐。

另外，为了提高模型的理解能力，我们将模型进行了放大。参考Flux，我们模型的总参数量扩展到了7B与12B。

视频控制

EasyAnimate系列模型早在V3时便通过inpaint的方式实现了图生视频的功能，现在我们将其拓展到视频控制上。

在原始的Inpaint模型基础上，我们引入了一个新的控制信号替代了原有的mask信号。具体而言，我们将控制信号经过VAE编码后，与latent变量一起输入到patch流程中作为Guidance。

我们从26M的预训练数据中筛选出了大约443K条高质量视频，并采用不同的方法来提取控制条件，包括OpenPose、Scribble、Canny、Anime、MLSD、Hed和Depth，这些被用作训练中的条件控制信号。在训练过程中，我们根据不同的Token长度对视频进行了缩放，整个训练分为两个阶段：第一个阶段为13312（对应512x512x49的视频），第二个阶段为53248（对应1024x1024x49的视频）。

以EasyAnimateV5-12b-Control模型为例：

在13312阶段
Batch size为128，训练步数为5000。
在53248阶段
Batch size为96，训练步数为2000。

训练后的模型可以输入Control Condition对输出视频进行控制，可控生成。以下是工作原理图：

基于Token长度的模型训练

EasyAnimateV5的训练分为多个阶段，除了图片对齐VAE的阶段外，其它阶段均为视频训练，分别对应了不同的Token长度。

我们首先使用图片让VAE与Transformer快速对齐，我们使用了10M的SAM数据集，进行从0开始的文本图片对齐训练，总共训练约120K步。相比于使用视频对齐，使用图片对齐的速度更快且对目标的描述更清晰，在训练完成后，模型已经有能力根据提示词去生成对应的图片，并且图片中的目标基本符合提示词描述。

然后我们使用视频训练，我们创新的根据不同的Token长度，对视频进行缩放后进行训练。视频训练分为多个阶段，每个阶段的Token长度分别是3328（对应256x256x49的视频），13312（对应512x512x49的视频），53248（对应1024x1024x49的视频）。其中：

3328阶段
使用了全部的数据（大约26.6M）训练文生视频模型，Batch size为1536，训练步数为66.5k。
13312阶段
使用了720P以上的视频训练（大约17.9M）训练文生视频模型，Batch size为768，训练步数为30k
使用了最高质量的视频训练（大约0.5M）训练图生视频模型，Batch size为384，训练步数为5k
53248阶段
使用了最高质量的视频训练（大约0.5M）训练图生视频模型，Batch size为196，训练步数为5k。

训练时我们采用高低分辨率结合训练，因此模型支持从512到1024任意分辨率的视频生成，以13312 token长度为例：

在512x512分辨率下，视频帧数为49；
在768x768分辨率下，视频帧数为21；
在1024x1024分辨率下，视频帧数为9；

这些分辨率与对应长度混合训练，模型可以完成不同大小分辨率的视频生成。

图生视频策略

我们采用inpaint的方式实现图生视频，需要重建的部分和重建的参考图分别通过VAE进行编码，上图黑色的部分代表需要重建的部分，白色的部分代表首图，然后和随机初始化的latent进行concat，传入网络当中进行预测。

假设我们期待生成一个384x672x49的视频，此时的初始latent就是16x13x48x84，需要重建的参考图编码后也是4x13x48x84，另外我们对mask信息进行Resize，Resize后是1x13x48x84，三个向量concat到一起后便是33x13x48x84，传入DiT模型中进行噪声预测。

由于我们mask信息可以根据需要传入，我们不仅可以指定首图，还可以指定尾图。另外，我们还可以通过指定区域的mask实现视频编辑。

在视频生成过程中，向视频中添加噪声会对生成结果产生显著影响。参考CogVideoX和SVD的做法，我们会在非背景的参考图上加入噪声，以打破原图并追求更大的运动幅度。与CogVideoX保持一致，我们从均值为-3.0、标准差为0.5的正态分布中采样得到噪声幅度，然后取其指数确保噪声幅度在合理范围内。我们通过函数会生成与输入视频形状相同的随机噪声，并根据已计算的噪声幅度进行缩放。这些噪声只添加到需要参考的帧上，得到加噪后的视频。

模型使用

DSW实践

我们支持从DSW上快速拉起，DSW上的免费体验产品包含30GB内存，可以支持EasyAnimateV5-7b-zh与EasyAnimateV5-12b-zh使用qfloat8在512分辨率下的运行：

DLC中默认使用的是app.py拉起的gradio-ui，在选择对应模型后，我们就可以填入下方的prompt进行预测了。

本地拉起

我们同样支持通过本地拉起使用EasyAnimate。

以使用ComfyUI为例，在本机上可以通过执行如下的代码首先将EasyAnimate插件和ComfyUI-VideoHelperSuite安装。

cd ComfyUI/custom_nodes/# Git clone the easyanimate itself
git clone https://github.com/aigc-apps/EasyAnimate.git# Git clone the video outout node
git clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.gitcd EasyAnimate/
python install.py

然后运行ComfyUI软件，根据需求将EasyAnimate的comfyui文件夹下的json文件拖入ComfyUI界面中，在如下页面中，进行视频生成。

联系我们

项目开源地址：https://github.com/aigc-apps/EasyAnimate
钉钉交流群号： 77450006752

参考文档

EasyAnimate: https://github.com/aigc-apps/EasyAnimate
CogVideo X: https://github.com/THUDM/CogVideo/
Flux: https://github.com/black-forest-labs/flux
Stable Diffusion 3: https://huggingface.co/stabilityai/stable-diffusion-3-medium/
SVD: https://arxiv.org/abs/2311.15127
MagVIT: https://github.com/google-research/magvit
PixArt: https://github.com/PixArt-alpha/PixArt-alpha
Open-Sora-Plan: https://github.com/PKU-YuanGroup/Open-Sora-Plan
Open-Sora: https://github.com/hpcaitech/Open-Sora
Animatediff: https://github.com/guoyww/AnimateDiff
Llava-v1.6-vicuna-7b:https://huggingface.co/liuhaotian/llava-v1.6-vicuna-7b
SAM: [PDF] Segment Anything | Semantic Scholar

EasyAnimateV5 视频生成大模型原理详解与模型使用

在数字内容创作中，视频扮演的角色日益重要。然而，创作高质量视频通常耗时且昂贵。EasyAnimate 系列旨在利用人工智能技术简化这一过程。EasyAnimateV5 建立在其前代版本的基础之上，不仅在质量上有所提升，还在多模态数据处理和跨语…...

编程日记 2025/9/15 22:55:00

【Copilot 】TAB keybinding not working on JetBrains Client

pycharm ssh 远程到ubuntu24.04 发现tab就是tab，无法输出copilot给出的自动补全到便捷器里。禁用host的copilot插件，重新启动ide就好了。解决办法参考大神的办法删除主机和客户端插件中的 Copilot插件。仅在客户端中重新安装 Copilot 插件。我只是禁用也可以对比了键盘映…...

编程日记 2025/9/15 21:55:04

leetcode刷题——二叉树（1）

目录 1、递归遍历二叉树 2、迭代法遍历二叉树（通过while循环） 3、二叉树的层序遍历 4、二叉树的层次遍历 II 5、二叉树的右视图 6、二叉树的层平均值 7、N叉树的层序遍历 8、在每个树行中找最大值 9、填充每个节点的下一个右侧节点指针 10、填…...

编程日记 2025/9/15 22:54:59

HTML5教程-表格宽度设置，最大宽度，自动宽度

HTML表格宽度参考：html table width HTML表格是网页设计中常用的元素之一，可以用来展示数据、创建布局等。表格的宽度是一个重要的参数，可以通过不同的方式来设置表格的宽度，本文将详细介绍HTML表格宽度的不同设置方式和示例代…...

编程日记 2025/9/13 22:25:50

【计算机网络】 —— 数据链路层（壹）

文章目录前言一、概述 1. 基本概念 2. 数据链路层的三个主要问题二、封装成帧 1. 概念 2. 帧头、帧尾的作用 3. 透明传输 4. 提高效率三、差错检测 1. 概念 2. 奇偶校验 3. 循环冗余校验CRC 1. 步骤 2. 生成多项式 3. 例题 4. 总结四、可靠传输 1. 基本…...

编程日记 2025/9/10 5:32:04

力扣-图论-4【算法学习day.54】

前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向和记录学习过程（例如想要掌握基础用法，该刷哪些题？）我的解析也不会做的非常详细，只会提供思路和一些关键点，力扣上的大佬们的题解质量是非…...

编程日记 2025/9/3 18:23:10

WiFi受限不再愁，电脑无网络快速修复指南

有时在试图连接WiFi时，会发现网络连接受限，或无法正常访问互联网。这种情况不仅影响了工作效率，还可能错过重要的信息。那么，究竟是什么原因导致了电脑WiFi连接受限呢？又该如何解决这一问题呢？小A今天就来教…...

编程日记 2025/9/15 10:42:17

《Java异常处理》

目录一、异常的概念与分类二、异常处理机制三、异常的抛出四、自定义异常五、异常处理的最佳实践在 Java 编程中，异常处理是保障程序健壮性和稳定性的关键环节。有效地处理异常能够避免程序因错误而崩溃，同时提供友好的错误提示信息&#xff…...

编程日记 2025/9/15 10:26:32

清风数学建模学习笔记——Topsis法

数模评价类（2）——Topsis法概述 Topsis:Technique for Order Preference by Similarity to Ideal Solution 也称优劣解距离法，该方法的基本思想是，通过计算每个备选方案与理想解和负理想解之间的距离，从而评估每个…...

编程日记 2025/9/14 14:54:23

JVM 面试题

Java 虚拟机（JVM）是运行 Java 程序的引擎，它是 Java 语言 “一次编译，处处运行” 的核心技术。JVM 的主要任务是将 Java 字节码（Bytecode）解释成机器码并执行，负责内存管理、线程管理、垃圾回收…...

编程日记 2025/9/14 21:40:35

C语言蓝桥杯2023年省赛真题

文章目录持续更新中...第一题题目描述输入格式输出格式样例输出提示 2 第二题题目描述第三题题目描述输入格式输出格式样例输入样例输出第四题题目描述输入格式输出格式样例输入样例输出提示第四题题目描述输入格式输出格式样例输入样例输出提示第五题题目描述输入格式输出…...

编程日记 2025/9/14 14:51:58

Flume基础概念

目录作用组件构成ClientFlowAgentSourceSinkEvent 和Log4j的区别与定位事务传出流程输入到sourcesource端输入Channel 接收输入到SinkSink输出作用 Flume可以从各种来源（如日志文件、消息队列、网络数据、文件系统、数据库等）收集数据，并将…...

编程日记 2025/9/14 14:48:44

哈希处理海量数据

接下来我们将以问题的形式来介绍如何用hash处理海量数据。 1.问题1 （位图） 给定100亿个整数，设计算法找到只出现一次的。 1.1问题分析 100亿个整数，一个整数占用4byte，那么就需要约40G左右的空间来存储。显然常见的…...

编程日记 2025/9/15 11:24:55

Go语言基础教程1

Go语言基础教程目录变量声明与使用基本数据类型常量切片操作字符串处理指针格式化输出参数一、变量声明 1.1 基本变量声明 // 标准声明 var variableName variableType// 示例 var age int var name string1.2 变量声明与初始化 // 显式类型声明 var age int 30// 类…...

编程日记 2025/9/14 1:09:34

【每日一道面试题】for与foreach的区别（2024/12/6)

目录 foreach的特点遍历时删除时 foreach 和 for循环遍历数组的差别关于 foreach 和 for 循环的效率问题首先我们要对foreach有个基本的了解，才能对它们进行区别 foreach的特点遍历时用foreach循环去遍历一个数组， 用foreach循环去遍历一个集合&…...

编程日记 2025/9/14 12:01:34

解密时序数据库的未来：TDengine Open Day技术沙龙精彩回顾

在数字化时代，开源已成为推动技术创新和知识共享的核心力量，尤其在数据领域，开源技术的涌现不仅促进了行业的快速发展，也让更多的开发者和技术爱好者得以参与其中。随着物联网、工业互联网等技术的广泛应用，时序数据库…...

编程日记 2025/9/14 12:46:50

React第十一节组件之间通讯之发布订阅模式（自定义发布订阅器）

组件之间通讯常用方案 1、通过props 2、通过context 3、通过发布订阅模式 4、通过Redux 后面会有专栏介绍什么情况下使用发布订阅模式 a、当我们想要兄弟组件之间通讯，而共同的父组件中又用不到这些数据时候； b、当多个毫无相关的组件之间想要进行数据…...

编程日记 2025/9/15 10:39:14

Vue 2与Vue 3项目中的屏幕缩放适配：使用vue2-scale-box和vue3-scale-box

🌟 前言欢迎来到我的技术小宇宙！🌌 这里不仅是我记录技术点滴的后花园，也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛，这里总有一些内容能触动你的好奇心。🔍 &#x…...

编程日记 2025/9/5 23:42:35

Brain.js（九）：LSTMTimeStep 实战教程 - 未来短期内的股市指数预测 - 实操要谨慎

系列的前一文RNNTimeStep 实战教程 - 股票价格预测讲述了如何使用RNN时间序列预测实时的股价， 在这一节中，我们将深入学习如何利用 JavaScript 在浏览器环境下使用 LSTMTimeStep 进行股市指数的短期预测。通过本次实战教程，你将了解到如何用…...

编程日记 2025/9/13 17:07:16

云计算考试题

1、与SaaS不同的，这种“云”计算形式把开发环境或者运行平台也作为一种服务给用户提供。(B) A、软件即服务 B、基于平台服务 C、基于WEB服务 D、基于管理服务 2、云计算是对（D）技术的发展与运用 A、并行计算 B、网格计算 C、分布式计算 D、三个选项都是 3、Amazon.com公司…...

编程日记 2025/9/14 12:43:28

【设计模式】装饰器模式在java中的应用

文章目录 1. 引言装饰器模式的定义与设计目的装饰器模式与其他设计模式的比较 2. 装饰器模式的结构组件接口（Component）具体组件（ConcreteComponent）装饰角色（Decorator）具体装饰类（ConcreteDec…...

编程日记 2025/9/14 8:52:30

【kafka】生产者的同步发送和异步发送

Kafka 的生产者端提供了同步发送和异步发送两种方式，适合不同的使用场景和性能需求。以下是两种发送模式的详细讲解： 同步发送概念同步发送是指生产者在发送一条消息后，会阻塞当前线程，等待 Kafka 返回发送结果（…...

编程日记 2025/9/15 19:05:04

8. Debian系统中显示屏免密码自动登录

本文介绍如何在Debian系统上，启动后，自动免密登录，不卡在登录界面。 1. 修改lightDM配置文件嵌入式Debian系统采用lightDM显示管理器，所以，一般需要修改它的配置文件/etc/lightdm/lightdm.conf，找到[Seat…...

编程日记 2025/9/14 14:46:50

SpringBoot 开源停车场管理收费系统

一、下载项目文件下载源码项目文件口令： 【前端小程序地址】(3.0)：伏脂火器白泽知洞座/~6f8d356LNL~:/【后台管理地址】(3.0)：伏脂火器仇恨篆洞座/~0f4a356Ks2~:/【岗亭端地址】(3.0)：动作火器智汇堂多好/~dd69356K6r~:/复制口令…...

编程日记 2025/9/14 14:51:25

QT的ui界面显示不全问题（适应高分辨率屏幕）

//自动适应高分辨率 QCoreApplication::setAttribute(Qt::AA_EnableHighDpiScaling);一、问题电脑分辨率高，默认情况下，打开QT的ui界面，显示不全按钮内容二、解决方案如果自己的电脑分辨率较高，可以尝试以下方案：自…...

编程日记 2025/9/14 10:33:08

双向链表的模拟实现 —— LinkedList

MyLinkedList类 public class MyLinkedList {// 定义节点类static class Node {int val;Node prev;Node next;public Node() {}public Node(int val) {this.val val;}}// 定义头节点private Node head;// 定义尾结点private Node tail;// 头插public void headInsert(int val…...

编程日记 2025/9/13 23:25:19

速盾：高防cdn预热指定url就只刷新这个吗？

高防CDN预热是指在网站上线或更新之前，将网站内容缓存到CDN节点服务器上，以提高用户访问网站的速度和稳定性。通常，预热可以通过指定URL来进行，而不是刷新整个网站。预热指定URL的好处是可以选择性地进行缓存刷新，而…...

编程日记 2025/9/11 7:21:33

JDK21新特性

目录虚拟线程（JEP 444）： 顺序集合（JEP 431）： 字符串模板（JEP 430）： 模式匹配的增强（JEP 440、441以及443）： 结构化并发和作用域值…...

编程日记 2025/9/11 21:23:16

json学习

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。它通常用于在服务器和客户端之间交换数据，特别是在 Web 应用中。 JSON 格式基于 JavaScript 对象表示法&#…...

编程日记 2025/9/14 7:22:15

005-mysql常用的名称

语言分类 DDL ：数据定义语言 1、线上DDL语句在对表操作，是要锁元数据表的，此时所有的修改类的命令无法正常运行。 2、对大表在高峰期进行DDL操作，可以使用工具：pt-online-schema-change gh-ost 工具（8.0以…...

编程日记 2025/9/14 18:07:15

PostgreSQL和MySQL区别

PostgreSQL 和 MySQL 有以下一些主要区别： 一、功能特性 1. 数据类型支持 - PostgreSQL：支持丰富的数据类型，包括数组、JSON、JSONB、hstore（键值对存储）、范围类型等。例如，可以直接在数据库中存储和查…...

编程日记 2025/9/11 4:02:55

Android笔记(三十四)：onCreate执行Handler.post在onResume后才能执行？

背景偶然发现一个点，就是在onCreate执行Handler.post在onResume后才执行，以下是测试代码多次运行的结果一致，为什么execute runnable不是在onCreate和onResume之间执行的呢，带着疑问撸了一遍Activity启动流程关键源码分析 …...

编程日记 2025/9/12 5:30:47

动手学深度学习d2l包M4芯片 gpu加速

conda创建环境 CONDA_SUBDIRosx-arm64 conda create -n ml python3.9 -c conda-forge conda env config vars set CONDA_SUBDIRosx-arm64 conda activate mlpip安装包 pip install --pre torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/n…...

编程日记 2025/9/13 22:47:57