第 3 期:逆过程建模与神经网络的作用(Reverse Process)
一、从正向扩散到逆向去噪:生成的本质
在上期中我们讲到,正向扩散是一个逐步加入噪声的过程,从原始图像 x_0到接近高斯分布的 x_T:
而我们真正关心的,是从纯噪声中逐步还原原图的过程,也就是逆过程:
这个逆过程没有 closed form,我们只能用神经网络来近似学习它。
二、逆过程建模:从高斯中一步步采样
根据论文设定,我们假设每一步的逆过程仍是高斯分布:
也就是说:我们要学习的是每一步的均值和方差。
-
方差 Σ_θ通常被固定或共享
-
网络主要任务是输出 μ_θ,也就是引导去噪的方向
想象一下,你现在手上有一张全是雪点(噪声)的图片,你想一步一步去“擦掉”这些噪声,还原最初的图片,这就是神经网络的任务。
三、三种预测方式:预测 μ、ϵ 或 x_0?
论文中探讨了三种不同的预测方式,来指导我们如何训练神经网络 ϵ_θ:
方式一:预测噪声 ϵ\epsilonϵ(默认使用)
利用公式:
我们可以反推:
训练时的损失函数:
也就是说我们训练神经网络来预测加进去的噪声,然后反推出干净图像。
方式二:直接预测 x_0
由上面的公式我们可以看到,如果我们预测出 x_0,也能得到 ϵ 或 μ。
有些改进模型(如Guided Diffusion)使用这种方式,因为可以更直接地控制生成图像。
方式三:直接预测 μ_θ(x_t,t)
这种方式虽然看似最直接,但训练不如预测 ϵ稳定,因此实际使用中较少。
四、神经网络结构:用U-Net来建模 ϵ_θ(x_t,t)
DDPM中广泛使用 U-Net 结构来建模 ϵ_θ,原因如下:
-
图像到图像的任务中,U-Net有非常强的表现
-
可融合多层语义信息(通过跳跃连接)
-
可轻松嵌入时间步 ttt 信息(通过time embedding)
网络输入:
-
噪声图像 x_t
-
时间步编码 t
网络输出:
-
同样大小的图像,预测噪声 ϵ
五、采样过程简述:从高斯恢复图像
当模型训练好之后,采样过程是这样的:
-
从高斯分布中采样
-
对 t=T,T−1,…,1:
-
用网络预测 ϵ_θ(x_t,t)
-
计算
并加入随机项(保持多样性)
-
整个过程逐步“去除噪声”,最终得到 x_0,也就是生成图像。
代码演示:构造训练样本并训练模型
我们用 PyTorch 举例说明:
import torch
import torch.nn as nn
import torchvision
from torchvision import transforms
import matplotlib.pyplot as plt# 超参数
T = 1000 # 扩散步数
beta = torch.linspace(1e-4, 0.02, T) # 固定线性beta表
alpha = 1 - beta
alpha_bar = torch.cumprod(alpha, dim=0)# 加噪函数 q(x_t | x_0)
def q_sample(x_0, t, noise=None):if noise is None:noise = torch.randn_like(x_0)sqrt_alpha_bar = torch.sqrt(alpha_bar[t])[:, None, None, None]sqrt_one_minus = torch.sqrt(1 - alpha_bar[t])[:, None, None, None]return sqrt_alpha_bar * x_0 + sqrt_one_minus * noise
网络结构(最小U-Net)
class SimpleDenoiseModel(nn.Module):def __init__(self):super().__init__()self.net = nn.Sequential(nn.Conv2d(1, 64, 3, padding=1),nn.ReLU(),nn.Conv2d(64, 64, 3, padding=1),nn.ReLU(),nn.Conv2d(64, 1, 3, padding=1),)def forward(self, x, t):return self.net(x)
训练核心逻辑
model = SimpleDenoiseModel().to("cuda")
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)def get_loss(x_0, t):noise = torch.randn_like(x_0)x_t = q_sample(x_0, t, noise)noise_pred = model(x_t, t)return nn.MSELoss()(noise_pred, noise)# 示例训练循环
for epoch in range(10):for x, _ in dataloader:x = x.to("cuda")t = torch.randint(0, T, (x.size(0),), device="cuda").long()loss = get_loss(x, t)optimizer.zero_grad()loss.backward()optimizer.step()print(f"Epoch {epoch}: Loss = {loss.item():.4f}")
可视化一个加噪过程
def show_noisy_images(x_0, steps=[0, 200, 400, 600, 800, 999]):fig, axes = plt.subplots(1, len(steps), figsize=(15, 2))for i, t in enumerate(steps):xt = q_sample(x_0, torch.tensor([t]))axes[i].imshow(xt[0][0].cpu(), cmap="gray")axes[i].set_title(f"t = {t}")axes[i].axis("off")plt.tight_layout()plt.show()
小结
关键点 | 内容 |
---|---|
学习目标 | 模型学习预测给定x_t时的噪声 ϵ |
网络输入 | x_t 和时间步 t |
网络输出 | 估计的 ϵ_θ(x_t,t) |
损失函数 | MSE between 预测噪声 和 真实噪声 |
实际操作 | 从 x_0采样,生成x_t,训练模型反推噪声 |
下一讲预告(第 4 期):
我们将深入解读为什么损失函数可以简化为预测噪声的 MSE,并且用变分下界(ELBO)的推导说明这个做法的理论基础!
相关文章:
第 3 期:逆过程建模与神经网络的作用(Reverse Process)
一、从正向扩散到逆向去噪:生成的本质 在上期中我们讲到,正向扩散是一个逐步加入噪声的过程,从原始图像 x_0到接近高斯分布的 x_T: 而我们真正关心的,是从纯噪声中逐步还原原图的过程,也就是逆过程&…...
RAG-概述
RAG 概述 RAG(Retrieval Augmented Generation, 检索增强生成)是一种技术框架,其核心在于当 LLM 面对解答问题或创作文本任务时,首先会在大规模文档库中搜索并筛选出与任务紧密相关的素材,继而依据这些素材精准指导后续…...
Python 中的数据类型有哪些
Python 中的数据类型有哪些? Python 是一种动态类型语言,支持多种内置数据类型,并且可以自定义数据类型。以下是 Python 中常见和重要的数据类型: 一、基本数据类型 整数(int) 表示整数,没有小…...
梯度下降,共轭梯度,牛顿法,拟牛顿法的收敛速度对比
一、收敛速度理论对比 方法收敛速度(一般非线性函数)收敛速度(二次凸函数)局部收敛性(接近极小点时)收敛阶梯度下降(GD)线性收敛(Linear)线性收敛࿰…...
深入浅出目标检测:从入门到YOLOv3,揭开计算机视觉的“火眼金睛”
目录 揭开目标检测的神秘面纱 什么是目标检测?为什么它如此重要?定义:图像分类、目标检测、目标跟踪、实例分割的区别与联系应用场景讲解目标检测的输出:边界框 (Bounding Box) 和类别 (Class)目标检测在AI领域的地位和发展趋势&…...
Odoo:免费开源的轧制品行业管理软件
Odoo免费开源的轧制品行业管理软件能够帮助建材、电线电缆、金属、造纸包装以及纺织品行业提高韧性和盈利能力,构筑美好未来。 文 | 开源智造(OSCG)Odoo金牌服务 提高供应链韧性,赋能可持续发展 如今,金属…...
51单片机实验六:通用型1602液晶操作方法
目录 一、实验环境与实验器材 二、实验内容及实验步骤 1. 目标:用C语言编程,实现在1602液晶的第一行显示“I LOVE MCU!”,在第二行显示WWW.TXMCU.COM。 2.目标:用C语言编程,实现第一行从右侧移入“Hello everyone!”…...
原型模式详解及c++代码实现(以自动驾驶感知场景为例)
模式定义 原型模式(Prototype Pattern)是一种创建型设计模式,通过克隆已有对象来创建新对象,避免重复执行昂贵的初始化操作。该模式特别适用于需要高效创建相似对象的场景,是自动驾驶感知系统中处理大量重复数据结构的…...
datasheet数据手册-阅读方法
DataSheet Datasheet(数据手册):电子元器件或者芯片的数据手册,一般由厂家编写,格式一般为PDF,内容为电子分立元器件或者芯片的各项参数,电性参数,物理参数,甚至制造材料…...
C言雅韵集:野指针
嘿,各位技术潮人!好久不见甚是想念。生活就像一场奇妙冒险,而编程就是那把超酷的万能钥匙。此刻,阳光洒在键盘上,灵感在指尖跳跃,让我们抛开一切束缚,给平淡日子加点料,注入满满的pa…...
2 celery环境搭建
1. 安装 Celery 及依赖 1.1 安装 Celery 使用 pip 安装 Celery(推荐 Python 3.7 环境): pip install celery1.2 选择并安装 Broker Celery 需要一个消息中间件(Broker)来传递任务。以下是两种常用 Broker 的安装方…...
alertManager部署安装、告警规则配置详解及告警消息推送
java接受告警请求RestController RequestMapping("/alert") Slf4j public class TestApi {private static final DateTimeFormatter FORMATTER DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss");RequestMappingpublic void sendTemplate(HttpServl…...
day45——非递减数列(LeetCode-665)
题目描述 给你一个长度为 n 的整数数组 nums ,请你判断在 最多 改变 1 个元素的情况下,该数组能否变成一个非递减数列。 我们是这样定义一个非递减数列的: 对于数组中任意的 i (0 < i < n-2),总满足 nums[i] < nums[i …...
LeetCode19.删除链表的倒数第N个节点
题目 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。请用一次扫描实现 示例 1: 输入:head [1,2,3,4,5], n 2 输出:[1,2,3,5]示例 2: 输入:head [1], n 1 输出ÿ…...
Kafka系列之:计算kafka集群topic占的存储大小
Kafka系列之:计算kafka集群topic占的存储大小 topic存储数据格式统计topic存储大小定时统计topic存储大小topic存储数据格式 单位是字节大小 size_bytes{directory="/data/datum/kafka/optics-all" } 782336计算topic存储大小脚本逻辑是: 计算指定目录或文件的大小…...
Logisim数字逻辑实训——计数器设计与应用
4位递增计数器 六进制计数器 十进制计数器 六十进制计数器 二十四进制计数器 计时器...
安卓手机如何改ip地址教程
对于安卓手机用户而言,ip修改用在电商、跨境电商、游戏搬砖、社交软件这些需要开多个账号的项目。因为多个设备或账号又不能在同一ip网络下,所以修改手机的IP地址防检测成为一个必要的操作。以下是在安卓手机上更改IP地址的多种方法及详细步骤࿰…...
论文阅读--Orient Anything
通过渲染3D模型来学习不同方向下物体的外观,并从单张和自由视角的图像中估计物体方向 1. 数据生成:基于 3D 渲染构建大规模方向标注数据集 - 数据来源: 使用 Objaverse 数据库中的高质量 3D 模型,进行筛选和预处理。 - 筛选规范…...
ASP.NET MVC 实现增删改查(CRUD)操作的完整示例
提供一个完整的 ASP.NET MVC 实现增删改查(CRUD)操作的示例。该示例使用 SQL Server 数据库,以一个简单的 Product 实体为例。 步骤 1:创建 ASP.NET MVC 项目 首先,在 Visual Studio 中创建一个新的 ASP.NET MVC 项目…...
ASP.NET常见安全漏洞及修复方式
Microsoft IIS 版本信息泄露 查看网页返回的 Header 信息,默认会包含 IIS,ASP.NET 版本信息: 隐藏 Server 标头 编辑 web.config 文件,在 system.webServer 节点中配置 requestFiltering 来移除Server标头: <sec…...
文件系统的npu和内核的npu有什么区别
我在编译rk3588的内核和文件系统时候,发现都编译到rknpu这个文件,那么文件系统的npu和内核的npu有什么根本的区别吗? 我可以理解为,文件系统下是应用程序,内核下是驱动程序。 功能定位 内核中的 NPU 源码 核心功能&am…...
RUI桌面TV版最新版免费下载-安卓电视版使用教程
在智能电视的使用中,拥有一款好用的桌面应用能极大提升体验,RUI桌面TV版就是这样一款实用的工具。下面为大家带来它的免费下载及安卓电视版使用教程。 一、下载步骤 首先确保你的安卓电视已连接网络。打开电视自带的应用商店,在搜索栏输入“…...
android的配置检查 查看安卓设备配置
Android系统属性配置与内存管理指南 在Android开发过程中,了解系统属性配置和内存管理机制对应用性能优化至关重要。本文将介绍如何通过adb命令查询和修改系统属性,以及如何合理管理应用内存。 一、adb命令查询当前堆内存信息 1. 查询所有配置 adb s…...
RHCE的简单配置
一:配置qq第三方客户端验证 1.安装第三方邮件客户端软件 2.mail程序登录验证qq账号 3.在qq客户端程序(如浏览器中进入邮箱登录QQ邮箱->设置->账户)中通过设置开启imap/smtp服 务提供第三方程序账号的授权码 4.因为需要 QQ 邮箱的 S…...
日语学习-日语知识点小记-构建基础-JLPT-N4阶段(7):(1)ながら 一边。。一边 (2)。。。し。。。し。。 又……又……
日语学习-日语知识点小记-构建基础-JLPT-N4阶段(7):(1)ながら 一边。。一边 (2)。。。し。。。し。。 又……又…… 1、前言(1)情况说明(2)工程师…...
【 图像梯度处理,图像边缘检测】图像处理(OpenCv)-part6
13 图像梯度处理 13.1 图像梯度 边缘提取是图像处理中的一个重要任务,其目的是检测图像中灰度值发生显著变化的区域,这些区域通常对应于图像中的物体边界、纹理变化或深度变化等。边缘提取的原理可以分为以下几个关键步骤: 1. 边缘的定义和…...
一本通 2063:【例1.4】牛吃牧草 1005:地球人口承载力估计
Topic: Ideas: 为什么把这两道题放在一起呢?就是因为这两道题很类似,都是很简单的数学题,只要你会列出数学等式,你就学会这道题了! 下面把计算过程展示给大家 Code: //2025/04/18…...
下载HBuilder X,使用uniapp编写微信小程序
到官网下载HBuilder X 地址:HBuilderX-高效极客技巧 下载完成后解压 打开解压后的文件夹找到HBuilderX.exe 打开显示更多,发送到桌面快捷方式 到桌面上启动HBuilderX.exe启动应用 在工具点击插件安装 选择安装Vue3编译器 点击新建创建Vue3项目 编写项目…...
4.18---缓存相关问题(操作原子性,击穿,穿透,雪崩,redis优势)
为什么要用redis做一层缓存,相比直接查mysql有什么优势? 首先介绍Mysql自带缓存机制的问题: MySQL 的缓存机制存在一些限制和问题,它自身带的缓存功能Query Cache只能缓存完全相同的查询语句,对于稍有不同的查询语句,…...
前端:uniapp中uni.pageScrollTo方法与元素的overflow-y:auto之间的关联
在uniapp中,uni.pageScrollTo方法与元素的overflow-y:auto属性之间存在以下关联和差异: 一、功能定位差异 uni.pageScrollTo 属于页面级滚动控制,作用于整个页面容器34。要求页面内容高度必须超过屏幕高度,且由根元素下…...
获取不到AndroidManifest中的meta-data
现象描述 最近在项目中接入穿山甲广告的sdk,快速实现了核心功能验证。接下来就准备规范代码正式使用,却掉了一个坑,略做记录。 穿山甲sdk提供了一个appid的参数,不同渠道包是不同的,所以将其配入了gradle的productFl…...
Python学习之Matplotlib
Python学习之Matplotlib Matplotlib是一个Python的2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形.通过Matplotlib,开发者可以仅需要几行代码,便可以生成饼图,直方图,功率谱,条形图,错误图,散点图等 1.1 图形的基本构成 一个完整的图,包括figure,a…...
Motion Tracks:少样本模仿学习中人-机器人之间迁移的统一表征
25年1月来自Cornell和Stanford的论文“MOTION TRACKS: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning”。 教会机器人自主完成日常任务仍然是一项挑战。模仿学习 (IL) 是一种强大的方法,它通过演示向机器人灌输技能ÿ…...
【Spring Boot】MyBatis入门:连接Mysql数据库、测试单元、连接的常见错误
MyBatis入门 1.什么是MyBatis?2.准备工作2.1.创建项目2.2.MySQL数据准备2.3.创建对应的实体类 3.写配置文件和获取数据3.1写配置文件3.2 持久层代码 4.单元测试5.连接数据库时常见的错误5.1 url 配置错误5.2 MySQL账号密码错误5.3 找不到数据库5.4 表错误5.3 云服务…...
【AI插件开发】Notepad++ AI插件开发实践:支持配置界面
一、引用 此前的系列文章已基本完成了Notepad的AI插件的功能开发,但是此前使用的配置为JSON配置文件,不支持界面配置。 本章在此基础上集成支持配置界面,这样不需要手工修改配置文件,直接在界面上操作,方便快捷。 注…...
《Spring Boot 测试框架指南:@SpringBootTest与Mockito的最佳实践》
大家好呀!👋 今天我要和大家聊聊Spring Boot测试的那些事儿。作为一名Java开发者,写代码很重要,但写测试同样重要!💯 想象一下,你建了一座漂亮的房子🏠,但如果没有质量检…...
《数据结构初阶》【时间复杂度 + 空间复杂度】
《数据结构初阶》【时间复杂度 空间复杂度】 前言:-----------------------------------------1. 什么是数据结构?2. 什么是算法? -----------------------------------------算法的时间复杂度和空间复杂度1. 为什么要引入时间复杂度和空间复…...
【深度学习—李宏毅教程笔记】Self-attention
目录 一、Self-attention 的引入 1、多样化的输入形式 2、典型的下游任务下游任务 3、传统“全连接 窗口”方法的局限 4、Self‑Attention 的引入 二、Self-attention 的架构 1、Self-attention层的框图表示 2、Self-attention 层的矩阵运算过程 三、Multi-head Self…...
PHP腾讯云人脸核身获取Access Token
参考腾讯云官方文档: 人脸核身 获取 Access Token_腾讯云 public function getAccessToken(){$data [appId > , //WBappid,https://cloud.tencent.com/document/product/1007/49634secret > ,grant_type > client_credential, //授权类型version > 1…...
pytorch基本操作2
torch.clamp 主要用于对张量中的元素进行截断(clamping),将其限制在一个指定的区间范围内。 函数定义 torch.clamp(input, minNone, maxNone) → Tensor 参数说明 input 类型:Tensor 需要进行截断操作的输入张…...
Linux服务器配置Anaconda环境、Pytorch库(图文并茂的教程)
引言:为了方便后续新进组的 师弟/师妹 使用课题组的服务器,特此编文(ps:我导从教至今四年,还未招师妹) ✅ NLP 研 2 选手的学习笔记 笔者简介:Wang Linyong,NPU,2023级&a…...
idea 许可证过期
今天打开IDEA写代码突然提示:Your idea evaluation has expired. Your session will be limited to 30 minutes 评估已过期,您的会话将限制为 30 分钟。也就是说可以使用,但30min就会自动关闭 1 下载 ide-eval-resetter-2.1.6.zip https…...
Git常用命令分类汇总
Git常用命令分类汇总 一、基础操作 初始化仓库git init添加文件到暂存区git add file_name # 添加单个文件 git add . # 添加所有修改提交更改git commit -m "提交描述"查看仓库状态git status二、分支管理 创建/切换分支git branch branch_name …...
归并排序:数据排序的高效之道
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…...
分布式训练(记录)
为什么要分布式训练? 单机训练有物理上限: 显存不够(大模型根本放不下) 单机计算慢(数据量一多就耗时太长) 多卡并行性不高 分布式训练的常见方式 Data Parallel(数据并行) 每个G…...
vue3中使用拖拽组件vuedragable@next
vue3中使用拖拽组件vuedragablenext 官网传送门 下载 npm install vuedraggablenext基本使用 <script setup> import draggable from vuedraggable import { ref } from vue const list ref([{ id:1,name:第一个 },{ id:2,name:第二个 },{ id:3,name:第三个 }, ]) <…...
Oracle、MySQL、PostgreSQL三大数据库对比分析
Oracle、MySQL、PostgreSQL 三大数据库的对比分析,结合 Java SpringBoot 项目开发 的实际场景,重点说明分库分表、主从复制的实现难度及案例。 一、数据库核心对比 1. 核心区别与适用场景 维度OracleMySQLPostgreSQL定位企业级商业数据库轻量级开源数据…...
java八股之并发编程
1.java线程和操作系统线程之间的区别? 现在java线程本质上是操作系统线程,java中采用的是一对一的线程模型(一个用户线程对应一个内核进程) 2.什么是进程和线程? 1.进程是操作系统一次执行,资源分配和调度的…...
Qt 入门 5 之其他窗口部件
Qt 入门 5 之其他窗口部件 本文介绍的窗口部件直接或间接继承自 QWidget 类详细介绍其他部件的功能与使用方法 1. QFrame 类 QFrame类是带有边框的部件的基类。它的子类包括最常用的标签部件QLabel另外还有 QLCDNumber、QSplitter,QStackedWidget,QToolBox 和 QAbstractScrol…...
Linux系统之----冯诺依曼结构
1.简要描述 冯诺依曼体系结构是现代计算机的基本设计思想,其核心理念是将计算机的硬件和软件统一为一个整体,通过存储程序的方式实现计算。冯诺依曼体系结构的核心思想是通过存储程序实现自动计算,其五大部件协同工作,奠定了现代…...