一文理解扩散模型(生成式AI模型)(2)
第二期内容主要是扩散模型的架构,其中包括用于扩散模型的U-Net架构和用于扩散模型的transformer架构。(transformer架构非常重要)
扩散模型需要训练一个神经网络来学习加噪数据的分数函数,或者学习加在数据上的噪声(这对应上文所展示的扩散模型的两种训练范式,详情请见一文理解扩散模型(生成式AI模型)(1)-CSDN博客)。并且因为分数函数是对输入数据的似然函数的导数,所以其维度和输入数据的维度相同;同理,对输入数据的每一个维度都加入独立的标准高斯噪声,所以神经网络预测的噪声的维度与输入数据相同。
用于扩散模型的U-Net
用于扩散模型的U-Net架构通常用于图像生成的任务。(下面都简写为U-Net架构)U-Net架构是一种典型的编码-解码结构,满足输出和输入的分辨率相同的条件,主要由3部分组成:下采样,上采样和跳连(skip connection)。
编码器利用卷积层和池化层进行逐级下采样(下采样的过程中分辨率逐级减少,类似于放大的过程),数据的通道数在卷积的作用下逐渐增大,从而可以学习图片的的高级语义信息。
解码器利用反卷积进行逐级下采样(进行与编码器相反的操作)。在这个过程中输入原始图像中的空间信息与图像中的边缘信息会逐渐恢复。最终,低分辨率的特征图最终会被映射为与原数据维度相同的像素级结果图。
为了弥补编码阶段下采样所丢失的信息,在编码器与解码器之间利用跳连来融合两个过程中对应位置上的特征图,使解码器在进行上采样时能融合不同层次的特征信息,进而恢复和完善原始数据中的细节信息。
以下为U-Net架构图(因为解码部分的操作与编码部分相反,所以省略了解码部分)
其中ResBlock为残差模块,Self-attention为自注意力机制,3*3 Conv为进行3*3的卷积操作,downsample为下采样,upsample为上采样
该结构在第t步去噪过程中,接受去噪对象和时间嵌入,输出去噪结果。由于去噪过程是依赖于时间t的,所以残差模块在抽取特征时,也将时间嵌入
考虑进来。
Transformer
目前U-Net是扩散模型的主流结构,但Transformer架构也有非常不错的效果。这里仅对Transformer作一些总体介绍,更多细节留在新的栏目中来展现。
Transformer主要由自注意力机制和前馈神经网络组成。在自注意力机制中,输入序列中的每个元素都会与其他元素进行相互作用,从而形成一个新的特征向量。这种机制允许模型对输入序列进行非常灵活的处理,能够捕捉输入序列中的长依赖关系,且因为它的并行性使得速度大大提升。前馈神经网络也有非常大的作用,该模块由几层全连接层组成,使用激活函数ReLU对中间层进行激活,并且增加了非线性关系,从而能更好地进行数据建模。
更多关于Transformer的总体概述和自注意力机制运作模式和细节将在新的栏目中更新,敬请期待!
相关文章:
一文理解扩散模型(生成式AI模型)(2)
第二期内容主要是扩散模型的架构,其中包括用于扩散模型的U-Net架构和用于扩散模型的transformer架构。(transformer架构非常重要) 扩散模型需要训练一个神经网络来学习加噪数据的分数函数,或者学习加在数据上的噪声(这对应上文所展示的扩散模型的两种训…...
【Java面试题】——this 和 super 的区别
🎁个人主页:User_芊芊君子 🎉欢迎大家点赞👍评论📝收藏⭐文章 🔍系列专栏:【Java】内容概括 【前言】 在Java的世界里,this和 super是两个非常重要且容易混淆的关键字。无论是在日常…...
数据结构基础排序算法
选择排序 选择排序的基本思路:从待排序元素中选取最大(或最小)的一个元素加入到已完成排序的末尾。 #include <stdio.h>#define ARR_LEN(arr) (sizeof(arr) / sizeof(arr[0])) #define SWAP(arr, i, j ) { \ int tmp arr[i]; …...
数据结构中的高级排序算法
希尔排序 你可以将希尔排序理解成——先通过几次分组的、较小的组间插入排序将原数组变得有序,最后再进行一次序列基本有序的完整插入排序。 #include <stdio.h>#define ARR_LEN(arr) (sizeof(arr) / sizeof(arr[0]))void print_arr(int arr[], int len) {for…...
家庭宽带的内网穿透实践
家庭宽带的内网穿透实践 龙生龙,凤生凤,老鼠的儿子会打洞。我们今天来学习 “打洞” ! 背景 众所周知,当前运营商在IPv4环境下面,由于地址资源不够,启用了大内网策略。导致家庭宽带到路由器这一层都分配了…...
LabVIEW在电子电工教学中的应用
在电子电工教学领域,传统教学模式面临诸多挑战,如实验设备数量有限、实验过程存在安全隐患、教学内容更新滞后等。LabVIEW 作为一款功能强大的图形化编程软件,为解决这些问题提供了创新思路,在电子电工教学的多个关键环节发挥着重…...
算法每日刷题 Day6 5.14:leetcode数组1道题,用时30min,明天按灵茶山艾府题单开刷,感觉数组不应该单算
14. 977.有序数组的平方(简单,学习,双指针) 977. 有序数组的平方 - 力扣(LeetCode) 思想 法一: 1.平方赋值到另一个数组sort排序 法二: 1.寻找负数和非负数的分界线(学习代码如何写?),[0,neg]负数,[neg1…...
JS逆向实战四:某查查请求头逆向解密
声明:本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!…...
QT之QComboBox组件
欢迎来到 破晓的历程的 博客 ⛺️不负时光,不负己✈️ 文章目录 1.引言2.初见QComboBox3.核心功能和常用方法1. 添加和删除选项2. 获取和设置当前值3. 可编辑模式4. 数据绑定 4.信号与槽5.应用场景6.使用示例7.总结 1.引言 在记事本项目中,不同的编码设…...
数值积分知识
数值积分 对于增加插值节点序列: { x i } i 0 n \left\{x_i\right\}_{i0}^{n} {xi}i0n,由插值定理给出: f ( x ) ∑ i 0 n y i l i ( x ) f ( n 1 ) ( ξ ) ( n 1 ) ! ∏ i 0 n ( x − x i ) f(x)\sum_{i0}^{n}y_i l_i(x)\frac{f…...
代码随想录训练营第二十三天| 572.另一颗树的子树 104.二叉树的最大深度 559.N叉树的最大深度 111.二叉树的最小深度
572.另一颗树的子树: 状态:已做出 思路: 这道题目当时第一时间不是想到利用100.相同的树思路来解决,而是先想到了使用kmp,不过这个题目官方题解确实是有kmp解法的,我使用的暴力解法,kmp的大致思…...
力扣-105.从前序与中序遍历序列构造二叉树
题目描述 给定两个整数数组 preorder 和 inorder ,其中 preorder 是二叉树的先序遍历, inorder 是同一棵树的中序遍历,请构造二叉树并返回其根节点。 class Solution { public:TreeNode* buildTree(vector<int>& preorder, vecto…...
【Linux网络】————详解TCP三次握手四次挥手
作者主页: 作者主页 本篇博客专栏:Linux 创作时间 :2025年5月14日 一、TCP三次握手四次挥手介绍 TCP使用三次握手来进行建立连接,四次挥手来终止连接,为何连接还要这么麻烦呢,那是因为这样可以确保建立…...
LLM(大语言模型)部署加速方法——PagedAttention
一、vLLM 用于大模型并行推理加速 存在什么问题? vLLM 用于大模型并行推理加速,其中核心改进是PagedAttention算法,在 vLLM 中,我们发现 LLM 服务的性能受到内存的瓶颈。在自回归解码过程中,LLM 的所有输入标记都会生…...
附加:TCP如何保障数据传输
附加:TCP如何保障数据传输 LS-NET-012-TCP的交互过程详解 TCP 如何保障数据传输 TCP(Transmission Control Protocol,传输控制协议)是互联网核心协议之一,负责在IP网络上提供可靠的、面向连接的数据传输服务。它位于T…...
【python机器学习】Day 25 异常处理
知识点: 异常处理机制debug过程中的各类报错try-except机制try-except-else-finally机制 在即将进入深度学习专题学习前,我们最后差缺补漏,把一些常见且重要的知识点给他们补上,加深对代码和流程的理解。 借助ai写代码的时候&…...
idea springboot 配置文件 中文显示
这里一定要注意编码。如果使用的是中文,则有可能出现乱码, 请单击IDEA菜单栏中的“File→→Settings→Editor→File Encodings”命令, 然后将 Properties Files(*.properties)下的“Default encoding for properties files"设置为UTF-8,…...
day20-线性表(链表II)
一、调试器 1.1 gdb(调试器) 在程序指定位置停顿 1.1.1 一般调试 gcc直接编译生成的是发布版(Release) gcc -g //-g调式版本,(体积大,内部有源码)(DeBug&#…...
深入剖析某App视频详情逆向:聚焦sig3参数攻克
深入剖析某手App视频详情逆向:聚焦sig3参数攻克 一、引言 在当今互联网信息爆炸的时代,短视频平台如某手,已成为人们获取信息、娱乐消遣的重要渠道。对于技术爱好者和研究人员而言,深入探索其内部机制,特别是视频详情…...
数据结构与算法-双向链表专题
目录 一. 双向链表的结构 二.双向链表的使用 2.1 创建节点 2.2 初始化 2.3 打印 2.4 尾插 2.5 头插 2.6 尾删 2.7 头删 2.8 在指定位置pos之后插入数据 2.9 查找数据 2.10 删除pos位置的节点 2.11 销毁链表 一. 双向链表的结构 在List.h的头文件中对链表的结构进行创建 #prag…...
为什么要选择七彩喜数字康养平台?加盟后有何优势?
一.七彩喜数字康养平台 1.技术领先性 七彩喜依托“端-网-云-脑”四层技术架构,整合毫米波雷达、AI算法引擎、区块链等前沿技术,解决传统养老的隐私泄露、设备孤岛等痛点。 比如非接触式健康监测系统通过毫米波雷达实现跌倒检测准确率&#…...
vscode调试c/c++
1. 调试配置选择 调试 C 程序:选择 "Debug C Program"(调用 gcc 编译)。 调试 C 程序:选择 "Debug C Program"(调用 g 编译)。 2. 调试步骤 打开代码文件:确保当前编辑器…...
进阶数据结构: AVL树
嘿,各位技术潮人!好久不见甚是想念。生活就像一场奇妙冒险,而编程就是那把超酷的万能钥匙。此刻,阳光洒在键盘上,灵感在指尖跳跃,让我们抛开一切束缚,给平淡日子加点料,注入满满的pa…...
C# 调试技巧——日志记录,NuGet内断点
在C#中,Debug.WriteLine()、Trace.WriteLine() 和 Console.WriteLine() 都用于输出信息,但它们的用途和适用场景有显著区别。以下是它们的核心差异总结: Debug.WriteLine()主要适用于控制台程序,输出到控制台Trace.WriteLine() …...
模糊数学方法之模糊贴近度
模糊数学方法之模糊贴近度 一、概述 二、代码实现(内含注释) #程序文件ex14_3.py # 本段带代码主要是用于判断b是属于a中的哪个种类的 # 通过计算贴近度的形式来实现的 import numpy as np a np.array([[0.4,0.3,0.5,0.3],[0.3,0.3,0.4,0.4],[0.2,0.3…...
Spring AI 集成 Mistral AI:构建高效多语言对话助手的实战指南
Spring AI 集成 Mistral AI:构建高效多语言对话助手的实战指南 前言 在人工智能应用开发领域,选择合适的大语言模型(LLM)与开发框架至关重要。Mistral AI 凭借其高效的多语言模型(如 Mistral-7B、Mixtral-8x7B 等&am…...
季报中的FPGA行业:U型反转,春江水暖
上周Lattice,AMD两大厂商相继发布2025 Q1季报,尽管恢复速度各异,但同时传递出FPGA行业整体回暖的复苏信号。 5月5日,Lattice交出了“勉强及格”的答卷,报告季度营收1亿2000万,与华尔街的预期基本相符。 对于这家聚焦在中小规模器件的领先厂商而言,按照其CEO的预期,长…...
Data Mining|缺省值补全实验
实验内容任务描述 利用sklearn完成缺省值补全,完成4种以上缺失值补全,并完整地进行模型训练与测试。 四种缺失值补全方法:众数插补、均值插补、K-邻近填充、迭代插补(极大似然估计) 采用模型:随机森林RandomForestClassifier( …...
RabbitMQ 快速上手:安装配置与 HelloWorld 实践(一)
一、引言 在当今分布式系统大行其道的技术浪潮下,各个服务之间的通信与协同变得愈发复杂。想象一下,一个电商系统在大促期间,订单服务、库存服务、支付服务、物流服务等众多模块需要紧密配合。如果没有一种高效的通信机制,系统很容…...
适配华为昇腾 NPU 的交互式监控工具
适配华为昇腾 NPU 的交互式监控工具 在人工智能开发的过程中,我们常常希望能够实时了解计算设备的使用情况。对于使用华为昇腾 NPU 的团队来说,传统上只能通过命令行工具(如 npu-smi)来查询性能指标。但这些命令输出的信息分散且…...
HarmonyOS NEXT~React Native在鸿蒙系统(HarmonyOS)上的适配现状与技术展望
HarmonyOS NEXT~React Native在鸿蒙系统(HarmonyOS)上的适配现状与技术展望 一、背景与现状 鸿蒙系统(HarmonyOS)作为华为自主研发的分布式操作系统,自2019年发布以来已经迭代多个版本。最新的HarmonyOS NEXT更是明确将仅支持原生应用[5],这…...
匿名函数lambda、STL与正则表达式
一、匿名函数lambda 重点: 怎么传递参数。 传引用还是传 1. 匿名函数的基本语法 [捕获列表](参数列表) mutable(可选) 异常属性 -> 返回类型 {// 函数体 } 语法规则:lambda表达式可以看成是一般函数的函数名被略去,返回值使用了一个 -…...
ssti模板注入学习
ssti模板注入原理 ssti模板注入是一种基于服务器的模板引擎的特性和漏洞产生的一种漏洞,通过将而已代码注入模板中实现的服务器的攻击 模板引擎 为什么要有模板引擎 在web开发中,为了使用户界面与业务数据(内容)分离而产生的&…...
存储扇区分配表:NAND Flash与SD NAND(贴片式SD卡)的架构差异
NAND Flash 和 SD 卡(SD NAND)的存储扇区分配表在原理上有相似之处,但由于二者的结构和应用场景不同,也存在一些差异。 相同点: 基本功能:NAND Flash 和 SD 卡(SD NAND)的存储扇区分…...
FreeRTOS队列原理讲解
继续更新freertos,讲解的是队列,队列是先进先出的一种数据结构,有入队和出队操作,今天主要讲解向队列发送消息源码/从队列取出消息源码。 先讲解入队函数,FreeRTOS中入队操作分为后向入队/前入/覆写,但无论…...
C——俄罗斯方块
前言 编译器选择:VS2022。需要掌握控制台操作、颜色设置、随机数生成、键盘事件、文件操作、二维数组操作等知识。运用语言:C语言。 一、游戏背景 1. 游戏概述 俄罗斯方块是一款经典的益智游戏,主要功能包括: 显示游戏界面 随…...
什么是 Shadow Testing?
Shadow Testing(影子测试)是一种在生产环境中对比验证新旧系统行为一致性的重要测试方法。它被广泛应用于系统迁移、架构重构、模型上线、A/B测试前的数据验证、灰度发布等场景,尤其在保障线上稳定性和数据正确性方面具有关键作用。 一、什么…...
【操作系统期末速成】①操作系统概述
——————2025.5.14————— 操作系统主要考点:操作系统概述、进程管理、内存管理、文件系统、设备管理(前三个重点,第二三个是重中之重) 操作系统概念(OS):(本质上是一个软件…...
关于vue学习的经常性错误
目录 常见问题: 1关于引用本地下载es6模块文件,报404错误 2 使用createApp函数后没有调用mount函数挂载到浏览器 3 在mount函数中,忘记引用插值表达式所在标签的定位符如 标签选择器,类选择器等 4在直接使用Vue3函数时&#…...
使用泛型加载保存数据
文章速览 泛型泛型概述定义优点 实例加载数据保存数据 一个赞,专属于你的足迹! 泛型 泛型概述 泛型(Generics)是 C# 中一种重要的编程特性,它允许程序员编写灵活且类型安全的代码。通过使用泛型,可以创建…...
火山引擎实时音视频 高代码跑通日志
实时音视频 SDK 概览--实时音视频-火山引擎 什么是实时音视频 火山引擎实时音视频(Volcengine Real Time Communication,veRTC)提供全球范围内高可靠、高并发、低延时的实时音视频通信能力,实现多种类型的实时交流和互动。 通…...
ubuntu清除缓存
pip pip cache purgeconda conda clean -a -yapt apt cleanapt-get apt-get cleanmodelscope modelscope clear-cachehuggingface rm -rf ~/.cache/huggingface/*...
Flink SQL 将kafka topic的数据写到另外一个topic里面
-- 创建源表,使用 RAW 格式接收原始 JSON 数据 CREATE TABLE source_kafka ( id STRING, data STRING ) WITH ( connector kafka, topic source_kafka-topic, properties.bootstrap.servers master01:9092, properties.group.id flink-kafka-group, scan.startu…...
【C++重载操作符与转换】纯虚函数
目录 一、纯虚函数的基本概念 1.1 定义与语法 1.2 抽象类 1.3 派生类的实现要求 二、纯虚函数的使用场景 2.1 定义接口 2.2 实现多态 2.3 设计框架 三、纯虚函数的特性 3.1 纯虚函数可以有实现 3.2 抽象类的构造函数和析构函数 3.3 纯虚函数与接口继承 四、纯虚函…...
面向具身智能的视觉-语言-动作模型(VLA)综述
具身智能被广泛认为是通用人工智能(AGI)的关键要素,因为它涉及控制具身智能体在物理世界中执行任务。在大语言模型和视觉语言模型成功的基础上,一种新的多模态模型——视觉语言动作模型(VLA)已经出现&#…...
车用CAN接口芯片:汽车神经系统的沉默构建者
车用CAN接口芯片:汽车神经系统的沉默构建者 在汽车电子系统的复杂架构中,CAN总线如同人体的神经系统,而CAN接口芯片则扮演着神经突触的角色。这些指甲盖大小的芯片,默默承担着整车超过70%的通信任务,却鲜少成为技…...
AI日报 · 2025年5月14日|Android 生态大型更新与多端 Gemini 集成
1、Google “Android Show: I/O Edition” 汇总:设计、安全、Gemini 三线并进 北京时间 5 月 14 日凌晨(原文标注 5 月 13 日 PDT),Google 在 I/O 前夕举办的 Android Show 一口气公布四大方向更新:① Mater…...
QT+opencv实现卡尺工具找圆、拟合圆
QT Opencv 实现卡尺工具找圆 找圆工具是自己从其他项目里面单独整理出来,可直接引用到新项目中。 程序中提供了函数接口,其他文件直接传入参数就能获取圆心和半径信息。次工具全采用QT和opencv,全部源码可随需求更改。 以下是实现效果&am…...
养生:拥抱健康生活的实用之道
在忙碌的现代生活中,养生逐渐成为人们追求健康的重要方式。从饮食、运动到睡眠与心态,各个养生环节相辅相成,共同构建起健康生活的大厦。以下为你详细介绍养生的关键要点,助你开启健康生活之旅。 饮食养生:科学搭配&a…...
Llama:开源的急先锋
Llama:开源的急先锋 Llama1:开放、高效的基础语言模型 Llama1使用了完全开源的数据,性能媲美GPT-3,可以在社区研究开源使用,只是不能商用。 Llama1提出的Scaling Law 业内普遍认为如果要达到同一个性能指标,训练更…...