当前位置: 首页 > news >正文

文生图(Text-to-Image)的发展

文章目录

      • 1. 早期探索(2010-2015):传统方法与初步尝试
      • 2. 文本条件GAN时代(2016-2019)
      • 3. 自回归与VQ-VAE时代(2019-2021)
      • 4. 扩散模型革命(2021-2022)
        • (1) 扩散模型基础突破
        • (2) 潜空间扩散(Latent Diffusion)
        • (3) 多模态预训练融合
      • 5. 大模型时代(2023至今)
        • (1) 更高分辨率与可控性
        • (2) 多模态统一架构
        • (3) 商业化与垂直应用
      • 技术对比与关键突破
      • 未来方向
      • 总结

文生图(Text-to-Image)模型是生成式AI的重要分支,其技术发展经历了从传统方法到深度学习,再到多模态大模型的演进过程。以下是关键发展阶段和技术突破的详细梳理:


1. 早期探索(2010-2015):传统方法与初步尝试

  • 基于检索与拼接:
    • 通过文本标签检索图像库中的匹配内容,拼接生成结果(如MIT的Picture系统)。
    • 局限性:依赖现有图像库,无法生成新内容。
  • 生成对抗网络(GAN)雏形:
    • 2014年GAN的提出为生成模型奠定基础,但早期GAN(如DCGAN)仅能生成低分辨率图像,无法结合文本。

2. 文本条件GAN时代(2016-2019)

  • 文本编码器与GAN结合:
    • StackGAN(2016):首篇文本生成图像的GAN论文,通过两阶段生成(低分辨率→高分辨率)。
    • AttnGAN(2018):引入注意力机制,实现文本与图像区域的细粒度对齐。
    • StyleGAN-T(2022):适配文本输入的StyleGAN变体,生成质量显著提升。
  • 局限性:
    • 生成多样性不足,易出现模式坍塌(mode collapse)。
    • 文本对齐能力有限,复杂场景描述难以实现。

3. 自回归与VQ-VAE时代(2019-2021)

  • VQ-VAE + 自回归模型:
    • DALL·E 1(OpenAI, 2021):
      • 使用离散编码(VQ-VAE)将图像压缩为token,结合Transformer自回归生成。
      • 支持多模态输入(文本+图像),但生成分辨率较低(256x256)。
    • CogView(清华, 2021):
      • 中文领域的首个大规模文生图模型,基于类似架构。
  • 优势:
    • 生成多样性优于GAN,支持更长文本输入。
  • 缺陷:
    • 自回归生成速度慢,无法编辑已生成部分。

4. 扩散模型革命(2021-2022)

(1) 扩散模型基础突破
  • DDPM(2020)和DDIM(2021)的提出,为高质量生成提供新范式。
  • GLIDE(OpenAI, 2021):
    • 首个基于扩散模型的文生图系统,支持文本引导生成和编辑。
    • 使用Classifier-Free Guidance提升文本对齐能力。
(2) 潜空间扩散(Latent Diffusion)
  • Stable Diffusion(StabilityAI, 2022):
    • 关键创新:在VAE的潜空间进行扩散,大幅降低计算成本(生成512x512图像仅需4GB显存)。
    • 开源生态推动社区爆发(插件、微调工具如LoRA)。
  • Imagen(Google, 2022):
    • 直接在高分辨率像素空间扩散,结合T5-XXL文本编码器,生成质量领先。
(3) 多模态预训练融合
  • CLIP引导:
    • 利用CLIP的图文对齐能力优化生成(如DALL·E 2的“unCLIP”架构)。
  • 统一表征:
    • Parti(Google, 2022):将图像和文本统一编码为token序列,基于ViT-VQGAN和Pathways架构。

5. 大模型时代(2023至今)

(1) 更高分辨率与可控性
  • SDXL(2023):
    • Stable Diffusion的升级版,基础模型参数量增至35亿,支持1024x1024生成。
    • 引入多尺度训练和Refiner模块优化细节。
  • ControlNet:
    • 通过额外输入(如边缘图、深度图)实现精细化控制。
(2) 多模态统一架构
  • Emu(Meta, 2023):
    • 单模型支持文生图、图生文、视频生成等多任务。
  • Stable Diffusion 3(2024):
    • 融合扩散模型与Transformer,改进文本编码和理解能力。
(3) 商业化与垂直应用
  • MidJourney:
    • 专注艺术创作,通过用户反馈迭代优化风格化生成。
  • Adobe Firefly:
    • 集成到Photoshop,支持基于文本的图像编辑(如“生成填充”)。

技术对比与关键突破

技术阶段代表模型核心方法优缺点
传统方法Picture图像检索拼接无创造性,依赖库
文本GANAttnGANGAN+注意力机制分辨率低,文本对齐弱
自回归模型DALL·E 1VQ-VAE+Transformer生成慢,离散token限制
扩散模型Stable Diffusion潜空间扩散+CLIP高质量开源,计算高效
多模态大模型SDXL混合架构+超参优化高分辨率,可控性强

未来方向

  1. 3D与视频生成:
    • 如Stable Video Diffusion、Sora(OpenAI)扩展至动态内容。
  2. 实时生成与交互:
    • 一步生成模型(如LCM-LoRA)降低延迟。
  3. 版权与伦理:
    • 数据清洗(如LAION-5B过滤)、生成内容溯源(水印技术)。
  4. 个性化与轻量化:
    • 微调技术(DreamBooth)、小型化部署(移动端扩散模型)。

总结

文生图模型从早期受限的GAN架构,发展到如今以扩散模型为核心、结合多模态预训练的技术体系,实现了从“能生成”到“高质量、可控、开放生态”的跨越。未来随着多模态大模型的演进,文生图技术将进一步融入创作工具、娱乐和教育等领域,成为AI基础设施的重要组成部分。

相关文章:

文生图(Text-to-Image)的发展

文章目录 1. 早期探索(2010-2015):传统方法与初步尝试2. 文本条件GAN时代(2016-2019)3. 自回归与VQ-VAE时代(2019-2021)4. 扩散模型革命(2021-2022)(1) 扩散模型基础突破…...

vscode预览模式(点击文件时默认覆盖当前标签,标签名称显示为斜体,可通过双击该标签取消)覆盖标签、新窗打开

文章目录 VS Code 预览模式如何取消预览模式(即“固定”标签页)?预览模式有什么用? VS Code 预览模式 在 VS Code 中,当你单击文件浏览器(例如,资源管理器侧边栏)中的某个文件时&am…...

热部署相关

手动热部署 启动热部署后代码进行修改可以不用重启整个项目Carl F9修改的代码就可以直接生效了 热部署只进行重启的操作而不用进行重载的操作 自动热部署 自定义重启排除项 关闭热部署 ture为开启热部署false为关闭 如果直接在application.yml里写可能会被其他优先级更高的配…...

高防ip是怎么做到分布式防御的

高防IP的分布式防御体系通过多维度技术协同实现攻击流量的分散处理与智能拦截,其核心机制可从以下五个层面解析: ​​一、全球节点网络布局​​ ​​多区域节点覆盖​​ 在全球关键互联网枢纽(如北美、欧洲、亚太)部署清洗中心&am…...

结构可视化:利用数据编辑器剖析数据内在架构​

结构可视化聚焦于展示数据的内部结构和各部分之间的关系,使企业能够深入理解数据的组织方式和层次体系,从而更好地进行数据管理和分析。通过结构可视化,企业可以清晰地看到数据的层次结构、关联关系以及数据流动路径,为数据驱动的…...

QT编程练习20250507

#include <stdio.h> // 包含标准输入输出库 #include <stdlib.h> // 包含通用工具库&#xff08;如malloc, free等&#xff09; #include <string> // 包含C string类定义 #include <iostream> // 包含C输入输出流库using namespace std; // 使用st…...

【软件设计师:算法】3.排序算法

一、排序 将一组杂乱无章的数据按一定的规律次序排列起来。 排序的目的是什么? 便于查找!排序算法的好坏如何衡量? 时间效率——排序速度(即排序所花费的全部比较次数)空间效率——占内存辅助空间的大小稳定性——若两个记录A和B的关键字值相等,但排序后A、B的先后次序保…...

Linux 内核学习(7) --- 字符设备驱动

字符设备驱动程序 Linux 中主要有三类设备的驱动程序&#xff0c;分别是字符设备驱动程序&#xff0c;块设备驱动程序和网络设备驱动程序 字符设备是指在 I/O 传输过程中以字符为单位进行传输的设备&#xff0c;例如键盘&#xff0c;打印机等&#xff0c;字符设备的驱动程序结…...

vue3+vite项目引入tailwindcss

从2025年1月tailwindcss4.0发布开始使用tailwindcss比之前简化很多 1,安装 yarn add tailwindcss tailwindcss/vite2,配置vite.config.js import tailwindcss from tailwindcss/vite;...plugins: [tailwindcss(),...] ...3,在主css文件顶部添加 注意一定是css文件,不能是sc…...

IIS配置SSL

打开iis 如果搜不到iis&#xff0c;要先开 再搜就打得开了 cmd中找到本机ip 用http访问本机ip 把原本的http绑定删了 再用http访问本机ip就不行了 只能用https访问了...

LeetCode:对称二叉树

1、题目描述 给你一个二叉树的根节点 root &#xff0c; 检查它是否轴对称。 示例 1&#xff1a; 输入&#xff1a;root [1,2,2,3,4,4,3] 输出&#xff1a;true 示例 2&#xff1a; 输入&#xff1a;root [1,2,2,null,3,null,3] 输出&#xff1a;false 提示&#xff1a; 树中…...

6天从0到精通:MySQL基础快速入门指南

放在前头 6天从0到精通&#xff1a;MySQL基础快速入门指南 6天从0到精通&#xff1a;MySQL基础快速入门指南 在数据驱动的时代浪潮下&#xff0c;MySQL作为全球最受欢迎的开源关系型数据库管理系统之一&#xff0c;广泛应用于Web开发、数据分析、云计算等多个领域。无论是刚…...

信息论12:从信息增益到信息增益比——决策树中的惩罚机制与应用

从信息增益到信息增益比&#xff1a;决策树中的惩罚机制与应用 引言&#xff1a;当"信息量"遇到"公平性" 在2018年某银行的信用卡风控系统中&#xff0c;数据分析师发现一个诡异现象&#xff1a;客户ID号在决策树模型中竟成为最重要的特征。这个案例揭示…...

C++ -- 哈希扩展

目录 位图 位图概念 位图的实现 位图应用 布隆过滤器 布隆过滤器的提出 布隆过滤器概念 布隆过滤器的插入 布隆过滤器的查找 布隆过滤器的删除 位图 给40亿个不重复的无符号整数&#xff0c;没排过序。给一个无符号整数&#xff0c;如何快速判断一个数是否在这40亿个数…...

AI大模型分类以及Prompt优化技巧

目录 一、AI大模型分类 1、按模态分类 2、按开源性分类 3、按规模分类 4、按用途分类 如何对比和选择大模型 二、Token 如何计算 Token 如何估算Token成本 三、Prompt工程 Prompt优化技巧 基础提示技巧 1、明确指定任何和角色 2、提供详细说明和具体示例 3、使用…...

将本地项目提交到新建的git仓库

方式一: # 登录git&#xff0c;新建git仓库和指定的分支&#xff0c;如master、dev# 下载代码&#xff0c;默认下载master分支 git clone http://10.*.*.67/performance_library/pfme-*.git # 切换到想要提交代码的dev分支 git checkout dev# 添加想要提交的文件 git add .#…...

【wpf】10 C#树形控件高效实现:递归构建与路径查找优化详解

在WPF应用程序开发中&#xff0c;树形控件的实现是常见且具有挑战性的需求。本文将深入解析一套高效树形结构的实现方案&#xff0c;包含递归构建、路径查找优化、动态交互等多个关键技术点。 一、递归构建树形结构 private TreeItem CreateTreeViewItem(TreeNode node) {var…...

低空科技护航珞樱春色,技术引领助推广阔应用

春风拂珞珈&#xff0c;樱海绽放时。赏樱季已接近尾声&#xff0c;作为武汉大学测绘遥感信息工程全国重点实验室的成果转化科技型企业&#xff0c;大势智慧积极参与校园的智能化建设&#xff0c;助力武汉大学的樱花季巡航管理&#xff0c;打造更为安全、有序的赏樱体验。 低空…...

Tiny Machine Learning在人类行为分析中的全面综述

论文标题&#xff1a; 中文&#xff1a;《Tiny Machine Learning在人类行为分析中的全面综述》 英文&#xff1a;A Comprehensive Survey on Tiny Machine Learning for Human Behavior Analysis 作者信息&#xff1a; Ismail Lamaakal, Student Member, IEEE, Siham Essahr…...

8.12 GitHub Sentinel企业级进化:容器化优化×AI监控,效率提升300%实战

GitHub Sentinel 扩展优化与商业化演进路径 关键词:企业级 Agent 扩展性设计、容器化部署优化、多格式报告生成、第三方服务集成、SaaS 服务架构 1. 功能扩展方向 1.1 多格式报告生成技术实现 采用模板引擎与文件流处理技术实现动态报告生成: #mermaid-svg-2BhQlvVsDp5NdL…...

算法-时间复杂度和空间复杂度

刷算法必备时间和空间复杂度&#xff0c;记录下方便查询。 时间复杂度 概念 时间复杂度衡量的是算法 执行所需的时间 随输入规模 n 增长的变化趋势&#xff0c;用大O 表示法描述&#xff08;通常是看这个循环&#xff09;。 分类 常数时间O(1) 无论输入多大&#xff0c;执行…...

springboot国家化多语言实现

前言 公司在做国际化项目时需要匹配多语言环境&#xff0c;通过spring实现i18n国际化方便快捷 项目结构 src/ ├── main/ │ ├── java/ │ │ └── com/example/i18ndemo/ │ │ ├── config/ # 配置类 │ │ ├── controller/ # …...

第2章 算法分析基础

2-1 算法的时间复杂度分析 2.1.1 输入规模与基本语句 输入规模&#xff1a;算法处理数据的规模&#xff0c;通常用 n 表示。 基本语句&#xff1a;执行次数与输入规模直接相关的关键操作。 例2.1 顺序查找 int SeqSearch(int A[], int n, int k) { for (int i 0; i < n…...

vue2 计算属性 computed

计算属性他是一个属性&#xff0c;他不是一个函数&#xff0c;使用的时候不要加括号 reduce reduce 是 JavaScript 数组的一个高阶函数&#xff0c;用于对数组中的每个元素执行一个​​累积计算​​&#xff0c;最终返回一个单一的值。...

Milvus 向量数据库详解与实践指南

一、Milvus 核心介绍 1. 什么是 Milvus&#xff1f; Milvus 是一款开源、高性能、可扩展的向量数据库&#xff0c;专门为海量向量数据的存储、索引和检索而设计。它支持近似最近邻搜索&#xff08;ANN&#xff09;&#xff0c;适用于图像检索、自然语言处理&#xff08;NLP&am…...

记录一次 python 文件环境变量配置-sqlmap.py

第一步&#xff1a;环境变量配置 C:\Users\14913\Downloads\application\3.secure\sqlmap-2025.5.6 或者 C:\Users\14913\Downloads\application\3.secure\sqlmap-2025.5.6 都可以&#xff01; 第二步 使用 第一步&#xff1a;不再进目录 第二步&#xff1a;不再python … s…...

使用大语言模型进行机器人规划(Robot planning with LLMs)

李升伟 编译 长期规划在机器人学领域可以从经典控制方法与大型语言模型在现实世界知识能力的结合中获益。 在20世纪80年代&#xff0c;机器人学和人工智能&#xff08;AI&#xff09;领域的专家提出了莫雷奇悖论&#xff0c;观察到人类看似简单的涉及移动和感知的任务&#x…...

STM32 CAN总线

目录 定时传输CAN简介和硬件电路 CAN简介 主流通信协议对比 ​编辑 CAN硬件电路 ​编辑 CAN电平标准 CAN收发器 – TJA1050&#xff08;高速CAN&#xff09; CAN物理层特性 帧格式 数据帧 遥控帧 错误帧 过载帧 ​编辑 帧间隔 ​编辑 位填充 波形实例 位…...

使用JMeter 编写的测试计划的多个线程组如何生成独立的线程组报告

我有一个测试计划&#xff0c;里面有两个线程组&#xff0c;如下&#xff1a; 添加了一个HTTP请求默认值&#xff1a; 然后我使用如下命令生成的可视化报告是两个线程组合并后的聚合报告。 jmeter -n -t 百度测试计划.jmx -l baidu.txt -e -o ./baidu但是我想要的效果是每…...

RabbitMQ如何保证消息不丢失?

在RabbitMQ中&#xff0c;消息丢失可能发生在三个阶段&#xff1a;生产者发送消息时、消息在RabbitMQ服务器内部传递时、消费者接收消息时。为了保证消息不丢失&#xff0c;需要从这三个方面分别采取措施&#xff1a; 1. 生产者确保消息发送成功 开启确认模式&#xff08;Conf…...

RAG 的介绍及评价方法

RAG的作用 大模型虽然具备处理复杂语言任务的强大能力&#xff0c;但在知识更新和依赖外部信息的及时性方面存在局限。大模型在训练时捕获的知识通常是静态的&#xff0c;一旦训练完成&#xff0c;模型便不再更新&#xff0c;无法掌握训练数据集之外的最新信息或事件。RAG可以…...

Linux网络新手注意事项与配置指南

Linux系统在网络管理方面提供了丰富的工具和灵活的配置方式,但对于新手来说,掌握正确的操作方法和注意事项至关重要。本文将从网络基础概念、配置工具、安全设置、故障排查以及常见错误等多个方面,结合具体代码示例,详细讲解Linux网络管理的核心内容,帮助新手快速入门并避…...

CI/CD与DevOps流程流程简述(提供思路)

一 CI/CD流程详解&#xff1a;代码集成、测试与发布部署 引言 在软件开发的世界里&#xff0c;CI/CD&#xff08;持续集成/持续交付&#xff09;就像是一套精密的流水线&#xff0c;确保代码从开发到上线的整个过程高效、稳定。我作为一名资深的软件工程师&#xff0c;接下来…...

【AWS+Wordpress-准备阶段】AWS注册+创建EC2实例

前言 自学笔记&#xff0c;解决问题为主&#xff0c;亲测有效&#xff0c;欢迎补充。 本地WP文件部署到AWS整体步骤如下&#xff1a;&#xff08;本文重点&#xff1a;AWS准备完成&#xff09; 0. [AWS 准备] 注册 AWS 并创建 EC2 实例 ↓ 1. [生成安装包&#xff1a;用 Du…...

FPGA----基于ZYNQ 7020实现定制化的EPICS通信系统

引言&#xff1a;前文我们降到了&#xff0c;使用alinx提供的sd卡&#xff0c;直接在上面编译即可。那么&#xff0c;如果我们的在FPGA侧有一些个性化的开发&#xff0c;那么生成的image.ub和boot.bin将于原sd卡中的不一致&#xff0c;我们应该如何坐呢&#xff1f; 补充知识点…...

读《暗时间》有感

读《暗时间》有感 反思与笔记 这本书还是我无意中使用 ima 给我写职业规划的时候给出的&#xff0c;由于有收藏的习惯&#xff0c;我就去找了这本书。当读到第一章暗时间的时候给了我很大的冲击&#xff0c;我本身就是一个想快速读完一本书的人&#xff0c;看到东西没有深入思…...

MIT关节电机相序校准

UVW三相相序判断 电机相序校正是确保多关节控制系统正常运行的重要步骤。在实际应用中&#xff0c;每个电机定子的三相线&#xff08;W、U、V&#xff09;的连接顺序可能存在差异&#xff0c;这是由于制造过程中的随机接线所致。不过&#xff0c;通过简单的校正方法&#xff0c…...

Qwen2.5模型结构

self.lm_head nn.Linear(config.hidden_size, config.vocab_size, biasFalse) 这个是用来干嘛的 输出层&#xff0c;词汇投影层&#xff0c;将模型输出的隐藏状态向量映射回词表空间&#xff0c;用于预测下一个token # 预测 logits&#xff0c;未经过 softmax lm_logits self…...

2021-11-11 C++泰勒sin(x)以2步进乘方除以阶乘加减第N项

缘由c书本题&#xff0c;求解了&#xff0c;求解-编程语言-CSDN问答 int n 10, d 3, z -1; double x 2.5, xx x;while (n){xx (乘方(x, d) / 阶乘(d)) * z;d 2, --n, z * -1;}std::cout << xx << std::endl;...

【MySQL】C语言访问数据库

C语言访问数据库 一. Linux 安装 MySQL 动静态库二. 使用MySQL数据库1. 创建MySQL对象2. 连接MySQL数据库3. 释放MySQL对象4. SQL 语句操作1. 插入操作2. 修改操作3. 删除操作4. 查询操作 准备工作 use mysql; select user, host from user;# 创建本地连接的用户 create user c…...

dify 部署后docker 配置文件修改

1&#xff1a;修改 复制 ./dify/docker/.env.example ./dify/docker/.env 添加一下内容 # 启用自定义模型 CUSTOM_MODEL_ENABLEDtrue# 将OLLAMA_API_BASE_URL 改为宿主机的物理ip OLLAMA_API_BASE_URLhttp://192.168.72.8:11434# vllm 的 OPENAI的兼容 API 地址 CUSTOM_MODE…...

【神经网络与深度学习】VAE 和 GAN

这位大佬写的 VAE 的讲解很不错 VAE 和 GAN 的相同点和不同点 引言 VAE&#xff08;变分自编码器&#xff09;和 GAN&#xff08;生成对抗网络&#xff09;是深度学习中两种主要的生成模型&#xff0c;它们在数据生成任务中发挥着重要作用。虽然它们的目标相似&#xff0c;都…...

2-C#控件

2-控件 1.panel控件的使用 private void button3_Click(object sender, EventArgs e){Form2 my2 new Form2();my2.TopLevel false;this.panel1.Controls.Add(my2);my2.BringToFront();my2.Show();}private void button4_Click(object sender, EventArgs e){Form3 my3 new F…...

1.1.2 简化迭代器 yield return的使用

yield return 是一个用于简化迭代器&#xff08;Iterator&#xff09;实现的关键字组合。它的核心作用是让开发者能够以更简洁的方式定义一个按需生成序列的方法&#xff08;生成器方法&#xff09;&#xff0c;而无需显式实现 IEnumerable 或 IEnumerator 接口。yield return …...

机器学习实操 第二部分 神经网路和深度学习 第14章 使用卷积神经网络进行深度计算机视觉

机器学习实操 第二部分 神经网路和深度学习 第14章 使用卷积神经网络进行深度计算机视觉 内容概要 第14章深入探讨了卷积神经网络&#xff08;CNNs&#xff09;及其在计算机视觉中的应用。CNNs受大脑视觉皮层的启发&#xff0c;通过局部感受野和权值共享机制&#xff0c;能够…...

电商双11美妆数据分析(2)

接下来用seaborn包给出每个店铺各个大类以及各个小类的销量销售额 关于性别 接下来考虑性别因素&#xff0c;了解各类产品在男性消费者中的销量占比 男士的销量基本来自于清洁类&#xff0c;其次是补水类。而这两类正是总销量中占比最高的两类。 非男士专用中&#xff0c;补水…...

数字康养新范式:七彩喜平台重构智慧养老生态的深度实践

在全球人口老龄化程度日益加深的当下&#xff0c;养老问题成为社会关注的焦点。 智慧养老作为一种创新的养老模式&#xff0c;借助现代信息技术&#xff0c;为提升老年人生活质量、缓解养老压力提供了新的思路与途径。 而当前中国 60 岁以上人口已达 2.8 亿&#xff0c;占总人…...

2D横板跳跃游戏笔记(查漏补缺ing...)

1.Compression&#xff08;压缩质量&#xff09;&#xff1a;可以改为None&#xff0c;不压缩的效果最好&#xff0c;但占用内存 2.Filter Mode&#xff08;过滤模式&#xff09;&#xff1a;可以选择Point&#xff08;no filter&#xff09; 3.Pixels Per Unit&#xff1a;是…...

c++中“”符号代表引用还是取内存地址?

c中&#xff0c;“&”符号有时代表引用&#xff0c;有时代表取地址符。 一、引用和取址 引用是一个已存在变量的别名&#xff0c;修改别名的值&#xff0c;原始变量的值也会改变&#xff1b;而取地址符则是得到一个指针&#xff0c;该指针指向变量的内存地址。 1&#x…...

AGV智能搬运机器人:富唯智能引领工业物流高效变革

在智能制造与工业4.0深度融合的今天&#xff0c;物流环节的高效与精准已成为企业核心竞争力的关键。富唯智能凭借其自主研发的AGV智能搬运机器人&#xff0c;以创新技术重塑工业物流标准&#xff0c;助力企业实现降本增效的跨越式发展。 一、技术突破&#xff1a;精准导航与智能…...