当前位置：首页 > news >正文

【LDM】视觉自回归建模：通过Next-Scale预测生成可扩展图像（NeurIPS2024最佳论文阅读笔记与吃瓜）

news 来源：原创 2025/8/21 3:05:09

《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》
视觉自回归建模：通过Next-Scale预测生成可扩展图像

文章目录

- 1、吃瓜：tky事件，NeurIPS与最佳论文
- 2、论文：摘要，正文，结论
- 3、导读：文章核心内容总结

在这里插入图片描述

1、吃瓜：tky事件，NeurIPS与最佳论文

去年的瓜，当时就关注了下，后来一直没空看，就咕咕咕，最近在看AI相关的内容，突然想起来了，就来填一个远古的坑 1， 2 , tkygithub,

吃瓜时间线

10月，有消息称，字节跳动某实习生破坏了大模型训练代码，造成严重后果。后来，字节内部人士证实，确有此事，实习生已经被辞退，名为田柯宇。
本来，字节只是将田柯宇退回，让学校处理，并没有追究他的经济赔偿。但是，田柯宇后来多次表示，自己发完论文后，就从字节离职了，是另一个人篡改了模型代码，并将过失扣到了自己头上。
11月底，有媒体报道称，字节跳动请求法院判令田某某赔偿公司侵权损失 800 万元及合理支出 2 万元，并公开赔礼道歉。
正当大模型老板们都在感叹，这样的员工技术再好也不能用时，田柯宇又用科研论文在研究领域狠狠扳回了一分，获得NeurIPS2024最佳论文奖。

NeurIPS最佳论文的含金量

神经信息处理系统大会（NIPS， NeurIPS ，Conference and Workshop on Neural Information Processing Systems），是一个关于机器学习和计算神经科学的国际会议。nips官网
该会议位列CCFA。与ICML，ICLR并称为机器学习领域难度最大，水平最高，影响力最强的会议三大会议。1
头部计划seed，PAAI，青云计划，群星未来之夜，豆包火种之夜，线下邀请函，年薪高达165w+
NeurIPS 2024 将于 12 月 10 日星期二至 12 月 15 日星期日在温哥华举办。
NeurIPS 2024 年共接收了 15671 篇论文（比去年又增长了27%），录取率为25.8%（去年为 26.1%），大概 4043 篇左右。1， 2， 3
公开数据显示，中国人民大学、字节跳动、蚂蚁集团、腾讯等中国高校和互联网企业均分别有数十篇论文被NeurIPS 2024收录。蚂蚁集团被 NeurIPS 2024 收录了20篇论文，其中有一篇为Spotlight（特别关注）。按往年数据估算，NeurIPS 的 Spotlight 论文录取率约为 3%。 1
在这4000多篇论文中，一共有两篇论文获得最佳论文奖，其中一篇就是tky的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》（视觉自回归建模：通过Next-Scale预测生成可扩展图像），1

2、论文：摘要，正文，结论

项目模型和代码，论文正式版 , 预印本

参考资料：1, 2，

背景介绍

在自然语言处理中，以 GPT、LLaMa 系列等大语言模型为例的 Autoregressive 自回归模型已经取得了较大的成功，尤其 Scaling Law 缩放定律和 Zero-shot Task Generalizability 零样本任务泛化能力十分亮眼，初步展示出通往「通用人工智能 AGI」的潜力。
然而在图像生成领域中，自回归模型却广泛落后于扩散（Diffusion）模型：近期持续刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均属于 Diffusion 家族。此外，对于视觉生成领域是否存在「Scaling Law 缩放定律」仍未知，即测试集损失是否随模型或训练开销增长而呈现出可预测的幂律 (Power-law) 下降趋势仍待探索。GPT 形式自回归模型的强大能力与 Scaling Law，在图像生成领域，似乎被「锁」住了。
剑指「解锁」自回归模型的能力和 Scaling Laws，研究团队从图像模态内在本质出发，模仿人类处理图像的逻辑顺序，提出一套全新的「视觉自回归」生成范式：VAR, Visual AutoRegressive Modeling，首次使得 GPT 风格的自回归视觉生成，在效果、速度、Scaling 能力多方面超越 Diffusion，并迎来了视觉生成领域的 Scaling Laws。

在这里插入图片描述

实现方案

VAR 方法核心：模仿人类视觉，重新定义图像自回归顺序
人类在感知图像或进行绘画时，往往先概览全局、再深入细节。这种由粗到细、从把握整体到精调局部的思想非常自然。然而，传统的图像自回归（AR）却使用一种不符合人类直觉（但适合计算机处理）的顺序，即自上而下、逐行扫描的光栅顺序（或称 raster-scan 顺序），来逐个预测图像。
VAR 则「以人为本」，模仿人感知或人创造图像的逻辑顺序。
使用从整体到细节的多尺度顺序逐渐生成 token map。一个显著优势是大幅提高了生成速度：在自回归的每一步（每一个尺度内部），所有图像 token 是一次性并行生成的；跨尺度则是自回归的。这使得在模型参数和图片尺寸相当的情况下，VAR 能比传统 AR 快数十倍。
VAR 方法细节：两阶段训练
VAR 在第一阶段训练一个多尺度量化自动编码器（Multi-scale VQVAE），在第二阶段训练一个与 GPT-2 结构一致（结合使用 AdaLN）的自回归 Transformer。
作者表示，VAR 的自回归框架是全新的
而具体技术方面则吸收了 RQ-VAE 的残差 VAE、StyleGAN 与 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列经典技术的长处。VAR 实际是站在巨人的肩膀上，聚焦于自回归算法本身的创新。

实验效果对比

VAR 在 Conditional ImageNet 256x256 和 512x512 上进行实验：
VAR 大幅提升了 AR 的效果，一转 AR 落后于 Diffusion 的局面
VAR 仅需 10 步自回归步骤，生成速度大幅超过 AR、Diffusion，甚至逼近 GAN 的高效率
通过 Scale up VAR 直至 2B/3B，VAR 达到了 SOTA 水平，展现出一个全新的、有潜力的生成模型家族。
通过与 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer（DiT）对比：
更好效果：经过 scale up，VAR 最终达到 FID=1.80，逼近理论上的 FID 下限 1.78（ImageNet validation set），显著优于 DiT 最优的 2.10
更快速度：VAR 只需不到 0.3 秒即可生成一张 256 图像，速度是 DiT 的 45 倍；在 512 上更是 DiT 的 81 倍
更好 Scaling 能力：如左图所示，DiT 大模型在增长至 3B、7B 后体现出饱和现象，无法靠近 FID 下限；而 VAR 经过缩放到 20 亿参数，性能不断提升，最终触及 FID 下限
更高效的数据利用：VAR 仅需 350 epoch 训练即超过 DiT 1400 epoch 训练
Scaling Law 实验
Scaling law 可谓是大语言模型的「皇冠明珠」。相关研究已经确定，在 Scale up 自回归大型语言模型过程中，测试集上的交叉熵损失 L，会随着模型参数量 N、训练 token 个数 T，以及计算开销 Cmin 进行可预测的降低，呈现出幂律（Power-law）关系。
通过实验，研究者观察到了 VAR 展现出与 LLM 几乎完全一致的幂律 Scaling Law：研究者训练了 12 种大小的模型，缩放模型参数量从 1800 万到 20 亿，总计算量横跨 6 个数量级，最大总 token 数达到 3050 亿，并观察到测试集损失 L 或测试集错误率与 N 之间、L 与 Cmin 之间展现出平滑的的幂律关系，并拟合良好
Zero-shot 实验
得益于自回归模型能够使用 Teacher-forcing 机制强行指定部分 token 不变的这一优良性质，VAR 也展现出一定的零样本任务泛化能力。在条件生成任务上训练好的 VAR Transformer，不通过任何微调即可零样本泛化到一些生成式任务中，例如图像补全（inpainting）、图像外插（outpainting）、图像编辑（class-condition editing），并取得一定效果

结论

VAR 为如何定义图像的自回归顺序提供了一个全新的视角，即由粗到细、由全局轮廓到局部精调的顺序。在符合直觉的同时，这样的自回归算法带来了很好的效果：VAR 显著提升自回归模型的速度和生成质量，在多方面使得自回归模型首次超越扩散模型。

3、导读：文章核心内容总结

本节来源，AI总结

1. 核心思想

Next-Scale Prediction（下一尺度预测）：
传统自回归模型（如PixelRNN）逐像素生成图像，计算效率低且难以捕获长程依赖。本文提出按尺度渐进生成：先生成低分辨率图像，再逐步预测更高分辨率的细节，形成层级生成过程。
自回归的跨尺度扩展：
将自回归建模从像素空间转移到尺度空间，每个步骤基于当前尺度的图像预测下一尺度的残差细节，而非直接生成完整图像。

2. 关键技术

多尺度图像分解：
将图像分解为不同尺度的金字塔表示（如从64×64→128×128→256×256…），每个尺度对应一组残差特征。
条件自回归建模：
使用Transformer或CNN模型，以当前尺度图像为条件，预测下一尺度的残差（即Δ = Next_Scale − Current_Scale）。
渐进训练策略：
分阶段训练模型，先训练低尺度生成，再逐步扩展到高尺度，避免直接处理高分辨率数据的复杂性。

3. 优势与创新

可扩展性：
通过分尺度生成，显著降低计算复杂度，支持生成超高分辨率图像（如1024×1024以上）。
细粒度控制：
用户可通过干预中间尺度的生成结果（如草图→细节），实现可控的图像编辑。
高质量生成：
相比传统自回归模型，能更好地捕获全局结构和局部细节的关联。

4. 应用场景

高分辨率图像合成：适用于艺术创作、游戏素材生成等。
图像编辑与修复：基于中间尺度结果进行局部修改（如替换物体、修复遮挡区域）。
多模态生成：与文本/布局条件结合，实现文本到图像的精准生成。

5. 对比现有方法

vs 扩散模型（Diffusion）：
扩散模型通过迭代去噪生成图像，计算成本高；而分尺度自回归能更高效地利用层级结构。
vs 传统自回归模型（如PixelCNN）：
避免了逐像素生成的序列过长问题，通过尺度跳跃加速推理。
vs GANs：
避免了模式坍塌问题，生成结果更稳定，且支持渐进式编辑。

6. 未来方向

与潜在扩散结合：在潜在空间进行分尺度自回归，进一步提升效率。
动态尺度调度：根据图像内容自适应选择下一生成尺度，优化资源分配。

该方法通过尺度维度重新思考自回归建模，为大规模图像生成提供了新的平衡点——在生成质量、计算效率和可控性之间取得了显著改进。

【LDM】视觉自回归建模：通过Next-Scale预测生成可扩展图像（NeurIPS2024最佳论文阅读笔记与吃瓜）

【LDM】视觉自回归建模：通过Next-Scale预测生成可扩展图像（NeurIPS2024最佳论文阅读笔记与吃瓜） 《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》视觉自回归建模：通过Next-Scale预测…...

编程日记 2025/8/21 3:05:09

计算机网络-传输层

一、概述 1、逻辑通信：对等层之间的通信好像是沿着水平方向传送的，但两个对等层之间并没有一条水平方向的物理连接。 2、复用与分用 2.1传输层复用：发送方不同的应用进程可以使用同一传输层协议传送数据分用：接收方的传输层…...

编程日记 2025/8/18 14:46:37

MacOS+VSCODE 安装esp-adf详细流程

安装python3，省略vscode安装ESP-IDF插件，选择v5.2.5 版本，电脑需要能够访问github，esp-idf安装后的默认目录是: /Users/***/esp/v5.2.5/esp-idf# 启动***为省略名称在/Users/***/esp/ 目录下使用git clone 下载 esp-adf # 国内用…...

编程日记 2025/8/20 18:52:48

2025年5月HCIP题库（带解析）

某个ACL规则如下:则下列哪些IP地址可以被permit规则匹配： rule 5 permit ip source 10.0.2.0 0.0.254.255 A、10.0.4.5 B、10.0.5.6 C、10.0.6.7 D、10.0.2.1 试题答案：A;C;D 试题解析： 10.0.2.000001010.00000000.00000010.0000000…...

编程日记 2025/8/21 3:04:05

【Linux系统】vim编辑器的使用

文章目录一、vim编辑器的简单介绍二、vim的一键化配置方案（目前只支持 Centos7 x86_64）三、vim编辑器在各模式下的操作1.vim的使用以及各模式间的切换2.普通模式（Normal Mode，初始默认处于该模式）3.替换模式&#x…...

编程日记 2025/8/18 14:46:31

网站主机控制面板深度解析：cPanel、Plesk 及其他主流选择

网站主机控制面板深度解析：cPanel、Plesk 及其他主流选择在网站管理和服务器维护的领域，一个强大且易用的控制面板至关重要。它们能够将复杂的技术命令转化为直观的图形界面，极大简化了网站管理员的工作。本文将为您详细介绍市面上几款主流…...

编程日记 2025/8/21 2:36:50

【程序员AI入门：应用】7.LangChain是什么？

LangChain作为当前最热门的AI应用开发框架，正在重塑大语言模型（LLM）的应用生态。其核心价值在于解耦LLM能力与工程实现，构建起连接智能模型与现实世界的"神经网络"。一、核心定位：AI应用的"操作系统&q…...

编程日记 2025/8/21 3:02:46

jenkins访问端口调整成80端口

使用 Nginx 反向代理解决以上问题，这样可以： 1. 保持 Jenkins 在其他端口（博主使用8090端口） 稳定运行 2. 通过 Nginx 将 80 端口的请求转发到 Jenkins 3. 更安全，因为 Jenkins 不需要直接监听 80 端口 4. 后续如果…...

编程日记 2025/8/21 3:02:47

如何从服务器日志中分析是否被黑客攻击？

一、关键日志文件定位与攻击特征分析 1. ‌核心日志文件路径‌ Web 服务器日志‌： Nginx：/var/log/nginx/access.log（访问日志）、/var/log/nginx/error.log（错误日志） Apache：/var/log/apache2/…...

编程日记 2025/8/19 20:59:04

[250504] Moonshot AI 发布 Kimi-Audio：开源通用音频大模型，驱动多模态 AI 新浪潮

目录 Moonshot AI 发布 Kimi-Audio：开源音频基础模型，赋能音频理解、生成与对话新时代核心能力与特性技术基础开放资源与评估行业意义 Moonshot AI 发布 Kimi-Audio：开源音频基础模型，赋能音频理解、生成与对话新时代 Moonshot A…...

编程日记 2025/8/18 14:46:20

OpenCV 图形API（77）图像与通道拼接函数-----对图像进行几何变换函数remap()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述对图像应用一个通用的几何变换。函数 remap 使用指定的映射对源图像进行变换： dst ( x , y ) src ( m a p x ( x , y ) , m a p y…...

编程日记 2025/8/18 14:46:18

理清缓存穿透、缓存击穿、缓存雪崩、缓存不一致的本质与解决方案

在构建高性能系统中，缓存（如Redis） 是不可或缺的关键组件，它大幅减轻了数据库压力、加快了响应速度。然而，在高并发环境下，缓存也可能带来一系列棘手的问题，如：缓存穿透、缓存击穿、…...

编程日记 2025/8/18 14:46:16

Jetpack Compose 自定义 Slider 完全指南

自定义 Compose Slider 在 Jetpack Compose 中，你可以通过多种方式自定义 Slider 组件。以下是一些常见的自定义方法： 基本自定义 var sliderPosition by remember { mutableStateOf(0f) }Slider(value sliderPosition,onValueChange { sliderPosit…...

编程日记 2025/8/18 14:46:14

荣耀A8互动娱乐组件部署实录（终章：后台配置系统与整体架构总结）

作者：被配置文件的“开关参数”折磨过无数次的运维兼后端工一、后台系统架构概述荣耀A8组件后台采用 PHP 构建，配合 MySQL 数据库与 Redis 缓存系统，整体结构遵循简化版的 MVC 模式。后台主要实现以下核心功能：系统参数调控与配置热更新用户管理（封号、授权、角色） …...

编程日记 2025/8/18 14:46:12

本地文件批量切片处理与大模型精准交互系统开发指南一、系统架构设计 #mermaid-svg-yCbT2xBukW6iX98y {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-yCbT2xBukW6iX98y .error-icon{fill:#552222;}#mermaid-svg-y…...

编程日记 2025/8/18 14:46:09

homebrew安装配置Python（MAC版）

Mac系统自带python路径为: /System/Library/Frameworks/Python.framework/Versionbrew 安装 Python3 在终端输入以下命令： brew search python3 # 查看支持安装的版本 brew install python3就可以轻松easy安装python了，安装完成后提示查看 pyth…...

编程日记 2025/8/21 2:29:20

STM32--RCC--时钟

教程系统时钟 RCC RCC（Reset and Clock Control）是STM32微控制器中管理时钟和复位系统的关键外设模块，负责整个芯片的时钟树配置和复位控制。 RCC主要功能时钟系统管理： 内部/外部时钟源选择时钟分频/倍频配置各外设时钟门…...

编程日记 2025/8/18 14:46:05

深度学习在油气地震资料反卷积中的应用

深度学习在油气地震资料反卷积中的应用基本原理在油气地震勘探中，反卷积(Deconvolution)是一种重要的信号处理技术，用于提高地震资料的分辨率。传统方法(如维纳滤波、预测反卷积等)存在对噪声敏感、假设条件严格等局限。深度学习方法通过数据驱动的方…...

编程日记 2025/8/18 14:46:03

实现滑动选择器从离散型的数组中选择

1.使用原生的input 详细代码如下： <template><div class"slider-container"><inputtype"range"v-model.number"sliderIndex":min"0":max"customValues.length - 1"step&qu…...

编程日记 2025/8/18 14:11:15

基于 GO 语言的 Ebyte 勒索软件——简要分析

一种新的勒索软件变种，采用Go 语言编写，使用ChaCha20进行加密，并使用ECIES进行安全密钥传输，加密用户数据并修改系统壁纸。其开发者EvilByteCode曾开发过多种攻击性安全工具，现已在 GitHub 上公开 EByte 勒索软件。尽管该勒索软件声称仅用于教育目的，但滥用可能会导致严重…...

编程日记 2025/8/21 3:04:04

学习人工智能开发的详细指南

一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学…...

编程日记 2025/8/18 14:45:57

使用图像生成式AI和主题社区网站助力运动和时尚品牌的新产品设计和市场推广的点子和实现

通过构建针对公司产品线的专有图像生成式AI模型，用户可以将自己对于产品的想法和偏好，变成设计发布到社区空间中与社区分享，也可以通过在产品经典款或使用社区空间中其它人的创作来重新设计。组织大型市场推广活动来宣传DIY设计理念&#xff…...

编程日记 2025/8/21 3:04:04

POI创建Excel文件

文章目录 1、背景2、创建表格2.1 定义表头对象2.2 Excel生成器2.3 创建模板2.4 处理Excel表头2.5 处理Excel内容单元格样式2.6 处理单个表头 3、追加sheet4、静态工具5、单元测试6、完整代码示例 1、背景需求中有需要用户自定义Excel表格表头，然后生成Excel文件&a…...

编程日记 2025/8/20 12:21:42

CentOS虚拟机固定ip以及出现的问题

1.打开终端，进入网卡配置目录： cd etc/sysconfig/network-scripts 2.找到网卡配置文件，我这里是 ifcfg-ens32（替换成你自己的文件） 4.进入ifcfg-ens32，注释IPV6，修改别的参数如下图 TYPEEther…...

编程日记 2025/8/18 14:45:52

【Python】常用命令提示符

Python常用的命令提示符一、Python环境基础命令【Windows】于Windows环境下，针对Python，在CMD（命令提示符）常用的命令以及具体用法，怎么用； 主要包含：运行脚本、包管理、虚拟环境、调试与…...

编程日记 2025/8/18 14:46:09

Java引用RabbitMQ快速入门

这里写目录 Java发送消息给MQ消费者接收消息实现一个队列绑定多个消费者消息推送限制 Fanout交换机路由的作用Direct交换机使用案例 Java发送消息给MQ public void testSendMessage() throws IOException, TimeoutException {// 1.建立连接ConnectionFactory factory new Conn…...

编程日记 2025/8/18 13:05:05

USB接口的PCB设计

目录 USB接口简介 USB3.0接口 USB接口的电路设计 USB接口的PCB设计 USB接口简介 USB（通用串行总线）接口是一种广泛应用于电子设备的标准连接技术，自1996年由英特尔、微软等公司联合推出以来，逐步取代了传统串口、并口等复杂接…...

编程日记 2025/8/18 18:56:32

星纪魅族新品发布会定档5月13日，Note 16系列战神归来

5 月 13 日，星纪魅族将举办 Note 16 系列新品线上发布会。届时，国民严选魅族 Note 16 系列将战神归来，刷新用户对“高性价比科技”的想象，开启一场关乎「国民 AI 科技平权」的革新盛宴。无创意不魅族，花式创意邀请即日…...

编程日记 2025/8/18 14:46:08

Jenkins+Newman实现接口自动化测试

🍅 点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快一、是什么Newman Newman就是纽曼手机这个经典牌子，哈哈，开玩笑啦。。。别当真，简单地说Newman就是命令行版的Postman&…...

编程日记 2025/8/21 3:02:48

window 显示驱动开发-线程和同步级别为零级

在零级线程处理和同步中，WDDM 允许以可重入的方式对显示微型端口驱动程序进行零级 DxgkDdi*Xxx 调用。也就是说，多个线程可以通过调用零级 DDI 同时进入驱动程序。驱动程序应预期系统中的任何线程会传入，并应相应地保护该线程的数据。尽…...

编程日记 2025/8/18 14:46:04

RabbitMQ ①-MQ | Linux安装RabbitMQ | 快速上手

MQ MQ（Message Queue）即消息队列，是一种应用间通信的一种方式。消息队列是一种异步通信方式，生产者（Producer）将消息放入队列，消费者（Consumer）从队列中取出消息进行消费…...

编程日记 2025/8/18 14:46:02

tinyrenderer笔记（Shadow Mapping）

tinyrenderer个人代码仓库：tinyrenderer个人练习代码前言阴影是光线被阻挡的结果；当光源的光线由于其他物体的阻挡而无法到达物体表面时，该物体就会产生阴影。阴影能使场景看起来更真实，并让观察者获得物体之间的空间位置关系。…...

编程日记 2025/8/18 8:55:39

【quantity】1 SI Prefixes 实现解析（prefix.rs）

一、源码 // prefix.rs //! SI Prefixes (国际单位制词头) //! //! 提供所有标准SI词头用于单位转换，仅处理10的幂次 //! //! Provides all standard SI prefixes for unit conversion, handling only powers of 10.use typenum::{Z0, P1, P2, P3, P6, P9, P12, …...

编程日记 2025/8/21 3:02:47

如何开发一个笑话管理小工具

前言笔者曾经开发过一个可以对笑话浏览、收藏、分类、编辑上传的小工具（笔者开发后台，另外一个朋友负责小程序前台开发），如今所租用的服务器到期了，特此记录一下。数据层部署数据库 # 拉取Mysql镜像 docker pull…...

编程日记 2025/8/18 14:46:01

Transformer-LSTM混合模型在时序回归中的完整流程研究

Transformer-LSTM混合模型在时序回归中的完整流程研究引言与背景深度学习中的长期依赖建模一直是时序预测的核心问题。长短期记忆网络（LSTM）作为一种循环神经网络，因其特殊的门控结构能够有效捕捉序列的历史信息，并在时序预测…...

编程日记 2025/8/19 18:46:12

深入浅出iOS性能优化：打造极致用户体验的实战指南

前言在当今移动应用竞争激烈的时代，性能优化已经成为iOS开发中不可或缺的重要环节。一个性能优秀的应用不仅能给用户带来流畅的使用体验，还能减少设备资源消耗，延长电池寿命，提高用户留存率。本文将深入探讨iOS性能优化的各个方…...

编程日记 2025/8/18 14:45:57

Spring AI 与大语言模型工具调用机制详细笔记

一、基本概念大语言模型（LLM）工具调用机制是一种允许AI模型与外部系统交互的技术框架，它使模型能够在对话过程中请求调用预定义的函数或服务。这种机制极大地扩展了大模型的能力边界，使其不再局限于静态知识，而是能够…...

编程日记 2025/8/18 13:45:56

数据清洗-电商双11美妆数据分析

1.数据读取（前八行） 2.数据清洗 2.1 因为数据中存在重复跟空值，将数据进行重复值处理 （删除重复值） 2.2 缺失值处理存在的缺失值很可能意味着售出的数量为0或者评论的数量为0，所以我们用0来填补缺失值 2…...

编程日记 2025/8/19 15:32:02

公司项目架构搭建者

公司项目架构搭建者分析项目架构搭建的核心角色 #mermaid-svg-FzOOhBwW3tctx2AR {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-FzOOhBwW3tctx2AR .error-icon{fill:#552222;}#mermaid-svg-FzOOhBwW3tctx2AR .err…...

编程日记 2025/8/18 18:56:31

广告场景下的检索平台技术

检索方向概述数据检索领域技术选型大体分为SQL事务数据库、NoSQL数据库、分析型数据库三个类型。 SQL数据库的设计思路是采用关系模型组织数据，注重读写操作的一致性，注重数据的绝对安全。为了实现这一思路，SQL数据库往往会牺牲部分性能&…...

编程日记 2025/8/18 18:56:28

LintCode407-加一,LintCode第479题-数组第二大数

第407题: 描述给定一个非负数，表示一个数字数组，在该数的基础上1，返回一个新的数组。该数字按照数位高低进行排列，最高位的数在列表的最前面. 样例 1： 输入：[1,2,3] 输出：[1,2,4] 样例 …...

编程日记 2025/8/18 18:56:27

网络安全的范式革命：从被动防御到 AI 驱动的主动对抗

当黑客利用生成式 AI 在 30 秒内生成 10 万组钓鱼邮件，当恶意代码学会根据网络环境自主进化，传统网络安全防线正面临前所未有的挑战。2025 年，全球网络安全领域正在经历一场从 “被动挨打” 到 “主动出击” 的革命性转变，AI 与量…...

编程日记 2025/8/20 16:52:47

内网im软件，支持企业云盘的协同办公软件推荐

BeeWorks不仅是一个即时通讯工具，更是一个综合性的企业管理平台。其云盘功能支持大容量文件存储，便企业集中管理文件。并且具备在线协同编辑的能力，这使得企业在文件管理和团队协作方面更加高效和便捷。以下是BeeWorks在企业云盘和在线协同编…...

编程日记 2025/8/18 18:56:23

JAVA SE(9)——多态

1.多态的概念&作用多态(Polymorphism)是面向对象编程的三大基本特性之一（封装和继承已经讲过了），它允许不同类的对象对同一消息做出不同的响应。具体来说，多态允许基类/父类的引用指向派生类/子类的对象（向上转型…...

编程日记 2025/8/18 18:56:21

单调栈算法精解（Java实现）：从原理到高频面试题

在算法与数据结构的领域中，单调栈（Monotonic Stack）凭借其独特的设计和高效的求解能力，成为解决特定类型问题的神兵利器。它通过维护栈内元素的单调性，能将许多问题的时间复杂度从暴力解法的\(O(n)\)优化至\(O(n)\)&am…...

编程日记 2025/8/18 18:56:18

密码工具类-生成随机密码校验密码强度是否满足要求

生成随机密码符合密码强度的密码要求： 至少有一个大写字母至少有一个小写字母至少有一个数字至少有一个特殊字符长度满足要求（通常为8-16位） // 大写字母private static final String UPPERCASE "ABCDEFGHIJKLMNOPQRSTUVWXYZ";…...

编程日记 2025/8/20 15:41:23

什么是进程，如何管理进程

基本概念（什么是进程？） 课本概念：程序的一个执行实例，正在执行的程序等内核观点：担当分配系统资源（CPU时间，内存）的实体。描述进程-PCB 进程信息被放在一个叫做进程控…...

编程日记 2025/8/18 16:28:37

小刚说C语言刷题—1044 -找出最经济型的包装箱型号

1.题目描述已知有 A，B，C，D，E五种包装箱，为了不浪费材料，小于 10公斤的用 A型，大于等于 10公斤小于 20 公斤的用 B型，大于等于 20公斤小于 40 公斤的用 C型，大于等于 40…...

编程日记 2025/8/20 16:29:41

用 GRPO 魔法点亮Text2SQL 的推理之路：让模型“思考”得更像人类

推理能力（Chain of Thought, CoT）可以帮助模型逐步解释其思考过程，从而提高Text-to-SQL 生成的准确性和可解释性。本文探讨了如何将一个标准的 7B 参数的大型语言模型（Qwen2.5-Coder-7B-Instruct）转变为一个能够为Text…...

编程日记 2025/8/18 18:56:13

k8s service的类型

service和Pods service通过使用labels指向pods,而不是指向deployments或者replicasets。这种设计的灵活性极高，因为创建pods的方式有很多，而Service不需要关心pods通过那种方式创建不使用service（首先看不使用service的情况） 如下…...

编程日记 2025/8/18 18:56:11

文章目录

1、吃瓜：tky事件，NeurIPS与最佳论文

2、论文：摘要，正文，结论

3、导读：文章核心内容总结

相关文章：