当前位置：首页 > news >正文

【论文阅读】PEEKABOO: Interactive Video Generation via Masked-Diffusion

news 来源：原创 2025/7/15 12:27:16

PEEKABOO: Interactive Video Generation via Masked-Diffusion

原文摘要
- 研究背景与问题
  - 现状：现代视频生成模型（如 Sora）已能生成高质量视频，但缺乏用户交互控制能力。
  - 问题：交互控制是未来应用和创意表达的关键功能，但现有模型无法支持对生成视频的时空（spatio-temporal）内容进行灵活控制。
- 核心贡献
  1. PEEKABOO 方法
    - 一种新型的掩码注意力模块（masked attention module），可直接嵌入现有扩散模型（如 Sora 的底层架构），无需额外训练或增加计算开销。
    - 功能：通过掩码机制实现对生成视频的空间（如物体位置）和时间（如运动时序）的精确控制。
  2. 交互式视频生成基准测试
    - 提出首个标准化评测框架，用于评估交互控制视频生成模型的性能，推动领域研究。
  3. 性能优势
    - 实验表明，PEEKABOO 在保持生成速度（延迟不变）的同时，mIoU（交并比均值，衡量控制精度）提升 3.8 倍，显著优于基线模型。
- 技术亮点
  - 无需微调/额外计算：直接兼容现有模型，降低部署成本。
  - 掩码注意力机制：通过动态掩码约束生成内容，实现用户指定的时空控制（例如：让物体在特定帧出现在特定位置）。

1. Introduction

1.1研究背景与现状

文本到视频生成的进展：近年来，基于生成模型（如 LDMs）的文本到视频（T2V）技术取得显著突破，能生成高质量、多样化的视频，为创意应用（如教育、广告）提供了新可能。
当前局限：现有模型虽能生成时序连贯的视频，但缺乏用户交互控制能力（如物体位置、运动轨迹的精确控制），且可能遗漏关键对象。

1.2 研究问题与挑战

核心问题：如何在不重新训练大规模预训练模型的前提下，实现视频生成的时空控制（spatio-temporal control）？ –training-free
现有方法的不足：传统方法需微调模型或训练专用适配器，计算成本高，难以普及。

1.3 解决方案：PEEKABOO

即插即用设计：通过改进 UNet 中的空间/交叉/时序注意力机制，直接嵌入现有 T2V 模型，无需额外训练或显著增加推理开销。
局部上下文控制：利用局部而非全局上下文，实现对单个物体生成的精确控制（如通过掩码指定物体位置）。

1.4 贡献总结

方法创新：
- 首次实现零训练的交互式视频生成，支持时空与运动控制。
- 保持生成质量的同时，mIoU 提升 2.9×–3.8×（优于 ZeroScope 和 ModelScope）。
资源开放：
- 发布评测基准 SSv2-ST 和数据集 IMC
广泛验证：
- 在多个模型（T2V/T2I）和指标上验证普适性，并解决现有模型的失败案例（如漏生成主体对象）。

2. Related Work

2.1 视频生成（Video Generation）

1. 基于扩散模型的文本到视频生成

核心架构：
- 以 3D UNet 为基础，分解注意力层为 空间（spatial）、交叉（cross）和时序（temporal）注意力（如 Make-a-video ）。
- 后续工作（延续了这一架构，但缺乏对生成内容的 时空控制（如物体位置、运动轨迹）。
局限性：现有模型依赖文本输入生成视频，但无法精确控制每一帧的空间布局或时间动态。

2. 时空控制方法的尝试

基于外部引导的方法：
- 使用 深度图（depth maps）、目标运动轨迹或多模态组合控制生成。
- 缺点：需重新训练基础模型或适配器，计算成本高且依赖对齐的时空标注数据。
零训练（Zero-training）方法：
- Text2Video-Zero：结合光流引导和图像模型生成时序连贯帧。
- ControlVideo：通过序列控制帧（如深度图、骨架图）调控视频运动。
- Free-Bloom：结合 LLM 和文生图模型生成连贯视频。
- 局限性：依赖特定图像模型，无法直接用于现成视频生成模型。

3. 与本文工作的对比

最接近的方法：利用 LLM 生成物体边界框坐标，结合现成视频模型和额外引导模块。
- 缺点：引入额外推理延迟，而本文方法（PEEKABOO）无需此开销。

2.2 可控文本到图像生成（Controllable Text-to-Image Generation）

1. 方法分类

基于训练的方法：需大量计算资源和标注数据，训练成本高。
无需训练的方法：通过能量函数引导扩散或掩码调整注意力图。
- 优势：避免微调，直接适配预训练模型。

2. 注意力引导技术

Agarwal：最小化不同提示词的注意力图重叠，保持物体信息跨扩散步骤。
Epstein：设计能量函数调控交叉注意力图，实现空间属性控制。
Phung：优化噪声和分段注意力，确保注意力图准确表征物体。
- 缺点：基于优化的方法增加推理时间。
Cao：阈值化交叉注意力图作为自注意力掩码，限制前景像素交互。
- 局限性：需多次扩散推理或输入源图像，仅支持姿态/动作控制。

3. 扩展到视频的挑战

视频的 时空复杂性 使得直接迁移图像控制方法困难。本文方法通过 掩码注意力模块 解决这一问题，实现高效时空控制。

3. Method

时空条件化（Spatio-temporal Conditioning）
- 问题：传统扩散模型将整个潜在变量 $z_t$ 与全局条件（即文本条件） $c$ 绑定，而交互式生成需要局部条件化（如物体位置、运动轨迹）。
- 解决方案：
  - 将用户指定的时空条件（如掩码区域、文本描述）编码为 grounding pairs（时空体积 + 文本嵌入），作为交叉注意力层的上下文token。
  - 受图像方法 GLIGEN 和 Flamingo 启发，但避免重新训练模型，直接利用冻结的扩散模型 $f_\theta$ 。

3.1 Masked Diffusion

灵感来源：借鉴分割任务（如 MaskFormer 和 Mask2Former）的掩码分类思想，将视频生成视为逆分割问题。
关键步骤：
1. 局部上下文生成：将视频分解为 $N$ 个区域，每个区域用二值掩码表示，独立生成物体。
2. 掩码注意力机制：修改扩散模型中 Transformer 块的注意力计算，引入掩码自注意力（类似），限制注意力仅在掩码区域内生效。
3. 全局合成：将局部生成的物体通过叠加或加权融合为完整视频帧

3.2 Masked spatio-temporal mixed attention

核心目标
- 通过用户提供的边界框（Bounding Box）生成二值掩码，在扩散模型的潜在空间中引导注意力计算，从而精确控制视频中物体的位置、大小和运动。
关键步骤
1. 二值掩码生成与下采样
  - 输入：用户指定视频中前景物体的边界框（如“狗的移动轨迹”）。
  - 操作：
    - 根据边界框创建二值掩码（Binary Mask），前景区域为1，背景为0。
    - 将掩码下采样至扩散模型潜在空间（latent space）的尺寸，与模型内部特征图对齐。
2. 块稀疏注意力掩码（Block Sparse Attention Mask）
  - 设计原理：
    - 通过**加性掩码（Additive Masking）**修改注意力分数，公式如下：
      $\text{MaskedAttention}(Q,K,V,M) = \text{softmax}(QK^T + M)V$
    - 掩码矩阵 ( M ) 的定义：
      $\begin{cases} -\infty & \text{if } M[i,j]=1 \ (\text{需屏蔽的区域}) \\ 0 & \text{otherwise} \end{cases}$
    - 作用：在需屏蔽的区域（如背景）施加极大负值（ $-\infty$ ），使这些位置的注意力分数趋近于0，强制模型仅关注掩码指定的前景区域。
3. 符号定义与约束
  - 关键符号：
    - $l_{\text{text}}$ ：文本提示长度。
    - $l_{\text{video}}$ ：视频帧数。
    - $\text{mask}_f$ ：第 $f$ 帧的输入掩码。
    - $\text{fg}(\cdot)$ ：判断函数，输入像素或文本token，返回1（前景）或0（背景）。
  - 注意力约束：
    - 引导前景token仅关注每帧中指定位置的像素，实现物体运动控制。
4. 跨层注意力约束的不足
  - 问题：仅约束交叉注意力层（Cross-Attention）无法完全控制空间生成，因为：
    - 前景与背景像素在自注意力层（Self-Attention）中仍会交互。
    - 需同时约束时空注意力（Spatio-Temporal Attention）以阻断无关区域的信息流动。
3.2.1 Masked Cross-Attention
- 功能
  - 对齐文本描述与视频帧的局部区域，确保潜在变量（latents）仅关注与当前生成目标相关的文本标记。
- 实现细节
  - 输入：
    - 每帧的输入掩码 $M_{input}$ （二值矩阵，前景=1，背景=0）。
    - 文本标记的类别标识 $fg(T_j)$ （判断第j个文本token是否描述前景物体）。
  - 掩码公式：
    $M^{CA}_f[i,j] = fg(M_{input}[i]) \cdot fg(T_j) + (1-fg(M_{input}[i])) \cdot (1-fg(T_j))$
    - 当像素i和文本tokenj同为前景或背景时，掩码值为1，否则无效。
- 作用：
  - 强制潜在变量仅从相关文本token获取信息（如前景物体仅关注描述它的文本）。
- 示例
  - 若文本提示为“狗在草地上”，掩码会确保“狗”区域的潜在变量只关注“狗”的文本嵌入，而“草地”区域关注“草地”的文本。
3.2.2 Masked Spatial Attention
- 功能
  - 控制同一帧内不同空间区域的生成过程，避免前景与背景的相互干扰。
- 实现细节
  - 输入：每帧的输入掩码 $M_{input}$ 。
  - 掩码公式：
    $M^{SA}_f[i,j] = fg(M_{input}[i]) \cdot fg(M_{input}[j]) + (1-fg(M_{input}[i])) \cdot (1-fg(M_{input}[j]))$
    - 仅当像素i和j同属前景或背景时，才允许计算注意力。
  - 作用：
    - 初期生成阶段，隔离前景与背景的注意力交互，避免错误融合（如狗的身体混入草地纹理）。
    - 后期逐步放松约束，实现自然过渡。
3.2.3 Masked Temporal Attention
- 功能
  - 维持视频帧间的时间一致性，确保物体运动轨迹连贯。
- 实现细节
  - 输入：所有帧对同一像素位置i的掩码状态。
  - 掩码公式：
    $M^{TA}_i[f,k] = fg(M_{input}^f[i]) \cdot fg(M_{input}^k[i]) + (1-fg(M_{input}^f[i])) \cdot (1-fg(M_{input}^k[i]))$
    - 仅当像素i在帧f和帧k中同为前景或背景时，才允许跨帧注意力交互。
- 作用：
  - 前景物体（如狗）的运动轨迹仅受自身历史位置影响，不受背景变化干扰。
  - 背景区域（如天空）保持静态或渐变，避免闪烁。

3.3 Zero-training Pipeline

核心思想：掩码注意力（Masked Attention）
- PEEKABOO 的核心创新在于修改扩散模型的注意力机制，使其在去噪过程中仅关注用户指定的区域（如前景物体），而忽略无关背景。这一过程分为两个阶段：
  1. 约束生成阶段（前 t 步）：强制前景和背景像素互不干扰，确保物体位置和运动轨迹严格遵循用户输入。
  2. 自由生成阶段（t 步后）：解除掩码限制，让模型自然融合全局信息，使前景和背景无缝衔接。
- 这一机制类似于“躲猫猫”游戏（PEEKABOO）：
  - 早期阶段：前景和背景“互相看不见”，确保物体生成位置准确。
  - 后期阶段：解除限制，让它们“互相看见”，实现自然融合。
技术实现
- PEEKABOO 直接修改 3D UNet 的注意力层（包括空间、时间和交叉注意力），无需额外训练：
- 输入：用户提供的二值掩码（binary mask），标记前景（1）和背景（0）。
- 掩码计算：
  - 在空间注意力（Spatial Attention）中，前景像素仅关注其他前景像素，背景同理。
  - 在时间注意力（Temporal Attention）中，物体的运动轨迹仅参考自身在其他帧的位置。
  - 在交叉注意力（Cross-Attention）中，文本描述仅影响对应的生成区域（如“狗”的文本仅作用于前景掩码区域）。
- 分阶段去噪
  - 约束阶段（前 t 步）：
    - 使用掩码强制前景和背景独立生成，避免错误融合（如背景纹理污染前景物体）。
    - 确保物体位置、大小和运动轨迹严格遵循用户输入。
  - 自由阶段（t 步后）：
    - 移除掩码限制，让模型全局优化，使前景和背景自然融合。
    - 避免生成结果过于僵硬（如物体边缘不自然）。
低计算开销
- 无需额外扩散步数：PEEKABOO 仅需少量约束步数（实验显示 t ≤ 5 步即可），不增加总推理时间。
- 即插即用：直接应用于现有扩散模型（如 Stable Diffusion Video），无需微调或额外训练数据。

4. Experiment

实验目标
1. 验证时空控制能力：评估 PEEKABOO 能否精确生成用户指定位置和运动的物体。
2. 对比生成质量：与基线模型比较，证明掩码控制能提升视频质量。
3. 消融实验：分析各组件（如掩码注意力、分阶段生成）的影响。
数据集
1. SSv2-ST（Something-Something v2-Spatio-Temporal）
  - 来源：真实动作视频，包含 295 个（提示词，掩码）对。
  - 用途：测试模型在真实场景下的时空控制能力。
2. IMC（Interactive Motion Control）
  - 人工标注的 102 个（提示词，边界框）对，覆盖不同物体类型、大小和运动模式。
  - 模拟用户交互输入，测试生成灵活性。
3. LaSOT（Large-scale Single Object Tracking）
  - 从目标跟踪数据集中提取 450 个视频片段，覆盖 70 类物体。
  - 评估模型对复杂运动的控制能力。
4. DAVIS-16
  - 视频分割数据集，提供 40 个（提示词，掩码）对。
  - 测试模型对精细边缘和动态背景的处理能力。
实验设置
- 基线模型：ZeroScope 和 ModelScope（默认参数，无额外微调）。
- 评估方法：
  1. 覆盖率（Coverage）：检测生成视频中物体出现的帧比例（>50% 帧有物体视为有效）。
  2. mIoU（平均交并比）：比较生成物体与输入掩码的重合度。
  3. AP@50（平均精度）：检测边界框与输入掩码的匹配精度。
  4. 质心距离（CD）：生成物体中心与目标中心的偏移距离（归一化到 0-1）。
主要结果
1. 时空控制能力
  - PEEKABOO 在 mIoU 上比基线模型提升 2.5倍，证明其能精确匹配用户指定的物体位置和形状。
  - AP@50 显著提高，表明生成物体的边界框更接近输入掩码。
  - 质心距离（CD） 更低，说明物体位置控制更准确。
2. 生成质量
  - 覆盖率 高于基线模型，表明 PEEKABOO 能生成更多有效视频（避免物体丢失）。
  - 定性实验显示，掩码控制能减少背景干扰，提升前景物体的清晰度。
3. 效率对比
  - PEEKABOO 不增加推理时间（与基线模型相同），而其他方法（如 LLM-VD）会导致 2.2 倍延迟。
消融实验
- 掩码步数（t）的影响：实验表明，仅需 5 步掩码约束 即可实现最佳控制，后续自由生成阶段保证自然融合。
- 注意力模块的作用：移除任一掩码注意力（空间/时间/交叉）均会导致 mIoU 下降，验证了三者协同的必要性。
- 结论
  - PEEKABOO 通过掩码注意力机制和分阶段生成策略，在 无需训练 的前提下实现了：
    1. 像素级时空控制（mIoU 提升 2.5 倍）。
    2. 高质量生成（覆盖率更高，物体更清晰）。
    3. 零计算开销（推理速度与原始模型一致）。

【论文阅读】PEEKABOO: Interactive Video Generation via Masked-Diffusion

PEEKABOO: Interactive Video Generation via Masked-Diffusion 原文摘要研究背景与问题现状：现代视频生成模型（如 Sora）已能生成高质量视频，但缺乏用户交互控制能力。问题：交互控制是未来应用和创意表达的关键功能…...

编程日记 2025/7/15 12:27:16

Java 多线程基础：Thread 类详解

在 Java 中，多线程编程离不开 Thread 类。本文将介绍 Thread 的常用属性和方法，并结合实际使用场景进行讲解。一、线程的创建与基本操作 Java 提供了两种主要方式来创建线程： 继承 Thread 类 class MyThread extends Thread {public void r…...

编程日记 2025/7/15 11:06:36

论文阅读：2024 arxiv FlipAttack: Jailbreak LLMs via Flipping

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328 https://www.doubao.com/chat/4001481281518594 FlipAttack: Jailbreak LLMs via Flipping https://arxiv.org/pdf/2410.02832 速览这篇论文主要介绍了一种针对大语言模…...

编程日记 2025/7/14 11:23:03

《数据结构之美--二叉树oj题练习》

引言： 上次我们学习了二叉树这一数据结构，这次我们就针对二叉树来做一些oj题来巩固一下 1. 单值二叉树题目： 思路分析： 代码实现： 题目传送门: 力扣–965.单值二叉树 2. 相同的树题目： 思路分析&am…...

编程日记 2025/7/15 11:46:56

大模型——使用coze搭建基于DeepSeek大模型的智能体实现智能客服问答

大模型——使用coze搭建基于DeepSeek大模型的智能体实现智能客服问答本章实验完全依托于coze在线平台，不需要本地部署任何应用。实验介绍 1.coze介绍扣子（coze）是新一代 AI 应用开发平台。无论你是否有编程基础，都可以在扣子上快速搭建基于大模型的各类 AI 应用，并…...

编程日记 2025/7/15 10:50:56

React Navigation 使用指南

React Navigation 使用指南 React Navigation 介绍 React Navigation 是 React Native 中推荐的路由管理方案。 1. 开箱即用，快速上手（Easy to Use） 提供内置导航器（Built-in Navigators），如栈导航&…...

编程日记 2025/7/15 2:48:08

双系统，bios默认设置启动ubuntu+ubuntu改启动grub设置

设置默认启动ubuntu 装windows后就默认启动windows了按f6上移动 -------------底下不用看设了没用 sudo update-grub...

编程日记 2025/7/15 12:03:30

Vue 中的过渡效果与响应式数据：transition、transitiongroup、reactive 和 ref 详解

在 Vue 开发过程中，为应用添加过渡效果和处理响应式数据是提升用户体验和实现动态交互的关键。一、transition：元素的单元素过渡效果 transition是 Vue 提供的内置组件，专门用于为单个元素或组件添加过渡动画。它会在元素插入、更新或移除…...

编程日记 2025/7/15 10:47:54

Gitea windows服务注册，服务启动、停止、重启脚本

修改配置文件查看COMPUTERNAME echo %COMPUTERNAME%进入配置文件D:\gitea\custom\conf\app.ini，将 Gitea 设置为以本地系统用户运行如果结果是 USER-PC，那么 RUN_USER USER-PC$ RUN_USER COMPUTERNAME$SQLite3 PATH配置，更改为包含完整…...

编程日记 2025/7/15 11:23:29

SpringBoot、微服务与AI场景题深度解析

SpringBoot、微服务与AI场景题深度解析在互联网大厂Java求职者的面试中，经常会被问到关于SpringBoot、微服务以及AI技术的应用场景和解决方案。本文通过一个故事场景来展示这些问题的实际解决方案。第一轮提问面试官：马架构，欢迎来到我…...

编程日记 2025/7/15 10:56:59

实验六文件操作实验

一、实验目的 1、了解文件系统功能及实现原理。 2、掌握LINUX下文件操作的有关系统调用。 3、熟悉main函数带参数运行的有关操作过程。 4、通过模拟程序实现简单的一级文件系统或二级文件系统。二、实验内容 1、编程显示文件自身。（1分） #includ…...

编程日记 2025/7/15 11:37:26

scratch代码——游戏开发【弹簧与反弹】

添加角色——绘制 1，level 平台 2， ball 球 3，terk 坦克开始编程——ball 函数其余代码开始编程——terk 代码完结撒花 ——————————————————THE—END————————————————————...

编程日记 2025/7/15 11:20:57

C++入门（缺省参数/函数/引用）

C入门一.前言二.缺省参数什么是缺省参数？ 三.函数重载一.传参类型不同2. 传参个数不同3.传参顺序不同注意点四.引用1.引⽤的概念和定义2.引⽤的特性3.引⽤的使⽤4. const引⽤5.指针和引⽤的关系五.inline（内联）一、什么是inline函数&#…...

编程日记 2025/7/15 8:38:55

ACTF2025 - WEB Excellent-Site

#flask框架 #互联网 #利用CRLF进行头控制 #通过CRLF注入伪造 #利用sql注入进行回显控制 #Jinja2模板 #注意sql语句的相关转义可以控制查询结果 [[IMAP协议简介]] [[SMTP协议简介]] app.py import smtplib import imaplib import email import sqlite3 from urllib.pa…...

编程日记 2025/7/15 11:29:37

通过 Node.js 搭配 Nodemailer 实现邮箱验证码发送

目录一、整体思路二、环境准备三、代码详细步骤 1. 引入模块并初始化 2. 配置 Nodemailer 邮件服务 3. 定义发送验证码接口 4. 定义校验验证码接口 5. 启动服务器四、补充说明一、整体思路接收邮箱地址请求 → 用户在前端填写邮箱，发送到后端接口&…...

编程日记 2025/7/15 11:30:31

Java后端程序员学习前端之html

什么是html Hyper Text Markup Language(超文本标记语言) 超文本包括:文字、图片、音频、视频、动画等组织：W3C World Wide Web Consortium(万维网联盟)。成立子1994年，Web技术领域最权威和具影响力的国际中立性技术标准机构 http://www.w3.org! …...

编程日记 2025/7/15 10:43:28

[密码学实战]SDF之非对称运算类函数（三）

[密码学实战]SDF之非对称运算类函数（三）一、标准解读：GM/T 0018-2023核心要求 1.1 SDF接口定位安全边界：硬件密码设备与应用系统间的标准交互层功能范畴： #mermaid-svg-4fs0ed6OYQs5fXlc {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:…...

编程日记 2025/7/15 11:44:02

MCP 架构全解析：Host、Client 与 Server 的协同机制

目录 🏗️ MCP 架构全解析：Host、Client 与 Server 的协同机制 📌 引言 🧩 核心架构组件 1. Host（主机） 2. Client（客户端） 3. Server（服务器） &#…...

编程日记 2025/7/15 11:24:18

第三部分：赋予网页灵魂 —— JavaScript（下）

目录 7 DOM 操作：控制网页的"智能面板7.1 小例子：点击按钮时改变段落文字，根据用户输入改变图片7.2 练习：实现一个简单的 Tab 切换效果 8 事件处理：响应用户的"指令"8.1 小例子：实现点击按钮…...

编程日记 2025/7/15 11:20:57

（02）Redis 的订阅发布Pub/Sub

我们为了自己实现一个MQ功能，就要深入底层挖掘现有开源产品的实现过程。 Redis 发布订阅底层结构解析 Redis 不存储消息，仅作为“实时中转”；只有订阅者在线时才能收到消息；消息是广播给所有订阅此频道的客户端。 1. 核心数据结…...

编程日记 2025/7/15 11:32:18

JavaScript性能优化实战：从基础到高级的全面指南

作为前端开发者，掌握JavaScript性能优化是提升用户体验和职业竞争力的关键。本文将系统性地介绍JavaScript性能优化的各个方面，从基础概念到高级技巧，帮助你编写更高效的代码。一、JavaScript性能优化基础概念 1.1 什么是JavaScript性能优…...

编程日记 2025/7/15 11:15:18

CertiK创始人顾荣辉出席Unchained Summit，探讨Web3.0安全与合规路径

4月28日，CertiK联合创始人、哥伦比亚大学教授顾荣辉出席迪拜Unchained Summit峰会并发表主题演讲，探讨Web3.0在创新与安全间的平衡，引发网易科技、中国财经时报、腾讯网、新浪财经等多家知名媒体的关注和报道。作为迪拜最重要的峰会之一&am…...

编程日记 2025/7/15 11:26:55

企业出海降本：如何将应用从 AWS EC2 快速无缝迁移至DigitalOcean Droplet

企业出海已经成为目前最热门的趋势。然而不论你是做跨境电商，还是短剧出海，或处于最热门的AI 赛道，你都需要使用海外的云主机或GPU云服务。海外一线的云服务平台尽管覆盖区域广泛，但是往往费用成本较高。所以降本始终是企业出海关…...

编程日记 2025/7/15 11:57:33

java练习2

package a01_第一次练习.a02_计算输入天数;import java.text.ParseException; import java.time.Duration; import java.time.LocalDateTime; import java.util.Scanner;public class Test {public static void main(String[] args) throws ParseException {//当前时间LocalDat…...

编程日记 2025/7/15 11:03:51

PDM是什么？PDM有什么用？怎么选PDM？2025制造PDM/PLM系统盘点（4000字）

（文章来自CRDE PDM研究中心） 摘要 PDM是制造企业产品数据管理的核心工具，并逐渐发展出了PLM、云PLM等新形态，在功能增加的同时成本也有大幅降低，已经成为企业研发管理的最优选择，并逐渐被有产品创新需求的…...

编程日记 2025/7/15 11:46:57

TiDB 可观测性最佳实践

TiDB 介绍 TiDB，由 PingCAP 公司自主研发的开源分布式关系型数据库，是一款创新的 HTAP 数据库产品，它融合了在线事务处理（OLTP）和在线分析处理（OLAP）的能力，支持水平扩容和缩容&…...

编程日记 2025/7/15 11:00:15

8.idea创建maven项目(使用Log4j日志记录框架+Log4j 介绍)

8.idea创建maven项目(使用Log4j日志记录框架Log4j 介绍) 在 IntelliJ IDEA 的 Maven 项目中引入了 Log4j，并配置了日志同时输出到控制台和文件。 Log4j 提供了灵活的日志配置选项，可以根据项目需求调整日志级别、输出目标和格式。 1. 创建 Maven 项目 …...

编程日记 2025/7/15 11:08:54

Linux 命名管道+日志

一、命名管道 1.1 进程通信的前提：先让不同进程看到同一份资源； 1.2 如何确保两个进程打开的是同一个文件：同路径下同一文件名； 1.3 命名管道：通过路径文件名确保这个份资源的唯一性； 1.4 接口&#xf…...

编程日记 2025/7/15 11:22:37

c/c++之信号处理＜signal.h＞

该库提供了一组用于处理信号的函数和宏。信号是由操作系统或程序本身生成的一种异步事件，用于通知某些事件的发生，例如非法操作、用户中断等。信号信号是进程之间通信的重要方式。信号是一种异步通知机制，由操作系统或其他进程发送给当前进…...

编程日记 2025/7/15 11:11:32

基于PyTorch的图像分类特征提取与模型训练文档

概述本代码实现了一个基于PyTorch的图像特征提取与分类模型训练流程。核心功能包括： 使用预训练ResNet18模型进行图像特征提取将提取的特征保存为标准化格式基于提取的特征训练分类模型代码结构详解 1. 库导入 import torch import torch.nn as nn import…...

编程日记 2025/7/14 17:23:42

DDoS vs CC攻击：哪种对服务器威胁更大？

引言 DDoS（分布式拒绝服务）与CC（Challenge Collapsar）攻击是两种常见的网络攻击手段，均会导致服务器资源耗尽、服务中断。但它们的攻击原理、防御难度及危害程度存在显著差异。本文将从技术原理、攻击效果、防御成本等…...

编程日记 2025/7/15 5:03:07

Weiss Robotics的WPG与WSG系列紧凑型机器人夹爪，精准、灵活、高效

在自动化和智能制造领域，Weiss Robotics 以其创新的智能抓取系统而受到广泛认可。本文将重点介绍 Weiss Robotics 的两大产品系列：WPG 系列和 WSG 系列。这些产品系列凭借其先进的技术特性，为各行各业的自动化需求提供了高效、灵活的解决方案…...

编程日记 2025/7/15 11:51:41

引力透镜效应添加光线弯曲程度可视化层的MATLAB代码

物理实现要点： ‌雅可比矩阵计算‌ 通过数值梯度计算偏转场的空间导数： 放大率μ反映像的亮度增强倍数 ‌动态范围处理‌ 使用对数压缩μ值范围：μ_vis log10(1μ)，避免高放大率区域饱和 ‌多物理量联合显示‌ 红圈标注爱因…...

编程日记 2025/7/15 11:10:08

OpenCV 图形API（71）图像与通道拼接函数-----从图像（GMat）中裁剪出一个矩形区域的操作函数 crop()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述裁剪一个2D矩阵。该函数根据给定的 cv::Rect 裁剪矩阵。输出矩阵必须与输入矩阵具有相同的深度，大小由给定的矩形大小指定。注意…...

编程日记 2025/7/15 8:21:18

tarjan缩点+强联通分量

【模板】缩点https://www.luogu.com.cn/problem/P3387 首先我们要理解这道题为什么要用缩点题目说的是有向图，如果无环的话就可以用DP来解决了由于可以走重复的点，所以一个环上的点可以看成是一个点，它的点权就等于该环上所有点的点权之…...

编程日记 2025/7/15 5:18:13

tornado_登录页面（案例）

目录 1.基础知识编辑 2.脚手架（模版） 3.登录流程图（processon） 4.登录表单 4.1后（返回值）任何值：username/password （4.1.1）app.py （4.1.2&#xff…...

编程日记 2025/7/6 13:10:24

Educational Codeforces Round 178 (Rated for Div. 2)

ABC 略 D n个数互质，即n个数都是质数，预处理前4e5个质数，原排列从大到小排序求前缀和，质数求前缀和，从后往前循环第一个前者前缀和能大于等于后者就是留下的i个数。 #include<bits/stdc.h> #define int long …...

编程日记 2025/7/6 13:10:21

从Transformer原理角度来看，prompt设置输出字数限制会生效的原因

从Transformer原理角度来看，prompt设置输出字数限制会生效的原因 1. 生成过程的控制 Transformer在生成文本时是一个自回归的过程，它从起始标记开始，逐个生成下一个单词或标记。在这个过程中，模型会根据已经生成的文本和自身的参数来预测下一个可能的标记的概率分布。当设…...

编程日记 2025/7/6 13:10:19

WEB漏洞--CSRF及SSRF案例

CSRF案例原理检测是否存在CSRF（跨站请求伪造）漏洞 1. 手动测试构造恶意请求：创建一个恶意网页或电子邮件，包含指向目标网站的恶意请求（如更改密码或发送消息的URL）。诱使用户访问该恶意请求，…...

编程日记 2025/7/14 14:24:12

Android开发——实现一个计算器

目录代码讲解 activity_calculator.xmld代码讲解 1. 根布局（LinearLayout） 2. 显示区域（TextView） 3. 按钮区域（GridLayout） 4. 清除和删除按钮 5. 数字和操作符按钮 6. 其他行的按钮 7. 最后一行…...

编程日记 2025/7/6 13:10:13

23G显存可以跑多大尺寸的Qwen3？

随着阿里Qwen3系列大模型的发布，开发者们对如何在有限显存下部署不同尺寸的模型尤为关注。本文基于Qwen3的技术特性和实际测试数据，探讨在23G显存环境下可运行的模型选择及优化策略。不过由于咱财力有限，只有一张A100，还不是空的，目前只有23G的显存。那么这23G显存能跑…...

编程日记 2025/7/12 23:10:16

网络通讯【QTcpServer、QTcpSocket、QAbstractSocket】

目录 QTcpServer class简单描述成员函数和信号 QTcpSocket Class详细描述成员函数和信号 QAbstractSocket Class详细描述成员函数和信号成员函数说明文档 QT实现服务器和客户端通讯服务器端：通讯流程原代码客户端通信流程原代码 QTcpServer class header: #includ…...

编程日记 2025/7/14 23:02:25

std::functional 类是干什么用的？

author: hjjdebug date: 2025年 04月 29日星期二 15:54:53 CST description: std::functional 类是干什么用的？ 文章目录 1.functional 对象的概念2.functional 对象存在的意义2.1 为什么要把接口再封一层？2.2 c中函数参数可以不用回调函数, 而改用func…...

编程日记 2025/7/14 14:52:22

人事管理系统6

模糊查询 DepartmentMapper.xml ： <select id"findDepartmentListByName" resultMap"BaseResultMap"> select <include refid"Base_Column_List"/> from department where dname like %${dname}% /*where dname like con…...

编程日记 2025/7/6 13:09:43

链表的中间节点

这题需要用到快慢指针的思想，快指针叫fast，慢指针是slow，快指针每次往后移两个节点，slow只移动一个节点，这样子fast的速度是slow的两遍，当fast遍历完链表，slow才遍历一半，正好就在中…...

编程日记 2025/7/6 13:09:40

【学习学学】城市群与都市圈是什么？怎么

城市群与都市圈是什么？怎么发展这些年城市群，都市圈的概念被逐渐提了出来，也是未来我国即将重点发展的对象之一。因此，身边有一些朋友在问，城市群与都市圈有什么区别？哪个对城市发展影响更大&#xff1f…...

编程日记 2025/7/15 8:36:08

【深度学习与大模型基础】第14章-分类任务与经典分类算法

Part 1：什么是分类任务？ 1.1 分类就是“贴标签” 想象你有一堆水果，有苹果🍎、橘子🍊、香蕉🍌，你的任务是让机器学会自动判断一个新水果属于哪一类——这就是分类（Classification&…...

编程日记 2025/7/6 13:09:35

第十五章：预训练大语言模型

目录 15.1 数据准备 15.1.1 数据预处理 15.1.2 数据调度 15.2 模型架构 15.2.1 主流架构一、编码器架构（Encoder-only，以 BERT 为代表） 核心特点： 代表模型：BERT、RoBERTa、ALBERT 典型应用： 二…...

编程日记 2025/7/6 13:09:33

万象生鲜配送系统代码2025年4月29日更新日志

亲爱的用户：万象生鲜配送系统始终致力于为您提供更优质、高效的服务体验。经过我们技术团队的不懈努力，万象生鲜配送系统在 2025 年 4 月迎来了一次重大更新。本次更新涵盖了多个方面，包括功能新增、性能优化以及问题修复，旨在进一…...

编程日记 2025/7/6 13:09:32

Mac 创建QT按钮以及一些操作

在创建QT项目好后我们打开mainwindow.cpp，下面所示的代码都是在这个cpp文件里面因为它是窗口的入口函数 #include "mainwindow.h" #include "ui_mainwindow.h" #include<QPushButton>//按钮的头文件MainWindow::MainWindow(QWidget *pa…...

编程日记 2025/7/14 21:02:21