当前位置: 首页 > news >正文

DILLEMA:扩散模型+大语言模型,多模态数据增强框架

引言:深度学习模型的鲁棒性测试需要全面且多样化的测试数据。现有的方法通常基于简单的数据增强技术或生成对抗网络,但这些方法在生成真实且多样化的测试数据集方面存在局限性。为了克服这些限制,DILLEMA框架应运而生,旨在通过结合大型语言模型和控制条件下的扩散模型,为视觉神经网络生成合成的高保真测试数据集。

©️【深蓝AI】编译

论文标题:DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation

论文作者:Luciano Baresi, Davide Yi Xian Hu, Muhammad Irfan Mas'udi, Giovanni Quattrocchi

论文地址:https://arxiv.org/pdf/2502.04378

01 核心要点

1.1. 问题背景

深度学习模型在现实场景中常因数据多样性不足或测试覆盖不全,导致“极端场景”下的异常行为。传统数据增强方法(如旋转、裁剪)或GAN生成的测试数据缺乏多样性和语义合理性,难以满足复杂场景(如自动驾驶、医学图像分析)的测试需求。

1.2. 解决方案

DILLEMA创新性地整合扩散模型与大语言模型,构建多模态数据增强框架。该框架通过生成高保真度的多样化合成测试数据,有效提升模型的健壮性。其核心思想是“文本-图像-文本”闭环:将图像转化为文本描述,利用LLM生成假设性描述,再通过扩散模型生成新图像,确保语义一致性和场景合理性。

1.3. 技术亮点

多模态协同:结合视觉与语言模型的优势,实现语义可控的图像生成。

假设性推理:LLM通过逻辑推理生成假设性描述(如 “ 将晴天改为暴雨”),突破传统增强的随机性局限。

空间一致性保持:扩散模型在生成过程中保留关键场景元素(如物体位置、光照条件),避免生成无效测试数据。

▲图1| DILLEMA的框架图©️【深蓝AI】编译

02 技术解析

如图1框架示意图所示,DILLEMA框架通过以下五个步骤生成合成的、高保真度的测试数据集,这些步骤共同作用,确保生成的测试数据集不仅真实且多样化,还能有效揭示深度学习模型的潜在弱点。以下是每个步骤的详细描述:

2.1. 图像字幕生成(Image Captioning)

图像字幕生成是DILLEMA框架的第一步,其核心目标是将输入图像转换为详细的文本描述。这一过程借助预训练的字幕生成模型(Captioning Model, CM),将图像中的关键信息转化为多句文本描述。每个句子聚焦于场景的不同方面,如物体、环境和上下文关系,从而提供全面且详细的图像表示。

例如,对于一张描绘“一辆灰色汽车行驶在雾蒙蒙的街道上”的图像,字幕生成模型可能会输出:“一条街道上有一辆灰色汽车。街道雾蒙蒙且昏暗。”

这种多句描述方法能够有效捕捉图像中的关键细节,避免遗漏重要信息,为后续步骤提供坚实基础。

▲图2| 分类(图2a)和分割(图2b)之间的约束差异展示©️【深蓝AI】编译

2.2. 关键词识别(Keyword Identification)

关键词识别是DILLEMA框架的第二步,旨在识别字幕中可以安全修改的关键词。这些关键词代表图像中可修改的方面,如颜色、天气条件或对象属性,而不改变图像的整体含义或主要任务。

此步骤利用大型语言模型(LLM)分析字幕,识别出可修改的关键元素。在识别过程中,LLM会排除对任务至关重要的核心元素,以确保修改不会影响图像的主要任务。

例如图2所示:在图像分类任务中,背景颜色或照明可以修改,但对象本身(如汽车)不能改变;在语义分割任务中,道路和关键对象(如汽车、行人)必须保持存在,但颜色或天气条件可以改变。

为了明确任务要求,DILLEMA会向LLM提供特定任务相关的查询提示,例如:“给定任务和由字幕描述的图像,字幕中可以修改的关键元素是什么,以便图像对应的真值不会改变?”

通过这种方式,LLM能够根据任务要求,识别出如“灰色汽车”、“雾蒙蒙”和“昏暗”等可修改的关键元素。

2.3. 替代选项识别(Alternative Identification)

替代选项识别是DILLEMA框架的第三步,其目的是为识别出的关键词生成替代选项。这些替代选项应与原始关键词在语义相关,但具有不同的属性,从而在不改变图像整体任务的情况下提供变化。

LLM为每个识别出的关键词生成替代选项,例如,对于关键词“灰色汽车”,可能的替代选项包括“白色汽车”、“红色汽车”;对于“雾蒙蒙”,替代选项可以是“雪天”、“晴天”。

在生成替代选项时,LLM会考虑上下文的一致性,避免引入与任务无关的变化。例如,将“汽车”替换为“自行车”在车辆检测任务中是不合适的。

为了指导LLM生成合适的替代选项,DILLEMA会提供明确的任务和关键词提示,例如:“给定任务和由字幕描述的图像,这些关键词的可能替代选项是什么?”

通过这种方式,LLM能够生成多样化的替代选项,为后续步骤提供丰富的变化选项。

2.4. 假设性字幕生成(Counterfactual Caption Generation)

假设性字幕生成是DILLEMA框架的第四步,通过将替代选项应用于原始字幕,生成新的假设性字幕。这些假设性字幕描述了如果某些元素被修改,图像会是什么样子。此步骤利用LLM将原始字幕中的关键词替换为生成的替代选项,同时确保生成的字幕在语义连贯且符合任务要求。

替换的范围可以根据需要进行控制,例如,一次只替换一个关键词,以实现小幅度的变化;或者同时替换多个关键词,以引入更大的变化。

例如,原始字幕为“一条街道上有一辆灰色汽车。街道雾蒙蒙且昏暗。”,关键词“灰色汽车”替换为“白色汽车”,“雾蒙蒙”替换为“雪天”,生成的假设性字幕为:“一条街道上有一辆白色汽车。街道雪天且阳光明媚。”

在生成假设性字幕时,LLM会考虑上下文的连贯性,避免生成矛盾或不合逻辑的描述。通过这种方式,DILLEMA能够生成描述修改后图像的详细文本指导,为后续的图像生成提供基础。

2.5. 可控文本到图像生成(Controlled Text-to-Image Generation)

可控文本到图像生成是DILLEMA框架的最后一步,其目标是根据假设性字幕生成新的测试图像,同时保持原始图像的空间一致性。此步骤利用可控扩散模型(Diffusion Model, DM),通过条件输入(如边缘图或分割图)保留原始图像的空间结构,确保生成的图像在视觉和语义上符合任务要求。

例如,对于假设性字幕“一条街道上有一辆白色汽车。街道雪天且阳光明媚。”,生成的图像将保留原始图像中汽车和街道的空间位置,但汽车颜色变为白色,天气条件变为雪天。

可控扩散模型的输入包括原始图像的条件输入和假设性字幕,从而在生成图像时兼顾语义一致性和空间连贯性。

通过这种方式,DILLEMA能够生成与假设性字幕对齐的逼真图像,用于测试深度学习模型在不同条件下的表现,从而有效揭示模型的潜在弱点,并增强模型的泛化能力和异常场景适应性。

▲图3| DILLEMA生成的图片示例可视化©️【深蓝AI】编译

03 实验验证

3.1. 数据集与测试模型的性能

实验使用了两个数据集:用于图像分类的 ImageNet1K 和用于自动驾驶语义分割的 SHIFT。对于 ImageNet1K,使用了ResNet18、ResNet50 和 ResNet152 模型测试;对于 SHIFT,使用了DeepLabV3 模型测试。

3.2. 评估指标

图像分类:使用准确率(accuracy)评估模型表现。

语义分割:使用平均交并比(mIoU)评估模型表现。

3.3. RQ1(有效性):DILLEMA 能否从现有数据中生成有效且真实的测试数据集?

▲图4| 生成的分类测试数据集的有效性比例©️【深蓝AI】编译

▲图5| 自动驾驶测试数据集生成的有效性比例©️【深蓝AI】编译

通过亚马逊 Mechanical Turk 进行的人类评估显示,99.7% 的增强 ImageNet1K 图像保留了原始标签,82.7% 的模型误分类图像仍被人类评估者认为是有效的。对于 SHIFT 数据集,道路、行人和车辆的保留率分别为 98.9%、84.6% 和 100.0%。这表明 DILLEMA 生成的图像不仅真实,而且能够有效保留原始图像的关键语义信息。

3.4. RQ2(测试的有效性):生成的测试数据集能否识别出最先进的 DL 模型中的弱点?

▲表1| DILLEMA框架在ImageNet1K数据集上对不同ResNet模型进行测试时,原始测试数据集和DILLEMA生成的测试数据集的性能对比©️【深蓝AI】编译

ImageNet1K:DILLEMA 生成的测试数据集平均暴露了 47.0% 的模型错误行为,而原始测试数据集仅能暴露 3.1%。即使考虑到人类评估中约 82.7% 的有效性,DILLEMA 的有效性仍显著高于原始测试数据集(38.9%)。

SHIFT:DILLEMA 在语义分割任务中也成功暴露了模型的弱点,例如在“ SideWalk”类别中,模型在原始数据集中的准确率为 97%,而在增强数据集中的准确率降至 38%。这表明 DILLEMA 能够揭示模型在关键类别中的潜在弱点。

3.5. RQ3(再训练的鲁棒性):生成的测试数据集能否用于增强模型的泛化能力和异常场景适应性?

ImageNet1K:使用 DILLEMA 生成的数据重新训练 ResNet18 模型后,模型在增强测试数据集上的准确率提高了 52.27%,在原始测试设置上的准确率提高了 20.19%。

SHIFT:重新训练后,模型在原始测试设置上的 mIoU 从 85.32% 提高到 88.76%,在增强数据集上的 mIoU 从 72.45% 提高到 80.32%,特别是在行人识别方面,准确率从 38% 提高到 62%。这表明 DILLEMA 生成的测试数据集不仅能够揭示模型的弱点,还能显著提升模型的鲁棒性。

04 影响有效性的因素

尽管 DILLEMA 在实验中表现出色,但仍存在一些潜在的威胁:

内部有效性问题:依赖预训练模型和随机采样,可能导致结果的随机性和偏差。此外,合成图像与真实图像之间可能存在领域偏移,导致模型表现不佳。

外部有效性问题:虽然在分类和分割任务中进行了测试,但可能无法推广到特定领域(如医学成像)。需要在更多样化的数据集上进行测试,以确认其在工业应用和其他视觉任务中的适应性。

构建的有效性:主要衡量标准是生成图像是否保留了原始标签并揭示了模型的弱点。尽管人类评估表明图像仍然有效,但 LLM 生成的替代选项可能存在潜在偏差,可能会影响结论。

05 总结与展望

DILLEMA 通过结合字幕生成、LLM 驱动的假设性生成和可控扩散模型,可以有效地揭示模型的弱点并提高模型鲁棒性。未来的工作将与其他基线进行比较,并探索生成测试数据集的优先级排序。DILLEMA 的提出为深度学习模型的测试和鲁棒性提升提供了一种新的思路,有望在自动驾驶、医疗影像等领域发挥重要作用。

相关文章:

DILLEMA:扩散模型+大语言模型,多模态数据增强框架

引言:深度学习模型的鲁棒性测试需要全面且多样化的测试数据。现有的方法通常基于简单的数据增强技术或生成对抗网络,但这些方法在生成真实且多样化的测试数据集方面存在局限性。为了克服这些限制,DILLEMA框架应运而生,旨在通过结合…...

京东web 详情 cfe滑块分析

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向分析 data response.json() pri…...

【Redis学习】Redis Docker安装,自定义config文件(包括RDB\AOF setup)以及与Spring Boot项目集成

【本文内容】 第1章:通过Docker安装Redis,并自定义config文件以及mount data目录。第2章:介绍Redis持久化到磁盘,有4种方式:RDB / AOF / NONE / RDB AOF。第3章:使用Server自带的redis-cli工具连接。第4章…...

Python 面向对象编程-继承与多态

目录 继承与多态 静态语言 vs 动态语言 小结 继承与多态 在OOP程序设计中,当我们定义一个class的时候,可以从某个现有的class继承,新的class称为子类(Subclass),而被继承的class称为基类、父类或超类&a…...

AcWing 蓝桥杯集训·每日一题2025·5439. 农夫约翰真的种地

5439. 农夫约翰真的种地 题目描述 农夫约翰在他的农场种植了 N N N 个芦笋,编号 ( 1 ∼ N ) (1 \sim N) (1∼N)。 其中,第 i i i 个芦笋的初始高度为 h i h_i hi​,每经过一天高度会增长 a i a_i ai​。 给定一个 ( 0 ∼ N − 1 ) (0…...

如何将 Excel 数据转换为 SQL 脚本:从入门到实战

全文目录: 开篇语? 前言?? 目录?? 什么是 SQL 脚本??? 为什么要将 Excel 转换为 SQL 脚本???? 如何将 Excel 转换为 SQL 脚本 ?? 方法一:使用在线转换工具?? 方法二:通过 Excel VBA 编写脚本?? 方法三…...

0x05 部门功能开发日志技术

准备工作 开发规范 采用restful风格:representational state transfer,表述性状态转换,是一种软件架构风格 REST是风格,是约定方式,约定不是规定,可以打破 描述功能模块通常使用复数形式加s(如…...

塔能物联运维:城市照明极端天气下的“定海神针”

在当今城市快速发展的进程中,城市照明系统的稳定性和可靠性在极端天气条件下愈发受到关注。而塔能物联运维平台的出现,为城市照明在各种复杂环境下的稳定运行提供了强有力的保障,让城市照明在极端天气下也能“稳如泰山”。 城市照明对于保障市…...

Transformer 代码剖析7 - 词元嵌入(TokenEmbedding) (pytorch实现)

一、类定义与继承关系剖析 1.1 代码结构图示 #mermaid-svg-9COHbtmHJhpiroHM {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-9COHbtmHJhpiroHM .error-icon{fill:#552222;}#mermaid-svg-9COHbtmHJhpiroHM .error-t…...

6.6.5 SQL访问控制

文章目录 GRANT授予权限REVOKE回收权限 GRANT授予权限 GRANT语句可以给用户授予权限,基本格式是GRANT 权限 TO 用户。在授权时,WITH GRANT OPTION是可选项,有此句话,被授予权限的用户还能把权限赋给其他用户。 REVOKE回收权限 RE…...

IDEA 使用codeGPT+deepseek

一、环境准备 1、IDEA 版本要求 安装之前确保 IDEA 处于 2023.x 及以上的较新版本。 2、Python 环境 安装 Python 3.8 或更高版本 为了确保 DeepSeek 助手能够顺利运行,您需要在操作系统中预先配置 Python 环境。具体来说,您需要安装 Python 3.8 或更高…...

React + TypeScript 实现 SQL 脚本生成全栈实践

React TypeScript 实现数据模型驱动 SQL 脚本生成全栈实践 引言:数据模型与 SQL 的桥梁革命 在现代化全栈开发中,数据模型与数据库的精准映射已成为提升开发效率的关键。传统手动编写 SQL 脚本的方式存在模式漂移风险高(Schema Drift&#…...

用DeepSeek生成批量删除处理 PDF第一页工具

安装依赖库 在运行程序之前,请确保安装所需的库: pip install pymupdf python-docx Python 程序代码 import os import fitz # PyMuPDF from docx import Documentdef delete_pdf_first_page(input_path, output_path):"""删除 PDF…...

三个小时学完vue3(一)

Vue3 之前就学过一些&#xff0c;不过用的比较少&#xff0c;基本忘完了/(ㄒoㄒ)/~~ 跟着B站视频迅速回忆一下 创建一个Vue 3 应用 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport&…...

netty如何处理粘包半包

文章目录 NIO中存在问题粘包半包滑动窗口MSS 限制Nagle 算法 解决方案 NIO中存在问题 粘包 现象&#xff0c;发送 abc def&#xff0c;接收 abcdef原因 应用层&#xff1a;接收方 ByteBuf 设置太大&#xff08;Netty 默认 1024&#xff09;滑动窗口&#xff1a;假设发送方 25…...

最好Wordpree+Apache+PHP安装教程

前提需要 PHP的安装最少需要7.4以上Mysql的安装&#xff0c;直接默认最新版就行APache服务器&#xff08;HTTP服务器&#xff0c;只有用这个你的软件才能在服务器上运行&#xff09; 安装apache 安装 sudo apt install apache2查看防火墙 sudo ufw app list如果有 Apache那…...

0x02 js、Vue、Ajax

文章目录 js核心概念js脚本引入html的方式基础语法事件监听 Vuevue简介v-forv-bindv-if&v-showv-model&v-on Ajax js 核心概念 JavaScript&#xff1a;是一门跨平台、面向对象的脚本语言&#xff0c;用来控制网页行为实现交互效果&#xff0c;由ECMAScript、BOM、DOM…...

如何使用Docker搭建哪吒监控面板程序

哪吒监控(Nezha Monitoring)是一款自托管、轻量级的服务器和网站监控及运维工具,旨在为用户提供实时性能监控、故障告警及自动化运维能力。 文档地址:https://nezha.wiki/ 本章教程,使用Docker方式安装哪吒监控面板,在此之前,你需要提前安装好Docker. 我当前使用的操作系…...

智能图像处理平台:图片管理

接着我们讲图片管理&#xff0c;先实现图片基础的增删改查&#xff0c;再去考虑图像处理。 主要是&#xff0c;我们需要完成查询时&#xff0c;查询的图片的上传者的角色等级小于等于我们当前登陆账号。 后端controller&#xff1a; package com.llpp.controller;import cn.…...

如何使用Docker一键本地化部署LibrePhotos搭建私有云相册

文章目录 前言1.关于LibrePhotos2.本地部署LibrePhotos3.LibrePhotos简单使用4. 安装内网穿透5.配置LibrePhotos公网地址6. 配置固定公网地址 前言 你是不是也经常对着手机里那一堆珍贵的照片发愁&#xff0c;心里想着&#xff1a;‘这要是被谁偷偷看了可咋办&#xff1f;’别…...

删除idea recent projects 记录

1、退出idea&#xff08;一定要全部退出idea&#xff0c;要不然删除后&#xff0c;idea一退出&#xff0c;又保存上了&#xff09; 2、进入 C:\Users\Administrator\AppData\Roaming\JetBrains\IntelliJIdea2024.1\options 目录 根据不同的版本号 IntelliJIdea2024.1 这个地方…...

基因组突变数据分析-ClinVar数据库

探序基因肿瘤研究院 数据库简介&#xff1a;ClinVar是一个免费访问的公共数据库&#xff0c;记录了人类变异和表型之间的关系&#xff0c;并提供了支持性证据&#xff08;supporting evidence&#xff09;。ClinVar提供的变异临床意义&#xff08;clinical significance&#…...

windows 下 使用Python OpenCV针对 压缩的tiff 图像进行解压缩 并转换成多张jpeg 图像

文章大纲 Tif/Tiff 图像简介tif 后缀的文件中为什么可以嵌入多张图片Tif 图像 与 jpg 图像转换的要点参考使用的 GitHub 仓库链接tifffile 库的功能与其他库的区别代码实现 基于 tifffile参考文献Tif/Tiff 图像简介 TIFF(Tagged Image File Format)是一种灵活且可适应的文件…...

小皮网站搭建

前提&#xff1a;小皮的安装下载 1、在www目录下创建一个新的文件夹&#xff0c;用来存放网站源码&#xff1b; 2、安装数据库管理工具phpMyadmin 3、新建数据表 添加字段 4、创建网站 5、前端的登录代码 注册 后端php 网页展示 登录成功跳转welcome.php...

Java8面试

Java 8 有哪些新特性? &#x1f40e;Java 8五大神装特性&#x1f40e; Lambda表达式&#xff08;魔法调料&#xff09; 曼波觉得像速食魔法咒语&#xff01;(๑✧◡✧๑) // 传统写法&#xff08;像冗长菜谱&#xff09; new Thread(new Runnable() {public void run() {Syst…...

一个基于C# Winform开源免费的通用快速开发框架,内置完整的权限架构!

前言 今天大姚给大家分享一个基于C# Winform开源免费&#xff08;GPL-2.0开源协议&#xff09;的通用快速开发框架&#xff0c;内置完整的权限架构&#xff1a;WinformDevFramework。 项目介绍 WinformDevFramework是一个基于C# Winform开源免费&#xff08;GPL-2.0开源协议…...

2025年度福建省职业院校技能大赛高职组“信息安全管理与评估”赛项规程样题模块二

模块二 网络安全事件响应、数字取证调查、应用程序安全 竞赛项目赛题 本文件为信息安全管理与评估项目竞赛-第二阶段样题&#xff0c;内容包括&#xff1a;网络安全事件响应、数字取证调查。 本次比赛时间为90分钟。 介绍 竞赛有固定的开始和结束时间&#xff0c;参赛队伍必须…...

【朝夕教育】《鸿蒙原生应用开发从零基础到多实战》005-TypeScript 中的枚举

标题详情作者简介愚公搬代码头衔华为云特约编辑&#xff0c;华为云云享专家&#xff0c;华为开发者专家&#xff0c;华为产品云测专家&#xff0c;CSDN博客专家&#xff0c;CSDN商业化专家&#xff0c;阿里云专家博主&#xff0c;阿里云签约作者&#xff0c;腾讯云优秀博主&…...

使用create_sql_query_chain工具根据自然语言问题生成SQL查询,踩坑版

1. 开启调试模式 from langchain import debugdebug True # 启用调试模式说明&#xff1a; 这里从 langchain 库中导入了一个名为 debug 的变量&#xff08;或模块&#xff09;&#xff0c;然后将它设置为 True。这通常用来启用调试模式&#xff0c;方便开发者在程序运行时看…...

DeepSeek本地部署+自主开发对话Web应用

文章目录 引言前端部分核心页面DeepSeek.vueMyModal.vue 后端部分WebSocketConfig 配置类AbstractDeepSeekToolDeepSeekWebSocketHandler 数据库设计总结 引言 最近DeepSeep横空出世&#xff0c;在全球内掀起一股热潮&#xff0c;到处都是满血大模型接入的应用&#xff0c;但这…...

【Springboot】解决问题 o.s.web.servlet.PageNotFound : No mapping for *

使用 cursor 进行老项目更新为 springboot 的 web 项目&#xff0c;发生了奇怪的问题&#xff0c;就是 html 文件访问正常&#xff0c;但是静态文件就是 404 检查了各种配置&#xff0c;各种比较&#xff0c;各种调试&#xff0c;最后放弃时候&#xff0c;清理没用的配置文件&…...

微信小程序点击按钮,将图片下载到本地

前言&#xff1a; 最近在公司完成一个小程序的时候需要实现一个功能&#xff1a;点击按钮获取用户相册权限&#xff0c;将图片下载到用户本地相册&#xff0c;经过了好几次的尝试最终算是实现了。将总结的经验在这里分享给小伙伴们。 实现方式&#xff1a; //.wxml文件 <…...

解锁网络防御新思维:D3FEND 五大策略如何对抗 ATTCK

D3FEND 简介 背景介绍 2021年6月22日&#xff08;美国时间&#xff09;&#xff0c;美国MITRE公司正式发布了D3FEND——一个网络安全对策知识图谱。该项目由美国国家安全局&#xff08;NSA&#xff09;资助&#xff0c;并由MITRE的国家安全工程中心&#xff08;NSEC&#xff…...

架构案例:从初创互联网公司到分布式存储与反应式编程框架的架构设计

文章目录 引言一、初创互联网公司架构演化案例1. 万级日订单级别架构2. 十万级日订单级别架构3. 百万级日订单级别架构 二、分布式存储系统 Doris 架构案例三、反应式编程框架架构案例总结 引言 分布式架构 今天我们将探讨三种不同类型的架构案例&#xff0c;分别探讨 一个初…...

Redis数据结构-List列表

1.List列表 列表类型适用于存储多个有序的字符串&#xff08;这里的有序指的是强调数据排列顺序的重要&#xff0c;不是升序降序的意思&#xff09;&#xff0c;列表中的每个字符串称为元素&#xff08;element&#xff09;&#xff0c;一个列表最多可以存储2^32-1个元素。在R…...

开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型

论文链接&#xff1a;https://arxiv.org/abs/2502.10841 项目链接&#xff1a;https://skyworkai.github.io/skyreels-a1.github.io/ Demo链接&#xff1a;https://www.skyreels.ai/ 开源地址&#xff1a;https://github.com/SkyworkAI/SkyReels-A1 https://github.com/Skywork…...

mac安装环境

minconda https://docs.anaconda.net.cn/miniconda/install/ 注意在下载下来应该有100多兆&#xff0c;太大了应该是完整版&#xff0c;我们不需要 jdk 镜像网站下载设置环境变量&#xff1a; 终端&#xff1a;sudo vim ~/.zshrc # JDK Config JAVA_HOME/Library/Java/Java…...

js加密之延伸requestAnimationFrame

简言 上篇文章有提到requestAnimationFrame,只是随笔带过。这篇文章就着重研究一下requestAnimationFrame的运用&#xff0c;以及实际作用。还有关于在js加密技术中的落地实现可行性。 功能说明 小声说一下,做开发的同学一定要学会翻官方文档,我这里直接引用一段官方介绍。 …...

SpringBoot @Value 注解使用

Value 注解用于将配置文件中的属性值注入到Spring管理的Bean中。 1. 基本用法 Value 可以直接注入配置文件中的属性值。 配置文件 (application.properties 或 application.yml) 配置文件定义需要注入的数据。 consumer:username: lisiage: 23hobby: sing,read,sleepsubje…...

JavaFunction的使用

一、基础概念与核心方法 ​定义与作用​ Function<T, R> 是一个函数式接口&#xff0c;接收类型为 T 的输入参数&#xff0c;返回类型为 R 的结果。其核心方法为 apply(T t)。例如&#xff0c;将字符串转换为整数长度&#xff1a; java Function<String, Integer>…...

TVbox蜂蜜影视:智能电视观影新选择,简洁界面与强大功能兼具

蜂蜜影视是一款基于猫影视开源项目 CatVodTVJarLoader 开发的智能电视软件&#xff0c;专为追求简洁与高效观影体验的用户设计。该软件从零开始编写&#xff0c;界面清爽&#xff0c;操作流畅&#xff0c;特别适合在智能电视上使用。其最大的亮点在于能够自动跳过失效的播放地址…...

Python基于交互注意力的深度时空网络融合多源信息的剩余寿命预测方法

基于交互注意力的深度时空网络融合多源信息的剩余寿命预测方法 一、方法框架设计 本方法的核心思想是通过交互注意力机制动态捕捉多源数据间的跨模态关联&#xff0c;并结合深度时空网络建模序列的时空退化特征。 1. 多源特征编码器 输入&#xff1a;传感器数据、工况参数、…...

阿里云 | 快速在网站上增加一个AI助手

创建智能体应用 如上所示&#xff0c;登录阿里云百炼人工智能业务控制台&#xff0c;创建智能体应用&#xff0c;智能体应用是一个agent&#xff0c;即提供个人或者企业的代理或中间件组件应用&#xff0c;对接阿里云大模型公共平台&#xff0c;为个人或者企业用户提供大模型应…...

基于Electron的应用程序安全测试基础 — 提取和分析.asar文件的案例研究

目录&#xff1a; 4.4. 案例研究 4.4.2. 情况描述 4.4.3. 信息收集 4.4.3.2. 检查隐藏目录&#xff08;点目录&#xff09;的可能性 4.4.3.3. 使用 DB Browser for SQLite 打开 .db 文件 4.4.3.4. 寻找加密算法 4.4.3.5. 找到加密算法 4.4.3.6. 理解加密流程 4.4.3.7. 找到“Ke…...

Vue3生命周期以及与Vue2的区别

文章目录 一、Vue3生命周期核心阶段与钩子函数二、Vue3生命周期示例&#xff1a;选项式 vs 组合式 API选项式 API 示例&#xff08;Vue2&#xff09;组合式 API 示例&#xff08;Vue3&#xff09; 三、Vue3与Vue2生命周期的核心差异1. 钩子函数更名2. 组合式 API 的影响3. 新增…...

windows下安装CUDA-本地微调大模型

1、查看NVIDIA的控制面板的版本号 2 下载CUDA Toolkit https://developer.nvidia.com/cuda-toolkit-archive 这里要下载和自己电脑NVIDIA适配CUDA的大版本要保持一致 选择对应的版本进行下载 文件比较大&#xff0c;直接右键复制链接&#xff0c;放到迅雷中两分钟就下好了 3 …...

LeetCode:132. 分割回文串 II(DP Java)

目录 132. 分割回文串 II 题目描述&#xff1a; 实现代码与解析&#xff1a; DP 原理思路&#xff1a; 132. 分割回文串 II 题目描述&#xff1a; 给你一个字符串 s&#xff0c;请你将 s 分割成一些子串&#xff0c;使每个子串都是回文串。 返回符合要求的 最少分割次数…...

C# 13与.NET 9革新及工业开发应用

摘要 微软推出的C# 13与.NET 9以“高效且智能”为导向&#xff0c;具备扩展类型、半自动属性、锁对象优化等十大革新。本文深入剖析新特性于工业级开发的应用场景&#xff0c;包含性能优化策略、AI集成方案以及EF Core实战技巧&#xff0c;为开发者提供从理论到实践的完整指引…...

IPoIB源码深度解析:如何基于TCP/IP协议栈实现高性能InfiniBand通信

一、IPoIB的核心设计理念 IPoIB(IP over InfiniBand)是一种在InfiniBand网络上承载IP流量的技术,其核心目标是在不修改上层应用的前提下,利用InfiniBand的高带宽和低延迟特性。与自定义协议栈不同,IPoIB通过深度集成到Linux内核TCP/IP协议栈中,将InfiniBand设备抽象为标…...

《白帽子讲 Web 安全:点击劫持》

目录 摘要&#xff1a; 一、点击劫持概述 二、点击劫持的实现示例&#xff1a;诱导用户收藏指定淘宝商品 案例 构建恶意页面&#xff1a; 设置绝对定位和z - index&#xff1a; 控制透明度&#xff1a; 三、其他相关攻击技术 3.1图片覆盖攻击与 XSIO 3.2拖拽劫持与数据…...