【第三十四周】多模态大模型调研
多模态大模型调研
- 摘要
- Abstract
- 引言
- 多模态技术的主要方向
- 视觉-语言大模型(Vision-Language Large Models, VLLMs)
- 语音-语言大模型(Speech-Language Large Models, SLLMs)
- 音乐 - 语言大模型(Music-Language Large Models, MLLMs)
- 视频-语言大模型(Video-Language Large Models, V-LLMs)
- 当前多模态热点
- 多模态与网安的结合
摘要
本篇博客按照任务对多模态大模型进行了分类,主要分为视觉-语言模型、语音-语言大模型、音乐-语言大模型、视频-语言大模型,剖析了各种多模态大模型的关键技术和前沿进展。最后分析了当前多模态研究的热点方向,并介绍了多模态与网安结合方向结合的任务定义和目标。
Abstract
This blog categorizes multimodal large models into four task-oriented types: vision-language models, speech-language models, music-language models, and video-language models, analyzing their core technologies and cutting-edge advancements. It also explores current research hotspots in multimodal studies and introduces the task definitions and objectives of integrating multimodal approaches with cybersecurity.
引言
多模态大模型(Multimodal Large Language Models, MLLMs)通过整合文本、图像、音频、视频、传感器等多种模态数据,构建具备跨模态理解与生成能力的通用智能系统。其核心目标是通过模态间的对齐、融合与推理,模拟人类对世界的多感官认知过程。此类模型通常由模态编码器、输入投影器、语言模型骨干、输出投影器和模态生成器组成,关键技术包括跨模态对齐、指令微调和强化学习。
多模态技术的主要方向
视觉-语言大模型(Vision-Language Large Models, VLLMs)
VLMs 利用视觉与语言之间的交互学习,通过学习大量的视觉、文本数据,能够理解和生成包含视觉元素和语言描述的内容。
VLLMs 通常需要大量的计算资源来训练,并且它们的性能随着训练数据的质量和多样性的提升而提升。
OpenAI 在2021年推出 CLIP 模型,通过对比学习方法对大量图像和文本数据进行弱监督预训练,学习图像与文本之间的相关性,能够在多种下游任务中实现零样本预测,并在少样本预测方面取得领先性能。在 CLIP 的基础上,其他 VLLMs 如 Clip4clip、ActionCLIP 等针对不同任务进行了优化。
2022年提出的 BLIP 采用了 MED 架构和 CapFilt 机制,统一了视觉-语言领域的理解和生成任务的架构,并很大程度上减少了原始数据的噪声。其后续版本 BLIP - 2 进一步简化了预训练过程,通过轻量级的 QFormer 弥合视觉和语言之间的模态差距。2023 年 GPT - 4 正式发布,拓展了模型的能力,能够处理多模态输入,在处理复杂任务方面的性能超越了前代模型。
MiniGPT - 4 是基于 BLIP - 2 的模型,复现了 GPT - 4 的部分功能,但在提取图像细节和识别物体位置方面存在一定限制。谷歌开发的 ALIGN 模型,通过使用大规模噪声数据集和对比学习损失函数,学习视觉与语言之间的一致性表示。
VLLMs 的关键技术包括:ViT、CLIP-ViT、EVA-CLIP等提取图像特征,Q-Former或线性投影层压缩视觉特征,适配LLM的文本空间。
语音-语言大模型(Speech-Language Large Models, SLLMs)
SLLMs 融合语音与文本模态,支持语音识别、语音翻译、情感分析等任务。
主要的语音 - 语言大模型包括 Meta 的 HuBERT、微软亚洲研究院的 WavLM、OpenAI 的 Whisper、Meta 的 mms、小米的 k2 - prompt 和 Google 的 audioPaLM 等。
HuBERT 是基于 BERT 的自监督语音表示学习方法,通过聚类和掩码预测等技术提取音频自编码特征。WavLM 是自监督预训练的语音模型,通过随机变换和遮盖音频信号进行训练,在多种语音任务上取得优秀性能。
Whisper 支持语音识别、语音到文本翻译和语种检测,利用大规模参数量和数据量带来较强的英语零样本泛化能力。mms 专注于语音识别、语种检测和语音合成任务,通过海量无监督多语种数据构建和有监督数据清洗来提高模型性能。
k2 - prompt 专注于语音识别,通过交叉自注意力机制融合 LLMs 的文本模态信息。
audioPaLM 支持多种语音和文本相关任务,通过语音文本多模态融合和预训练模型初始化注入文本模态信息提升效果。
SLLMs 的关键技术包括:语音编码器,HuBERT、WavLM等自监督模型提取声学特征;跨模态对齐,CLAP模型将音频嵌入与文本语义空间对齐
音乐 - 语言大模型(Music-Language Large Models, MLLMs)
现有的音乐大模型在音乐理解、音乐字幕及音乐推理三方面进行评判。音乐理解涉及节拍、曲调、类型、乐器等基本内容;音乐字幕主要是总结和提取音乐内容;音乐推理则是结合音乐知识和外部知识,推理音乐的展示方式和适用场合。
2023 年开源的 Llark 模型,训练资料涵盖大量音乐作品,在音乐理解和字幕生成方面表现出色,在音频与文本匹配的多模态任务中也超越现有模型。
谷歌研究院推出的 MusicLM 能够根据文本描述生成高保真音乐,将音乐生成任务看作分层的序列转换过程。
Meta 推出的 MusicGen 是开源的 AI 音乐生成模型,基于 Transformer 架构,采用单阶段的 Transformer 语言模型和高效的令牌交织技术,能够根据文本描述或现有旋律生成高质量音乐。
视频-语言大模型(Video-Language Large Models, V-LLMs)
V-LLMs 是一个综合性的研究领域, 旨在使 LLM 能够理解视频内容,结合视觉和语言信息,处理视频中的视觉和听觉内容。
2022 年,谷歌提出 Imagen Video,是基于级联视频扩散模型的文本到视频生成系统,能够根据文本提示生成高清晰度的视频。
2023 年,谷歌提出 VideoPoet,是基于 LLM 的 AI 视频创作工具,采用多模态设计,能将多种输入转化为高质量的视频输出,并同步产生相应的音频。
Runway 基础模型通过学习和理解视频数据,自动生成高质量的视频内容,采用生成对抗网络架构。
Meta 的 Make - A - Video 可以从给定的文字提示生成短视频。
OpenAI 于 2024 年发布的 Sora 模型,在视觉生成领域取得技术突破,能够生成长达 1min 的符合用户文本指令的视频,保持较高的视觉质量和连贯性。
当前多模态热点
-
模态对齐与融合技术:此方向的目标是解决不同模态(如图像、文本、音频)特征空间不一致的问题,实现跨模态语义统一。
其技术原理有:模态编码器,通过预训练的视觉编码器(如ViT、CLIP-ViT)和文本编码器(如BERT)将不同模态映射到高维特征空间;输入投影器,使用线性变换(MLP)或注意力机制(如Q-Former)对齐特征,例如将图像特征与文本特征维度匹配,便于后续联合处理;动态权重调整,引入自适应机制(如门控网络),根据输入内容动态调整各模态的权重,优化融合效果。 -
跨模态生成与理解一体化:此方向的目标是构建既能理解多模态输入、又能生成多模态输出的统一模型。
其技术原理有:自回归框架,基于Transformer架构,将图像、文本统一为token序列,通过自回归预测生成目标模态;扩散模型融合,如D-JEPA结合联合嵌入预测架构(JEPA)与扩散模型,通过掩码预测和FlowMatching损失实现连续空间生成。 -
多模态预训练与指令微调:此方向的目标是通过大规模预训练提升模型泛化能力,结合指令微调适应下游任务。
其技术原理有:多模态预训练任务:如图文匹配(ITM)、掩码语言建模(MLM)、跨模态对比学习(如CLIP);指令增强:将任务描述嵌入prompt模板,通过强化学习优化生成结果与人类意图的对齐。 -
可解释性与因果推理:此方向的目标是增强模型决策透明度,解决“黑箱”问题。
其技术原理包括:因果图构建,如IMCG系统通过反事实干预模拟,量化各模态对预测结果的贡献;注意力可视化:通过梯度反向传播定位关键特征区域,解释模型决策依据 。 -
多模态结合小样本学习:
多模态结合小样本学习(Multimodal Few-Shot Learning)旨在通过融合图像、文本、音频等多种模态数据,在极少量标注样本(如每类仅需1-5个样本)的条件下,实现模型对新任务的快速适应与泛化。
本方向的核心目标在于提升模型鲁棒性、实现高效知识迁移等
ZS-DeconvNet(Nature 2024):通过跨模态预训练与物理模型结合,在超分辨率任务中将图像分辨率提升至衍射极限的1.5倍,且训练数据需求大幅降低。
MM-CDFSL(ECCV 2024):针对第一人称动作识别,提出多模态蒸馏与掩码集成推理,大幅提升了在one-shot场景下的推理速度和准确率。
CPE-CLIP:通过提示正则化实现类增量学习,在医疗图像分类任务中参数量减少90%,同时保持95%以上准确率。
多模态与网安的结合
多模态与网络安全的结合旨在通过整合文本、图像、音频、网络流量、系统日志等多源异构数据,构建动态、智能化的安全防护体系。其核心目标包括:
提升威胁检测精度:通过多模态数据的互补性,突破单一数据源的局限性(如误报率高、隐蔽攻击难以识别),实现对高级持续性威胁(APT)、钓鱼攻击等复杂攻击的精准识别;
增强实时响应能力:利用多模态数据分析的并行处理优势,缩短安全事件从发现到处置的时间窗口(如将恶意流量拦截时间缩短至毫秒级);
构建自适应防御体系:结合动态风险评估与多模态特征融合,实现安全策略的智能调整(如根据网络流量异常因子自动切换防御模式);
保护数据隐私与合规性:在数据融合过程中应用联邦学习、生物加密等技术,确保敏感信息不被泄露,符合GDPR等法规要求。
相关文章:
【第三十四周】多模态大模型调研
多模态大模型调研 摘要Abstract引言多模态技术的主要方向视觉-语言大模型(Vision-Language Large Models, VLLMs)语音-语言大模型(Speech-Language Large Models, SLLMs)音乐 - 语言大模型(Music-Language Large Model…...
【2025最新】Baichuan-M1-instruct部署教程
首先机器至少要A100、4090、3090 这里选AutoDL的4090D,运行至少要20G显存。这里镜像选基础镜像11.8【更新!!!!!!!!!24G带不动!显存不够】 有时候…...
Unity与Unreal Engine(UE)的深度解析及高级用法
以下是Unity与Unreal Engine(UE)的深度解析及高级用法对比,结合技术特性、行业应用与未来发展进行综合阐述: 一、核心差异与适用场景对比 1. 技术架构与编程模式 Unity 语言与脚本:主要使用C#,语法简洁且易于学习,适合快速原型开发和中小型项目。支持可视化脚本工具(如…...
网络:TCP三次握手、四次挥手
目录 深刻理解三次握手 深刻理解四次挥手 深刻理解三次握手 三次握手时,如果最后一个ACK包,服务器没有收到,此时: 客户端:认为已经建立链接 服务器:认为没有建立链接,还在超时等待。 而此时…...
spdlog自定义formatter
用了之后发现,spdlog的默认日志记录格式为: [2014-10-31 23:46:59.678] [my_loggername] [info] Some message 但是这个格式不是我想要的,怎么办,这个也简单,上面的内容也就是几个标签的组合而已,spdlog自定…...
Spring AI 实战:第四章、Spring AI多模态之看图说话
引言:从"码农"到"多媒体魔术师" “曾经,我们的代码核心擅长处理文本,就像餐厅里只会做炒饭的厨师。现在有了Spring AI多模态支持,我们突然拥有满汉全席的烹饪技巧!” 作为一名常年与String打交道的开发者,当第一次看到Spring AI可以同时处理图片、音…...
ES6入门---第二单元 模块五:模块化
js不支持模块化 注意: 需要放到服务器环境 1、如何定义模块? export 东西 例:1.js文件中 console.log(1模块加载了);//显示是否加载了 export const a 12; export const b 5; export let c 101; const a12; const b5; const c101;ex…...
Python 函数装饰器和闭包(变量作用域规则)
本章内容: Python 如何计算装饰器句法 Python 如何判断变量是不是局部的 闭包存在的原因和工作原理 nonlocal 能解决什么问题 掌握这些基础知识后,我们可以进一步探讨装饰器: 实现行为良好的装饰器 标准库中有用的装饰器 实现一个参数化装饰器…...
什么是constexpr?
什么是constexpr? 简单来说,constexpr就是告诉编译器:“我这个变量或函数的值可以在编译时算出来,请帮我提前算好,运行时直接用结果,不用再算了。” • **传统const**只表示变量不可修改,但不…...
如何在 PowerEdge 服务器上设置 NIC 分组
以下文章提供了有关 Windows、VMware 和 Linux 中的 NIC 分组的信息。 什么是网络适配器分组?设置 NIC 分组 Windows设置 NIC 分组 VMware设置 NIC 分组 Linux 什么是网络适配器分组(绑定)? 网络适配器分组是一个术语࿰…...
ES6入门---第三单元 模块四:Set和WeakSet
set数据结构: 类似数组,但是里面不能有重复值,如果有,只显示一个 set用法: let setArr new Set([a,b]); setArr.add(a); 往setArr里面添加一项 let setArr new Set().add(a).add(b).add(c); setArr.delete(b); 删除一项 setArr.ha…...
架构进阶:75页架构规划方法课件 【附全文阅读】
本文概述了一个关于架构规划方法的目录及其目的,重点介绍了基于联邦企业架构(FEAF)的架构建模方法,并提及了不同层面的架构建模方法以及培训的目的。以下是对该内容的简洁总结: **架构规划方法目录及其目的** 本文旨在…...
前端面经-VUE3篇(三)--vue Router(二)导航守卫、路由元信息、路由懒加载、动态路由
一、导航守卫 vue Router 中的 导航守卫(Navigation Guards) 是一个非常重要的功能,用于在路由切换过程中,拦截、控制、检查或延迟页面跳转。 你可以理解为: 🔐 “进门前的保安”,控制哪些页面…...
RTX-3090 Qwen3-8B Dify RAG环境搭建
RTX-3090 Qwen3-8B Dify RAG环境搭建 一、环境配置二、操作步骤1、创建容器2、下载`Qwen3-8B`和embedding模型3、安装`transformers`4、安装`vllm`5、安装`flash-attention`6、启动兼容OpenAI API的服务1、方案一:启动`vllm`服务【不支持多任务】2、方案二:Flask和PyTorch实现的…...
Circular Plot系列(三):【视频教程】复现NCS图表之高大上的单细胞UMAP环形图
高端复杂的UMAP复现: 这又是一个高大上且炫酷的单细胞UMAP图,展示的信息很多,有大类细胞和亚群,以及marker基因和cell count信息,还可以增加其他的分组信息等等。没错,看这个图就是circlize一层层画的。我们…...
MCP智能体多Agent协作系统设计(Multi-Agent Cooperation)
目录 🚀 MCP智能体多Agent协作系统设计(Multi-Agent Cooperation) 🌟 为什么需要多Agent协作? 🧠 多Agent协作系统架构设计 🛠️ 1. 构建基础智能体基类(Agent Base)…...
栈Stack
一 栈:先进后出 一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First Out)的原则。 Stack<Integer> sta…...
HTML01:HTML基本结构
HTML基本结构 <html> <head><meta charset"UTF-8"><title>我的第一个网页</title> </head> <body>我的第一个网页 </body> </html><body、</body等成对的标签,分别叫开发标签和闭合标签单独…...
QT聊天项目DAY07
1.Win配置和使用GRPC 1.1 克隆GRPC库 克隆GRPC git clone -b v1.34.0 https://gitee.com/mirrors/grpc-framework.git 查看Git有没有安装 没有安装 1.1.1 安装Git https://git-scm.com/ 一路next 添加Git的路径到系统环境变量下 我这次没用管理员权限,并且也没…...
2025年PMP 学习三
4.2制定项目管理计划 4. 项目管理计划 - 内容(输出) 项目目标的制定原因: 3个基准(范围基准、进度基准、成本基准) 子管理计划:范围、需求、进度、成本、质量、资源、沟通、风险、采购等管理计划…...
软考-软件设计师中级备考 10、文件管理、设备管理
一、 文件管理 1、文件目录 文件控制块(FCB):是操作系统为管理文件而设置的数据结构,包含了文件的基本信息(如文件名、文件大小、文件类型等)、存取控制信息(如文件所有者的权限、其他用户的权…...
Linux环境下的进程创建-fork函数的使用, 进程退出exit和_exit的区别,以及进程等待waitpid和status数据的提取方法
目录 一、进程创建 1.fork函数 1)进程调用fork函数是如何创建子进程的 2)代码示范 2.写时拷贝 二、进程退出 1.退出码 1)什么是退出码? 2)为什么要有退出码? 3)退出码是怎么做到的? …...
【数据结构与算法】常见排序算法详解(C++实现)
目录 一、排序的基本概念 二、插入排序 2.1 直接插入排序 2.2 折半插入排序 2.3 希尔排序 三、交换排序 3.1 冒泡排序 3.2 快速排序 四、选择排序 4.1 简单选择排序 4.2 堆排序 五、归并排序 六、基数排序 七、计数排序 结语 一、排序的基本概念 排序 就是重新…...
STM32GPIO输入实战-按键key模板及移植
STM32GPIO输入实战-按键key模板及移植 一,按键模板展示二,按键模板逻辑1,准备工作:头文件与全局变量2,读取硬件状态:key_read_raw()3,核心处理:key_process_simple() 的四行代码 三,…...
LeetCode 1128.等价多米诺骨牌对的数量:计数
【LetMeFly】1128.等价多米诺骨牌对的数量:计数 力扣题目链接:https://leetcode.cn/problems/number-of-equivalent-domino-pairs/ 给你一组多米诺骨牌 dominoes 。 形式上,dominoes[i] [a, b] 与 dominoes[j] [c, d] 等价 当且仅当 (a …...
Spring MVC设计与实现
DispatcherServlet的初始化与请求处理流程 初始化阶段 Servlet 生命周期触发:当 Web 容器(如 Tomcat)启动时,根据注解/配置,DispatcherServlet 的 init() 方法被调用。 初始化 WebApplicationContext 根 WebApplicat…...
日语学习-日语知识点小记-进阶-JLPT-N1阶段(1):语法单词
日语学习-日语知识点小记-进阶-JLPT-N1阶段(1):语法单词 1、前言(1)情况说明(2)工程师的信仰(3)高级语法N1语法和难点一、N1语法学习内容(高级语法ÿ…...
stm32week14
stm32学习 十.GPIO 2.基本结构 基本结构: F1与其它的的最大区别是上下拉电阻的位置 施密特触发器是一种整形电路,可以将非标准方波,整形成方波 图中MOS管的输出规则: 3.8中工作模式 ①输入浮空: 上下拉电阻均不工…...
WPF中Binding
绑定ViewModel中的数据 添加数据上下文 方法一:在XAML中添加 <Window.DataContext><local:MainWindowViewModel /> </Window.DataContext>方法二:在界面层的cs文件中添加 this.DataContext new MainWindowViewModel();绑定 publ…...
Google Agent space时代,浅谈Agent2Agent (A2A) 协议和挑战!
如果说去年Google Cloud大会大家还在数“AI”这个词被提了多少次,那么今年,绝对是“Agent”的主场!开发者主题演讲几乎被它“刷屏”,展区的许多 Demo 也都号称是 Agent 应用。 但我得诚实地说,大会现场关于 Agents 的 …...
爬虫的应用
在自然语言处理(NLP)领域,文本数据的预处理是至关重要的基础环节。它如同工匠雕琢璞玉前的打磨工作,直接影响后续模型分析与挖掘的效果。本文将基于 Python,以电商平台的差评和优质评价文本数据为例,详细展…...
力扣面试150题--相同的树
Day 41 题目描述 做法 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeNode left, TreeNode right…...
Java后端开发day40--异常File
(以下内容全部来自上述课程) 异常 异常:异常就是代表程序出现的问题 1. 异常的分类 1.1 Error 代表的是系统级别的错误(属于严重问题) 系统一旦出现问题,sun公司会把这些错误封装成Error对象。 Error…...
集成算法学习
集成算法通过组合多个弱学习器提升模型性能,以下是核心内容详解: 一、核心思想 - 组合优势:结合多个简单模型(如决策树),通过“少数服从多数”或“加权平均”等策略,降低方差、偏差或过拟合风险…...
工业认知智能:从数据分析到知识创造
工业认知智能:从数据分析到知识创造 引言 当前制造业面临的知识管理困境令人震惊:68%的工艺知识存储于老员工头脑中,30%的企业因知识传承断层导致质量事故。麦肯锡研究显示,应用认知智能技术的企业,其工艺创新速度提升3-5倍。本文将系统阐述工业认知智能的"感知-理…...
8.1 Python+Docker+企业微信集成实战:自动化报告生成与CI/CD部署全攻略
Python+Docker+企业微信集成实战:自动化报告生成与CI/CD部署全攻略 关键词:PDF报告生成, Word文档自动化, 企业微信集成, Docker容器化, CI/CD流水线 1. 多格式报告生成实战 通过扩展报告输出格式,满足不同用户的文档需求。我们使用Python生态的成熟库实现PDF/Word生成,并…...
25.5.4数据结构|哈夫曼树 学习笔记
知识点前言 一、搞清楚概念 ●权:___________ ●带权路径长度:__________ WPL所有的叶子结点的权值*路径长度之和 ●前缀编码:____________ 二、构造哈夫曼树 n个带权值的结点,构造哈夫曼树算法: 1、转化成n棵树组成的…...
统计学中的p值是什么?怎么使用?
李升伟 整理 在统计学中,p值(p-value)是帮助研究者判断假设检验结果是否具有统计显著性的重要指标。以下是关于p值的详细解释和使用方法: 1. p值的定义 p值表示在原假设(H0)为真的情况下,观察…...
22:一维码与二维码区别
一维码(条形码) 一维条码即指条码条和空的排列规则,常用的一维码的码制包括:EAN码、39码、交叉25码、UPC码、128码、93码,ISBN码,及Codabar(库德巴码)等。 条码是由一组规则排列的条…...
Java学习手册:SQL 优化技巧
一、SQL 查询优化 选择合适的索引列 :索引可以显著提高查询速度,但需要选择合适的列来创建索引。通常,对于频繁作为查询条件的列、连接操作的列以及排序或分组操作的列,应该考虑创建索引。例如,在一个订单表中…...
《Vue3学习手记8》
vue3中的一些API shallowRef ( ) 和shallowReactive ( ) shallowRef (浅层响应式) 1.作用:创建一个响应式数据,但只对顶层属性进行响应式处理。 2.用法: const originalref(...) const original2shallowRef(original) 3.特点:只跟踪引用值的变化,不关心…...
平衡二叉搜索树模拟实现1-------AVL树(插入,删除,查找)
本章目标 1.AVL树的概念 2.AVL树的模拟实现 1.AVL树的概念 1.AVL树是最先被发明的平衡二叉搜索树,AVL树是一颗空树或者具有以下的性质 它的左右子树都是AVL树,并且左右高度差不超过1,AVL树是一颗高度平衡二叉搜索树,通过高度差去控制平衡 2.为什么高度差是1? 当结点个数为8…...
运算放大器的主要技术指标
运放(运算放大器)是一种基础电子器件,具有输入阻抗高、开环放大倍数大、输入端电流小、同相端与反相端电压几乎相等等特点。在选型时,需要考虑技术指标如输入失调电压、输入失调电压漂移、输入失调电流、共模抑制比、压摆率、建立…...
51单片机入门教程——每个音符对应的重装载值
前言 本教程基于B站江协科技课程进行个人学习整理,专为拥有C语言基础的零基础入门51单片机新手设计。既帮助解决因时间差导致的设备迭代调试难题,也助力新手快速掌握51单片机核心知识,实现从C语言理论到单片机实践应用的高效过渡 。...
新一代智能座舱娱乐系统软件架构设计文档
一 文档概述 本文档描述了基于Android系统与多模态大模型融合的新一代智能座舱娱乐系统的软件架构设计。该系统将通过深度学习的个性化适配、多模态感知融合和持续自进化能力,重新定义人车交互体验。 二 整体架构设计 2.1 分层架构视图 系统采用五层垂直架构与三…...
深度优先搜索(DFS)与广度优先搜索(BFS):图与树遍历的两大利器
深度优先搜索(DFS)与广度优先搜索(BFS):图与树遍历的两大利器 在数据结构与算法的世界中,深度优先搜索(DFS)和广度优先搜索(BFS)是两种非常经典的遍历算法。…...
比较 TensorFlow 和 PyTorch
TensorFlow和PyTorch是深度学习领域中两个非常流行的开源机器学习框架,下面为你详细介绍。 1. 历史与背景 TensorFlow:由Google开发和维护,于2015年开源。因其强大的生产能力和广泛的工具支持,在工业界得到了广泛应用。PyTorch&…...
jeecg查询指定时间
jeecg查询指定时间 ApiOperation(value"请假表-分页列表查询", notes"请假表-分页列表查询")GetMapping(value "/list")public Result<IPage<MlLeaveRequest>> queryPageList(MlLeaveRequest mlLeaveRequest,RequestParam(name&qu…...
无人机视觉:连接像素与现实世界 —— 像素与GPS坐标双向转换指南
在无人机航拍应用中,一个核心的需求是将图像上的某个点与现实世界中的地理位置精确对应起来。无论是目标跟踪、地图测绘还是农情监测,理解图像像素与其对应的经纬度(GPS坐标)之间的关系至关重要。本文将详细介绍如何实现单个像素坐…...
php study 网站出现404 - Page Not Found 未找到
最近在用php study搭建本地网站时,出现了404 - Page Not Found 未找到的情况,解决方式如下: 第一种:在wp 后台固定链接设置中修改链接形式 第二种:没有安装伪静态! 小皮面板中 设置--配置文件--编辑你所搭建的网站 在红色框框处…...