当前位置: 首页 > news >正文

多模态大语言模型(MLLM)- kimi-vl technical report论文阅读

前言

kimi-vl是月之暗面团队于2025年4月10日发布的多模态大模型。
![[Pasted image 20250423174436.png]]
![[Pasted image 20250423174514.png]]
代码链接:https://github.com/MoonshotAI/Kimi-VL

背景

随着人工智能技术的快速发展,人们对AI助手的需求已从单一文本交互转向多模态理解。新一代多模态模型如GPT-4o和Gemini虽展现出强大的跨模态能力,但开源社区在视觉语言模型(VLM)领域仍面临三大挑战:扩展性不足、计算效率低下以及缺乏长链推理能力。现有MoE架构的视觉语言模型如DeepSeek-VL2和Aria在视觉编码器设计(固定分辨率处理)和长上下文支持(仅4K窗口)等方面存在明显局限,如下图所示,传统视觉编码器与MoonViT的对比。
![[Pasted image 20250424172906.png]]

针对这些问题,本文提出了Kimi-VL——基于MoE架构的高效开源视觉语言模型。其核心架构包含三个创新模块:支持原生分辨率的MoonViT视觉编码器、动态MLP投影层以及仅激活2.8B参数的MoE语言解码器(总参数量16B)。这种设计在保持计算效率的同时,实现了多模态特征的深度融合,如下图所示模型架构中各组件的协同工作。
![[Pasted image 20250424173005.png]]

Kimi-VL展现出三大核心优势:

  1. 多任务处理能力:在OSWorld等多轮代理任务中达到旗舰模型水平,支持跨图像/视频的大学级理解、OCR解析和数学推理
  2. 长上下文支持:128K上下文窗口在LongVideoBench(64.5)和MMLongBench-Doc(35.1)等长视频/文档理解任务中表现优异
  3. 高分辨率处理:MoonViT编码器实现原生分辨率处理,在InfoVQA(83.2)和ScreenSpot-Pro(34.5)等高精度需求场景保持低计算成本

通过长思维链监督微调和强化学习,本文进一步开发了Kimi-VL-Thinking变体。该版本在MMMU(61.7)、MathVision(36.8)和MathVista(71.3)等复杂推理任务中刷新了高效多模态模型的性能记录。这种创新方法为开源社区提供了首个支持长链推理的视觉语言模型解决方案。

方法

模型架构

Kimi-VL采用三层模块化设计,核心组件包含:

  1. MoonViT视觉编码器:基于SigLIP-SO-400M初始化,本文引入原生分辨率处理机制
    • 采用NaViT图像分块拼接策略,将不同分辨率图像切割为patch后展平为1D序列
    • 融合双位置编码系统:
    ▫️ 可学习绝对位置编码(通过插值保留SigLIP原始空间感知能力)
    ▫️ 2D旋转位置编码(RoPE)(在高度/宽度维度增强高分辨率图像的细粒度空间关系建模)
    • 支持动态分辨率输入,通过FlashAttention优化ViT训练吞吐量
  2. MLP投影层:
    • 采用两阶段特征压缩:
    ① 像素重排操作(Pixel Shuffle)进行2×2空间下采样,通道维度扩展4倍
    ② 双层MLP(隐藏层维度6144→8192)将视觉特征映射至语言模型嵌入空间
    • 输出特征维度与大语言模型严格对齐,确保跨模态特征融合效率
  3. MoE语言模型:
    • 基于Moonlight架构,总参数量16B,激活参数仅2.8B,架构类似于DeepSeek-V3
    • Moonlight由5.2T 文本token预训练而来,支持8192 token的上下文
    • 通过对Moonlight做continue pretraining,数据包括多模态和2.3T token的文本数据。

优化器设计

采用改进版Muon优化器,关键创新包括:
• 动态权重衰减机制
• 基于ZeRO-1的分布式实现

预训练阶段

![[Pasted image 20250424175856.png]]

![[Pasted image 20250424175841.png]]

完整训练流程包含4个阶段(见图4和表1),累计消耗4.4T tokens:

阶段1:ViT专项训练(对齐图像模态、文本模态)
• 数据组成:20亿图文对(含OCR文本、定位框、合成描述)
• 双损失函数:
L = L s i g l i p + 2 L c a p t i o n \mathcal{L}=\mathcal{L}_{siglip}+2\mathcal{L}_{caption} L=Lsiglip+2Lcaption
• 渐进式分辨率采样:从小尺寸图像逐步扩展至大尺寸图像
• 再利用额外的0.1T token数据,训练MoonViT和MLP映射层

阶段2:联合预训练(多模态联合训练)
• 数据混合比例:文本60% + 多模态40%
• 渐进式训练:先用文本token预训练,渐进式添加多模态token

阶段3:联合冷却(用高质量数据提升在数学、知识、代码等领域的多模态性能)
• 生成数据:
▫️ 数学、知识、代码领域:在预训练数据子集的基础上,通过拒绝采样合成高质量QA对。
▫️ 多模态部分:处理数据合成及拒绝采样外,加入了academic的多模态指令数据。

阶段4:激活长上下文能力
• 数据构成
▫️ 训练数据中,保证25%的比例是长文本;
▫️ 通过长视频、长文档,提升对多模态长上下文的理解;
▫️ 合成QA对
• 两个阶段扩展RoPE训练,第一个阶段实现上下文8192—>32784,第二个阶段实现上下文32784—>131072,下图是海底捞针效果。
![[Pasted image 20250424220013.png]]

后训练阶段

监督微调(SFT)
• 指令数据构造: 具备表单、agent grounding、OCR、QA、写作等指令微调数据;文本和图像token的比例基本上是1:1
• 两阶段训练:
① 32K窗口训练1 epoch:学习率2e-5→2e-6
② 128K窗口训练1 epoch:学习率1e-5→1e-6,启用动态序列打包

长思维链的监督微调(Long-CoT SFT)
通过提示工程构建了一个量极小,但质量高的长思维链(long-CoT)warmup数据集,包含针对文本和图像输入、验证后的长思维链。该方法类似于拒绝采样,但重点是生成长思维链。生成的warmup数据对规划、评估、反思、探索都能起到重要的作用。

强化学习(RL)
通过强化学习训练模型,使其能够自动生成结构化的思维链推理。类似于Kimi k1.5,采用online policy mirror descent作为RL算法,迭代优化policy model以提高问题解决的准确性。
在第 i i i次训练迭代中,将当前模型视为reference policy model,优化以下目标函数:
max ⁡ θ E ( x , y ∗ ) ∼ D [ E ( y , z ) ∼ π θ [ r ( x , y , y ∗ ) ] − τ KL ( π θ ( x ) ∥ π θ i ( x ) ) ] \max_{\theta} \mathbb{E}_{(x,y^*) \sim \mathcal{D}} \left[ \mathbb{E}_{(y,z) \sim \pi_{\theta}} \left[ r(x, y, y^*) \right] - \tau \text{KL}(\pi_{\theta}(x) \| \pi_{\theta_i}(x)) \right] θmaxE(x,y)D[E(y,z)πθ[r(x,y,y)]τKL(πθ(x)πθi(x))]

  • r r r 是reward model,用于评估给定问题 x x x 的答案 y y y 的正确性。
  • r ( x , y , y ∗ ) ∈ { 0 , 1 } r(x, y, y^*) \in \{0, 1\} r(x,y,y){0,1} 基于真实答案 y ∗ y^* y 进行评估。
  • τ > 0 \tau > 0 τ>0 是控制正则化程度的参数。

训练时,每次训练迭代从数据集 中采样问题批次,使用上述公式导出的策略梯度更新模型参数,优化后的策略模型在后续迭代中作为参考策略。为了提高RL训练效率,实施了基于长度的奖励来惩罚过长的回答,以减轻模型生成冗余推理链的过度拟合问题。此外,采用两种采样策略,包括课程采样和优先采样,利用难度标签和每个实例的成功率,将训练重点放在难样本上,优化训练效率。

基础设施

存储
• S3兼容的存储架构:
▫️ 支持动态data shuffling, mixing, tokenization等操作
▫️ 支持图像、文本的随机数据增强
▫️ 确保模型可复现,具备存档点
▫️ 具备高性能data loading能力

并行
包括Data Parallelism、Expert Parallelism、Pipeline Parallelism、Context Parallelism共4种并行策略,实现训练加速,吞吐量较7B dense模型提升60%。|

数据

预训练数据构建

• Caption数据:
▫️ 混合开源(LAION-5B、DataComp)与自研海量图文对,实施多重质量过滤
▫️ 添加合成数据,但限制比例,避免幻觉问题。

• 图像-文本交织数据:该数据可提升多图像理解能力,为图像提供详细的背景知识,以及实现长上下文的多模态理解,数据有:
▫️ 开源数据,包括Multimodal c4、Obelics
▫️ 从教科书、网页、教材里获取的多模态数据

• OCR数据:
▫️ 包括开源数据和独家数据,覆盖多模态文本、表单、网页、手写体等样本。
▫️ 数据增强,包括几何形变、光学干扰、多字体渲染等
▫️ 支持多页文档OCR识别

• Knowledge数据:类似于针对大语言模型的文本数据,但会提供多模态视角下的丰富信息。

• Agent数据:
▫️ 开源数据
▫️ 构建跨平台(Windows/Ubuntu/iOS)GUI交互数据集,收集屏幕截图和操作数据。为提升多步骤任务的规划能力,通过人工标注,收集了一组计算机使用轨迹数据,每条轨迹都附有合成的思维链

• 视频数据:
▫️ 长视频及长文本数据,用于理解长上下文序列
▫️ 短视频,用于感知细粒度的时空对应关系
▫️ 数据来源包括开源及独家数据。

• 文本数据:直接利用Moonlight数据,包括英语、中文、代码、数学与推理以及知识等5个领域

指令微调数据

对于非推理任务,包括图表解读、Agent、OCR、基于图像的对话、问答、写作和文本处理等任务。首先通过人工标注构建了一个种子数据集。这个种子数据集用于训练一个种子模型。随后,收集了一组多样化的提示(prompts),并使用种子模型为每个提示生成多个响应。标注员对这些响应进行排序,并对排名最高的响应进行优化,以生成最终版本。

对于推理任务,例如视觉编码、视觉推理以及数学/科学问题,基于规则和模型的验证比人类判断更加准确和高效,因此利用拒绝采样(rejection sampling)来扩展SFT(监督微调)数据集。整体数据中,文本和图像的比例为1:1。

推理数据

推理数据旨在激活和增强模型在长思维链的监督微调和强化学习阶段的能力。通过拒绝采样和提示词工程,合成了大量高质量的长思维链数据。
具体来说,首先整理了一个包含真实标注的问答数据集,这些数据需要多步骤推理,例如数学问题求解和特定领域的视觉问答(VQA)。随后,通过利用强大的长思维链模型——Kimi k1.5结合精心设计的推理提示,为每个问题采样多个详细的推理轨迹。
在拒绝采样过程中,将真实标签和模型预测输入到现成的奖励模型中进行判断。根据模型评估结果以及一些基于规则的奖励机制,错误的思维链被过滤掉,从而提高了推理数据的质量。

实验

和sota比较

![[Pasted image 20250425155312.png]]

College-level Academic Problems

在MMMU验证集(57.0%)超越DeepSeek-VL2(51.1%),逼近Qwen2.5-VL-7B(58.6%);VideoMMMU(52.6%)大幅领先Qwen2.5-VL-7B(47.4%),仅落后Gemma3-12B-IT(57.2%) 4.6个百分点

通用视觉能力

在 MMBench-EN-v1.1 上,达到了 83.1% 的准确率,与 GPT-4o 表现相当。在 AI2D 数据集上,达到了 84.9%,超越了包括 GPT-4o(84.6%)在内的所有对比模型。在 MMVet 上,Kimi-VL 得分为 66.7%,与 Qwen2.5-VL-7B(67.1%)和 GPT-4o-mini(66.9%)非常接近。对于 RealWorldQA,实现了 68.1% 的准确率,优于 Gemma3-12B(59.1%),并接近 Qwen2.5-VL-7B(68.5%)。

在多图像推理任务中,在 BLINK 基准测试中得分为 57.3%,超越了 Qwen2.5-VL-7B(56.4%)、GPT-4o-mini(53.6%)、Gemma3-12B-IT(50.3%)以及 Llama3.2-11B-Inst.(39.8%)。

数学推理

在 MathVista 基准测试中,它达到了 68.7% 的准确率,超越了包括 GPT-4o(63.8%)和 Qwen2.5-VL-7B(68.2%)在内的所有对比模型。

在更难的MathVision 基准测试中,Kimi-VL 的表现优于 DeepSeek-VL2 和 Llama-3.2-11B-Inst.,但落后于 Qwen2.5-VL-7B 和 Gemma-12B-IT。

然而,经强化学习(RL)和测试时扩展(test-time scaling),Kimi-VL-Thinking 已经显著提升,其性能已经达到与 30B 级别视觉语言模型(VLM)相当的水平,见下表![[Pasted image 20250425160114.png]]

文档理解和OCR

在 InfoVQA 上,它达到了 83.2% 的准确率,超越了 GPT-4o(80.7%)和 DeepSeek-VL2(78.1%)。在 OCRBench 上,得分 86.7%,超过了包括 GPT-4o-mini(78.5%)和 DeepSeek-VL2(81.1%)在内的所有其他模型。

Agent定位和多轮Agent交互

在单步Agent定位中,在 ScreenSpot-V2 上达到 92.0%,在极高难度的 ScreenSpot-Pro(4K 屏幕)上达到 34.5%,
在多步Agent交互中,具备出色的多步骤交互能力:在 OSWorld 基准测试中,Kimi-VL 达到了 8.22%,超越了 GPT-4o(5.03%)及其他领先的开源模型;在 WindowsAgentArena 上,实现了 10.4%,同样超过了 GPT-4o(9.4%)及其他模型。

长文档和长视频理解

长文档理解上,在 MMLongBench-Doc 上,要求对长达 100 多页的文档进行问答,Kimi-VL 达到了 34.7% 的准确率,超越了 GPT-4o-mini(29.0%)和 Qwen2.5-VL-7B(29.6%),仅次于 GPT-4o(42.8%)。

长视频理解上,在 Video-MME 基准测试中,表现优于所有其他模型,尤其是在更公平的“无字幕”设置下,模型必须从视频帧中寻找答案,而非依赖输入字幕;而在“有字幕”设置下,它也达到了惊人的 72.6% 准确率。在 MLVU 的多项选择题(MCQ)子集上,Kimi-VL 实现了令人印象深刻的 74.2% 分数,达到了当前最佳水平,超越了 GPT-4o(64.6%)和 Qwen2.5-VL-7B(70.2%)。在 LongVideoBench 上,它得分 64.5%,超越了除 GPT-4o(66.7%)之外的所有对比模型。

自我中心视角与细粒度感知

Kimi-VL 在更细致的视频感知任务中也表现出色。在 EgoSchema 全集上,达到了 78.5% 的准确率,显著优于 GPT-4o(72.2%)和 Qwen2.5-VL-7B(65.0%)。对于 VSI-Bench,要求理解视频中多个物体之间的空间关系和对应关系,模型得分为 37.4%,超越了 GPT-4o(34.0%)和 Qwen2.5-VL-7B(34.2%)。在 TOMATO 基准测试中,该测试考察视觉语言模型(VLM)对时间维度的细粒度感知能力,Kimi-VL 达到了 31.7%,优于 Qwen2.5-VL-7B(27.6%)和 GPT-4o-Mini(28.8%)。这些结果表明,kimi-VL在理解动态视觉内容、跟踪物体随时间的变化以及解读复杂动作序列方面具有强大的能力,使其非常适合需要时间维度视觉理解的应用场景。

Kimi-VL的推理扩展

通过链式思维(CoT)推理扩展赋予 Kimi-VL 更强的推理能力,并推出了一个长思考版本的模型——Kimi-VL-Thinking ,通过长链思维(long-CoT)激活和强化学习实现。在多个图像基准测试中验证了其卓越性能,如下图。![[Pasted image 20250425160114.png]]

Kimi-VL-Thinking 在基础版 Kimi-VL 模型的基础上显著提升,在 MathVista 上提升了 2.6%,在 MMMU 上提升了 4.7%,在 MathVision 上更是提升了 15.4%,展示了其利用测试时计算进行深度推理和更好处理复杂多模态查询的能力。

在表 4 中,Kimi-VL-Thinking 进一步超越或媲美当前最先进的思考型和非思考型模型:

  • 在 MathVista 上达到 71.3%,优于 GPT-4o(63.8%)和 GPT-4o-mini(56.7%);
  • 在 MMMU 上得分为 61.7%,超越 GPT-4o-mini(60.0%)和 Qwen2.5-VL-7B(58.6%);
  • 在 MathVision 上达到 36.8%,超过 GPT-4o(30.4%)、Gemma-3-27B-IT(35.5%),甚至 QVQ-72B(35.9%)。

总结

有钱真好,超大规模数据+卓越的AI Infra+算法,造就多模态的性能小钢炮。

相关文章:

多模态大语言模型(MLLM)- kimi-vl technical report论文阅读

前言 kimi-vl是月之暗面团队于2025年4月10日发布的多模态大模型。 代码链接:https://github.com/MoonshotAI/Kimi-VL 背景 随着人工智能技术的快速发展,人们对AI助手的需求已从单一文本交互转向多模态理解。新一代多模态模型如GPT-4o和Gemini虽展现…...

ai聊天流式响应,阻塞式和流式响应 nginx遇到的坑

问题 现在做ai的流式请求,在开发环境使用代理访问接口,显示是正常的。上到正式环境,代理通过nginx配置可以访问到流式接口。在本地测试postman请求流式接口,返回的东西是流式返回, 在正式环境里面使用postman请求流式…...

Linux安全模块:SELinux与AppArmor深度解析

引言 在Linux安全领域,SELinux和AppArmor就像两位忠诚的"系统保镖"💂,为你的服务器提供强制访问控制(MAC)保护!本文将深入解析这两大安全模块的工作原理、配置方法和实战技巧。无论你是要加固Web服务器,还是…...

FlinkJobmanager深度解析

1. JobManager 概述 Flink 是一个分布式流处理框架,其核心组件包括 JobManager、TaskManager 和客户端(如 CLI 或 Web UI)。JobManager 是 Flink 集群的“大脑”,负责协调作业的整个生命周期,包括作业调度、资源管理、…...

FlinkSql入门与实践

一、为什么需要 Flink SQL? 传统 SQL 是面向静态数据的查询语言,而现代实时业务要求对动态数据流进行即时分析。Flink SQL 应运而生,它让开发者无需编写复杂的状态管理代码,就能实现实时ETL、复杂事件处理(CEP&#x…...

【物联网】基于LORA组网的远程环境监测系统设计(ThingsCloud云平台版)

演示视频: 基于LORA组网的远程环境监测系统设计(ThingsCloud云平台版) 前言:本设计是基于ThingsCloud云平台版,还有另外一个版本是基于机智云平台版本,两个设计只是云平台和手机APP的区别,其他功能都一样。如下链接: 【物联网】基于LORA组网的远程环境监测系统设计(机…...

C++中指针Ptr(一级指针、二级指针)的基本使用详解(1)

C 中的指针是非常强大的工具,理解一级指针、二级指针以及它们与数组的关系,对于写出高效且安全的程序非常重要。下面我将从基础讲起,详细解释 一级指针、二级指针 的使用,注意事项,以及它们和数组之间的联系与区别&…...

科技赋能建筑新未来:中建海龙模块化建筑产品入选中国建筑首批产业化推广产品

在建筑工业化浪潮中,中国建筑国际集团旗下中建海龙科技有限公司(以下简称“中建海龙”)致力以科技创新赋能传统建造转型升级,大力发展新质生产力,促进科技成果在建筑产业体系化、规模化应用,面向“产品化、…...

示例:Spring JDBC 声明式事务(xml配置形式)

声明式事务是指在不修改源代码的情况下通过配置applicationContext.xml自动实现事务控制,其本质是AOP环绕通知。它的触发时机为:1、当目标方法执行成功时自动提交事务,2、当目标方法抛出运行时异常时,自动事务回滚 核心步骤示例&a…...

java多线程(7.0)

目录 ​编辑 定时器 定时器的使用 三.定时器的实现 MyTimer 3.1 分析思路 1. 创建执行任务的类。 2. 管理任务 3. 执行任务 3.2 线程安全问题 定时器 定时器是软件开发中的一个重要组件. 类似于一个 "闹钟". 达到一个设定的时间之后, 就执行某个指定好的…...

sgpt在kali应用

Kali Linux 下 sgpt 渗透测试相关案例 1. 扫描目标主机存活 sgpt -s "使用 nmap 扫描 192.168.1.100 是否存活"示例命令: nmap -sn 192.168.1.1002. 扫描目标主机开放端口和服务 sgpt -s "使用 nmap 扫描 192.168.1.100 常见端口和服务"示例…...

小白电路设计-设计11-恒功率充电电路设计

介绍 作为电子信息工程的我,电路学习是一定要学习的,可惜目前作为EMC测试工程师,无法兼顾太多,索性不如直接将所学的知识进行运用,并且也可以作为契机,进行我本人的个人提升。祝大家与我一起进行提升。1.本…...

express的模板handlebars用app.engine()创建配置和用exphbs.create()的区别

在使用 express-handlebars 时,app.engine 和 exphbs.create 都可以用来配置 Handlebars 模板引擎,但它们的使用方式和功能有一些区别。以下是详细的对比和说明 app.engine 方法 app.engine 是 Express 提供的方法,用于注册一个新的模板引擎…...

【Python数据库与后端开发】从ORM到RESTful API

目录 前言技术背景与价值当前技术痛点解决方案概述目标读者说明 一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明技术选型对比 二、实战演示环境配置要求核心代码实现案例1:SQLAlchemy模型定义案例2:FastAPI异步接口案例3:连接池配…...

数据结构(java)二叉树的基本操作

1.二叉树的性质: 1.若规定根结点的层数为1,则一棵非空二叉树的第i层上最多有2*-1(i>0)个结点 2.若规定只有根节点的二叉树的深度为1,则深度为K的二叉树的最大结点数是2都k次方-1 3.对于任何一个二叉树,如果其叶结点个数为 n…...

windows编程字符串处理

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、windows常用字符出处理函数?二、测试代码总结 前言 提示:这里可以添加本文要记录的大概内容: Windows编程中主要使用两…...

CentOS系统防火墙服务介绍

CentOS 系统使用的是 firewalld 防火墙服务(从 CentOS 7 开始),它基于 zone(区域) 和 service(服务) 的机制来配置网络访问控制,替代了传统的 iptables。 iptables 是 Linux 系统中…...

59、微服务保姆教程(二)Nacos--- 微服务 注册中心 + 配置中心

Nacos— 微服务 注册中心 + 配置中心 一.什么是Nacos? Nacos是阿里的一个开源产品,是针对微服务架构中的服务发现、配置管理、服务治理的综合型解决方案。 Nacos核心定位是“一个更易于帮助构建云原生应用的动态服务发现、配置和服务管理平台”,也就是我们的注册中心和配…...

Git命令行中vim的操作

Git命令行用vim打开文件,或者用其他git命令打开了文件,需要编辑和保存文件等,有些命令表情奇怪,往往容易忘记这些命令。记录下。 下面这篇比较实用和简练: gitvim编辑文件命令 • Worktile社区https://worktile.com/…...

【分布式系统中的“瑞士军刀”_ Zookeeper】一、Zookeeper 快速入门和核心概念

在分布式系统的复杂世界里,协调与同步是确保系统稳定运行的关键所在。Zookeeper 作为分布式协调服务的 “瑞士军刀”,为众多分布式项目提供了高效、可靠的协调解决方案。无论是在分布式锁的实现、配置管理,还是在服务注册与发现等场景中&…...

【昇腾】【训练】800TA2-910B使用LLaMA-Factory训练Qwen

文章目录 1. 使用docker安装1.1 配置docker1. 2 拉取 LLaMA-Factory1.3 修改配置 2. 下载模型3. 准备训练数据3.1 下载数据集3.2 自定义数据集配置 4. 训练4.1 训练配置4.2 启动训练4.3 训练效果测试 5. 合并权重 更好的阅读体验:传送门 服务器:800TA2 芯…...

Python自动化解决滑块验证码的最佳实践

1. 引言:滑块验证码的挑战与自动化需求 滑块验证码(Slider CAPTCHA)是当前互联网广泛使用的反爬机制之一,它要求用户手动拖动滑块到指定位置以完成验证。这种验证方式可以有效阻止简单的自动化脚本,但对爬虫开发者来说…...

知识蒸馏和迁移学习的区别

知识蒸馏和迁移学习虽然都涉及知识的传递,但并不是同一个概念,它们在目的、方法和应用场景上有显著区别: 1. 定义与核心思想 迁移学习(Transfer Learning) 是一种广义的机器学习范式,核心是将从一个任务或领…...

二项分布详解:从基础到应用

二项分布详解:从基础到应用 目录 引言二项分布的定义概率质量函数及其证明期望与方差推导二项分布的重要性质常见应用场景与其他分布的关系知识梳理练习与思考 引言 概率论中,二项分布是最基础也是最常用的离散概率分布之一。它描述了在固定次数的独…...

迁移学习(基础)

迁移学习理论 目标 迁移学习中的有关概念掌握迁移学习的两种方式 概念 预训练模型微调微调脚本 预训练模型(Pretrained model) 一般情况下预训练模型都是大型模型, 具备复杂的网络结构, 众多的参数量, 以及足够大的数据集进行训练而产生的模型, 在NLP领域, 预训练模型往往…...

云服务器和独立服务器的区别在哪

在当今数字化的时代,服务器成为了支撑各种业务和应用的重要基石。而在服务器的领域中,云服务器和独立服务器是两个备受关注的选项。那么,它们到底有何区别呢? 首先,让我们来聊聊成本。云服务器通常采用按需付费的模式…...

大模型时代的深度学习框架

作者:算力魔方创始人/英特尔创新大使刘力 在CNN时代,AI模型的参数规模都在百万级别,仅需在单张消费类显卡上即可完成训练。例如,以业界知名的CNN模型:ResNet50为例,模型参数量是约为 25.63M,在…...

BIOS主板(非UEFI)安装fedora42的方法

BIOS主板(非UEFI)安装fedora42的方法 现实困难:将Fedora-Workstation-Live-42-1.1.x86_64.iso写入U盘制作成可启动U盘启动fedora42,按照向导将fedora42安装到真机的sda7分区中得到报错如下内容: /boot/efi 必需的 /boot/efi必须位于格式化为e…...

C# 综合示例 库存管理系统7 主界面(FormMain)

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的 图99A-22 主界面窗口设计 主界面是多文档界面容器,需要将窗体属性IsMdiContainer设置为True。关于多文档界面编程请参看教程第7.12节《多文档界面》。 主界面并不提…...

1、RabbitMQ的概述笔记

一、什么是RabbitMQ Rabbit是一个公司名.MQ(nessage queue) 消息队列的意思,RabbitMQ 是 Rabbit企业下的一个消息队列产品。 RabbitMQ 是⼀个实现了 AMQP 的 消息队列 服务,是当前主流的消息中间件之⼀. AMQP:即Advanced MessageQueuingProtocol(高级…...

使用spring boot vue 上传mp4转码为dash并播放

1.前端实现 <template><div class"video-upload"><el-uploadclass"upload-demo"action"/api/upload":before-upload"beforeUpload":on-success"handleSuccess":on-error"handleError":show-file-…...

C++智能指针概念理解的面试题

C智能指针概念理解的面试题 第一部分&#xff1a;基础概念 解释std::unique_ptr和std::shared_ptr在以下方面的区别&#xff1a; 所有权语义性能开销自定义删除器的存储方式是否支持数组类型 答案&#xff1a; 所有权语义&#xff1a; unique_ptr&#xff1a;独占所有权&#…...

52.[前端开发-JS实战框架应用]Day03-AJAX-插件开发-备课项目实战-Lodash

常用JavaScript库 1 认识前端工具库 前端工具类库 2 Lodash vs underscore underscore库 VS Lodash库 Lodash库 的安装 Lodash库字符串、数组 Lodash库对象、集合、函数 3 Day.js vs Mement Moment.js库 VS Day.js库 Day.js库安装 Day.js获取、设置、操作时间 Day.js解析、…...

【论文阅读】平滑量化:对大型语言模型进行准确高效的训练后量化

论文题目&#xff1a;SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models 论文地址&#xff1a;[2211.10438] SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models 代码地址&#xff1a;http…...

mysql游标分页详解:让分页又快又稳的终极方案

一、什么是游标分页&#xff1f; 游标分页是一种更高效的分页方式&#xff0c;它通过"记住当前位置"而不是"数页码"来实现分页。就像看书时夹书签一样&#xff0c;游标分页会记住你看到哪里了&#xff0c;下次直接从那里继续。 传统分页 vs 游标分页 传…...

图论---染色法(判断是否为二分图)

O(nm) 二分图&#xff1a;可以把所有的点划分到两边&#xff0c;使得边只在集合之间&#xff0c;集合内部没有边。 二分图当且仅当图中不含奇数环&#xff08;边数为奇数条&#xff09; #include <iostream> #include <vector> #include <cstring> using …...

算法 | 基于SSA-CNN-LSTM(麻雀算法优化卷积长短期记忆神经网络)的股票价格预测(附完整matlab代码,公式,原理,可用于毕业论文设计)

以下是一个基于SSA-CNN-LSTM(麻雀算法优化卷积长短期记忆神经网络)的股票价格预测MATLAB项目实例,包含完整代码和详细注释。代码分为数据预处理、模型构建、优化算法、训练预测四个部分。 🚜🚜🚜🚜🚜🚜🚜🚜🚜🚜🚜🚜🚜 1. 数据预处理 %% 数据加…...

在html中如何创建vue自定义组件(以自定义文件上传组件为例,vue2+elementUI)

1、先上代码&#xff1a;vueUpload.js var dom <div class"upload-file"><el-upload :action"uploadFileUrl" :before-upload"handleBeforeUpload" :file-list"fileList" :limit"limit":on-error"handleUpl…...

Asp.Net Core 基于(asp.net core 2.2) 创建asp .net core空项目

文章目录 ASP.NET Core 应用程序的标准入口点,用于配置和启动一个 Web 主机(WebHost)。`InProcess` 代码分析解决 HTTP Error 500.31 - Failed to load ASP.NET Core runtime 的完整方案**`launchSettings.json` 配置文件分析**ASP.NET Core 中的配置源详解ASP.NET Core 应用…...

AiFlutter 低代码平台介绍

产品概述 AiFlutter 低代码平台是一款基于拖拽组件和配置流程图的可视化开发工具&#xff0c;旨在简化移动应用开发过程。无需编写代码&#xff0c;用户即可通过拖拽组件快速搭建应用界面&#xff0c;并通过配置流程图设计页面逻辑。平台支持硬件通信功能&#xff0c;用户可直…...

Flutter Dart 集合类型List Set Map详解军 以及循环语句 forEaclh map where any every

List基础用法 var list1 ["西瓜", "苹果", "香蕉", true, 0];var list2 <String>["西瓜", "苹果", "香蕉"];List list3 ["西瓜", "苹果", "香蕉"];list3.add("草莓&…...

aws(学习笔记第三十九课) iot-msk-pipeline

文章目录 aws(学习笔记第三十九课) iot-msk-pipeline学习内容&#xff1a;1. 整体架构1.1 代码链接1.2 代码调整1.2 整体架构(概要)1.3 整体架构(详细) 2. 代码解析2.1 创建IotProducerDestination2.2 创建IotProducer2.3 创建MSK client的EC22.4 创建MSK cluster2.5 创建Main …...

2025上海车展:赛轮思AI携手行业领军企业展示xUI——混合式、智能体化的AI助理平台

用户将可首次全面体验集成多模态SLM (端侧大语言模型)的Cerence xUl&#xff0c;此次演示由长城汽车和TCL合作呈现 马萨诸塞州伯灵顿&#xff0c;2025年4月22日——Cerence Inc.&#xff08;NASDAQ: CRNC&#xff09;&#xff08;“赛轮思AI”&#xff09;&#xff0c;全球对话…...

聚合分销小程序系统开发方案:整合AI对话、网盘、淘客CPS/CPA、电影票团购与会员卡业务

一、系统架构设计 技术架构 分层设计&#xff1a;采用微服务架构&#xff0c;分为平台层&#xff08;分销管理、数据库、交易系统&#xff09;、管理体系层&#xff08;数据管理、权限控制&#xff09;和功能层&#xff08;AI对话、网盘、CPS/CPA拉新、电影票团购、会员卡&…...

设计模式-- 原型模式详解

原型模式&#xff08;prototype&#xff09; 原型模式&#xff1a;用一个已经创建的实例作为原型&#xff0c;通过复制该原型对象来创建一个和原型相同或相似的新对象&#xff0c;原型模式属于创造性模式&#xff0c;它同样提供了创建对象的最佳方式之一。&#xff08;效率很高…...

ARM服务器与X86服务器核心区别分析

ARM服务器与X86服务器核心区别分析 一、架构设计与指令集差异 指令集本质‌ ARM‌&#xff1a;基于RISC&#xff08;精简指令集&#xff09;&#xff0c;指令定长且简单&#xff0c;单周期执行效率高&#xff0c;硬件设计复杂度低&#xff0c;适合低功耗场景。 X86‌&#xf…...

嵌入式:ARM系列分类及主要应用场景

在嵌入式系统和移动计算领域&#xff0c;Arm Cortex 系列处理器凭借其多样化的架构和卓越的性能&#xff0c;成为了众多设备的核心 “大脑”。从高端智能手机到工业控制设备&#xff0c;从物联网终端到安全芯片&#xff0c;Cortex 系列处理器以不同的型号和特性&#xff0c;满足…...

Axure PR 9 中继器 标签

大家好&#xff0c;我是大明同学。 这期内容&#xff0c;我们来了解一下Axure中继器数据表标签交互设计。 预览地址&#xff1a;https://n05kfs.axshare.com 好的&#xff0c;这里就结束了。 我是大明同学。 下期见。...

Django【应用 01】django-plotly-dash安装及使用

django-plotly-dash 的使用文档&#xff1a;https://django-plotly-dash.readthedocs.io/en/stable/introduction.html 以下内容大部分保留原文档的内容&#xff0c;添加实际的步骤和必要的说明。 django-plotly-dash安装及使用 1.安装配置1.1 安装1.2 注册组件1.3 配置框架1.…...

【MFC】 VS2022打开低版本的MFC,双击.rc文件,DIalog加载失败,页面弹窗fatal error RC***:cannot open*****

打开以前的MFC示例报错&#xff0c;打开VS2019的实例以及更早VS版本的实例都一样,打不开&#xff0c;还报错&#xff1b; 错误 MSB8041 此项目需要 MFC 库。从 Visual Studio 安装程序(单个组件选项卡)为正在使用的任何工具集和体系结构安装它们。 GxCameraEvents_VS2015 C:\P…...