当前位置: 首页 > news >正文

Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力

模型架构

模型架构

Phi-4-Multimodal 的基础是 Phi-4-Mini 语言模型,这是一个 3.8 亿参数的模型,设计为高效处理文本任务。架构包括:

  • Transformer层和维度: 32 层Transformer,隐藏状态大小为 3072。
  • 效率技术: 使用分组查询注意力(GQA),通过 24 个查询头和 8 个键/值头减少 KV 缓存大小至标准模型的三分之一,提升计算效率。
  • 分词器: 使用 o200k 基础 tiktoken,分词表大小为 200,064,支持多语言和多模态输入。

为了扩展到多模态功能,模型通过 LoRA 适配器和模式特定路由器集成视觉和音频模式:

  • 视觉模式:

    • 图像编码器: 使用 SigLIP-400M,结合 LLM2CLIP 在图像-文本对上微调,分辨率为 448x448。SigLIP-400M 是一个视觉-语言模型,专门为图像理解优化。
    • 项目器: 一个 2 层 MLP,将视觉特征映射到文本嵌入维度 3072,确保视觉输入与语言模型的嵌入空间兼容。
    • LoRA 适配器(LoRA_V): 添加到语言解码器的所有线性层,参数约 3.7 亿,用于监督微调阶段。LoRA 是一种参数高效的微调技术,通过低秩更新适配模型。
    • 动态多裁剪策略: 在训练中处理不同图像大小,裁剪数量计算为 ⌈H/C⌉ × ⌈W/C⌉,预训练最多 16 个裁剪,监督微调最多 36 个,必要时调整大小。
  • 语音/音频模式:

    • 输入特征: 80 维 log-Mel 滤波器组特征,帧率为 10ms,标记率为 80ms(每分钟 750 个标记),适合高效音频处理。
    • 音频编码器: 包括 3 个卷积层和 24 个符合块,注意维度为 1024,前馈维度为 1536,16 个注意头,子采样率为 8。符合块结合了自注意力机制和卷积,适合捕获音频的时序和频率特征。
    • 项目器: 一个 2 层 MLP,将 1024 维语音特征映射到 3072 维文本嵌入,确保音频输入与语言模型的嵌入空间兼容。
    • LoRA 适配器(LoRA_A): 应用于所有注意和 MLP 层,秩为 320,参数约 4.6 亿,通过低秩更新适配音频处理。
  • 多模态集成: 模型采用 LoRA 适配器的混合设计,通过模式特定路由器选择适当的适配器,处理文本、视觉和语音/音频输入,无干扰地支持多模态推理。这是一种参数高效的方法,保持基础语言模型的完整性,同时添加新功能。

总参数量为 5.6 亿,相比 Phi-4-Mini 的 3.8 亿,增加了约 1.8 亿参数,主要用于视觉和音频编码器及 LoRA 适配器。上下文长度为 128K 标记,受益于 GQA 和其他效率技术,适合处理长序列输入。

训练方法

Phi-4-Multimodal 的训练过程分多个阶段,针对不同模式和任务优化,确保模型在多模态任务上的性能。训练步骤如下:

  • 基础语言模型预训练:

    • 在 5 万亿个高质量标记上预训练,包括网络数据和合成数据。数据来源经过精心挑选,确保覆盖多种语言和任务,如功能调用、总结和指令跟随。
  • 视觉训练:

    • 阶段 1:项目器对齐 - 使用标题数据训练项目器,确保视觉特征与语言模型嵌入空间的对齐。
    • 阶段 2:联合视觉训练 - 在完整数据集上训练项目器和编码器,针对 OCR 和密集理解任务,数据集包括图像-文本对、OCR PDF 和现实图像。
    • 阶段 3:生成视觉-语言训练 - 在解码器上训练 LoRA,使用单帧 SFT 数据,开发生成能力,数据集包括公共和内部多模态数据集,如通用图像、图表/表格/图表、PowerPoint、OCR、多图像和视频。
    • 阶段 4:多帧训练 - 视觉编码器冻结,在多帧 SFT 数据上训练,上下文长度为 64k,适合处理多帧场景。
  • 语音/音频训练:

    • 预训练: 使用 200 万小时匿名语音-文本对,覆盖 8 种语言(中文、英语、法语、德语、意大利语、日语、葡萄牙语、西班牙语),训练音频编码器和项目器,解码器冻结,初始化为自动编码解码(AED)ASR 模型。
    • 后训练: 使用 1 亿个精选 SFT 样本更新项目器和 LoRA_A,50,000 步。最大音频长度为总结的 30 分钟(22,500 个标记),其他任务的 30 秒(375 个标记),包括 ASR(40,000 小时,2,800 万 SFT 示例)、AST(30,000 小时,2,800 万 SFT 示例,7 种语言到/从英语,CoT)、SQA/SQQA(2,600 万 SFT 示例,合成 QA 对,TTS 生成查询)、总结(100 万 SFT 示例,英语,多说话者,GPT-4 查询)和音频理解(1,700 万 SFT 示例,公共音频/音乐,GPT-4 Q&A)。
  • 视觉-语音联合训练:

    • 在视觉和语音单独训练后,冻结语言基础、音频编码器和项目器,微调视觉适配器 LoRA_V、编码器和项目器,使用视觉-语音 SFT 数据加上语言/视觉后训练数据,确保多模态协同工作。
  • 推理训练:

    • 阶段 1:预训练 - 在 600 亿推理链式思维 CoT 标记上预训练,从前沿 LLM 中提取,通过拒绝采样过滤错误输出,确保数据质量。
    • 阶段 2:微调 - 在 20 万个高质量 CoT 样本上微调,覆盖不同领域,如数学、编码和逻辑推理。
    • 阶段 3:直接偏好优化(DPO)训练 - 在 30 万个偏好样本上应用,将错误输出标记为“非首选”,纠正输出为“首选”,通过人类反馈进一步对齐模型。

训练数据细节

Phi-4-Multimodal 是一种由 Microsoft 开发的先进多模态大模型,能够处理文本、图像和音频输入并生成文本输出。其训练数据细节涵盖语言、视觉-语言、视觉-语音和语音/音频四个主要类别,数据来源包括网络、合成和真实数据,数据量庞大且经过精心优化。

语言训练数据

语言训练是 Phi-4-Multimodal 的基础,基于 Phi-4-Mini 语言模型的预训练和后训练数据:

  • 预训练数据:

    • 数据来源: 高质量网络数据和合成数据,特别强调数学和编码数据集以提升复杂推理能力。
    • 数据量: 5 万亿个标记(tokens)。
    • 描述: 合成数据通过精心策划,确保覆盖高价值的任务,如数学竞赛问题和编码任务,显著提升模型在这些领域的表现。
  • 后训练数据:

    • 功能调用、总结和代码完成: 使用额外数据进行后训练,具体数量未公开,但涉及多种任务。
    • 推理训练: 使用 600 亿个推理链式思维(CoT)标记,从前沿大型语言模型(LLM)中提取,通过拒绝采样过滤错误输出,确保数据质量。
    • 微调: 在 20 万个高质量 CoT 样本上微调,覆盖数学、编码和逻辑推理等不同领域。
    • 直接偏好优化(DPO): 在 30 万个偏好样本上应用,将错误输出标记为“非首选”,纠正输出为“首选”,通过人类反馈进一步对齐模型。

视觉-语言训练数据

视觉-语言训练扩展了模型处理图像和相关文本的能力,分为预训练和监督微调(SFT)两个阶段:

  • 预训练数据:

    • 数据类型: 包括图像-文本对、图像接地数据、OCR PDF、现实图像和图表理解数据。
    • 数据量: 文本部分约 0.5 万亿标记,具体图像数量未公开。
    • 描述: 数据覆盖广泛,包括公共和内部多模态数据集,最高图像分辨率达 1344x1344,适合 OCR 和密集理解任务。
  • 监督微调(SFT)数据:

    • 数据类型: 通用图像、图表/表格/图表、PowerPoint、OCR、多图像、视频和安全数据集。
    • 数据量: 文本部分约 0.3 万亿标记。
    • 描述: 数据来源包括公共和内部数据集,确保生成能力和多模态任务性能。

视觉-语音训练数据

视觉-语音训练数据是合成生成的,基于视觉-语言 SFT 数据:

  • 数据创建方法: 复用视觉-语言 SFT 数据,通过文本转语音(TTS)引擎生成语音查询,基于词错误率(WER)过滤质量。
  • 数据量: 具体数量未公开,但依赖于视觉-语言 SFT 数据规模(约 0.3 万亿标记文本部分)。

语音/音频训练数据

语音/音频训练数据分为预训练和后训练两个阶段,数据量巨大,覆盖多种任务:

  • 预训练数据:

    • 数据来源: 200 万小时匿名语音-文本对,覆盖 8 种语言:中文、英语、法语、德语、意大利语、日语、葡萄牙语、西班牙语。
    • 描述: 用于训练音频编码器和项目器,确保语音特征与语言模型嵌入空间对齐,初始化为自动编码解码(AED)ASR 模型。
  • 后训练数据:

    • 自动语音识别(ASR):
      • 数据量: 40,000 小时。
      • SFT 示例: 2.8 百万。
    • 自动语音翻译(AST):
      • 数据量: 30,000 小时。
      • SFT 示例: 2.8 百万(7 种语言到/从英语,包含 CoT)。
    • 语音问答(SQA/SQQA):
      • SFT 示例: 2.6 百万(合成 QA 对,TTS 生成查询)。
    • 总结(SSUM):
      • SFT 示例: 100,000(英语,多说话者,GPT-4 查询)。
    • 音频理解(AU):
      • SFT 示例: 1.7 百万(公共音频/音乐,GPT-4 Q&A)。

训练数据汇总表:

一个意想不到的细节是,语音预训练数据高达 200 万小时。

性能

参考文献:

  • Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs,https://arxiv.org/pdf/2503.01743

  • HunyuanVideo: A Systematic Framework For Large Video Generative Models,https://arxiv.org/pdf/2412.03603

相关文章:

Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计…...

Leetcode::将水果放入篮子II(c++)

3477. 将水果放入篮子 II 提示 给你两个长度为 n 的整数数组,fruits 和 baskets,其中 fruits[i] 表示第 i 种水果的 数量,baskets[j] 表示第 j 个篮子的 容量。 你需要对 fruits 数组从左到右按照以下规则放置水果: 每种水果必…...

【C语言系列】字符函数和字符串函数

字符函数和字符串函数 一、字符分类函数二、字符转换函数三、strlen的使用和模拟实现3.1strlen函数3.2strlen函数模拟实现 四、strcpy的使用和模拟实现4.1strcpy函数4.2strcpy函数的模拟实现 五、strcat的使用和模拟实现5.1strcat函数5.2strcat函数的模拟实现 六、strcmp的使用…...

【计算机网络】深入解析 HTTP 协议的概念、工作原理和通过 Fiddler 抓包查看 HTTP 请求/响应的协议格式

网络原理— HTTP 1. 什么是HTTP? HTTP(全称为"超文本传输协议")是一种应用非常广泛的应用层协议: HTTP 往往是基于传输层的 TCP 协议实现的 (HTTP1.0,HTTP1.1,HTTP2.0 均为TCP,HTTP3基于UDP实现) 我们平时打开一个网站,就是通过HTTP协议来…...

InDraw6.2.3 | 甾体、核苷、黄酮类化合物实现简称命名

导语 当化学家对着屏幕输入"2-amino-1,9-dihydro-6H-purin-6-one"时,隔壁生物学家可能正在搜索"鸟嘌呤";这种命名差异如同"火星文"与"地球语"的碰撞。现在,鹰谷InDraw 6.2.3版带着53种多环化合物的…...

AI Copilot——维新派的贾维斯,守旧派的墓志铭(程序员视角)

6500万年前的那颗陨石好像要落下来了 这一段时间,伴随着claude sonnet 3.7的发布 以及cursor,windsurf 等一众AI智能编辑器的涌现,社区的programming自媒体坐不住了,有一个观点已经快要溢出屏幕:程序员这个岗位要黄&a…...

c++ 接口/多态

目录 接口的通用定义 特点: C 中的接口 接口的作用 接口与抽象类的区别 什么是多态? 多态的类型 1. 编译时多态 2. 运行时多态 多态的实现原理 注意事项 在编程中,接口(Interface) 是一个抽象概念&#xff…...

【大模型学习】第十二章 大模型获取智能机制

目录 引言 1. 模型架构 Transformer架构 层次结构和层数 2. 训练数据 3. 大规模训练 4. 迁移学习与微调 4.1 微调步骤 5. 机制实例 自注意力机制 多头注意力机制 总结 引言 随着深度学习的发展,特别是大型预训练模型(大模型)的出…...

神经网络|(十四)|霍普菲尔德神经网络-Hebbian训练

【1】引言 前序学习进程中,除了对基本的神经网络知识进行了学习,还掌握了SOM神经网络原理,文章链接包括且不限于: 神经网络|(十一)|神经元和神经网络-CSDN博客 神经网络|(十二)|常见激活函数-CSDN博客 神经网络|(十三)|SOM神经…...

华为鸿蒙系统全景解读:从内核设计到生态落地的技术革命

华为鸿蒙系统全景解读:从内核设计到生态落地的技术革命 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,可以分享一下给大家。点击跳转到网站。 https://www.captainbed.cn/ccc 文章目录 华为鸿蒙系统全景解读&#x…...

基于大数据的Steam游戏数据分析可视化推荐系统

【大数据】🎮 项目名:游戏分析神器,用代码探析游戏世界——《基于大数据的Steam游戏分析与智能推荐系统》(完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 &a…...

将长上下文大语言模型研究从输入转向输出

将长上下文大语言模型研究从输入转向输出 摘要: 近年来,长上下文大语言模型(LLMs)的研发主要集中在处理更长的输入文本上,这使得模型在理解长篇内容时取得了显著进步。然而,生成长篇输出的研究却相对被忽视&#xff…...

Dify 开源大语言模型应用开发平台使用(二)

文章目录 说明Dify 使用报告1. 应用创建——专业的锂电池相关知识解答1.1 平台简介1.2 创建应用2. 知识库、工作流、变量、节点与编排节点详解2.1 知识库管理2.2 工作流配置2.3 变量管理2.4 节点与编排节点3. 测试和调试3.1 单元测试3.2 日志与监控3.3 实时调试3.4 性能测试总结…...

CarPlanner:用于自动驾驶大规模强化学习的一致性自回归轨迹规划

25年2月来自浙大和菜鸟网络的论文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。 轨迹规划对于自动驾驶至关重要,可确保在复杂环境中安全高效地导航。虽然最近基于学习的方法&a…...

K8s面试题总结(十一)

1.如何优化docker镜像的大小? 使用多阶段构建(multi-stage build)选择更小的基础镜像(如alpine)减少镜像层数,合并RUN命令 2.请解释Docker中的网络模式(如bridge,host,none) Bridge&#xff…...

Android Telephony 四大服务和数据网络控制面数据面介绍

在移动通信和Android系统中,涉及的关键概念和服务以及场景案例说明如下: 一、概念 (一)Android Telephony 的四大服务 介绍Telephony Data 与 Android Data 的四大服务在Android系统中,与电话(Telephony)和移动数据(Data)相关的核心服务主要包括以下四类: 1. Tele…...

一文讲懂Go语言如何使用配置文件连接数据库

一文讲懂Go语言如何使用配置文件连接数据库 viper1. viper简介2. viper 读取.toml配置文件定义Go语言结构体编写与Go语言结构体对应的.toml配置文件定义初始化函数定义get函数 连接数据库1. 定义数据库对象2. 定义初始化函数3. 定义 get 函数4. 定义 main 函数, 连接数据库 配置…...

Jmeter使用介绍

文章目录 前言Jmeter简介安装与配置JDK安装与配置JMeter安装与配置 打开JMeter方式一方式二 设置Jmeter语言为中文方法一(仅一次性)方法二(永久设置成中文) Jmeter文件常用目录 元件与组件元件组件元件的作用域元件的执行顺序第一个案例添加线程组添加 H…...

MES机联网4:文档资料

目录信息 MES机联网1:技术方案MES机联网2:采集网关MES机联网3:管理后台MES机联网4:文档资料 MQ接入文档 1、建立连接 mqtt连接地址: 192.168.0.138 mqtt端口: 1883 mqtt用户名:admin mqtt密码:123456 …...

豆包大模型 MarsCode AI 刷题专栏 001

001.找单独的数 难度:易 问题描述 在一个班级中,每位同学都拿到了一张卡片,上面有一个整数。有趣的是,除了一个数字之外,所有的数字都恰好出现了两次。现在需要你帮助班长小C快速找到那个拿了独特数字卡片的同学手上…...

常用无功功率算法的C语言实现(二)

0 前言 尽管数字延迟法和积分移相法在不间断采样的无功功率计算中得到了广泛应用,但它们仍存在一些固有缺陷。 对于数字延迟法而言,其需要额外存储至少1/4周期的采样点,在高采样频率的场景下,这对存储资源的需求不可忽视。而积分移相法虽然避免了额外的存储开销,但为了抑制…...

23种设计模式简介

一、创建型(5种) 1.工厂方法 总店定义制作流程,分店各自实现特色披萨(北京店-烤鸭披萨,上海店-蟹粉披萨) 2.抽象工厂 套餐工厂(家庭装含大披萨薯条,情侣装含双拼披萨红酒&#…...

开发vue小游戏:数字华龙道

一、游戏介绍 1、历史背景 数字华容道脱胎于传统华容道,后者源自三国时期“曹操败走华容道”的故事。传统玩法是通过移动不同形状的木块,帮助“曹操”从出口逃脱。而数字华容道将棋子替换为数字,目标是通过滑动方块,将乱…...

electron的通信方式(三种)

文章目录 一、渲染进程向主进程发送消息二、渲染进程向主进程发送消息并异步获取结果三、主进程向渲染进程发送消息 electron的主要是主线程和渲染线程之间的通信,简单记录一下三种通信方式 一、渲染进程向主进程发送消息 利用ipcRenderer.send()和ipcMain.on()方法…...

MapReduce技术概述**

** MapReduce是一种并行计算框架,最初由Google开发,后来被Apache开源。它是一种分布式计算模型,能够处理大规模数据集,解决复杂的计算问题。MapReduce技术在数据处理和分析领域广泛应用,尤其是在大数据处理中。 MapR…...

ubuntu挂载固态硬盘

Ubuntu 中挂载位于 /dev/sdc1 的固态硬盘,可以按照以下步骤操作: 步骤 1:确认分区信息 首先,确保设备 /dev/sdc1 存在且已正确分区: sudo fdisk -l /dev/sdc # 查看分区表 lsblk # 确认分区路…...

同为科技智能PDU在数据中心场景的应用与解决方案

数据中心当前处于一个快速发展和技术变革的特殊时期,全新的人工智能应用正在重塑整个世界,为社会带来便捷的同时,也为数据中心的发展带来了新的机遇和挑战。智能算例的爆发式增长,对数据中心提出了大算力、高性能的新需求&#xf…...

golang学习笔记——go语言安装及系统环境变量设置

文章目录 go语言安装go envgo getgoproxy测试安装 Go 插件安装 Go 插件依赖工具参考资料用户环境变量和系统环境变量用户环境变量系统环境变量示例设置环境变量的步骤设置用户环境变量设置系统环境变量 验证环境变量总结 2024年最火的5大Go框架1. Gin:高并发接口的“…...

云服务器Linux安装Docker

系统要求 Docker 官方建议将 Docker 运行在 Linux系统上,当然也可以在其他平台运行,本篇博客只介绍在 Linux 系统上的安装方法。 Docker 运行在 CentOS7.X 版本以上,本文使用阿里云 ECS 云服务器 CentOS 7.4 版本。 Docker 需要安装在 64 …...

2025DNS二级域名分发PHP网站源码

安装教程 1.程序必须使用PHP8.1 2.将扩展ixed.8.1.lin放入/www/server/php/81/lib/php/extensions/no-debug-non-zts-20210902 3.打开宝塔→软件商店→PHP8.1→配置文件 4.放入:extensionixed.8.1.lin 5.重启PHP8.1 6.新建站点(mysql5.6-5.7andPHP8.1&a…...

审批流AntV框架蚂蚁数据可视化X6饼图(附注释)

大家好,这次使用的是AntV的蚂蚁数据可视化X6框架,类似于审批流的场景等,代码如下: X6框架参考网址:https://x6.antv.vision/zh/examples/showcase/practices#bpmn 可以进入该网址,直接复制下方代码进行调试…...

git 添加额外的远程仓库 URL

要使用 git branch -a 查看 net-next 远程仓库中的所有分支,请按照以下步骤操作: 步骤 1: 确保已添加 net-next 远程仓库 如果尚未添加 net-next 远程仓库,请运行以下命令: git remote add net-next git://git.kernel.org/pub/s…...

Qt中实现多个QMainWindow同时显示

在Qt中实现多个QMainWindow同时显示,可通过以下方法实现: 一、直接显示多个实例 必须使用new创建堆对象,避免栈对象因作用域结束被销毁‌。 int main(int argc, char *argv[]) {QApplication a(argc, argv);// 创建两个独立的主窗口QMainW…...

在ArcMap中通过Python编写自定义工具(Python Toolbox)实现点转线工具

文章目录 一、需求二、实现过程2.1、创建Python工具箱(.pyt)2.2、使用catalog测试代码2.3、在ArcMap中使用工具 三、测试 一、需求 通过插件的形式将点转线功能嵌入ArcMap界面,如何从零开始创建一个插件,包括按钮的添加、工具的实…...

关于AI数据分析可行性的初步评估

一、结论:可在部分环节嵌入,无法直接处理大量数据 1.非本地部署的AI应用处理非机密文件没问题,内部文件要注意数据安全风险。 2.AI(指高规格大模型)十分适合探索性研究分析,对复杂报告无法全流程执行&…...

cdn取消接口缓存

添加cdn后,使用cdn加速域名访问接口 是缓存,不是最新的数据,如果使用局域网则是最新的数据,如果修改配置,确保使用cdn域名请求的接口返回不是缓存 要确保通过CDN加速域名访问接口时返回的是最新的数据,而不…...

Android 屏幕适配 Tips

概念 屏幕尺寸:屏幕的对角线的长度屏幕分辨率:屏幕分辨率是指在横纵向上的像素点数,单位是px,1px1个像素点。一般以纵向像素x横向像素,如1960x1080屏幕像素密度:每英寸上的像素点数,单位是dpi …...

【Academy】HTTP Host 标头攻击 ------ HTTP Host header attacks

HTTP Host 标头攻击 ------ HTTP Host header attacks 1. 什么是 HTTP Host 标头?2. 什么是 HTTP Host 标头攻击?3. HTTP Host 标头漏洞是如何产生的?4. 如何测试 HTTP Host 标头漏洞4.1 提供任意 Host 标头4.2 检查有缺陷的验证4.3 发送不明…...

大模型架构记录2

一 应用场景 1.1 prompt 示例 1.2 自己搭建一个UI界面,调用接口 可以选用不同的模型,需要对应的API KEY 二 Agent 使用 2.1 构建GPT...

在Windows 11的WSL中安装Kali Linux

Kali Linux 是网络安全从业者和爱好者的首选工具集,但直接在物理机或虚拟机上运行可能占用较多资源。借助 Windows Subsystem for Linux (WSL),我们可以在Windows 11中原生运行Kali Linux,轻量且高效。本教程将手把手教你如何在WSL2中安装并配…...

Qt调试功能使用方法

QT编程环境 QT在Windows操作系统下的三种编程环境搭建。 方案编程环境编译器调试器1Qt CreatorMinGW GCCGDB2Qt CreatorMicrosoft Visual C CompilerDebugging Tools for Widows3Microsoft Visual Studio VS自带VS自带 方案提及的QT安装程序及压缩包均能在官网Index of /off…...

一篇文章讲解清楚ARM9芯片启动流程

SAM9X60 ARM9 boot启动流程关键词介绍: 第一级bootloader - 也叫boot ROM,是集成在MPU内部的ROM里面 它的主要功能是执行对MPU的基本初始化和配置,查找并将第二级bootloader从外部NVM中读取出来并放到MPU内部的SRAM. 可以让MPU强制停留在第一…...

DeepSeek未来发展趋势:开创智能时代的新风口

DeepSeek未来发展趋势:开创智能时代的新风口 随着人工智能(AI)、深度学习(DL)和大数据的飞速发展,众多创新型技术已经逐渐走向成熟,而DeepSeek作为这一领域的新兴力量,正逐步吸引越…...

Spring Boot与Axon Framework整合教程

精心整理了最新的面试资料和简历模板,有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 简介 Axon Framework是一个用于构建CQRS(命令查询职责分离)和事件溯源(Event Sourcing)应用的框架&#xff0…...

从技术角度看大语言模型进化技术路线与落地应用详解:未来的最佳实践方向是什么?

文章大纲 **一、模型架构创新:从Transformer到下一代架构****二、训练与优化技术:从暴力Scaling到精细调控****三、数据与知识工程:从粗放喂养到智能增强****四、应用层进化:从通用能力到垂直场景突破****五、伦理与可持续性技术**未来技术路线图参考文献**一、大模型架构创…...

LSM-Tree (日志结构合并树)

LSM-Tree(日志结构合并树)是一种高效处理写操作的存储结构,广泛应用于NoSQL数据库如LevelDB和RocksDB。其核心思想是将随机写入转换为顺序写入,提升吞吐量。以下是其原理及Java实现示例: ### **LSM-Tree 原理** 1. **…...

自动驾驶---不依赖地图的大模型轨迹预测

1 前言 早期传统自动驾驶方案通常依赖高精地图(HD Map)提供道路结构、车道线、交通规则等信息,可参考博客《自动驾驶---方案从有图迈进无图》,本质上还是存在问题: 数据依赖性高:地图构建成本昂贵,且跨区域泛化能力受限。动态场景局限性:地图无法实时反映临时障碍物或施…...

记录一次mysql全文索引不生效

先是创建全文索引: alter table sms_img_library add fulltext index sms_img_library_title_idx(title) 但是执行下面sql,没有数据出来 select * from sms_img_library where match (title) against(壮丽);排查了最小分词,设置为2 SHOW…...

蓝桥杯题型

蓝桥杯 蓝桥杯题型分类语法基础艺术与篮球(日期问题)时间显示(时间问题)跑步计划(日期问题)偶串(字符)最长子序列(字符)字母数(进制转换)6个0&…...

用Python分割并高效处理PDF大文件

在处理大型PDF文件时,将它们分解成更小、更易于管理的块通常是有益的。这个过程称为分区,它可以提高处理效率,并使分析或操作文档变得更容易。在本文中,我们将讨论如何使用Python和为Unstructured.io库将PDF文件划分为更小的部分。…...