第四期书生大模型实战营-第4关-L2G4000
简述多模态大模型的工作原理
多模态大模型是一种能够同时理解和生成多种类型数据(如文本、图像、音频、视频等)的人工智能模型。其核心工作原理可概括为以下几个关键步骤:
1. 多模态数据编码
- 模态对齐:将不同形式的数据(文本、图像、音频等)转换为统一的向量表示(嵌入)。例如:
- 文本通过词嵌入(如Transformer的Tokenization)编码;
- 图像通过**卷积神经网络(CNN)或Vision Transformer(ViT)**提取视觉特征;
- 音频通过频谱图转换或波形处理编码。
- 共享嵌入空间:不同模态的编码被映射到同一高维空间,使模型能跨模态比对和学习关联(如CLIP模型对齐文本和图像特征)。
2. 跨模态融合与交互
- 使用Transformer架构的跨模态注意力机制,实现不同模态信息的深度融合。例如:
- 文本描述与图像区域的关联(如DALL-E生成图像时关注文本关键词);
- 视频帧序列与语音或文本的时序对齐。
- 通过自注意力机制捕捉长距离依赖关系,增强模态间的互补性。
3. 预训练与自监督学习
- 大规模预训练:在海量多模态数据(如网络图文对、视频-音频-字幕组合)上训练模型,学习通用表征。
- 预训练任务:
- 对比学习(如CLIP通过图文匹配任务学习相似性);
- 掩码预测(如BERT对文本、MAE对图像进行掩码重建);
- 跨模态生成(如文本生成图像或视频描述)。
4. 生成与推理
- 条件生成:根据输入模态生成其他模态内容。例如:
- GPT-4结合文本和图像输入生成回答;
- Stable Diffusion通过文本提示生成图像。
- 多模态推理:综合多模态信息完成复杂任务,如视觉问答(VQA)、视频内容总结等。
5. 模型规模与泛化能力
- 参数量庞大(百亿至万亿级),通过大量数据训练获得强大的泛化能力;
- 支持零样本(Zero-Shot)或少样本(Few-Shot)学习,无需特定任务微调即可适应新场景。
典型应用
- 图文互生成(如MidJourney生成图像);
- 多模态对话(如GPT-4V分析图像并回答问题);
- 跨模态检索(如用文本搜索相关视频片段)。
多模态大模型的核心优势在于统一表征与跨模态关联学习,使其能更接近人类的多模态认知能力。然而,其训练需消耗巨大算力,且面临模态对齐偏差、可解释性不足等挑战。
简述InternVL2的模型架构和训练流程
InternVL2 是由上海人工智能实验室开发的多模态大模型,旨在融合视觉和语言模态,实现对图像和文本的联合理解与生成。InternVL2 通过 ViT、Pixel Shuffle 和 MLP 的结合,实现了视觉和语言模态的高效对齐,并通过动态高分辨率支持和多阶段训练流程,显著提升了模型在多模态任务中的性能。其设计模式和训练流程展示了多模态大模型在图像和文本处理方面的强大能力。
模型架构
InternVL2 的架构主要由以下几个核心模块组成:
-
视觉编码器(ViT)
- 使用 Vision Transformer(ViT)作为视觉编码器,将图像分割为 patch(图像块),并将每个 patch 转换为嵌入表示,输入 Transformer 模块以捕获全局信息。
- 支持动态高分辨率处理,能够根据输入图像的分辨率和纵横比,将图像切分为多个 448x448 像素的块,最高支持 4K 分辨率输入,从而保留图像的细节信息。
-
Pixel Shuffle 操作
- 通过 Pixel Shuffle 对视觉特征进行空间重构,提升特征的分辨率,从而在下游任务中捕获更细致的视觉细节。
- 该操作将视觉 token 数量减少到原来的四分之一,降低计算开销,同时支持更高分辨率的图像处理。
-
多层感知机(MLP)
- 使用 MLP 将视觉特征映射到语言模型可以理解的嵌入空间,实现视觉模态与语言模态的对齐。
- MLP 模块在早期阶段单独训练,以确保视觉特征能够被有效地映射到语言模态。
-
语言模型(LLM)
- 采用大型语言模型(如 InternLM2)作为文本编码器,处理文本输入并与视觉特征结合,生成跨模态的输出。
- 保留文本编码器,增强模型对文本模态的处理能力,提高跨模态对齐的精度。
-
动态高分辨率支持
- 在训练和推理阶段,InternVL2 能够根据输入图像的分辨率和纵横比,动态调整图像切分策略,避免强行 resize 导致的失真和细节丢失。
训练流程
InternVL2 的训练分为多个阶段,旨在逐步优化模型的跨模态对齐能力:
-
第一阶段:单独训练 MLP
- 使用高质量的视觉预训练数据(如视觉问答、检测、图像分割和 OCR 数据),单独训练 MLP 模块,确保视觉特征能够被有效地映射到语言模态。
- 输入图像从较低分辨率开始训练,逐步提升至高分辨率,以减少训练资源消耗。
-
第二阶段:联合训练 ViT、MLP 和 LLM
- 使用高质量的视觉-文本指令数据(如视觉问答、图像描述生成、文本指令响应等任务),联合训练 ViT、MLP 和语言模型。
- 特别加入多模态问答和手写 OCR 数据,增强模型在特定任务上的表现。
-
第三阶段:有监督微调
- 针对特定任务(如对话、问答),通过 MLP 层将视觉编码器与语言模型连接,并进行有监督微调,进一步提升模型的生成和推理能力。
-
动态分辨率训练
- 在训练过程中,InternVL2 支持动态分辨率,从低分辨率开始训练,逐渐过渡到高分辨率,以平衡训练效率和模型性能。
特点与优势
- 动态高分辨率:InternVL2 能够根据输入图像的分辨率和纵横比,动态调整图像切分策略,支持高达 4K 分辨率的输入,显著提升了 OCR 和文档理解等任务的性能。
- 双语支持:通过高质量的中英双语数据集训练,InternVL2 在中文相关任务中表现出色。
- 高效计算:通过 Pixel Shuffle 操作减少视觉 token 数量,降低计算开销,同时支持更高分辨率的图像处理。
网页应用部署体验
不是,你是认真的嘛?!
XTuner微调实践
与AI美食家玩耍
成了!
美食模型上传huggingface
相关文章:
第四期书生大模型实战营-第4关-L2G4000
简述多模态大模型的工作原理 多模态大模型是一种能够同时理解和生成多种类型数据(如文本、图像、音频、视频等)的人工智能模型。其核心工作原理可概括为以下几个关键步骤: 1. 多模态数据编码 模态对齐:将不同形式的数据…...
17vue3实战-----使用配置文件生成简易页面
17vue3实战-----使用配置文件生成简易页面 1.写在前面2.背景3.实现3.1界面效果3.2新建config配置文件3.3封装组件3.4使用组件 1.写在前面 后台管理系统的开发很简单。无论是用户模块、部门模块、角色模块还是其它模块,界面和业务逻辑都相对比较简单,我会省略这些模…...
ZZNUOJ(C/C++)基础练习1091——1100(详解版)⭐
目录 1091 : 童年生活二三事(多实例测试) C C 1092 : 素数表(函数专题) C C 1093 : 验证哥德巴赫猜想(函数专题) C C 1094 : 统计元音(函数专题) C C 1095 : 时间间隔(多…...
浏览器的缓存方式几种
浏览器的缓存方式主要分为以下几种: 1. 强制缓存(强缓存 / Memory Cache & Disk Cache) 通过 Expires 或 Cache-Control 头部控制。在缓存有效期内,浏览器直接使用缓存,不发起请求。 关键HTTP头: Ex…...
【前端】【面试】【经典一道题】vue中组件传值的几种方式
父子组件传值 1. 父传子:props 这是最常见的父组件向子组件传递数据的方式。父组件在使用子组件时,通过在子组件标签上绑定属性来传递数据,子组件通过 props 选项接收这些数据。 <!-- 父组件 --> <template><div><Ch…...
SwiftUI 中 .overlay 两种写法的区别及拓展
SwiftUI 中 .overlay 两种写法的区别及拓展 一、.overlay 简介功能语法 二、写法 1:.overlay(Circle().stroke(Color.blue, lineWidth: 2))代码示例解释优点适用场景 三、写法 2:.overlay { Circle().stroke(.white, lineWidth: 4) }代码示例解释优点适用…...
简述mysql 主从复制原理及其工作过程,配置一主两从并验证
原理: MySQL主从复制是基于事件的复制机制。主服务器负责处理所有的写操作和事务,并将这些更改(如INSERT、UPDATE和DELETE)以事件的形式记录到二进制日志(binlog)中。从服务器则通过读取主服务器的二进制日…...
python-leetcode 25.环形链表
题目: 给定一个链表的头节点head,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪next指针再次到达,则链表中存在环。为了表示给定链表中的环,评测系统内部使用整数pos来表示链表尾连接到链表中的位置(…...
游戏引擎学习第98天
仓库:https://gitee.com/mrxiao_com/2d_game_2 开始进行一点回顾 今天的目标是继续实现正常贴图的操作,尽管目前我们还没有足够的光照信息来使其完全有用。昨日完成了正常贴图相关的基础工作,接下来将集中精力实现正常贴图的基本操作,并准备…...
机器学习 - 进一步理解最大似然估计和高斯分布的关系
一、高斯分布得到的是一个概率吗? 高斯分布(也称为正态分布)描述的是随机变量在某范围内取值的概率分布情况。其概率密度函数(PDF)为: 其中,μ 是均值,σ 是标准差。 需要注意的是…...
物联网水质监测系统设计与实现/基于STM32的水产养殖云监控系统设计
背景 随着物联网技术的飞速发展,各行各业都在逐步实现智能化管理,水质监测系统作为环境监测中的一个重要环节,近年来备受关注。如何高效、精准地监测水质,尤其是在远程无法到达的地方,成为了一个迫切需要解决的问题。…...
【学习笔记】计算机网络(三)
第3章 数据链路层 文章目录 第3章 数据链路层3.1数据链路层的几个共同问题3.1.1 数据链路和帧3.1.2 三个基本功能3.1.3 其他功能 - 滑动窗口机制 3.2 点对点协议PPP(Point-to-Point Protocol)3.2.1 PPP 协议的特点3.2.2 PPP协议的帧格式3.2.3 PPP 协议的工作状态 3.3 使用广播信…...
Android 系统面试问题
一.android gki和非gki的区别 Android GKI(Generic Kernel Image)和非GKI内核的主要区别在于内核设计和模块化程度,具体如下: 1. 内核设计 GKI:采用通用内核设计,与设备硬件分离,核心功能统一…...
大疆无人机二次开发调试准备
以下机场和遥控器模式只能同时支持一种,因为无人机只能同时对频一种设备,如果同时对频了两种,以最后对频设备为准 机场模式 保证机场的网口闪烁,网络正常在mqtt中给dock建立用户,配置新建的MQTT账号和密码。组织ID任…...
【嵌入式Linux应用开发基础】文件I/O基础编程
目录 一、文件I/O简介 二、文件描述符 2.1. 唯一性 2.2. 抽象性 2.3. 有限性 三、文件操作函数 四、标准文件I/O函数 五、文件执行权限 5.1. 权限类型 5.2. 权限分配对象 5.3. 权限表示方法 5.4. 权限设置命令 5.5. 权限设置的重要性 5.6. 实例说明 六、设备文件…...
【StableDiffusion容器化部署】分步指南
使用Docker部署和管理Stable Diffusion环境可以有效解决依赖冲突、环境隔离和可移植性问题。以下是分步指南和相关技术细节: 1. 基础环境准备 1.1 安装Docker和GPU支持 安装Docker Engine:参考官方文档配置NVIDIA Container Toolkit:# 安装…...
2.11 sqlite3数据库【数据库的相关操作指令、函数】
练习: 将 epoll 服务器 客户端拿来用 客户端:写一个界面,里面有注册登录 服务器:处理注册和登录逻辑,注册的话将注册的账号密码写入数据库,登录的话查询数据库中是否存在账号,并验证密码是否正确…...
安装 Ollama 需要哪些步骤?(windows+mac+linux+二进制+Docker)
安装 Ollama 的步骤根据操作系统不同会有所差异,以下是针对不同操作系统的详细安装指南: Windows 系统 下载安装包:访问 Ollama 官方下载页面,下载适用于 Windows 的安装程序 OllamaSetup.exe。运行安装程序:双击下载的安装包,按照提示完成安装。默认安装路径为 C:\User…...
【力扣】148.排序链表
AC截图 题目 思路 基本情况处理: 如果链表为空 (head NULL) 或者链表仅有一个节点 (head->next NULL),则链表已经是有序的,直接返回头节点 head。 分割链表: 使用快慢指针法找到链表的中间节点。slow 指针每次前进一格&…...
Springboot框架扩展功能的使用
Spring Boot 提供了许多扩展点,允许开发者在应用程序的生命周期中插入自定义逻辑。这些扩展点可以帮助你更好地控制应用程序的行为,例如在启动时初始化数据、在关闭时释放资源、或者自定义配置加载逻辑。以下是 Spring Boot 中常见的扩展点: …...
绿虫储能仿真软件解决储能项目中的哪些痛点
痛点一:储能方案定制难 如何根据不同用户的需求,制定科学合理的储能方案,一直是行业内的一大难题。每个用户的用电情况、场地条件、预算等都存在差异,想要实现 “千人千面” 的专属方案设计谈何容易。 绿虫储能仿真设计软件凭借…...
保姆级教程Docker部署Zookeeper镜像
目录 一、安装Docker及可视化工具 二、创建Zookeeper网络 三、镜像选择 四、单节点部署 1、创建挂载目录 2、命令运行容器 3、Compose运行容器 4、查看运行状态 5、验证是否正常运行 一、安装Docker及可视化工具 Docker及可视化工具的安装可参考:Ubuntu上…...
【leetcode】滑动窗口刷题总结
滑动窗口算法技巧主要用来解决子数组问题,比如让你寻找符合某个条件的最长/最短子数组或者子串。对于某些题目,并不需要穷举所有子串,就能找到题目想要的答案。滑动窗口就是这种场景下的一套算法模板,帮你对穷举过程进行剪枝优化&…...
【MySQL】通过shell脚本一键同步MySQL数据库结构和数据到指定库中
通过shell脚本对数据库进行覆盖式备份/迁移,简单方便,适合需要快速同步某个库结构和数据到目标库的场景。 通过AI调试了好些次得到能用的脚本,本文主要是做一个对该脚本的记录| 安装依赖 # 安装进度条库 sudo apt install pv注:如…...
C# COM 组件在.NET 平台上的编程介绍
.NET学习资料 .NET学习资料 .NET学习资料 一、COM 组件简介 COM(Component Object Model)即组件对象模型,是一种微软提出的软件组件技术,它允许不同的软件模块在二进制层面进行交互。COM 组件可以用多种编程语言开发࿰…...
数据结构与算法:动态规划dp:背包问题:理论基础(状态压缩/滚动数组)和相关力扣题(416. 分割等和子集、1049.最后一块石头的重量Ⅱ、494.目标和)
背包问题 01背包理论基础 对于01背包问题,物品下标为0到i,对应的重量为weight[0]到weight[i],价值为value[0]到value[i],每个物品只可以取或不取,背包最大容量为j的场景。 常见的状态转移方程如下: dp[i…...
【MySQL例题】我在广州学Mysql 系列——有关数据备份与还原的示例
ℹ️大家好,我是练小杰,今天周二,明天就是元宵节了呀!!😆 俗话说“众里寻他千百度。蓦然回首,那人却在,灯火阑珊处。” 本文主要对数据库备份与还原的知识点例题学习~~ 前情回顾&…...
【Git】完美解决git push报错403
remote: Permission to xx.git denied to xx. fatal: unable to access https://github.com/xx/xx.git/: The requested URL returned error: 403出现这个就是因为你的(personal access tokens )PAT过期了 删掉旧的token 生成一个新的 mac系统 在mac的…...
2021 年 9 月青少年软编等考 C 语言五级真题解析
目录 T1. 问题求解思路分析T2. 抓牛思路分析T3. 交易市场思路分析T4. 泳池思路分析T1. 问题求解 给定一个正整数 N N N,求最小的 M M M 满足比 N N N 大且 M M M 与 N N N 的二进制表示中有相同数目的 1 1 1。 举个例子,假如给定 N N N 为 78 78 78,二进制表示为 …...
玩转适配器模式
文章目录 解决方案现实的举例适用场景实现方式适配器模式优缺点优点:缺点:适配器模式可比上一篇的工厂模式好理解多了,工厂模式要具有抽象的思维。这个适配器模式,正如字面意思,就是要去适配某一件物品。 假如你正在开发一款股票市场监测程序, 它会从不同来源下载 XML 格…...
Batch Normalization (BN) 和 Synchronized Batch Normalization (SyncBN) 的区别
Batch Normalization 和 Synchronized Batch Normalization 的区别 Batch Normalization (BN) 和 Synchronized Batch Normalization (SyncBN) 的区别1. BN(Batch Normalization)2. SyncBN(Synchronized Batch Normalization)3. 选…...
MySQL主从同步
目录 一、MySQL主从同步 1、基于binlog的主从同步 2、基于gtid的主从同步配置 二、MySQL 主从读写分离实现方案 2.1 ProxySQL实现mysql8主从同步读写分离 1、ProxySQL基本介绍 2、ProxySQL结构 2、实验环境 3、实现数据库主从复制 4、安装ProxySQL 5、配置ProxySQL …...
CCFCSP认证考试 ——202403-1 词频统计
题目: 在学习了文本处理后,小 P 对英语书中的 n 篇文章进行了初步整理。 具体来说,小 P 将所有的英文单词都转化为了整数编号。假设这 n 篇文章中共出现了 m 个不同的单词,则把它们从 1 到 m 进行编号。 这样,每篇文章…...
关于“i18n“在vue中的使用
关于"i18n"在vue中的使用 <!-- vue2中 --> <template><div>{{ $t("This campaign has expired.") }}}}</div> </template> <script> export default {created() {this.onLoading();},methods: {onLoading () {this.$…...
MATLAB中count函数用法
目录 语法 说明 示例 对出现次数计数 使用模式对数字和字母进行计数 多个子字符串的所有出现次数 忽略大小写 对字符向量中的子字符串进行计数 count函数的功能是计算字符串中模式的出现次数。 语法 A count(str,pat) A count(str,pat,IgnoreCase,true) 说明 A c…...
Spring中的@Component和@Bean有什么区别?
在Spring框架中,Component和Bean都用于定义Bean,但它们的使用场景和方式有所不同。 ### 1. Component - **作用范围**:Component是一个类级别的注解,通常用于标记一个类为Spring的组件。Spring会自动扫描并注册这些类为Bean。 -…...
泛化、选择、分化
泛化是指记忆联系的“发散”,泛化兴奋的基础是模糊兴奋。记忆联系的“发散”有以下几种种情况: 1、联络区的一原始记忆柱群(A1)具有直接或间接与其它任意联络区的任意原始记忆柱群建立记忆联系的潜力。也就是说任何两个对象&…...
剖析 C++ 模拟算法:数据结构、随机数生成与模型验证
模拟算法 (Simulation Algorithms) 是一种通过计算机程序来模拟现实世界或系统行为的算法。它不依赖于特定的数学公式或优化技术,而是直接按照系统的规则和逻辑进行步骤一步地模拟。 模拟算法的复杂度和效率取决于模拟系统的复杂程度和模拟的精度要求。 在 C 中&…...
51单片机俄罗斯方块整行消除函数
/************************************************************************************************************** * 名称:flash * 功能:行清除动画 * 参数:NULL * 返回:NULL * 备注: * 采用非阻塞延时࿰…...
IDEA升级出现问题Failed to prepare an update Temp directory inside installation
IDEA升级出现问题"Failed to prepare an update Temp directory inside installation…" 问题来源: 之前修改了IDEA的默认配置文件路径,然后升级新版本时就无法升级,提示"Failed to prepare an update Temp directory insid…...
Windows系统下设置Vivado默认版本:让工程文件按需打开
在FPGA开发过程中,我们常常需要在一台电脑上安装多个不同版本的Vivado软件,以满足不同项目的需求。然而,当双击打开一个Vivado工程文件(.xpr)时,系统默认会调用一个固定的版本,这可能并不是我们…...
CSS3+动画
浏览器内核以及其前缀 css标准中各个属性都要经历从草案到推荐的过程,css3中的属性进展都不一样,浏览器厂商在标准尚未明确的情况下提前支持会有风险,浏览器厂商对新属性的支持情况也不同,所有会加厂商前缀加以区分。如果某个属性…...
Kotlin 2.1.0 入门教程(十一)for、while、return、break、continue
for 循环 for 循环会遍历任何提供迭代器的对象。 for (item in collection) print(item)for (int: Int in ints) {println(int) }for 循环会遍历任何提供迭代器的对象,这意味着该对象必须满足以下条件: 具有一个成员函数或扩展函数 iterator()…...
深度探索DeepSeek:成本效益之辩与市场展望
摘要 DeepMind的CEO对DeepSeek的成本效益提出质疑,认为其成本被过度炒作。他指出,DeepSeek所使用的技术大多源自谷歌和DeepMind。然而,分析机构SemiAnalysis强调,DeepSeek的优势在于其成本与能力的卓越组合。尽管目前DeepSeek的成…...
DeepSeek投喂数据(训练AI)
1、拉取nomic-embed-text 打开命令行,运行:ollama pull nomic-embed-text 这里需要先安装ollama ,不过大家应该在本地部署模型时已经安装了 拉取成功就行了,后续在配置AnythingLLM时用到 2、下载 AnythingLLM 地址:…...
Docker 安装与配置 Nginx
摘要 1、本文全面介绍了如何在 Docker 环境中安装和配置 Nginx 容器。 2、文中详细解释了如何设置 HTTPS 安全连接及配置 Nginx 以实现前后端分离的代理服务。 2、同时,探讨了通过 IP 和域名两种方式访问 Nginx 服务的具体配置方法 3、此外,文章还涵…...
常用电路(过压保护、电流/电压采集)
过压保护电路 输入电压使用电源(36V)或者typec(20V),需要过压保护电路处理输入再连接到CH224K,保证输入不高于最大获取电压20V MOS管导通条件为栅源极有压差,一般为5-10V 三极管导通条件为基极…...
12.Python模块:模块中的__all__、模块制作、打包模块、模块安装与使用
在 Python 中,模块是一个包含 Python 代码的文件。模块可以包含函数、类和变量,也可以包括可执行的代码。Python提供了一套强大的模块系统,支持模块的制作、打包、安装和使用。接下来,我们将详细介绍 __all__、模块制作、打包模块…...
Socket通信端口绑定的逻辑实现
在实现网络通信时,一个 Socket 需要维护输入端与输出端的 IP 地址和端口号,同时也需要输入与输出字节缓冲区: 输入端与输出端的 IP 地址和端口号 作用 标识通信端点:IP 地址用于标识网络中的设备,端口号用于标识设备…...
在freertos中,中断优先级和任务优先级之间的关系和使用方法
中断优先级和任务优先级如何匹配?任务优先级不同任务之间该用多高的优先级?中断优先级不同中断中该用多高的优先级?中断优先级和任务优先级设置时,怎样设置可以让任务在调度时屏蔽中断?怎样设置可以让任务在调度时&…...