从零开始实现 MobileViT 注意力机制——轻量级Transformer Vision Model 的新思路
从零开始实现 MobileViT 注意力机制——轻量级Transformer Vision Model 的新思路
近年来,计算机视觉领域中 Transformer 模型的崛起为图像处理带来了新的活力。特别是在 ViT(Vision Transformer)模型提出之后,Transformer 在图像分类、目标检测等任务上展示了超越 CNN 的潜力。然而,标准的 ViT 模型参数量大,计算复杂度高,难以在移动设备等资源受限的环境中部署。
最近,《MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer》 这篇论文提出了一种轻量化、通用且适合移动端的视觉变换器模型。该模型通过结合局部和全局特征的创新设计,在保持良好性能的同时,大大降低了计算资源的需求,为移动应用提供了新的解决方案。
本文将从零开始解读并实现 MobileViT 的核心注意力机制模块,帮助开发者理解这一轻量级视觉变换器的工作原理,从而在实际项目中灵活运用。
1. 背景:从 ViT 到 MobileViT
1.1 Vision Transformer (ViT) 简介
标准的 ViT 模型将整个图像划分为不重叠的 patches(块),并将其转换为序列输入到基于Transformer 的编码器中。这种方法虽然在性能上表现出色,但也带来了以下问题:
- 计算复杂度高:将图像分割成大量 patches 后进行序列操作,参数量和计算量急剧上升。
- 适用性有限:直接使用 Transformer 架构处理图像分辨率较高的场景时,资源消耗(如内存、算力)难以满足移动端的需求。
1.2 MobileViT 的创新思路
MobileViT 提出了一种折中的解决方案——结合 局部表示(Local Representation) 和 全局表示(Global Representation),以降低计算复杂度同时保持性能。其核心思想是:
- 在每个位置保留原始图像的局部特征信息。
- 通过 Transformer 模块提取和增强全局特征信息。
- 将局部和全局特征进行融合,生成最终的高质量视觉表征。
2. MobileViT 注意力机制模块实现解析
MobileViT 的核心模块是 MobileViTAttention
。我们需要逐步解读其实现细节,并通过代码示例帮助读者理解其工作原理。
2.1 模块设计概述
- 输入:一个张量(Tensor),形状为
[batch_size, in_channel, height, width]
- 输出:经过局部和全局特征融合后的张量,保持与输入相同的尺寸
模块主要包含以下几个部分:
- 局部特征提取:通过卷积操作提取每个位置的局部信息。
- 全局特征提取:使用 Transformer 模块对图像进行分块(patch)处理,并在序列空间中捕获长距离依赖关系。
- 特征融合:将局部和全局特征拼接后,通过轻量级的卷积操作生成最终输出。
以下是完整的 MobileViTAttention
类的实现代码:
import torch
from torch import nnclass MobileViT_Attention(nn.Module):def __init__(self, in_channels=3, kernel_size=3, patch_size=2, embed_dim=144):super().__init__()# 设置 patch 的大小(默认为7x7)self.ph, self.pw = patch_size, patch_size# 局部特征提取:通过卷积操作捕获局部上下文信息self.local_conv = nn.Sequential(nn.Conv2d(in_channels, in_channels, kernel_size=kernel_size, padding=kernel_size//2, stride=1),nn.BatchNorm2d(in_channels),nn.ReLU(inplace=True))# 全局特征提取:将张量重排为 [batch_size, patch_height*patch_width, N_h*N_w, embed_dim]# Transformer 模块用于捕获全局上下文信息self.global_trans = Transformer(embed_dim=embed_dim,num_heads=16,num_transformer_layers=4)# 特征融合:将局部特征和全局特征拼接,并通过卷积操作生成最终输出self.fusion_conv = nn.Sequential(nn.Conv2d(in_channels*2, in_channels, kernel_size=kernel_size, padding=kernel_size//2, stride=1),nn.BatchNorm2d(in_channels),nn.ReLU(inplace=True))def forward(self, x):# 提取局部特征local_feats = self.local_conv(x) # 局部特征if len(local_feats.shape) == 4:B, C, H, W = local_feats.shapeelse:raise ValueError("Input tensor should have rank 4.")# 分割图像为 patch,并进行重排:从 [B, C, H, W] 到 [B, (H*W), C]# 每个 patch 的大小为 (patch_size, patch_size)patches = []for i in range(0, H, self.ph):for j in range(0, W, self.pw):patch = local_feats[:, :, i:i+self.ph, j:j+self.pw]patch = torch.flatten(patch, start_dim=2) # 打平patchpatches.append(patch)# 拼接所有的 patch,形成张量 [B, num_patches, C]x_patched = torch.stack(patches, dim=1)# 传递到 Transformer 中提取全局特征global_feats = self.global_trans(x_patched) # 全局上下文特征# 特征融合:将原始输入的局部特征与 Transformer 输出的全局特征拼接x_fused = torch.cat([local_feats, global_feats.unsqueeze(2).unsqueeze(3)], dim=1)return self.fusion_conv(x_fused) # 最终的特征输出class Transformer(nn.Module):def __init__(self, embed_dim=768, num_heads=12, num_transformer_layers=4):super().__init__()self.embedding = nn.Linear(embed_dim, embed_dim)self.layers =(nn.ModuleList([TransformerBlock(d_model=embed_dim, nhead=num_heads)for _ in range(num_transformer_layers)]))def forward(self, x):x = self.embedding(x)for layer in self.layers:x = layer(x)return x
3. 实现细节解读
3.1 局部特征提取
- 卷积操作:使用
nn.Conv2d
在局部区域内捕获上下文信息。 - BN 和 ReLU:通过归一化和非线性激活,提升特征表达能力。
self.local_conv = nn.Sequential(nn.Conv2d(3, 3, kernel_size=3, padding=1),nn.BatchNorm2d(3),nn.ReLU(inplace=True)
)
3.2 全局特征提取(Transformer)
- 分块:将图像分割为
patch_size x patch_size
的小块,每个块展开成一维向量。 - 序列建模:通过多层 Transformer Block 捕获长距离依赖。
class TransformerBlock(nn.Module):def __init__(self, d_model=768, nhead=12):super().__init__()self.self_attn = nn.MultiheadAttention(embed_dim=d_model, num_heads=nhead)self.dropout = nn.Dropout(0.1)def forward(self, x):out = self.self_attn(x, x, x)[0]return F.dropout(out, p=0.1, training=self.training)
3.3 特征融合
- 拼接:将局部特征和全局特征在通道维度上进行拼接。
- 卷积操作:通过轻量级的卷积操作生成最终输出。
self.fusion_conv = nn.Sequential(nn.Conv2d(3*2, 3, kernel_size=3, padding=1),nn.BatchNorm2d(3),nn.ReLU(inplace=True)
)
4. 模块的输入输出尺寸分析
输入
- 形状:
[batch_size, in_channels, height, width]
- 示例:
[ batch_size: 4, in_channels: 3 (RGB), height: 224, width: 224 ]
输出
- 相同的尺寸
[batch_size, in_channels, height, width]
- 经过局部和全局特征融合后,输出高质量的视觉表征。
5. 总结与展望
通过结合局部和全局特征提取,MobileViT 成功地在轻量级计算资源的基础上实现了高效的视觉信息处理。这一模块尤其适合应用于移动设备和嵌入式系统中,同时也可以作为其他视觉任务(如目标检测、图像分割)的高效特征提取模块。
未来的工作可以尝试以下方向:
- 优化 Transformer 模块:通过减少头数或简化注意力机制降低计算复杂度。
- 自适应 patch 大小:根据输入尺寸动态调整 patch 的大小,提升模型的灵活性。
- 多尺度融合:在更细粒度的尺度上结合特征信息,进一步提升性能。
希望通过对这一模块的解读和实现,能够帮助读者更好地理解和应用 MobileViT 模型,在实际项目中发挥其优势。
相关文章:
从零开始实现 MobileViT 注意力机制——轻量级Transformer Vision Model 的新思路
从零开始实现 MobileViT 注意力机制——轻量级Transformer Vision Model 的新思路 近年来,计算机视觉领域中 Transformer 模型的崛起为图像处理带来了新的活力。特别是在 ViT(Vision Transformer)模型提出之后,Transformer 在图像…...
Doris部署生产集群最低要求的部署方案
Doris生产集群最低部署方案(2025年4月版) 一、节点规划与数量 1. FE节点(Frontend) 数量:至少 3个节点(1个Follower 2个 Observer),确保高可用(HA)。角色分…...
如何实现“一机两用” 寻求安全与效率的完美平衡
#### 一机两用的背景 在数字化时代,无论是企业还是政府部门,都面临着既要处理内部敏感数据,又要访问互联网获取资源的双重需求。这种需求催生了“一机两用”的模式,即同一台终端设备既要连接内网处理核心业务,又要能够…...
楼宇自控系统如何为现代建筑打造安全、舒适、节能方案
在科技飞速发展的当下,现代建筑对功能和品质的要求日益提升。楼宇自控系统作为建筑智能化的核心技术,宛如一位智慧的“管家”,凭借先进的技术手段,为现代建筑精心打造安全、舒适、节能的全方位解决方案,让建筑真正成为…...
Xilinx 7系列fpga在线升级和跳转
一、常见跳转方式 1,一般FPGA只要上电,就会自动从外部flash的0地址加载程序。 2,而我们所谓的在线式升级就是在flash0地址放一个程序(boot/golden image),然后在后面再放一个程序(app/update …...
【LangChain核心组件】Callbacks机制深度剖析与实战指南
目录 一、通俗解释(举个🌰) 二、具体能干啥? 三、怎么用?(一句话说透) 四、小结 五、为什么Callbacks是LangChain的灵魂组件? 六、Callbacks核心API解析 1、 基础回调处理器 …...
回调函数用法详细讲解
目录 一、通过几个例子,浅谈一下我的学习见解! 二、typedef关键字用法回顾 1)基本语法 2)主要用途 1、为基本数据类型定义别名 2、为复杂类型定义别名 >>1.数组类型 >>2.指针类型 >>3.结构体类型 >…...
Nature子刊:科学家绘制与全身性癫痫发作相关的大脑网络图谱,为新的脑刺激疗法铺平道路
癫痫是一种古老的神经系统疾病,其历史可以追溯到数千年前。在古代,癫痫患者常被误解为受到神灵的惩罚或灵魂的附体,这种误解导致患者在社会中遭受歧视和排斥。然而,随着现代医学的发展,我们逐渐揭开了癫痫的神秘面纱&a…...
postman使用技巧
postman使用技巧 pre-request需求:三方对接的接口需要在请求头中添加如下参数pre-request 中获取环境变量中的变量值pre-request 中添加请求头 参考: pre-request 需求:三方对接的接口需要在请求头中添加如下参数 Accept: application/json…...
代码随想录算法训练营第十九天
LeetCode题目: 77. 组合216. 组合总和 III17. 电话号码的字母组合2537. 统计好子数组的数目(每日一题)516. 最长回文子序列1039. 多边形三角剖分的最低得分543. 二叉树的直径124. 二叉树中的最大路径和2246. 相邻字符不同的最长路径 其他: 今日总结 往期打卡 77. 组合 跳转: 7…...
MySQL联表查询底层原理
MySQL联表查询底层原理 1. 连接算法概述 MySQL在执行联表查询时,主要使用以下三种算法: 1.1 嵌套循环连接(Nested-Loop Join) -- 基本原理:对于左表的每一行,都要在右表中查找所有匹配的行 -- 示例查询…...
静态链接part2
编译 语义分析 由语义分析器完成,这个步骤只是完成了对表达式的语法层面的分析,它并不了解这个语句是否真的有意义(例如在C语言中两个指针做乘法运算,这个语句在语法上是合法的,但是没有什么意义;还有同样…...
在边缘端进行tensorflow模型的部署(小白初探)
1.配置tensorflow的环境 (我是安装GPU版本的) 建议参考这个博主的文章,确实非常快速! 十分钟安装Tensorflow-gpu2.6.0本机CUDA12 以及numpymatplotlib各包版本协调问题_tensorflow cuda12-CSDN博客 2.学习自制数据集 …...
合成数据如何赋能大模型预训练:效果与效率的双重加速器
目录 合成数据如何赋能大模型预训练:效果与效率的双重加速器 一、预训练模型为何需要合成数据? ✅ 克服真实数据的稀缺与偏倚 ✅ 控制训练内容结构与分布 ✅ 提升学习效率与训练稳定性 二、哪些预训练任务适合用合成数据? 三、如何构建…...
【n8n docker 部署的代理问题】解决n8n部署无法访问openai等外国大模型厂商的api
n8n docker 部署的代理问题:解决无法访问 OpenAI 等外国大模型厂商的 API 问题背景 在使用 n8n 进行自动化工作流开发时,经常需要调用 OpenAI 等外国大模型厂商的 API。然而,由于网络限制,直接部署的 n8n 容器无法访问这些 API …...
MongoDB 分账号限制数据访问
MongoDB 分账号限制数据访问 在 MongoDB 中,可以通过几种方式实现不同账号只能访问特定数据的需求,类似于你在 PostgreSQL 中实现的功能。 1. 基于角色的访问控制 (RBAC) 创建用户并分配角色 // 创建只能读取特定数据库的用户 use admin db.createUs…...
可控硅的工作原理和设计参考
可控硅物理结构如下图所示,P-N-P-N,就象两只背靠背的三极管。我们先来分析栅极不作电气联接的情况。当可控硅阴极电位大于阳极电位,J1和J3结反偏,器件截止。当可控硅阴极电位小于阳极电位,J1和J3正偏,但J2反…...
搭建axure cloud私有化平台
要求 https://blog.csdn.net/ss810540895/article/details/145833470 能不能找个空闲服务器,搭建一下 axure服务器,之前他们提供的免费服务终止了,我们需要尽快搭建一下服务。 步骤 mysql 数据库密码 Tbit36987. 分配权限 CREATE USER root…...
【无标题】spark SQL核心编程
MySQL Spark SQL 可以通过 JDBC 从关系型数据库中读取数据的方式创建 DataFrame,通过对 DataFrame 一系列的计算后,还可以将数据再写回关系型数据库中。 IDEA通过JDBC对MySQL进行操作: 1) 导入依赖 <dependency> &l…...
PostgreSql dump导入问题集合
PostgreSql dump导入问题集合 删除数据库无法删除问题 SELECT pg_terminate_backend(pg_stat_activity.pid) FROM pg_stat_activity WHERE datnametest AND pid<>pg_backend_pid();版本检查 pg_restore -l D:/suian/vrms2_backup.dump > D:/suian/vrms22list.txt…...
使用DeepSeek如何提升课题申报书中研究内容的专业性?25个进阶DeepSeek指令
家人们!搞课题申报的是不是都知道,课题申报书里的研究内容那可是重中之重,写得专业不专业直接影响申报能不能成功。今天咱就来唠唠怎么用DeepSeek提升课题申报书中研究内容的专业性,我还给大家准备了25个进阶使用小妙招哦…...
文章记单词 | 第33篇(六级)
一,单词释义 poison [ˈpɔɪzn] n. 毒药;毒物;有害的思想(或心情等);vt. 毒死;毒害;下毒;在… 中放毒;污染;adj. 有毒的justification [ˌdʒʌ…...
【LangChain核心组件】Memory:让大语言模型拥有持续对话记忆的工程实践
目录 一、Memory架构设计解析 1. 核心组件关系图 2. 代码中的关键实现 二、对话记忆的工程实现 1. 消息结构化存储 2. 动态提示组装机制 三、Memory类型选型指南 四、生产环境优化实践 1. 记忆容量控制 2. 记忆分片策略 3. 记忆检索增强 五、典型问题调试技巧 1. …...
GD32裸机程序-SFUD接口文件记录
SFUD gitee地址 SFUD spi初始化 /********************************************************************************* file : bsp_spi.c* author : shchl* brief : None* version : 1.0* attention : None* date : 25-…...
天元证券|调仓曝光!首批科技基金一季报出炉
4月15日,中欧基金、永赢基金、长城基金等公募基金公司旗下部分权益类基金产品一季报出炉。 券商中国记者梳理发现,永赢信息产业智选混合主要聚焦信息技术领域布局,前十大重仓股中9只股票属于信息技术行业,合计占基金资产净值比例达…...
【开源项目】Excel手撕AI算法深入理解(四):AlphaFold、Autoencoder
项目源码地址:https://github.com/ImagineAILab/ai-by-hand-excel.git 一、AlphaFold AlphaFold 是 DeepMind 开发的突破性 AI 算法,用于预测蛋白质的三维结构。它的出现解决了生物学领域长达 50 年的“蛋白质折叠问题”,被《科学》杂志评为…...
React-router v7 第四章(路由传参)
参数传递 React-router 一共有三种方式进行参数传递,参数传递指的是在路由跳转时,将参数传递给目标路由。 Query方式 Query的方式就是使用 ? 来传递参数,例如: #多个参数用 & 连接 /user?name小满zs&age18跳转方式&…...
常用密码技术初探
记得前几年有一部电影叫做《解除好友2:暗网》,它讲述了主角捡到一台电脑,并用它与好友进行视频通讯,但一名黑客通过网络技术篡改了通讯内容,最终导致所有参与视频通话的人都遭遇不测。 电影当然存在夸张成分ÿ…...
电脑知识 | TCP通俗易懂详解 <二>tcp首部
目录 一、👋🏻前言 二、🖃TCP快递单填写(必填部分) 1.🌸TCP快递单样式 2.🏢填写名称 3.🔢TCP序号 4. ✔️TCP确认号 编辑5.✅️确认号的确认号 6.📏首部长度 …...
09-RocketMQ 深度解析:从原理到实战,构建可靠消息驱动微服务
RocketMQ 深度解析:从原理到实战,构建可靠消息驱动微服务 一、RocketMQ 核心定位与架构探秘 1.1 分布式消息领域的中流砥柱 在分布式系统中,消息队列是实现异步通信、解耦服务、削峰填谷的关键组件。RocketMQ 作为阿里巴巴开源的分布式消息…...
MyBatis 如何使用
1. 环境准备 添加依赖(Maven) 在 pom.xml 中添加 MyBatis 和数据库驱动依赖: <dependencies><!-- MyBatis 核心库 --><dependency><groupId>org.mybatis</groupId><artifactId>mybatis</artifactId&g…...
AI日报 - 2025年04月17日
🌟 今日概览(60秒速览) ▎🤖 AGI突破 | OpenAI新模型或证人类未解定理,研究达Level 4 OpenAI安全博客暗示模型将创造新科学,能连接概念提新实验。CEO预测AI将证明人类未解定理,研究员称已达AGI第四层级。 ▎Ǵ…...
【Leetcode-Hot100】缺失的第一个正数
题目 解答 有一处需要注意,我使用注释部分进行交换值,报错:超出时间限制。有人知道是为什么吗?难道是先给nums[i]赋值后,从而改变了后一项的索引? class Solution(object):def firstMissingPositive(sel…...
Servlet简单示例
Servlet简单示例 文章说明 Servlet 虽然是一门旧技术了,但是它的基础性和广泛性仍然不可忽视;我在实践中发现不少同学经常会被它的一些特性给困惑住;时常出现404等错误,这里我写下这篇文章,介绍Servlet的不同版本的特…...
spring:注解@Component、@Controller、@Service、@Reponsitory
背景 spring框架的一个核心功能是IOC,就是将Bean初始化加载到容器中,Bean是如何加载到容器的,可以使用spring注解方式或者spring XML配置方式。 spring注解方式直接对项目中的类进行注解,减少了配置文件内容,更加便于…...
LLM做逻辑推理题 - 野鸭蛋的故事
题目: 四个旅游家(张虹、印玉、东晴、西雨)去不同的岛屿去旅行,每个人都在岛上发现了野鸡蛋(1个到3个)。4人的年龄各不相同,是由18岁到21岁。已知: ①东晴是18岁。 ②印玉去了A岛。 ③21岁的女…...
Linux的目录结构(介绍,具体目录结构)
目录 介绍 具体目录结构 简洁的目录解释 详细的目录解释 介绍 Linux的文件系统是采用级层式的树状目录结构,在此结构的最上层是根目录“/”。Linux的世界中,一切皆文件(比如:Linux会把硬件映射成文件来管理) 具体目…...
C++Cherno 学习笔记day21 [86]-[90] 持续集成、静态分析、参数计算顺序、移动语义、stdmove与移动赋值操作符
b站Cherno的课[86]-[90] 一、C持续集成二、C静态分析三、C的参数计算顺序四、C移动语义五、stdmove与移动赋值操作符 一、C持续集成 Jenkins 商业软件 二、C静态分析 静态分析器会检查你的代码,并尝试检测各种错误,这些错误 可能是你无意中编写的&am…...
python学习 -- 综合案例1:设计一款基于python的飞机大战小游戏
本文目录 pygame模块介绍核心模块与功能开发流程 本文案例 - 飞机大战开发流程1. 导入必要的库2. 定义常量3. 创建精灵类4. 主程序 运行游戏 总结 pygame模块介绍 Pygame 是基于 Python 的开源、跨平台游戏开发库,依托 SDL(Simple DirectMedia Layer&am…...
开启 Python 编程之旅:基础入门实战班全解析
重要的东西放前面 开启 Python 编程之旅:基础入门实战班全解析 开启Python编程之旅:基础入门实战班全解析 在当下热门的编程语言中,Python凭借简洁易读的语法、强大的功能和丰富的库,在数据科学、人工智能、Web开发等诸多领域大…...
Linux笔记---动静态库(原理篇)
1. ELF文件格式 动静态库文件的构成是什么样的呢?或者说二者的内容是什么? 实际上,可执行文件,目标文件,静态库文件,动态库文件都是使用ELF文件格式进行组织的。 ELF(Executable and Linkable…...
SpringBoot整合Logback日志框架深度实践
一、依赖与默认集成机制 SpringBoot从2.x版本开始默认集成Logback日志框架,无需手动添加额外依赖。当项目引入spring-boot-starter-web时,该组件已包含spring-boot-starter-logging,其底层实现基于LogbackSLF4J组合。这种设计使得开发者只需…...
Spring Boot中接入DeepSeek的流式输出
第一步,添加依赖: <!-- WebFlux 响应式支持 --> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-webflux</artifactId> </dependency> 第二步,配置We…...
路由交换网络专题 | 第四章 | 生成树 | VRRP | 边缘端口
拓扑图 (1)SW1、SW2、SW3 三台交换机之间存在环路问题,需要通过生成树协议破环,请简述二层环路可能导致的问题。 因为交换机在收到一个广播帧之后,会对非接收端口进行转发。每台交换机都转发的话,就行形成一…...
SFOS2:常用容器(布局)介绍
一、前言 最近在进行sailfish os的开发,由于在此之前并没有从事过QT开发的工作,所以对这一套颇为生疏,以此记录一下。以下内容不一定完全准确,开发所使用的是Qt Quick 2.6与Sailfish.Silica 1.0两个库。 二、布局 1.Qt Quick 2.…...
VS qt 联合开发环境下的多国语言翻译
添加Linguist 文件方法,如同添加类文件的方式,那样: 其他跟QT的一样的流程,另外在main函数里要注册一下, QTextCodec::setCodecForLocale(textCodec); QTranslator translator5; QString trans5 fi…...
基于 Python 的 ROS2 应用开发全解析
引言 在机器人操作系统(ROS)不断发展的进程中,ROS2 作为新一代的机器人框架,带来了诸多显著的改进与新特性。Python 作为一种简洁、高效且具有强大数据处理能力的编程语言,在 ROS2 应用开发中占据着重要地位。本文将深…...
AI分析师
01 实操 人工 公司需要开发了一个XX系统,在文件夹中包含了XX.csv,其中每一行表示一个XX样本,最后一列为每个样本的标签,现需要设计模型与系统,请按照以下要求完成算法测试。根据要求完成以下任务,将完成的…...
Redis核心数据类型在实际项目中的典型应用场景解析
精心整理了最新的面试资料和简历模板,有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 Redis作为高性能的键值存储系统,在现代软件开发中扮演着重要角色。其多样化的数据结构为开发者提供了灵活的解决方案,本文将通过真实项…...
LLamaIndex中经常使用的三个模块
from aiostream import stream from fastapi import Request from fastapi.responses import StreamingResponse from llama_index.core.chat_engine.types import StreamingAgentChatResponse这四个模块每一个都很实用,在实际开发中经常用到,下面我就详…...