当前位置：首页 > news >正文

深度学习（第3章——亚像素卷积和可形变卷积）

news 来源：原创 2025/8/6 2:25:18

前言：

本章介绍了计算机识别超分领域和目标检测领域中常常使用的两种卷积变体，亚像素卷积（Subpixel Convolution）和可形变卷积（Deformable Convolution），并给出对应pytorch的使用。

亚像素卷积（Subpixel Convolution）：

由低维特征图还原为高维特征图，在上一章已经介绍了一种常用方法：转置卷积，链接如下：深度学习（第2章——卷积和转置卷积）_转置卷积层-CSDN博客https://blog.csdn.net/wlf2030/article/details/147479684?spm=1001.2014.3001.5502

但转置卷积的核心为填充0或双线性插值再正向卷积，这种做法会导致最后还原的图像出现棋盘伪影（可以通过设置卷积核整除步长或插值上采样缓解）。

亚像素卷积也是一种上采样方法，其核心操作为重新排列多个特征图的单个像素转化为上采样特征图的亚像素，下面图可以直观展现这一过程。

也可借助代码理解。

import torch
import torch.nn as nn
r = 2  # 上采样倍率
PS = nn.PixelShuffle(r)  # 初始化亚像素卷积操作
x = torch.arange(3*4*9).reshape(1, 3*(r**2),3, 3) #3通道 r*r表示每个像素对应特征图像素数目，特征图长宽
print(f'*****************************************')
print(f'input is \n{x}, and size is {x.size()}')
y = PS(x)  #  亚像素上采样
print(f'*****************************************')
print(f'output is \n{y}, and size is {y.size()}')
print(f'*****************************************')
print(f'upscale_factor is {PS.extra_repr()}')
print(f'*****************************************')

使用torch官方提供的已经定义好的亚像素卷积层，形参为上采样倍数。这里的含义为将一个12通道的3*3的特征图上采样还原为一个3通道6*6的特征图，程序输出如下：

变为了

可形变卷积（Deformable Convolution）：

传统卷积使用卷积核滑动遍历图片在目标检测的目标发生扭曲时效果较差，原因在于传统卷积固定了位置相对关系，比如对于溜冰鞋的目标检测，卷积层可能提取的特征为在轮子上的鞋子，但当图片反转时变成了轮子在鞋子上方就有可能无法检测到。为了解决相对位置变化对卷积提取的影响，可形变卷积引入一个可学习的偏移矩阵，从而能够输入内容动态调整卷积的位置，自适应地捕捉复杂空间变形。传统卷积操作作用为学习卷积区域的特征，而引入的偏置矩阵用于学习应该使用哪些位置的像素做卷积。

核心注意点：

1.偏移矩阵是针对每次卷积操作卷积核上获取对应每个像素的x,y坐标偏移量。

2.由于偏移矩阵不可能每轮训练最终像素都刚好为整数，所以需要使用双线性插值获取发生小数偏移对应位置的像素。

3.可形变卷积相当于在传统卷积前做了一步位置映射操作，其余部分不变。

结合代码：

import torch
import torch.nn as nn
from torchvision.ops import DeformConv2d# 定义可变形卷积层
class DeformableConv(nn.Module):def __init__(self, in_channels, out_channels, kernel_size=3):super().__init__()# 偏移量生成层（学习"Where"）self.offset_conv = nn.Conv2d(in_channels,2 * kernel_size * kernel_size,  # 2N offsetskernel_size=kernel_size,padding=kernel_size // 2,)# 可变形卷积层（学习"What"）self.deform_conv = DeformConv2d(in_channels,out_channels,kernel_size=kernel_size,padding=kernel_size // 2)def forward(self, x):# 生成偏移量offsets = self.offset_conv(x)  # [B, 2N, H, W]print(offsets.shape)# 应用可变形卷积return self.deform_conv(x, offsets)  # 同时利用卷积核权重和偏移量# 定义输入 (batch=1, channels=1, height=4, width=4)
input = torch.tensor([[[[1., 2., 3., 4.],[5., 6., 7., 8.],[9., 10., 11., 12.],[13., 14., 15., 16.]]
]], requires_grad=True)  # 需要梯度以支持反向传播
print("Input shape:", input.shape)  # [1, 1, 4, 4]dcn = DeformableConv(in_channels=1, out_channels=1, kernel_size=3)
print(dcn(input))

这里是使用一层传统卷积（offset_conv）获取偏移量矩阵，输入通道即为整个可形变卷积层的输入通道，输出通道固定为2倍后续传统卷积的卷积核大小，2表示获取x，y轴上的偏移，如果是1则只能获取单个方向的偏移，乘卷积核大小是应为原本传统卷积对输入特征图的一个像素进行卷积是需要计算卷积核大小的数据，当然卷积核中每个像素都需要一对(x,y)的偏移。而获取偏移量大小的卷积层卷积核大小没有固定要求，这里建议保持和后续传统卷积的卷积核大小相同，但padding一定需要保证为设置的卷积核//2（即保证输入输出的特征图大小相同，否则会导致原特征图的像素1对1映射关系错误），同时使用torch定义好的可形变卷积，其作用在于设置偏移量矩阵后完成后续的双线性插值以及对偏移映射后的矩阵进行传统卷积，其在设置偏移量=0时数学等价于传统卷积（实际上仍然会执行双线性插值可能造成误差）。

最后输出如下：

注意训练时训练的是提取偏移量的传统卷积层卷积核参数（而非直接训练每个特征图的坐标偏移，坐标偏移实际是由这层卷积获取的，否则只训练坐标偏移参数最终相当于仍然固定了映射关系和传统卷积没有任何差异，只有训练卷积核才能让模型知道对于一张特征图应当采用怎样的偏置，以及也可以叠加获取offset矩阵的层数，这里只使用了一层卷积，从而获得更好的泛化能力）+可形变矩阵部分的卷积核参数，如果理解这段话的含义，便可以说理解了可形变卷积的核心。

最后：

目前本人研究方向有超分，目标检测和重识别，对上述方向感兴趣的小伙伴可以关注，后续会更新以上知识以及相关论文。

深度学习（第3章——亚像素卷积和可形变卷积）

前言： 本章介绍了计算机识别超分领域和目标检测领域中常常使用的两种卷积变体，亚像素卷积（Subpixel Convolution）和可形变卷积（Deformable Convolution），并给出对应pytorch的使用。亚像素卷积…...

编程日记 2025/8/6 2:25:18

5.15 学习日志

1.SST（总平方和）、SSR（回归平方和）、SSE（残差平方和）之间的关系。在使用线性回归模型时，经常提到的统计量MSE（Mean Squared Error、均方误差）：是 SSE 的平均…...

编程日记 2025/8/6 2:20:23

重排序模型解读：gte-multilingual-reranker-base 首个GTE系列重排模型诞生

模型介绍 gte-multilingual-reranker-base 模型是 GTE 模型系列中的第一个 reranker 模型，由阿里巴巴团队开发。模型特征： Model Size: 306MMax Input Tokens: 8192 benchmark 关键属性： 高性能：与类似大小的 reranker 模型…...

编程日记 2025/8/3 18:04:44

计算机发展的历程

计算机系统的概述一, 计算机系统的定义计算机系统的概念计算机系统硬件软件硬件的概念计算机的实体, 如主机, 外设等计算机系统的物理基础决定了计算机系统的天花板瓶颈软件的概念由具有各类特殊功能的程序组成决定了把硬件的性能发挥到什么程度软件的分类…...

编程日记 2025/8/6 2:18:10

【通用智能体】Search Tools：Open Deep Research 项目实战指南

Open Deep Research 项目实战指南一、项目运行方式（一）运行环境要求（二）运行方式（三）传统本地运行（四）Docker 容器运行二、操作步骤（一）使用搜索功能&#…...

编程日记 2025/8/4 12:11:44

nodejs 文件的复制

在 Node.js 中，文件复制操作可以通过多种方式实现，具体取决于文件大小、性能需求以及是否需要保留文件元数据（如权限、时间戳等）。以下是几种常见的文件复制方法及其示例代码： 1. 使用 fs.copyFile（简单高…...

编程日记 2025/8/6 2:18:10

GO语言学习（三）

GO语言学习（三） GO语言的独特接口可以实现内容和面向对象组织的更加方便，我们从这里来详细的讲解接口，让大家感受一下interface的魅力 interface定义首先接口是一组方法签名的组合，我们通过接口来实现定义对象的一…...

编程日记 2025/8/2 22:20:02

高频面试题（含笔试高频算法整理）基本总结回顾61

干货分享，感谢您的阅读！ （暂存篇---后续会删除，完整版和持续更新见高频面试题基本总结回顾（含笔试高频算法整理）） 备注：引用请标注出处，同时存在的问题请在相关博客留言…...

编程日记 2025/8/6 1:17:08

C++:C++内存管理

C 内存分区 C 内存分为 5 个主要区域： 栈 (Stack)：存储局部变量、函数参数和返回地址。由编译器自动分配和释放，效率高但空间有限。堆 (Heap)：动态分配的内存区域，需手动管理（new/delete 或 malloc/free…...

编程日记 2025/8/4 1:29:54

目标跟踪相关综述文章

文章年份会议/引用量IFObject tracking:A survery20067618Object Tracking Methods:A Review2019554Multiple object tracking: A literature review20201294Deep learning for multiple object tracking: a survey2019145Deep Learning for Visual Tracking:A Comprehensive S…...

编程日记 2025/7/25 17:55:59

JavaScript【6】事件

1.概述： 在 JavaScript 中，事件（Event）是浏览器或 DOM（文档对象模型）与 JavaScript 代码之间交互的一种机制。它代表了在浏览器环境中发生的特定行为或者动作，比如用户点击鼠标、敲击键盘、页面…...

编程日记 2025/7/30 7:56:07

Python训练打卡Day26

函数专题1：函数定义与参数知识点回顾： 函数的定义变量作用域：局部变量和全局变量函数的参数类型：位置参数、默认参数、不定参数传递参数的手段：关键词参数传递参数的顺序：同时出现三种参数类型时到目前为…...

编程日记 2025/8/3 9:41:44

通俗版解释CPU、核心、进程、线程、协程的定义及关系

通俗版解释（比喻法） 1. CPU 和核心 CPU 一个工厂（负责干活的总部）。核心工厂里的车间（比如工厂有4个车间，就能同时处理4个任务）。 2. 进程进程一家独立运营的公司（比如一家…...

编程日记 2025/8/4 20:52:33

微积分基本规则及示例解析

微积分中的基本规则是构成微积分理论和应用的基石。以下是一些微积分中的基本规则，我将用简单的例子来解释它们，以便小学生也能理解。 1. **极限规则**： - 常数的极限：\(\lim_{x \to a} c c\) - 例如，\(\lim…...

编程日记 2025/8/5 3:48:10

Baklib知识中台构建企业智能服务新引擎

知识中台构建智能服务新范式随着企业数字化转型进入深水区，传统知识管理模式的局限性日益显现——分散的文档系统、低效的信息检索以及割裂的业务场景，严重制约着组织效能的释放。在此背景下，Baklib提出的知识中台解决方案，通过…...

编程日记 2025/7/31 10:22:17

Python实例题：Python百行制作登陆系统

目录 Python实例题题目 python-login-systemPython 百行登录系统脚本代码解释用户数据库： 注册功能： 登录功能： 主程序： 运行思路注意事项 Python实例题题目 Python百行制作登陆系统 python-login-systemPython…...

编程日记 2025/8/4 1:50:57

Java求职面试：从核心技术到大数据与AI的场景应用

面试场景： 在某互联网大厂的面试间，一位严肃的面试官正准备对面前的求职者谢飞机进行技术面试。谢飞机虽然有些紧张，但他相信凭借自己的机智和幽默能够顺利通过。第一轮提问：核心语言与平台的基础问题面试官：“谢…...

编程日记 2025/8/5 23:36:25

系统架构设计（六）：面向对象设计

核心概念概念含义说明对象（Object）现实世界事物的抽象表示，包含属性（状态）和方法（行为）类（Class）一类对象的抽象模板继承（Inheritance）子类继承…...

编程日记 2025/8/5 15:45:51

国内AWS CloudFront与S3私有桶集成指南：安全访问静态内容

在现代web应用架构中，将静态内容存储在Amazon S3中并通过CloudFront分发是一种常见且高效的做法。本指南将详细介绍如何创建私有S3桶，配置CloudFront分配，并使用Origin Access Identity (OAI)来确保安全访问。步骤1：创建S3桶首先，我们需要创建一个名为"b-static&…...

编程日记 2025/7/29 11:21:47

MATLAB进行深度学习网络训练

文章目录前言环境配置一、环境部署二、数据准备三、训练配置与执行四、模型评估与优化五、高级技巧六、实战案例：COVID-19 肺部 CT 图像分类前言在 MATLAB 中进行深度学习网络训练主要分为数据准备、网络构建、训练配置和模型评估四个核心步骤。以下是详细教程&…...

编程日记 2025/8/1 6:57:43

jvm安全点(三)openjdk17 c++源码垃圾回收之安全点结束，唤醒线程

1. VMThread::inner_execute() - 触发安全点 cpp 复制 void VMThread::inner_execute(VM_Operation* op) { if (op->evaluate_at_safepoint()) { SafepointSynchronize::begin(); // 进入安全点，阻塞所有线程 // ...执行GC等操作... SafepointSynchronize::…...

编程日记 2025/8/4 0:16:58

局部放大maya的视图HUD文字大小的方法

一、问题描述： 有网友问：有办法局部放大maya的字体吗比如hud中currenttime打开之后画面右下角有个frame 想放大一下能做到吗？ 在 Maya 中，可以通过自定义 HUD（Heads-Up Display）元素的字体大小来局部放大特…...

编程日记 2025/8/5 8:09:04

Vue.js 教学第三章：模板语法精讲，插值与 v-bind 指令

Vue.js 模板语法精讲：插值与 v-bind 指令在 Vue.js 开发中，模板语法是构建动态用户界面的核心。本文将深入讲解两大基础模板语法：插值（{{ }}）和 v-bind 指令，通过大量实例帮助你掌握这些关键概念。一、插值语法：双花括号的魔法 1.1 基础文本插值双花括号是最简单的…...

编程日记 2025/8/2 18:58:08

系统架构设计师案例分析题——软件架构设计篇

重中之重，本题争取拿下25满分~ 目录一.核心知识 1.什么是架构风格 2.RUP的9个核心工作流 3.企业应用集成方式 4.软件质量属性 5.SySML系统建模语言9种图 6.云计算架构 7.中间件 8.构件、连接件、软件重用 9.层次型架构的缺点 10.架构开发方法ADM 11.微…...

编程日记 2025/8/2 8:38:23

系统架构设计（十一）：架构风格总结2

架构风格汇总架构风格核心特点应用场景分层架构（Layered）将系统划分为多个层次，每层只依赖于下一层企业应用、MIS 系统、三层架构客户端-服务器（C/S）分为服务端与客户端，服务集中，客户端请求数…...

编程日记 2025/7/30 11:25:29

泛微对接金蝶云星空实战案例技术分享

前言在企业信息化建设中，OA系统与ERP系统对接往往是一个复杂而关键的环节。OA系统通常具有高度的自定义性，其基础资料和单据可能与ERP系统存在字段不一致等问题。同时，OA系统涉及审批流程及流程发起方定义，增加了对接的复杂性。…...

编程日记 2025/7/30 8:54:52

Predict Podcast Listening Time-(回归+特征工程+xgb)

Predict Podcast Listening Time 题意： 给你没个播客的信息，让你预测观众的聆听时间。数据处理： 1.构造新特征收听效率进行分组 2.对数据异常处理 3.对时间情绪等进行数值编码 4.求某特征值求多项式特征 5.生成特征组合 6.交叉验证并enc…...

编程日记 2025/8/2 12:34:00

Java并发编程的挑战：从理论到实战

在现代软件开发中，随着多核处理器的普及和系统性能要求的提高，并发编程已经成为Java开发者必须掌握的核心技能之一。然而，Java并发编程不仅仅是“创建多个线程”那么简单，它涉及到线程安全、资源竞争、死锁、通信机制、性能优化等多个复杂问题。本文将围绕Java并发编程中…...

编程日记 2025/8/5 1:01:46

大麦（Hordeum vulgare）中 BAHD 超家族酰基转移酶-文献精读129

Systematic identification and expression profiles of the BAHD superfamily acyltransferases in barley (Hordeum vulgare) 系统鉴定与大麦（Hordeum vulgare）中 BAHD 超家族酰基转移酶的表达谱分析摘要 BAHD 超家族酰基转移酶在植物中催化和调控次…...

编程日记 2025/8/5 17:15:05

信任的进阶：LEI与vLEI协同推进跨境支付体系变革

在全球经济版图加速重构的背景下，跨境支付体系正经历着前所未有的变革。2022年全球跨境支付规模突破150万亿美元，但平均交易成本仍高达6.04%，支付延迟超过2.7天。这种低效率背后，隐藏着复杂的身份识别困境：超过40%的…...

编程日记 2025/8/4 3:42:18

当语言模型学会犯错和改正：搜索流(SoS)方法解析

引言语言模型的能力日新月异，但它们在执行复杂规划任务时仍面临着明显的局限。这是因为大多数训练数据只展示了最终的"正确答案"，而非解决问题的完整过程。想象一下，如果我们只能看到数学题的最终答案，而从不知道解题…...

编程日记 2025/8/1 10:55:42

Centos7.9同步外网yum源至内网

curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo curl -o /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo yum makecache yum repolist安装软件 yum install -y yum-utils createrepo # yum-utils包含re…...

编程日记 2025/8/5 22:45:15

前言：

亚像素卷积（Subpixel Convolution）：

可形变卷积（Deformable Convolution）：

最后：

相关文章：