25/2/16 <算法笔记> MiDas原理
MiDaS(Monocular Depth Sensing)是一种基于单目深度估计的技术,它通过深度学习方法使用单张RGB图像(普通2D图像)来估算场景的深度图(Depth Map)。相比于传统的依赖专用深度传感器(如LiDAR或ToF相机)的深度感知方法,MiDaS 不需要额外的硬件,仅依赖普通的单目摄像头即可对场景的深度进行预测。
以下是通俗化的 MiDaS 原理解析:
1. 什么是深度估计?
在计算机视觉中,深度估计旨在为场景中的每个像素估算与摄像机的距离。这种深度信息可以用灰度图表示:
- 场景中的物体越近,像素值越亮(深度越小)。
- 场景中的物体越远,像素值越暗(深度越大)。
MiDaS 生成的结果通常是标准化后的相对深度(Relative Depth),而非绝对物理尺度上的距离。
2. MiDaS 的核心原理
(1) 深度估计的训练目标
MiDaS 的核心目标是通过神经网络从单张 RGB 图像提取有意义的特征,并学习将其映射为深度图。其训练过程基于多种深度相关数据集,将网络训练成为能泛化到多场景、多分辨率、多种镜头的深度估计模型。
与其他深度估计方法相比,MiDaS 关注生成相对深度关系,即:预测场景中的物体之间哪个更远,哪个更近,而非精确的实际测量值。
(2) 网络结构
- MiDaS 使用了一种基于图像特征提取的编码器-解码器(Encoder-Decoder)架构。
- 编码器负责提取图像中的全局特征(例如形状、边缘等),并压缩到低维特征空间。
- 解码器将这些特征逐步上采样,生成与输入图像相同分辨率的深度图。
- 最新版本的 MiDaS 使用 Vision Transformer(ViT) 或强大的卷积网络(如 ResNet 或 EfficientNet)作为特征提取器,使模型能够捕捉更多场景中的长距离依赖关系和复杂特征。
(3) 训练数据来源
- MiDaS 是一种跨领域模型,它通过不同的深度相关数据集进行联合训练,比如:
- 近景目标的精准深度数据集(如 MegaDepth、ReDWeb)。
- 室内场景(如 NYU Depth 数据集)。
- 广域尺度的景深(如 DIW 数据集)。
- 使用了一种叫 Scale-Invariant Loss(尺度不变损失) 的策略,使模型能够在平滑过渡和深度关系中保持稳健。
(4) 输出相对深度
- MiDaS 的结果表示的是像素间的相对深度关系,而不是物理距离。
- 比如说,输出的深度图可能告诉我们“树在汽车后面”,但不能直接告诉我们“树距离摄像头 10 米”。
3. MiDaS 的执行流程
-
输入处理
- 一张 RGB 图像被输入至深度估计模型。
- 图像经过预处理(如标准化和缩放)以适应网络输入。
-
特征提取
- 编码器提取图像的高维抽象特征,捕捉全局场景结构以及物体之间的关系。
-
深度预测
- 解码器将特征映射为二维深度图,并通过独特的损失函数优化输出结果,使相对深度信息更加准确。
-
后处理与输出
- 将神经网络输出的深度图标准化(例如归一化到0-255),方便视觉化或后续任务使用。
在 MiDaS(或单目深度估计)中,模型的核心目标是从输入的 RGB 图像中学习到场景的深度关系,并通过特定的损失函数来优化。这些公式主要围绕以下几个方面展开:前向传播中的深度表示,网络参数优化的损失函数,以及标准化(后处理)操作。
MiDaS 的核心任务是将输入 RGB 图像(3 通道)映射到一个深度图(Depth Map,1 通道)。可以用以下公式表示:
MiDaS 使用多种深度相关的训练数据,其中一部分数据只提供相对深度,而非绝对深度。为此,MiDaS 引入一种尺度不变损失(Scale-Invariant Loss),专注于优化深度关系,而不受绝对尺度的影响。
(1) 尺度不变损失(Scale-Invariant Loss)
尺度不变损失函数用于训练深度估计模型,让其专注于预测正确的点间深度关系,而忽略整体深度的绝对大小。这一损失由两部分组成:点对点误差项和整体协方差项。
(2) 梯度一致性损失(Gradient Consistency Loss)
此外,为了使预测深度图展现更平滑的远近关系,MiDaS 还引入了一个梯度一致性损失,用于比较深度图的梯度变化(即物体边缘和纹理等特征):
(3) 总体损失
结合尺度不变损失和梯度一致性损失,MiDaS 的总体损失函数可以表示为:
λgrad:控制梯度损失对总损失的影响权重(通常是一个超参数)。
输出的深度图经常是未归一化的相对深度,因此需要后处理(标准化)以便易于理解或进一步处理。假设原始深度图的像素值为 D^iD^i,我们可以对其进行线性归一化到区间 [0,1][0,1]:
由于 MiDaS 使用的网络(如 ResNet 或 Vision Transformer)会对输入图像进行下采样,再解码生成深度图,可能会导致输出的深度图分辨率低于原始图像分辨率。因此需要插值进行分辨率恢复:
双线性插值(Bilinear Interpolation):
在推理阶段,单张 RGB 输入图像 II 进入模型后,经过编码器提取特征,再通过解码器生成深度图:
- Wencode:编码器权重,提取图像的特征 ϕ(I)。
- Wdecode:解码器权重,将低维特征还原以输出深度图。
-
最终得到的深度图可以通过归一化和后处理调整,以适用于具体任务。
大致的方法可以归纳为将一张三通道(RGB)的图片编码为一通道(单通道)的过程,但背后还涉及更多的细节来确保模型不仅仅是简单地转换通道,而是能够精准地提取和预测深度信息。
简单归纳:RGB(三通道) -> Depth Map(一通道)
但是,不同于对颜色、纹理等直接编码,这里的一通道并不是像灰度图那样只表示亮度,而是深度信息,即图像中每个像素都含有该点与相机之间的相对距离。模型的核心任务是从三通道图像中理解物体的几何关系和场景的三维信息,而这需要模型具备一些特殊能力:
实际做了哪些复杂的事情
-
特征提取:看透二维信息的本质
- 对于三通道的输入图片来说,RGB 中的红、绿、蓝通道值本身其实只包含像素亮度信息。要估计深度,模型需要从二维特征中提取潜在的三维信息。
- 举个例子:模型要认出两颗球相互遮挡,并判断哪个更靠近镜头。
- 这就需要依赖神经网络的编码器部分(通常是采用预训练的 ResNet 或 Transformer 变种网络),学习到这些复杂的特征关系。
-
相对深度 vs 绝对深度
- 由于单目深度估计只能基于一张图片,它缺乏真实场景的绝对度量(比如激光雷达提供的真实深度值),所以预测出的深度图是一个相对深度图。
- 比如一棵树比一栋建筑物近,但具体的米数可能无法得知。
-
损失函数引导的深度学习
- 模型在训练时依赖特殊的损失函数,比如 MiDaS 提到的尺度不变损失(Scale-Invariant Loss),这类损失函数能避免模型被图片缩放和场景比例的问题干扰,让它更关注哪些物体更近,哪些更远。
-
梯度一致性:确保边界清晰
- 为了让深度预测能捕捉到物体的轮廓和边界,模型还通过梯度损失或边缘一致性损失,强制让深度图中的变化(比如边缘处的深度差)与原图片的结构相一致。
-
后处理:标准化单通道深度图
- 深度图本身是理论上的相对值,因此最后的输出通常会经过归一化或插值来调整尺度或增强可视化效果
相关文章:
25/2/16 <算法笔记> MiDas原理
MiDaS(Monocular Depth Sensing)是一种基于单目深度估计的技术,它通过深度学习方法使用单张RGB图像(普通2D图像)来估算场景的深度图(Depth Map)。相比于传统的依赖专用深度传感器(如…...
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_ssl_init 函数
#if (NGX_OPENSSL)ngx_ssl_init(log); #endif objs/ngx_auto_config.h 中 #ifndef NGX_OPENSSL #define NGX_OPENSSL 1 #endif 所以这个条件编译成立 NGX_OPENSSL 是一个宏定义,用于控制与 OpenSSL 相关的功能是否被启用 若用户通过./configure参数(如-…...
时间盲注Boolen盲注之获取表、列、具体数据的函数
时间盲注 时间盲注(Time-Based Blind SQL Injection)是一种利用数据库响应时间的差异来推断数据的SQL注入技术。它的核心原理是通过构造特定的SQL查询,使得数据库在执行查询时产生时间延迟,从而根据延迟的有无来推断数据。 时间…...
人工智能在文化遗产保护中的创新:科技与文化的完美融合
人工智能在文化遗产保护中的创新:科技与文化的完美融合 引言 文化遗产是人类历史的见证,是我们了解过去、感知现在、展望未来的重要宝贵资源。然而,随着时间的流逝,自然灾害、战争、气候变化以及人为因素等,都对文化遗产的保护造成了严峻挑战。传统的文化遗产保护方法虽…...
linux下OSD使用SDL_ttf生成点阵数据,移植+开发代码详解
前言 在做音视频开发的时候,一般会在视频上增加osd水印,时间或者logo之类的,这种水印其实就是由点阵数据构成,本文使用freetypeSDLSDL_ttf生成文字点阵数据,并保存为bmp格式图片。使用这种方式的优点: 方便…...
渗透测试方向的就业前景怎么样?
互联网各领域资料分享专区(不定期更新): Sheet 前言 渗透测试作为网络安全领域的重要分支,近年来就业前景持续向好,尤其在数字化转型加速、安全威胁加剧的背景下,市场需求显著增长。以下是详细分析: 一、市场需求旺盛 …...
SQL Server:查看当前连接数和最大连接数
目录标题 **1. 查看当前连接数****使用系统视图****使用动态管理视图** **2. 查看最大连接数****通过配置选项****通过服务器属性** **3. 查看连接数的实时变化****4. 设置最大连接数****5. 查看连接的详细信息****6. 使用 SQL Server Management Studio (SSMS)****7. 使用 SQL…...
Windows环境搭建ES集群
搭建步骤 下载安装包 下载链接:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.27-windows-x86_64.zip 解压 解压并复制出3份 es-node1配置 config/elasticsearch.yml cluster.name: xixi-es-win node.name: node-1 path.data: D:\\wor…...
【第15章:量子深度学习与未来趋势—15.3 量子深度学习在图像处理、自然语言处理等领域的应用潜力分析】
一、开篇:为什么我们需要关注这场"量子+AI"的世纪联姻? 各位技术爱好者们,今天我们要聊的这个话题,可能是未来十年最值得押注的技术革命——量子深度学习。这不是简单的"1+1=2"的物理叠加,而是一场可能彻底改写AI发展轨迹的范式转移。 想象这样一个…...
DeepSeek与ChatGPT:AI语言模型的全面对决
DeepSeek与ChatGPT:AI语言模型的全面对决 引言:AI 语言模型的时代浪潮一、认识 DeepSeek 与 ChatGPT(一)DeepSeek:国产新星的崛起(二)ChatGPT:AI 界的开拓者 二、DeepSeek 与 ChatGP…...
DeepSeek-V3模型底层架构的核心技术一(多Token预测(MTP)技术)
一、DeepSeek-V3的框架结构 DeepSeek-V3的框架结构基于三大核心技术构建:多头潜在注意力(MLA)、DeepSeekMoE架构和多token预测(MTP)。这些创新使得模型在处理长序列、平衡计算负载以及生成连贯文本方面表现出色。 1. 基础架构 DeepSeek-V3的基础架构仍然基于Transformer框…...
QT c++ QMetaObject::invokeMethod函数 线程给界面发送数据
在项目开发时,常常需要用线程采集数据,如果要给界面发送数据,本文是方法之二,动态调用。 第一步:在界面类里定义一个带Q_INVOKABLE关键字的函数接收信息 第二步:在线程类里,用 QMetaObject::i…...
netcore https配置
一、生成证书 1. 安装 OpenSSL 如果尚未安装 OpenSSL,可以通过以下命令安装:Ubuntu/Debian:sudo apt update sudo apt install openssl CentOS/RHEL:sudo yum install openssl 2. 生成私钥 使用以下命令生成私钥文件(private.key)…...
centos部署open-webui
提示:本文将简要介绍一下在linux下open-webui的安装过程,安装中未使用虚拟环境。 文章目录 一、open-webui是什么?二、安装流程1.openssl升级2.Python3.11安装3.sqlite安装升级4.pip 下载安装open-webui 总结 一、open-webui是什么? Open W…...
sql语言语法的学习
sql通用语法 sql分类 DDL(操作数据库和表) 操作数据库 操作表_查询 操作表_创建 举例: 操作表_删除 操作表_修改 DML(增删改表中数据) DML添加数据 DML删除数据 DML修改数据 DQL 单表查询 基础查询 条件查询 案例演示: 排序查询 聚合函数 分组查询…...
vueDevtools和文档整合(前端常用工具/插件)
3.vueDevtools安装 chrome插件vue-devtools下载地址: https://chrome.zzzmh.cn/info/nhdogjmejiglipccpnnnanhbledajbpd下载完放到chrome的拓展程序中即可,注意点:vue2和vue3下载版本不同,vue2的话使用稍微老点的版本才行。 详细…...
算法刷题--哈希表--字母异位词和两个数组的交集
哈希表概念 哈希表是根据关键码的值而直接进行访问的数据结构。 直白来讲数组就是一种哈希表。 那么哈希表能解决什么问题呢,一般哈希表都是用来快速判断一个元素是否出现集合里。 那么一般都是将一个集合里面的元素映射为哈希表的索引。 那么设计哈希表的时候需要…...
150,[5] BUUCTF WEB [BJDCTF2020]EasySearch
进入靶场 有个文件 和之前一道题如出一辙 <?php// 开启输出缓冲,将后续所有的输出内容先暂存到缓冲区,而不是直接发送到浏览器ob_start();/*** 生成一个基于随机字符串和唯一标识符的哈希值* return string 返回生成的 sha1 哈希值*/function get_…...
kibana es 语法记录 elaticsearch
目录 一、认识elaticsearch 1、什么是正向索引 2、什么是倒排索引 二、概念 1、说明 2、mysql和es的对比 三、mapping属性 1、定义 四、CRUD 1、查看es中有哪些索引库 2、创建索引库 3、修改索引库 4、删除索引库 5、新增文档 6、删除文档 5、条件查询 一、认识…...
以若依移动端版为基础,实现uniapp的flowable流程管理
1.前言 此代码是若依移动端版为基础,实现flowable流程管理,支持H5、APP和微信小程序三端。其中,APP是在安卓在雷电模拟器环境下完成的,其他环境未测试,此文章中所提及的APP均指上述环境。移动端是需要配合若依前后端分…...
SaaS 平台开发要点
如何在 SaaS 平台的前端开发中,编写高性能、高质量且高度通用化的 Vue 组件 一、组件设计原则 单一职责原则:每个组件只负责一个核心功能受控/非受控模式:同时支持 v-model 和自主状态管理组合式 API:使用 Composition API 提升逻辑复用性可访问性:遵循 WAI-ARIA 规范Typ…...
【Kubernetes】k8s 部署指南
1. k8s 入门 1.1 k8s 简介 需要最需要明确的就是:kubernetes(简称 k8s ) 是一个 容器编排平台 ,换句话说就是用来管理容器的,相信学过 Docker 的小伙伴对于容器这个概念并不陌生,打个比方:容器…...
【Linux】进程间关系与守护进程
文章目录 1. 进程组2. 会话2.1 什么是会话2.2 如何创建会话2.3 守护进程 3. 作业控制 1. 进程组 我们运行下面的命令 sleep 10000 | sleep 20000 | sleep 30000然后查看进程的信息: 可以看到,其实每一个进程除了有进程PID、PPID之外,还属于…...
如何通过AI让PPT制作更轻松:从AI生成PPT到一键智能生成
如何通过AI让PPT制作更轻松:从AI生成PPT到一键智能生成!在这个信息爆炸的时代,PPT几乎成了每个人办公必备的工具。但说到制作PPT,很多人头疼不已——排版、设计、内容的整理,时间一不小心就被浪费掉了。有没有一种方法…...
解决前后端日期传输因时区差异导致日期少一天的问题
前端处理 1. 发送日期字符串而非时间戳 在前端使用日期选择器(如 el-date-picker)获取日期后,将日期转换为特定格式的字符串(如 YYYY-MM-DD)发送给后端,避免直接发送带有时区信息的时间戳或日期对象。这样…...
vue2和vue3生命周期的区别通俗易懂
用最直白的对比帮你理解 Vue2 和 Vue3 生命周期的区别,就像对比手机系统的升级: 一、生命周期阶段对比表(老手机 vs 新手机) 阶段Vue2(老系统)Vue3(新系统)变化说明初始化beforeCre…...
在 Ubuntu 20.04 为 Clash Verge AppImage 创建桌面图标教程
在 Ubuntu 20.04 为 AppImage 创建桌面图标教程 一、准备工作 确保你已经下载了 xxxx.AppImage 文件,并且知道它所在的具体路径。同时,你可以准备一个合适的图标文件(.png 格式)用于代表该应用程序,如果没有合适的图…...
Dockerfile 编写推荐
一、导读 本文主要介绍在编写 docker 镜像的时候一些需要注意的事项和推荐的做法。 虽然 Dockerfile 简化了镜像构建的过程,并且把这个过程可以进行版本控制,但是不正当的 Dockerfile 使用也会导致很多问题。 docker 镜像太大。如果你经常使用镜像或者…...
Flutter 中的生命周期
在 Flutter 中,StatefulWidget 和 StatelessWidget 这两种 Widget 的生命周期不同,主要关注的是 StatefulWidget,因为它涉及到状态的管理和更新。 StatefulWidget 的生命周期: 1. 创建阶段 (Create) createState():…...
AI大模型的文本流如何持续吐到前端,实时通信的技术 SSE(Server-Sent Events) 认知
写在前面 没接触过 SSE(Server-Sent Events),AI大模型出来之后,一直以为文本流是用 WebSocket 做的偶然看到返回到报文格式是 text/event-stream,所以简单认知,整理笔记博文内容涉及 SSE 认知,以及对应的 D…...
项目版本号生成
需求 项目想要生成一个更新版本号,格式为v2.0.20250101。 其中v2.0为版本号,更新时进行配置;20250101为更新日期,版本更新时自动生成。 实现思路 创建一个配置文件version.properties,在其中配置版本号;…...
Spring AI发布!让Java紧跟AI赛道!
1. 序言 在当今技术发展的背景下,人工智能(AI)已经成为各行各业中不可忽视的重要技术。无论是在互联网公司,还是传统行业,AI技术的应用都在大幅提升效率、降低成本、推动创新。从智能客服到个性化推荐,从语…...
ubuntu服务器 如何配置安全加固措施
下面提供一个更详细、一步步的服务器安全加固指南,适合新手操作。我们将从 Fail2Ban、SSH(密钥认证及端口更改)、Nginx 速率限制和日志轮转四个方面进行优化,同时补充一些额外的安全建议。 新的服务器,通常我们会创建一…...
京东java面试流程_java京东社招面试经历
个人背景:java开发工作2年,跳槽2次,被裁一次,无大厂经历,京东内推。整体感觉不错的面试经历,最后败了。 一、面试流程 (1)上机题(60分钟100道选择题,单选多选混合的) (2)技术面(java基础知识…...
多表查询、事务(MySQL笔记第三期)
p.s.这是萌新自己自学总结的笔记,如果想学习得更透彻的话还是请去看大佬的讲解 目录 多表关系多表查询内连接外连接左外连接右外连接 自连接联合查询子查询标量子查询列子查询行子查询表子查询 例题事务方式一方式二事务四大特性(ACID)并发事务问题隔离事务级别 多…...
python电影数据分析及可视化系统建设
博主介绍:✌程序猿徐师兄、8年大厂程序员经历。全网粉丝15w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…...
【06】泛型
文章目录 泛型函数中的泛型结构体中的泛型结构体中的方法 枚举中的泛型 泛型 RUST通过在编译时对泛型代码的单态化(monomorphization)来保证运行效率。即,在编译时对泛型填充具体数据类型转换为特定代码进行编译。 由于RUST编译试图穷举所有…...
C# 鼠标点击ToolStripStatuslabel 在线修改Text属性并存储加载显示Text属性
在实际项目中为方便了解视觉软件的使用性,可能需要添加一些小而稍微实用的功能:一个StipStatus控件上的Label按钮属性Text需要修改并保存,软件重启后能够自动加载修改后的属性名。 定义变量 public static string controlsText System.Windows.Forms.A…...
Deep seek学习日记1
Deepseek最强大的就是它的深度思考,并且展现了它的思考过程。 五种可使用Deep seek的方式(应该不限于这五种,后续嵌入deepseek的应该更多,多了解一点因为官网容易崩~~): 1.deep seek官网 2.硅基流动silicon…...
我的docker随笔46:在x86平台构建龙芯镜像
本文介绍在x86服务器上构建龙芯平台的docker镜像。 前言 去年11月,在龙芯机器上安装了docker工具,并开始尝试研究如何构建龙芯的文件系统。断断续续搞了2个月后,有点结果出来了。前面有文章介绍了如何用debootstrap构建龙芯编译运行环境&…...
某大型业务系统技术栈介绍【应对面试】
微服务架构【图】 微服务架构【概念】 微服务架构,是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值。在微服务架构中,服务与服务之间通信时,通常是…...
wordpress资讯类网站整站打包
wordpress程序,内置了价值499元的模板.但是有了模板没有全自动采集相信大多数人都搞不懂,目录那么多,全靠原创几乎是不可能的事情,除非你是大公司,每人控制一个板块, 这套源码里面最有价值的应该是这个采集…...
移动端测试的挑战与解决方案:兼容性、网络问题及实战策略
引言 移动应用已成为用户触达服务的核心入口,但移动端测试面临设备多样性、网络波动、用户场景复杂等多重挑战。据Statista统计,2023年全球活跃移动设备超180亿台,操作系统(Android/iOS)版本碎片化率超30%,这对测试工程师提出了极高要求。本文深度解析移动端测试的核心痛…...
基于JAVA的幼儿园管理系统的设计与实现源码(springboot+vue+mysql)
项目简介 幼儿园管理系统实现了以下功能: 基于JAVA的幼儿园管理系统的设计与实现的主要使用者管理员可以管理系统基本信息;管理轮播图、系统简介、教师管理、课程管理、幼儿活动管理、餐饮管理、留言管理等功能;前台用户注册登录࿰…...
【Java学习】二维数组
一个数组变量里存的是哈希值(存的大小内容是固定的),它指向对应在堆区上的数组空间,当一个数组变量里存的哈希值指向的在堆上的数组空间里面的一个个引用元素存储的是一个个哈希值指向在堆区上的又一个个数组空间时,此时就形成了二维数组&…...
express + vue 部署宝塔
域名备案 我这里是不同的账号,需要先登录服务器的账号生成授权码给到对应域名的账号。目前域名审核中。 进入域名账号,进行备案即可。 登录阿里云密码设置 未设置登录远程服务的密码,要先设置密码。 登录服务 设置安全组 根据宝塔的需要端…...
前端与后端的对接事宜、注意事项
前端与后端的对接事宜、注意事项 一、对接核心流程(完整生命周期) #mermaid-svg-6yzij6OD8DKqiMLD {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-6yzij6OD8DKqiMLD .error-icon{fill:#552222;}#mermaid-svg-6yzi…...
【计算机网络】传输层数据段格式
在计算机网络中,数据段(Segment) 是传输层协议(如 TCP 或 UDP)使用的数据单元。TCP 和 UDP 的数据段格式有所不同,以下是它们的详细说明: 1. TCP 数据段格式 TCP(传输控制协议&…...
web第三次作业
弹窗案例 1.首页代码 <!DOCTYPE html><html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>综合案例</title><st…...
深度学习(1)-简单神经网络示例
我们来看一个神经网络的具体实例:使用Python的Keras库来学习手写数字分类。在这个例子中,我们要解决的问题是,将手写数字的灰度图像(28像素28像素)划分到10个类别中(从0到9)。我们将使用MNIST…...