MoGe---最新单目3D几何估计方法
目录
一、概述
二、相关工作
1、单目深度估计
2、单目几何估计
3、相机内参估计
4、单目几何的大规模数据训练
三、前置知识
1、仿射不变和尺度不变指标
2、FOV和shift
3、ROE对齐求解器
四、MoGe
1、为什么设计仿射不变?
2、恢复相机焦距和移位
3、MoGe框架
五、实验
1、点映射比较
2、单目深度估计比较
3、FOV比较
4、消融实验
5、可视化
一、概述
该论文提出了一个从单张单目图像中直接预测场景三维点云表示的模型MoGe。利用仿射不变性,不受真实尺度和位移的影响,从而消除了相机焦距产生的歧义。另外提出一种新颖的全局和局部几何监督技术,使模型学习到高质量的几何信息。该模型在包括3D点图,深度图,FoV(相机视场)单目估计中都显著优于最先进的方法。
MGE:Monocular geometry estimation
MDE:Monocular depth estimation
(1)提出了一种新的仿射不变点映射的开放域图像的直接MGE方法。
(2)建立了新的有效的全局和局部监督的鲁棒和精确的几何恢复。
(3)不同数据集下,MGE,MDE,FOV估计均达到SOTA,(可以替代DUSt3R来提供3D prior)

二、相关工作
1、单目深度估计
早期的单目估计严重依赖特定传感器的数据,比如RGBD相机,LiDAR,校准立体相机,但是存在特定领域的适用性。
另外在单目估计近期仿射不变预测或者直接回归或生成模型的方式,但恢复三维几何需要相机内参。
2、单目几何估计
单目点图估计恢复的是每个像素的自由三维点。
LeReS引入仿射不变预测的两阶段pipeline,然后通过点云模块恢复位移和相机焦距。
UniDepth通过自我提示的相机模块,预测摄像机表示来调整后续深度估计。
DUSt3R通过端到端双视图映射点图,但依据尺度不变性,会导致受到焦距模糊影响。
3、相机内参估计
早期工作依据已知三维形状或vanishing points。最近依赖基于学习的方式,但效果并不满意。
4、单目几何的大规模数据训练
MiDaS混合不同领域数据集训练。
Depth Anything使用有标记的和未标记的数据来提高泛化,v2工作进一步强调高质量合成数据也可以提供更多丰富的几何形状信息。
三、前置知识
1、仿射不变和尺度不变指标
首先定义分别为预测点和GT点,
分别表示预测深度和GT深度,对应着点的z坐标,
表示GT的mask,
分别表示将预测和GT对齐的尺度和位移,
表示预测视差和GT视差,定义为
。
尺度不变点映射
仿射不变点映射
尺度不变深度映射
仿射不变深度映射
仿射不变视差映射
其中为防止对齐视差过小或负值,则利用进行反向截断,对齐深度
表示为:
2、FOV和shift
FOV:视场角 (标准镜头45度,近景镜头:40度,广角镜头:60度)(FOV越大,看的范围越宽)
EFL: 焦距(焦距越大,看的越远)
FOV与EFL关系:,其中W为传感器宽度,由垂直fov和水平fov限制。

单目几何估计输出场景三维模型,一般利用SfM,以往的MGE都是估计一个depth map,并且以未知的scale来结合相机内参,通过非投影方式恢复三维形状。
相较于DUSt3R,使用多视图深度估计,使用尺度不变点映射,MoGe可以单目估计,而且使用仿射不变点映射。
z轴方向的shift:就是相机在z轴方向的前后偏移。
3、ROE对齐求解器
ROE 对齐求解器是一种高效的并行搜索算法,用于求解全局损失中的最优对齐参数 s∗ 和 t∗。它将原优化问题分解成一系列并行的一维子问题,将时间复杂度从降低到
,大大提高了训练效率。同时,它还引入了截断绝对残差的策略,进一步提高了鲁棒性。
MoGe中的全局损失和局部损失中的都来自于ROE算法。

四、MoGe
1、为什么设计仿射不变?
根据下图,相似的一前一后两张单目图像,受到相机焦距和与物体的距离影响,导致在尺度不变性下存在不一致的观察效果,而仿射不变性下一致。这是不是也揭示了一些基于DUSt3R进行3D prior的生成模型,在不同视角下,与GT视角只保持了尺度一致,并不能保持仿射一致,不同视角下就会想着相机方向扭曲。

2、恢复相机焦距和移位
仿射不变点映射可以恢复相机位移和焦距,给定预测点以及二维像素
,可以求解相机焦距预测
和z轴偏移
。全局尺度s,
。
看到附录里还有一部分直接简化掉焦距的计算,只最小化。
3、MoGe框架

流程:
输入一张单目图像,经过DINOV2 预训练的ViT+轻量级的基于CNN的上采样器预测一个仿射不变点图和一个掩码
用于排除无法定义几何的区域(如天空),直接给定为无穷远。
之后从和
中通过ROE确定全局尺度因子s和平移t,并通过损失来优化参数,在推理过程直接就通过ROE求解得到最优的s和t。
最后有了s和t,通过仿射不变点图恢复出相机空间下的点云
,进一步通过点云P提取出深度图,就是提取所有点的z坐标。
而这个模型最优的点在于开创了一系列创新的全局和局部几何监督损失函数:
(1)全局损失:相较于以往的只考虑尺度不变,引入了偏移t。
训练时应用全局损失来优化s和t,但是首先应该确定s和t,论文中提出了一种并行搜索方法ROE将问题分解为一系列平行一维子问题,降低复杂度到。
(2)局部损失:保证在不同尺度下,独立预测和GT点云进行仿射对齐,计算局部几何差异。
计算过程如下,首先给定一个GT 3D点作为锚点,选择以
为中心,半径为
的球形区域内的点集
。
,其中
,
是
深度(z坐标),
为焦距,
为图像宽和高,
,代表近似表示投影球体直径占图像对角线的比例,
然后对这个局部点集应用ROE对齐求解器,得到对齐参数
局部损失计算:论文给定,就是求一个局部球内的深度损失。
下图表达单目几何估计下不同物体之间的相对距离可能模糊,所以考虑对于不同尺度进行分别估计。
(3)法线损失:计算预测法线和GT法线的向量角度差,保证预测点云法线和真实法线一致,预测点云法线通过与图像网格相邻边叉积得到。
(4)掩码损失:对于合成数据集,可以提前知道天空的mask,对于真实数据集使用SegFormer获得天空的mask,并且二值化,目的是监督模型预测正确的无效区域掩码,相当于直接给天空无穷远的z轴值。
五、实验
1、点映射比较
2、单目深度估计比较
3、FOV比较
4、消融实验
truncation是视差做截断的部分,是局部损失。
5、可视化
论文参考:https://arxiv.org/abs/2410.19115
相关文章:
MoGe---最新单目3D几何估计方法
目录 一、概述 二、相关工作 1、单目深度估计 2、单目几何估计 3、相机内参估计 4、单目几何的大规模数据训练 三、前置知识 1、仿射不变和尺度不变指标 2、FOV和shift 3、ROE对齐求解器 四、MoGe 1、为什么设计仿射不变? 2、恢复相机焦距和移位 3、…...
springboot/ssm私房菜定制上门服务系统Java代码编写web厨师上门做菜
springboot/ssm私房菜定制上门服务系统Java代码编写web厨师上门做菜 基于springboot(可改ssm)htmlvue项目 开发语言:Java 框架:springboot/可改ssm vue JDK版本:JDK1.8(或11) 服务器:tomcat 数据库&am…...
D105【python 接口自动化学习】- pytest进阶参数化用法
day105 pytest参数化parametrize多参数 学习日期:20241224 学习目标:pytest基础用法 -- pytest参数化parametrize多参数 学习笔记: 参数化 parametrize # 多次循环 pytest.mark.parametrize("a,b",[("c","d&qu…...
永磁同步电机控制算法-自适应带宽LADRC转速控制器
一、原理介绍 设计了自适应带宽 LADRC 控制方法,继承了 LADRC 优点的同时,加入自适应带宽控制,提出运用 Softsign 函数设计带宽自适应函数,根据电机转速自动调节控制带宽,解决了永磁同步电机在复杂且多变的环境下受到…...
lodash常用函数
文章目录 一、数组1、chunk分组2、difference、differenceBy、differenceWith3、findIndex4、intersection、intersectionBy、intersectionWith5、union、unionBy、unionWith 二、对象1、pick、omit 2、get、set三、数学1、sum、sumBy2、range 四、工具函数1、isEqual、isEmpty…...
Pytorch | 利用AI-FGTM针对CIFAR10上的ResNet分类器进行对抗攻击
Pytorch | 利用AI-FGTM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集AI-FGTM介绍算法流程初始化迭代更新( t 0 t 0 t0 到 T − 1 T - 1 T−1)迭代完成 AI-FGTM代码实现AI-FGTM算法实现攻击效果 代码汇总aifgtm.pytrain.pyadvtest.py 之前已经…...
如何在谷歌浏览器中启用语音搜索
想象一下,你正在拥挤的地铁上,双手都拿着沉重的购物袋,突然你想搜索附近的咖啡馆。此时如果你能通过语音而不是打字来进行搜索,那将多么的便利!在谷歌浏览器中,启用语音搜索功能就是这么简单而高效…...
[搜广推]王树森推荐系统笔记——曝光过滤 Bloom Filter
曝光过滤 & Bloom Filter 曝光过滤主要在召回阶段做,主要方法是Bloom Filter 曝光过滤问题 -如果用户看过某个物品,则不再把该物品曝光给该用户。 - 原因是重复曝光同一个物品会损害用户体验 - 但长视频通常没有曝光过滤(youtube&…...
实现Python将csv数据导入到Neo4j
目录 一、获取数据集 1.1 获取数据集 1.2 以“记事本”方式打开文件 1.3 另存为“UTF-8”格式文件 1.4 选择“是” 二、 打开Neo4j并运行 2.1 创建新的Neo4j数据库 2.2 分别设置数据库名和密码 编辑 2.3 启动Neo4j数据库 2.4 打开Neo4j数据库 2.5 运行查看该数据库…...
springboot启动不了 因一个spring-boot-starter-web底下的tomcat-embed-core依赖丢失
这个包丢失了 启动不了 起因是pom中加入了 <tomcat.version></tomcat.version>版本指定,然后idea自动编译后,包丢了,删除这个配置后再也找不回来, 这个包正常在 <dependency><groupId>org.springframe…...
Java 日志类库
Java 日志库是最能体现 Java 库在进化中的渊源关系的,在理解时重点理解日志框架本身和日志门面,以及比较好的时间等。要关注其历史渊源和设计(比如桥接),而具体在使用时查询接口即可,否则会陷入 JUL&#x…...
【python】银行客户流失预测预处理部分,独热编码·标签编码·数据离散化处理·数据筛选·数据分割
数据预处理 通过网盘分享的文件:银行流失预测数据和代码 链接: https://pan.baidu.com/s/1loiB8rMvZArfjJccu4KW6w?pwdpfcs 提取码: pfcs 非数值特征处理 目的:将非数值特征转换为数值型,以便模型能够处理。方法: 地理位置&am…...
Linux | scp指令基于WSL在Windows/Ubuntu系统间传输文件
. 背景 在Windows系统里,使用WSL连接远程Linux(Ubuntu)服务器是如今一个很常见的操作流程(有利于WFH哈哈)。 在使用远程机器的时候,通常需要将本地的文件上传、或将远程的文件下载。 问题:如…...
类设计者的核查表
核查表 第一篇 如何设计类你的类需要复制构造函数吗何时不需要自定义复制构造函数何时需要自定义复制构造函数总结 什么时候需要将构造函数和赋值运算符设置为私有?1. 单例模式(Singleton Pattern)2. 禁止复制和赋值3. 工厂模式(F…...
深入解析:Python中的决策树与随机森林
在这个数据驱动的时代,机器学习技术已经成为许多企业和研究机构不可或缺的一部分。其中,决策树和随机森林作为两种强大的算法,在分类和回归任务中表现尤为出色。本文将带领大家深入了解这两种算法在Python中的实现,从基础到实战&a…...
umi : 无法加载文件 D:\software\nodejs\node_global\umi.ps1,因为在此系统上禁止运行脚本。
问题详情 2、解决方法 1.使用命令 get-ExecutionPolicy查看 显示Restricted:限制 所以要给权限 2. 使用命令:Set-ExecutionPolicy -Scope CurrentUser 3. 会提示为参数提供值 4. 输入: RemoteSigned 具体如下图所示,成功解决。 报…...
十四、从0开始卷出一个新项目之瑞萨RZN2L之栈回溯(Default_Handler/hartfault)
目录 一、概述 二、参考资料 三、代码 四、日志 五、定位函数调用 六、README和工具 一、概述 软件开发中常见的比较棘手的问题就是hartfault/Default_Handler/dump,俗称跑飞了。 参考cmbacktrace,在瑞萨RZN2L/T2M实现栈回溯,串口打印…...
CTFHub disable_functions通关
LD_PRELOAD 来到首页发现有一句话直接就可以用蚁剑连接 根目录里有/flag但是不能看;命令也被ban了就需要绕过了 绕过工具在插件市场就可以下载 如果进不去的话 项目地址: #本地仓库;插件存放 antSword\antData\plugins 绕过选择 上传后我们点进去可以看到多了一个绕过的文件;…...
什么是 DevOps 自动化?
DevOps 自动化是一种现代软件开发方法,它使用工具和流程来自动化任务并简化工作流程。它将开发人员、IT 运营和安全团队聚集在一起,帮助他们有效协作并交付可靠的软件。借助 DevOps 自动化,组织能够处理重复性任务、优化流程并更快地将应用程…...
创建Instagram合作广告方法与注意事项
将Instagram作为宣传阵地的品牌和营销人员一定对它的Branded content ads品牌内容广告很熟悉,Instagram在测试并推广创作者市场功能之后,创作者和品牌协作变得更加便利。其中的Partnership ads合作广告能结合品牌和UGC、KOL的力量,帮助品牌提…...
Elasticsearch
什么是elasticsearch 根据维基百科的定义:Elasticsearch是一个基于Lucene库的搜索引擎。它提供了一个分布式、支持多租户的全文搜索引擎,具有HTTP Web接口和无模式JSON文档。 为啥要用elasticsearch 高性能,近实时,大数据&…...
YOLO11改进-注意力-引入级联组注意力机制(Cascaded Group Attention, CGA)
在 Vision Transformers 面临计算成本高、推理速度慢的背景下,级联组注意力(CGA)机制应运而生,它通过将输入特征拆分为不同部分输入各注意力头计算自注意力并级联输出,解决了多头自注意力中注意力头冗余导致的计算效率…...
电磁兼容(EMC):一文解读磁芯复合材料——塑磁
目录 01 塑磁的定义 02 塑磁的常见规格型号 03 塑磁材料的优点 04 塑磁的应用 塑磁,也称为注塑磁,是一种将磁性粉末注入到塑料基体中制成的复合磁体材料。以下是塑磁的定义、应用和材料特性的总结: 01 塑磁的定义 塑磁是以塑料为基体,通过特殊工艺在其中加入磁性粒子(…...
第十四章 C++ 数字
通常,当我们需要用到数字时,我们会使用原始的数据类型,如 int、short、long、float 和 double 等等。这些用于数字的数据类型,其可能的值和数值范围,我们已经在 C 数据类型一章中讨论过。 C 定义数字 我们已经在之前…...
虚幻引擎结构之UObject
一. UObject 的介绍 UObject 是虚幻引擎中的核心基础类,所有其他游戏对象和资源类都直接或间接地继承自它。作为虚幻引擎的基石,UObject 提供了多项关键功能,包括内存管理、序列化、反射(introspection)、垃圾回收以及元数据支持。在虚幻引擎中,UObject 类的实例通常被称…...
2002 - Can‘t connect to server on ‘192.168.1.XX‘ (36)
参考:2002 - Can‘t connect to server on ‘192.168.1.XX‘ (36) ubantu20.04,mysql5.7.13 navicat 远程连接数据库报错 2002 - Can’t connect to server on ‘192.168.1.61’ (36) 一、查看数据库服务是否有启动,发现有启动 systemctl status mysql…...
怎麼在模擬器中實現換IP
方法一:使用代理伺服器 獲取代理伺服器資訊需要一個可用的代理伺服器地址和端口。 設置代理 如果模擬器有內置的網路設置,可以直接在網路設置中輸入代理伺服器的地址和端口。對於不支持直接設置代理的模擬器,可以在應用內設置代理。例如&am…...
【信号滤波 (上)】傅里叶变换和滤波算法去除ADC采样中的噪声(Matlab/C++)
目录 一、ADC采样的噪声简介1.1 常见的ADC噪声来源 二、信号的时域到频域转换2.1 傅里叶变换巧记傅里叶变换 三、傅里叶变换和滤波算法工程实现3.1 使用Matlab计算信号时域到频域的变换3.2 使用Matlab去除特定频点噪声寻找峰值算噪声频率构建陷波滤波器滤除噪声频点陷波滤波器与…...
将多个 Touchstone 文件导入 ANSYS Electronics Desktop
概述 本博客说明了如何将 N 端口标准文件列表导入 ANSYS 电路和 HFSS 3D 布局工具。N端口模型可以引用解决方案文件数组,而不是引用单个文件。下面简要概述了添加多文件 N 端口模型所需的步骤,视频链接中提供了完整的演示。 创建多文件 N 端口模型 要…...
GFPS扩展技术原理(八)-可听设备控制
Hearable Controls 可听设备控制就是手机通过Message Stream去配置影响听感的设置,目前只有一个ANC可供配置,Hearable controls的Message Group的值为0x8。 Active noise control Active noise control也就是主动降噪(ANC)&…...
对称二叉树
本节判断一棵二叉树是否为对称二叉树,用深度优先算法和广度优先搜索算法均可以实现. 问题描述: 给定一棵二叉树,判断该二叉树是否为对称二叉树. 广度优先思路解析: 如果所有镜像对称位置上两节点都相同,就说明这棵树一定是对称的.那么如何对比对称位置上的两个节点比较方便呢…...
K8s 无头服务(Headless Service)
在Kubernetes中,服务(Service)是一个抽象层,它定义了一组Pod的访问策略。通常情况下,服务会分配一个集群内的IP地址,并通过这个IP地址和端口来路由流量到后端Pod。然而,Kubernetes还提供了一种特…...
ArcGIS+MIKE21 洪水淹没分析、溃坝分析,洪水淹没动态效果
洪水淹没分析过程: 一、所需数据: 1.分析区域DEM数据 二、ArcGIS软件 1.提取分析区域DEM(水库坝下区域) 2.DEM栅格转点 3.计算转换后几何点的x和y坐标值(精度20、小数位3) 4.导出属性表,形式…...
WordPress File Upload 插件 任意文件读取漏洞复现(CVE-2024-9047)
0x01 产品简介 WordPress File Upload插件是一款功能强大的WordPress站点文件上传插件,它允许用户在WordPress站点中的文章、页面、侧边栏或表单中轻松上传文件到wp-contents目录中的任何位置。该插件使用最新的HTML5技术,确保在现代浏览器和移动设备上都能流畅运行,同时也…...
MySQL purged gtid是如何生成和维护的
目录 1. GTID的基本概念2. GTID的生成3. GTID的清除3.1 手动清除二进制日志3.2 自动清除二进制日志3.3 重置主库 在MySQL中,gtid_purged表示已清除的GTID集合。 gtid_purged的生成和维护过程如下: 1. GTID的基本概念 GTID(Global Transact…...
vulhub log4j2漏洞复现攻略
前期准备:在安全选项添加端口规则如下 进入靶场环境 cd vulhub/ cd log4j/ cd CVE-2021-44228/ 启动容器 docker-compose up -d docker ps 得到端口号为8983,浏览器访问 先在⾃⼰搭建的DNSLOG平台上获取⼀个域名来监控我们注⼊的效果 可以发现 /sol…...
Android修行手册 - 移动端几种常用动画方案对比
Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分…...
springboot484基于springboot的扶贫助农系统(论文+源码)_kaic
摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装扶贫助农系统软件来发挥其高效地信息处理的作用,…...
windows调整鼠标速度
参考:https://baijiahao.baidu.com/s?id1791659684803021646&wfrspider&forpc 鼠标灵敏度,亦称为指针速度或DPI(每英寸点数)设置,对用户的电脑操作流畅度和精准度至关重要。本篇文章将深入解析如何在Windows操作系统环境…...
专业的内外网数据交换方案 可解决安全、效率、便捷3大问题
内外网数据交换是很多企业和行业都会面临的场景,既然隔离了内外网,重中之重就是要确保数据的安全性,其次在数据流转交换过程中,不能太繁琐复杂,需要让用户快速、便捷的进行数据交换。首先我们来看看,在进行…...
ECharts关系图-关系图11,附视频讲解与代码下载
引言: 关系图(或称网络图、关系网络图)在数据可视化中扮演着至关重要的角色。它们通过节点(代表实体,如人、物体、概念等)和边(代表实体之间的关系或连接)的形式,直观地…...
在已有vue cli项目中添加单元测试配置
使用的是vue cli ^4.0.0的脚手架,项目采用的vue2进行编写,项目本身是没有使用单元测试的。应该挺多项目还是使用的vue2的项目进行开发的,自己在开发中过程中,还是发生了挺多需要记录原来功能的情况,这个时候去翻文档明…...
计算机网络B重修班-期末复习
[TOC] (计算机网络B重修班-期末复习) 一、单选 (20题,1分/题,共20分) 二、判断 (10题,1分/题,共10分) 三、填空 (10题,1分/题,共10…...
常见排序算法
目录 冒泡排序(Bubble Sort) 选择排序(Selection Sort) 插入排序(Insertion Sort) 希尔排序(Shell Sort) 快速排序(Quick Sort) 堆排序(Hea…...
开源轮子 - Logback 和 Slf4j
spring boot内置:Logback 文章目录 spring boot内置:Logback一:Logback强在哪?二:简单使用三:把 log4j 转成 logback四:日志门面SLF4J1:什么是SLF4J2:SLF4J 解决了什么痛…...
redis数据类型:list
数据结构 源码版本:7.2.2路径:src/adlist.h 关于list的 头文件中涉及到的这三个结构体如下 /* Node, List, and Iterator are the only data structures used currently. */ # 节点 typedef struct listNode {struct listNode *prev; # 前元素的指针s…...
聚类之轮廓系数
Silhouette Score(轮廓系数)是用于评估聚类质量的指标之一。它衡量了数据点与同簇内其他点的相似度以及与最近簇的相似度之间的对比。 公式 对于一个数据点 i: a(i): 数据点 i 到同簇内其他点的平均距离(簇内不相似度ÿ…...
时钟芯片入门指南:从原理到实践
DS1302时钟 实时时钟芯片,精度高、 DS1302芯片可以对年、月、日、周、时、分、秒进行计时,并且具有闰年补偿等多种功能。 采用三线接口与CPU进行同步通信(采用串行数据传送方式简单SPI 3线接口),并可采用突发方式一次传送多个字节的时钟信号…...
【Java笔记】第十七章:反射
一、反射 1. 反射(Reflection): 允许在程序运行状态中,可以获取任意类中的属性和方法,并且可以操作任意对象内部的属性和方法,这种动态获取类的信息及动态操作对象的属性和方法对应的机制称为反射机制。 2. 类对象 和 类的对象(实…...
Vue:实现输入框不能输负数功能
1、使用v-model指令 <input type"number" v-model"value" min"0" input"checkInput"> checkInput() {this.value Math.max(0, parseInt(this.value)); } 2、使用计算属性 <template><div><input type"…...