如何从大规模点集中筛选出距离不小于指定值的点
一、背景:当点集处理遇见效率挑战
在数字化浪潮席卷各行各业的今天,点集数据处理已成为地理信息系统(GIS)、计算机视觉、粒子物理仿真等领域的核心需求。以自动驾驶场景为例,激光雷达每秒可产生超过10万个点云数据;在航天遥感领域,单幅卫星影像可能包含数百万地理坐标点;而在金融风控中,百万级交易坐标点的空间聚类分析已成为常规操作。这些应用场景的共同特征是:点集规模呈指数级增长,传统处理方法面临严峻挑战。
在众多空间分析任务中,"最小间距筛选"是基础且关键的操作。例如:
- 工业检测中需确保零件打孔间距不小于安全阈值
- 移动基站部署要求信号覆盖区域无重叠盲区
- 生物芯片制作需保证探针点阵的最小间隔
- 游戏引擎要防止场景模型的重叠穿插
当处理百万级点集时,暴力计算所有点对距离的O(n²)时间复杂度将导致计算时间呈天文数字增长。例如10万个点需要计算近50亿次距离,采用常规方法即便使用高性能服务器也需要数小时计算。更严峻的是内存消耗问题——存储10万点的完整距离矩阵需要约74.5GB内存,远超普通计算机的硬件容量。这迫使我们必须寻求更智能的优化方案。
二、问题描述:技术挑战与需求分析
2.1 核心需求
给定二维平面点集P={p₁,p₂,…,pₙ},找出满足以下条件的最大子集S⊆P:
- ∀pᵢ,pⱼ∈S (i≠j), distance(pᵢ,pⱼ)≥d₀
- 其中d₀为预设阈值(本案例中为0.5)
2.2 技术难点
- 计算复杂度:暴力算法需要计算C(n,2)=n(n-1)/2次距离
- 内存瓶颈:存储全距离矩阵需要O(n²)空间
- 筛选策略:如何高效确定保留/删除点的最优策略
- 精度控制:浮点运算误差可能影响最终结果
2.3 性能指标
以134,697个点为例(用户实际案例):
- 暴力算法内存需求:134,697²×8B≈135GB
- 预期优化目标:将内存控制在1GB以内,计算时间<1分钟
三、原始方案:直观方法的局限
3.1 算法实现
import numpy as nppoints = np.loadtxt('input.txt', delimiter='\t')# 计算全距离矩阵
diff = points[:, np.newaxis, :] - points[np.newaxis, :, :]
dist_sq = np.sum(diff**2, axis=-1)
dists = np.sqrt(dist_sq)# 筛选逻辑
np.fill_diagonal(dists, np.inf)
min_dists = np.min(dists, axis=1)
mask = min_dists >= 0.5
filtered_points = points[mask]np.savetxt('output.csv', filtered_points, delimiter=',', fmt='%.6f')
3.2 技术优势
- 利用NumPy广播机制实现向量化计算
- 代码简洁直观,逻辑清晰
- 精确计算所有点对距离
3.3 存在缺陷
- 内存灾难:当n=134,697时,产生(134697,134697,2)的三维数组,需270GB内存
- 计算冗余:对称矩阵重复计算,且只关心最小值
- 可扩展性差:无法处理百万级点集
- 硬件依赖:需要服务器级配置才能运行
3.4 失败案例
用户实际运行时出现numpy.core._exceptions._ArrayMemoryError
错误,系统无法为形状为(134697,134697,2)的数组分配270GB内存。这暴露出传统方法在处理大规模数据时的根本性缺陷。
四、优化方案:基于空间索引的智能筛选
4.1 算法革新:KDTree原理
KDTree(k-dimensional tree)是一种空间划分数据结构,通过递归地将k维空间划分为半空间来组织点集。其核心优势在于:
- 快速最近邻搜索:平均时间复杂度O(log n)
- 内存高效:仅需O(n)存储空间
- 批量查询支持:可并行处理多个查询
4.2 优化实现代码
import numpy as np
from scipy.spatial import KDTree# 数据读取
points = np.loadtxt('d:/Documents/m1.txt', delimiter='\t')# 构建空间索引
tree = KDTree(points)# 查询每个点的第二近邻(第一近邻是自己)
distances, _ = tree.query(points, k=2, workers=-1) # 使用全部CPU核心
min_dists = distances[:, 1]# 实施筛选
mask = min_dists >= 0.5
filtered_points = points[mask]# 结果存储
np.savetxt('d:/Documents/output.txt', filtered_points, delimiter=',', fmt='%.6f')
4.3 关键技术突破
-
内存优化:
- 原始方案:O(n²) → 135GB
- 新方案:O(n) → 134,697×8B≈1MB
- 内存节省达135,000倍
-
性能提升:
- 时间复杂度从O(n²)降为O(n log n)
- 134,697点处理时间从不可行降至约15秒
-
功能增强:
- 支持并行计算(workers=-1)
- 自动处理重复点(距离=0)
- 精确保持筛选条件
-
可扩展性:
- 经测试可处理100万点(内存<1GB,时间<2分钟)
- 支持三维空间扩展(修改k=3即可)
4.4 方案对比
指标 | 原始方案 | KDTree优化方案 |
---|---|---|
时间复杂度 | O(n²) | O(n log n) |
空间复杂度 | O(n²) | O(n) |
10万点耗时 | >3小时 | ≈8秒 |
内存消耗 | 74.5GB | 0.8MB |
并行支持 | 无 | 多线程查询 |
最大处理规模 | 约2万点 | >100万点 |
五、总结与展望
5.1 方案优势总结
- 工程实用性:使普通PC处理百万级点集成为可能
- 理论完备性:严格保证筛选条件的数学正确性
- 生态兼容性:基于SciPy/NumPy生态,无需额外依赖
- 可扩展性:算法框架支持高维空间扩展
5.2 进一步优化方向
-
分布式计算:
- 使用Dask或Spark进行集群级并行计算
- 将点集分块处理,合并结果
-
近似算法:
- 采用Locality Sensitive Hashing(LSH)
- 以可控精度损失换取更高速度
-
GPU加速:
from cuml.neighbors import NearestNeighbors # RAPIDS.ai库 nn = NearestNeighbors(n_neighbors=2) nn.fit(points) distances = nn.kneighbors(points)[0]
-
增量处理:
- 对数据流进行实时过滤
- 使用空间索引动态维护点集
5.3 应用前景
本方案可广泛应用于:
- 自动驾驶:激光雷达点云去噪
- 智慧城市:设施布局优化
- 生物信息学:蛋白质分子筛选
- 金融地理:ATM机最优布点
以某物流仓库AGV调度案例为例,使用本方案后:
- 路径规划点从50万缩减至8万
- 计算时间从6小时降至9分钟
- 碰撞检测准确率提升至99.97%
5.4 实践建议
- 预处理:先进行去重(
np.unique(points, axis=0)
) - 参数调优:根据数据分布调整leaf_size(默认40)
- 结果验证:随机采样验证最小距离
- 可视化:使用Matplotlib进行结果对比展示
# 结果验证代码示例
from scipy.spatial import distance_matrix
sample = filtered_points[:1000]
dists = distance_matrix(sample, sample)
np.fill_diagonal(dists, np.inf)
print("实际最小距离:", np.min(dists)) # 应>=0.5
随着数据规模的持续增长,空间索引技术将成为点集处理的标配工具。本方案展示的不仅是一个具体问题的解法,更是应对大数据时代空间计算挑战的方法论——通过智能数据结构和并行计算的结合,突破传统算法的性能边界。未来,随着量子计算、神经形态计算等新范式的发展,点集处理技术将迎来新的革命。
相关文章:
如何从大规模点集中筛选出距离不小于指定值的点
一、背景:当点集处理遇见效率挑战 在数字化浪潮席卷各行各业的今天,点集数据处理已成为地理信息系统(GIS)、计算机视觉、粒子物理仿真等领域的核心需求。以自动驾驶场景为例,激光雷达每秒可产生超过10万个点云数据&am…...
单片机-89C51部分:6、数码管
飞书文档https://x509p6c8to.feishu.cn/wiki/WRNLwDd0iiG8OWkyatOcom6knHf 一、数码管简介 通俗解释: 一个数码管等于八个LED组合在一起,想要显示什么形状,就点亮对应LED即可。 一般数码管分为共阴极数码管和共阳极数码管。 共阳极接法&…...
可解释人工智能(XAI):让机器决策透明化
在人工智能(AI)技术飞速发展的今天,AI 系统已经广泛应用于金融、医疗、交通等多个关键领域。然而,随着 AI 系统的复杂性不断增加,尤其是深度学习模型的广泛应用,AI 的“黑箱”问题逐渐凸显。AI 系统的决策过…...
深入理解网络原理:TCP协议详解
在现代计算机网络中,传输控制协议(TCP,Transmission Control Protocol)是最常用的传输层协议之一。TCP被广泛应用于互联网中的许多关键应用,如网页浏览、电子邮件和文件传输等。作为一种面向连接的协议,TCP…...
二极管钳位电路——Multisim电路仿真
目录 二极管钳位电路 2.1 二极管正向钳位电路 二极管压降测试 2.1.1 二极管正向钳位电路图 2.1.2 二极管正向钳位工作原理 2.2 二极管负向钳位电路 2.2.1 二极管负向钳位电路图 2.2.2 二极管负向钳位工作原理 二极管正向反向钳位仿真电路实验结果 2.3 二极管顶部钳位…...
【更新】LLM Interview (2)
字数溢出,不解释 前文:llm interview (1) 文章目录 强化学习专题1 什么是RL?2 RL和监督、非监督、深度学习的区别3 RL中所谓的损失函数与深度学习中的损失函数有何区别?4 RL历史5 RL分类5.1 分类图示5.2 根据智能体动作选取方式分…...
第二节:文件系统
理论知识 文件系统的基本概念:文件系统是操作系统中负责管理持久数据的子系统,它将数据组织成文件和目录的形式,方便用户存储和访问数据。Linux文件系统的类型:常见的 Linux 文件系统类型有 Ext2、Ext3、Ext4、XFS、Btrfs 等。Ex…...
astrbot_plugin_composting_bucket开源程序是一个用于降低AstrBot的deepseek api调用费用的插件
一、软件介绍 文末提供程序和源码下载 astrbot_plugin_composting_bucket开源程序是一个用于降低AstrBot的deepseek api调用费用的插件,让deepseek api调用费用更低! 本插件功能已集成到 AstrBot ,您可以移除此插件,在 AstrBot…...
8.Three.js中的 StereoCamera 立体相机详解+示例代码
✨ 运行效果 👀 左边一幅图、右边一幅图,略微偏移,形成立体感~ (戴上VR眼镜或红蓝3D眼镜体验更明显哦~) 🔥 小球或方块旋转中,左右略微不同步,立体感更强&am…...
MYSQL——时间字段映射Java类型
在 Java 中查询数据库中的【时间字段】时,可以使用以下几种类型来处理: 1. java.sql.Date 适用场景:当数据库中的时间字段是 date 类型时,使用 java.sql.Date 是最合适的选择。示例代码:ResultSet rs statement.exe…...
搭建speak yarn集群:从零开始的详细指南
在大数据处理领域,Apache Spark 是一个高性能的分布式计算框架,而 YARN(Yet Another Resource Negotiator)是 Hadoop 的资源管理器。将 Spark 集成到 YARN 中,不仅可以充分利用 Hadoop 的资源管理能力,还能…...
第十三章-PHP MySQL扩展
第十三章-PHP与MySQL 一,连接数据库 1. 使用 MySQLi(面向对象方式) <?php // 数据库参数 $host localhost; $username root; $password ; $database test_db;// 创建连接 $conn new mysqli($host, $username, $password, $databa…...
在服务器中,搭建FusionCompute,实现集群管理
序:需要自备一台服务器,并安装部署好KVM,自行下载镜像,将所需的CNA和VRM镜像放到服务器中,小编所用的进项版本如下,读者可自行根据需求下载其它版本的镜像。 CNA镜像:FusionCompute_CNA-8.3.0-…...
嵌入式开发学习日志Day11
一、函数的递归调用 在调用一个函数的过程中,又出现直接或者间接的调用函数本身,称之为函数的递归调用; 函数的递归调用是使用大量的内存空间完成程序进行的; 1.间接调用 2.直接调用 注意: 上图仅为示意,…...
【线性规划】对偶问题的实际意义与重要性质 学习笔记
【线性规划】对偶问题的实际意义与重要性质_哔哩哔哩_bilibili...
代码随想录第30天:动态规划3
一、01背包理论基础(Kama coder 46) “01背包”:有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品只能用一次,求解将哪些物品装入背包里物品价值总和最大。 1. 确…...
DSP48E2 的 MAC模式功能仿真
DSP48E2 仿真代码: 测试的功能为 P i ( A D ) ∗ B P i − 1 P_{i} (AD) * B P_{i-1} Pi(AD)∗BPi−1 timescale 1ns / 1nsmodule dsp_tb;// 输入reg CLK;reg CE;reg SCLR;reg signed [26:0] A, D;reg signed [17:0] B;// 输出wire signed [47:0] P;par…...
【环境配置】Mac电脑安装运行R语言教程 2025年
一、安装 Xcode Command Line Tools 打开终端,输入如下命令: xcode-select --install安装完成后,输入如下命令,能看见版本号说明安装成功 gcc --version二、下载安装R语言 https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 点开后…...
常见算法的总结与实现思路
前言 hello,我是Maybe。昨天和今天花了两天左右的时间。把常见的排序算法都学完了,自己也实现了一遍。感觉收获满满,但是过程是艰辛的。下面我将分享代码和思维导图,希望可以帮助到大家。 思维导图(含注意事项,实现思…...
Ethan独立开发产品日报 | 2025-04-27
1. CreateWise AI 旨在提升你工作效率的AI播客编辑器 人工智能播客编辑器,让你的播客制作速度提升10倍!它可以自动去除口头语和沉默,生成节目笔记和精彩片段,还能一键制作适合社交媒体分享的短视频——所有这些功能都只需一次点…...
5G与边缘计算:协同发展,开启智慧世界新篇章
**5G与边缘计算:协同发展,开启智慧世界新篇章 ** 大家好,我是Echo_Wish。今天我们来探讨一个备受关注的技术话题——5G与边缘计算的协同发展。随着5G网络的逐步普及以及边缘计算技术的快速发展,二者的结合为我们带来了前所未有的创…...
AcWing 885:求组合数 I ← 杨辉三角
【题目来源】 https://www.acwing.com/problem/content/887/ 【题目描述】 给定 n 组询问,每组询问给定两个整数 a,b,请你输出 C(a,b) mod (10^97) 的值。 【输入格式】 第一行包含整数 n。 接下来 n 行,每行包含一组 a 和 b。 …...
Python3:Jupyterlab 安装和配置
Python3:Jupyterlab 安装和配置 Jupyter源于Ipython Notebook项目,是使用Python(也有R、Julia、Node等其他语言的内核)进行代码演示、数据分析、机器学习、可视化、教学的非常好的工具。 最新的基于web的交互式开发环境,适用于n…...
如何搭建spark yarn模式的集合集群
一、环境准备 在搭建 Spark on YARN 集群之前,需要确保以下环境已经准备就绪: 操作系统:推荐使用 CentOS、Ubuntu 等 Linux 发行版。 Java 环境:确保安装了 JDK 1.8 或更高版本。 Hadoop 集群:已经搭建并运行的 Had…...
智能座舱架构中芯片算力评估
在智能座舱(Intelligent Cockpit)领域,芯片的算力是决定系统性能、响应速度以及用户体验的关键因素之一。 随着汽车智能化程度的不断提高,智能座舱对芯片的算力、功耗、集成度以及安全性提出了更高的要求。 智能座舱架构中芯片算…...
STM32完整内存地址空间分配详解
在STM32这类基于ARM Cortex-M的32位微控制器中,整个4GB的地址空间(从0x00000000到0xFFFFFFFF)有着非常系统化的分配方案,每个区域都有其特定的用途。下面我将详细介绍这些地址区域的分配及其功能: STM32完整内存地址空间分配详解(0x00000000…...
叉车司机N1考试的实操部分有哪些注意事项?
叉车司机 N1 考试实操部分分为场地考试和场内道路考试,以下是一些注意事项: 场地考试 起步:检查车辆仪表和个人仪容,穿好工作服、戴安全帽,不穿拖鞋等不符规定的鞋。同时检查换挡和换向操纵杆在空档位置,…...
【行业特化篇2】金融行业简历特化指南:合规性要求与风险控制能力的艺术化呈现
写在最前 作为一个中古程序猿,我有很多自己想做的事情,比如埋头苦干手搓一个低代码数据库设计平台(目前只针对写java的朋友),比如很喜欢帮身边的朋友看看简历,讲讲面试技巧,毕竟工作这么多年,也做到过高管,有很多面人经历,意见还算有用,大家基本都能拿到想要的offe…...
Linux 定时备份到windows 方案比较
1 传输协议比较 特性SCPRSYNCSFTP基本功能文件传输(本地与远程)文件和目录的同步与传输文件管理(上传、下载、删除等)增量传输不支持增量传输支持增量传输不支持增量传输性能传输速度较慢,效率低高效,适合…...
【网络编程】TCP/IP四层模型、MAC和IP
1. TCP/IP的四层模型 网络模型的目的:规范通信标准,确保不同设备和系统之间能够有效通信 对比OSI模型与TCP/IP模型: OSI模型的七层架构(物理层、数据链路层、网络层、传输层、会话层、表示层、应用层)TCP/IP模型的四…...
Java学习手册: IoC 容器与依赖注入
一、IoC 容器概述 IoC(Inversion of Control,控制反转)容器是 Spring 框架的核心组件之一。它负责创建对象、管理对象的生命周期以及对象之间的依赖关系。通过将对象的创建和管理交给 IoC 容器,开发者可以实现代码的松耦合&#…...
Web 基础与Nginx访问统计
目录 Web基础 域名与DNS 域名的结构 网页与HTML 网页概述 HTML 概述 HTML基本标签 1、HTML 语法规则 2、HTML 文件结构 静态网页和动态网页 HTTP协议概述 HTTP方法 HTTP状态码 Nginx访问状态统计 Web基础 域名与DNS 网络是基于 TCP/IP 协议进行通信和连接的,每一台主机都有一…...
了解Android studio 初学者零基础推荐(1)
线上学习课程链接 开发Andorid App 使用的语言有很多,包括java, kotlin,C,等,首先让我们了解kotlin这个热门语言。 kotlin 程序 fun main() {println("hello,xu") } kotlin中的函数定义语法:函数名称在fun关键字后面࿰…...
Android Studio 2024版,前进返回按钮丢失解决
最近升级完AS最新系统后,顶部的前进和返回按钮默认隐藏了 解决方案: 1. 打开settings 2. 找到左侧 Appearance & Behavior 下面点击 Menus and Toolbars 3. 点击 Main Toolar 4. 点击Left,右键选择 Add Actions 5. 弹框中选择 Main Me…...
详解UnityWebRequest类
什么是UnityWebRequest类 UnityWebRequest 是 Unity 引擎中用于处理网络请求的一个强大类,它可以让你在 Unity 项目里方便地与网络资源进行交互,像发送 HTTP 请求、下载文件等操作都能实现。下面会详细介绍 UnityWebRequest 的相关内容。 UnityWebRequ…...
安装qt4.8.7
QT4.8.7安装详细教程(MinGW 4.8.2和QTCreator4.2.0)_qtcreater482-CSDN博客 QT4.8.7安装详细教程(MinGW 4.8.2和QTCreator4.2.0) 1、下载 1)下载QT4.8.7 http://download.qt.io/archive/ 名称:qt-opensource-windows-x86-mingw482…...
2025系统架构师---管道/过滤器架构风格
引言 在分布式系统与数据密集型应用主导技术演进的今天,管道/过滤器架构风格(Pipes and Filters Architecture Style)凭借其数据流驱动、组件解耦与并行处理能力,成为处理复杂数据转换任务的核心范式。从Unix命令…...
仙宫云ComfyUI —【Wan2.1】AI视频生成部署
【Wan2.1】AI视频生成本地部署与使用技巧全面详解_哔哩哔哩_bilibili 所有模型下载:https://pan.quark.cn/s/9d793aa1b258 Runninghub本期课程工作流下载(可获得1000RH币):https://www.runninghub.cn/?utm_sourcekol01-RH145 仙…...
学成在线。。。
一:讲师管理 介绍:可以实现对讲师的分页展示,多条件组合分页查询,对讲师的添加,修改,删除操作。 针对于添加来说,使用requestBody注解,搭配postmapping接收数据,使用service层的对象,调用mapper方法,向数据库中保存数据。 修改: 先根据讲师id,查询出讲师,再去…...
Python爬虫实战:获取猫yan电影网最新热门电影数据并做分析,为51观影做参考
一、引言 随着互联网的迅速发展,电影信息获取更加便捷。猫yan电影作为国内知名电影信息平台,提供了丰富电影数据。对于我们而言,获取并分析这些数据,能为用户提供更有价值的观影建议。本文详细介绍使用 Python 的 Scrapy 框架实现猫yan电影数据爬取与分析,为 “五一” 观…...
将有序数组转换为高度平衡二叉搜索树 | 详解与Java实现
文章目录 1. 问题描述2. 方法思路核心思想:分治法 + 递归3. 代码实现Java实现(含注释)4. 复杂度分析5. 关键点解释为何选择中间节点?为何使用 `left + (right - left) / 2` 而非 `(left + right) / 2`?6. 扩展优化迭代法实现(非递归)优化空间7. 总结1. 问题描述 108.将…...
普推知产:商标驳回复审下初步审定公告了!
近日客户的商标驳回复审后终于下初审公告了,经过一年多时间,当时申请时知道这个商标名称会被驳回,因为有相同一模一样的,客户就想要这个名称,因为与创始人的姓名是相关的,普推知产商标老杨经分析后…...
网工笔记-网络层
概述: 两种观点: 1.面向连接的可靠传输 2.面向无连接的,尽最大努力完成交付数据报服务 虚电路服务(可靠传输) 数据报服务(尽力而为) 两者的对比: 不管是虚电路还是数据报服务都是…...
el-Input输入数字自动转千分位进行展示
el-Input输入数字自动转千分位进行展示,存储值不变 子组件: <template><el-input ref"inputRef" :disabled"disabled" clearable v-model"displayValue" v-bind"$attrs" input"handleInput&quo…...
基于 Spring Boot 瑞吉外卖系统开发(九)
基于 Spring Boot 瑞吉外卖系统开发(九) 保存菜品 菜品管理页面提供了一个“新增菜品”按钮,单击该按钮时,会打开新增菜品页面。 请求路径/dish,请求方法POST,参数使用DishDto类接收。 DishDto 添加f…...
C++复习补充 类型转换和RTTI
类型转换和RTTI 类型转换类与类之间的类型转换四种显示类型转换类型转换注意事项RTTI 类型转换 在 C 中,operator int() 是用户定义的类型转换运算符(User-Defined Conversion Operator),允许自定义对象隐式或显式转换为特定类型…...
QT采用mqtt进行通信(17.1)
文章目录 1.试错历程2. qt5.8安装3. 开始搞了4. 测试连接mqtt broker1.试错历程 尝试过网上说的各种版本,官方库和第三方库,试过qt5.9.9, qt5.12, qt5.12.2, qt5.14 等各个版本,都能编译通过,调用mqtt库,但是都不能连接成功,真的是试吐了,不知道他们的为什么都能成功,…...
基于 BERT 微调一个意图识别(Intent Classification)模型
基于 BERT 微调一个意图识别(Intent Classification)模型,你的意图类别包括: 查询天气获取新闻咨询想听音乐想添加备忘查询备忘获取家政服务结束对话增加音量减小音量其他 具体实现步骤(详细版) 1. 准备你…...
人工智能大语言模型与AI芯片新进展:技术演进与商业化路径
人工智能大语言模型与AI芯片新进展:技术演进与商业化路径 Latest Advances in AI Large Language Models and Chips: Technological Evolution and Commercialization Pathways 一、研究背景与意义(Research Background and Significance) 技…...
【Linux】Java 开发者的 Linux 常用命令指南
Java 开发者的 Linux 常用命令指南 目录标题 Java 开发者的 Linux 常用命令指南1. Linux 目录结构2. 系统信息命令3. 服务管理系统服务防火墙管理 4. 文本编辑 (vi/vim)常用模式 5. 文件和目录操作查看与导航创建与删除查看文件内容查找文件 6. 用户管理7. 压缩和解压8. 权限管…...