当前位置: 首页 > news >正文

BitMap和RoaringBitmap:极致高效的大数据结构

目录

1、引言

2、BitMap:基础

2.1、核心原理

2.2、BitMap的优势

2.3、BitMap的局限性

3、RoaringBitmap:进化

3.1、分段策略

3.2、三种容器类型

3.2.1. ArrayContainer(数组容器)

3.2.2. BitMapContainer(位图容器)

3.2.3. RunContainer(行程容器)

3.3、行程长度编码的精妙之处

4、实现见解

5、性能比较

6、实际应用

6.1、集合操作

6.2、真实应用场景

7、进阶考虑

7.1、序列化

7.2、内存映射文件

7.3、并发访问

8、 结论


1、引言

在大数据时代,高效的数据结构对于执行去重、计数和过滤大型数据集等操作至关重要。虽然传统的数据结构如数组和哈希表在处理中小型数据集时表现良好,但在处理海量数据时,它们往往在内存效率和性能方面遇到挑战。

在大数据场景中表现出色的两种数据结构是BitMapRoaringBitmap。这些专门的结构可以在保持特定用例的高性能的同时显著减少内存消耗。本文深入探讨这两种结构,比较它们的原理、实现细节和实际应用。

2、BitMap:基础

2.1、核心原理

BitMap(也称为位数组或位向量)是一种空间高效的数据结构,使用单个位来表示集合中的元素。其基本原理简单而强大:使用位的位置来表示元素的存在(1)或不存在(0)。

例如,要表示集合{1, 2, 4, 6}

相关文章:

BitMap和RoaringBitmap:极致高效的大数据结构

目录 1、引言 2、BitMap:基础 2.1、核心原理 2.2、BitMap的优势 2.3、BitMap的局限性 3、RoaringBitmap:进化 3.1、分段策略 3.2、三种容器类型 3.2.1. ArrayContainer(数组容器) 3.2.2. BitMapContainer(位图容器) 3.2.3. RunContainer(行程容器) 3.3、行…...

Java高性能并发利器-VarHandle

1. 什么是 VarHandle?​​ VarHandle 是 Java 9 引入的类,用于对变量(对象字段、数组元素、静态变量等)进行低级别、高性能的原子操作(如 CAS、原子读写)。它是 java.util.concurrent.atomic 和 sun.misc.…...

关于读完《毛泽东选集》的一些思考迭代

看完毛选前四卷,从革命初期一直讲到抗战胜利,共75.8W字,花费67个小时读完。从1925年发表的“中国社会各阶级的分析”,跨越100年,通过67个小时向主席学习到: 实事求是 从实践中来再到实践中去 用辩证与发展…...

机器学习 第一章

🧠 机器学习 第一章 一、什么是机器学习 (Machine Learning) 让计算机自己从数据中学习出规律,无需人手写规则 输入: 特征 x输出: 标签 y学习目标: 学习出 f(x) 等价于 y 二、三大类型任务 类型英文特点示例回归Regression输出是连续值房价预测分类Cla…...

LVS+Keepalived+DNS 高可用项目

项目架构 主机规划 主机IP角色软件lb-master172.25.250.105主备负载均衡器ipvsadm,keepalivedlb-backup172.25.250.106同时做web和dns调度ipvsadm,keepaliveddns-master172.25.250.107VIP:172.25.250.100binddns-slave172.25.250.108LVS DNS…...

app逆向专题三:adb工具的使用

app逆向专题三:adb工具的使用 一、adb工具的配置二、adb工具的下载与安装 一、adb工具的配置 adb它是一个通用命令行工具,它可以作为Android与PC端连接的一个桥梁,所以adb又成为Android调试桥,用户可以通过adb在电脑上对Android设…...

CAD导入arcgis中保持面积不变的方法

1、加载CAD数据,选择面数据,如下: 2、加载进来后,右键导出数据,导出成面shp数据,如下: 3、选择存储路径,导出面后计算面积,如下: 4、与CAD中的闭合线面积核对…...

提示词 (Prompt)

引言 在生成式 AI 应用中,Prompt(提示)是与大型语言模型(LLM)交互的核心输入格式。Prompt 的设计不仅决定了模型理解任务的准确度,还直接影响生成结果的风格、长度、结构与可控性。随着模型能力和应用场景…...

并查集(Java模板及优化点解析)

并查集 一、核心思想 并查集(Union-Find)是一种处理不相交集合合并与查询的高效数据结构,核心功能包括: 合并(Union):将两个不相交集合合并为一个集合。查询(Find)&am…...

本地部署大模型(ollama模式)

分享记录一下本地部署大模型步骤。 大模型应用部署可以选择 ollama 或者 LM Studio。本文介绍ollama本地部署 ollama官网为:https://ollama.com/ 进入官网,下载ollama。 ollama是一个模型管理工具和平台,它提供了很多国内外常见的模型&…...

【JavaEE】TCP流套接字编程

目录 API 1.Socket类(客户端) 2.ServerSocket类(服务端) 创建回显服务器-客户端 服务器引入多线程 服务器引入线程池 解疑惑 长短连接 在Java中,TCP流套接字是基于TCP协议实现的网络通信方式,提供面向连接、可靠、有序的双向字节流传输。 API T…...

SQL问题分析与诊断(8)——分析方法1

8.4. 方法 8.4.1. 分析Cost方法 8.4.1.1. 方法说明 SQL Server中,通过阅读和分析SQL语句的评估查询计划,才是现实SQL优化工作中经常被采用的方法。然而,与Oracle等关系库类似,我们对SQL语句的查询计划进行阅读和分析时,首先要做的就是对SQL语句的整个查询计划进行快速的…...

【深度学习基础】神经网络入门:从感知机到反向传播

摘要 神经网络是深度学习的核心!本文将带你从零开始理解神经网络的基本原理,包括感知机模型、激活函数选择、反向传播算法等核心概念,并通过Python实现一个简单的全连接神经网络。文末提供《神经网络公式推导手册》和实战项目资源包&#xf…...

linux RCU技术

RCU(Read-Copy-Update)是Linux内核中的一种同步机制,用于在多核处理器环境中实现无锁读取和延迟更新。Linux RCU(Read-Copy-Update)技术通过一种高效的同步机制来处理并发冲突,确保在多核环境中读者和写者对…...

Hadoop文件操作指南:深入解析文件操作

1 Hadoop文件系统概述 Hadoop分布式文件系统(HDFS)是Hadoop生态的核心存储组件,专为大规模数据集设计,具有高容错性和高吞吐量特性。 HDFS核心特性: 分布式存储:文件被分割成块(默认128MB)分布存储多副本机制:每个块默认3副本&…...

【AI论文】VCR-Bench:视频链式思考推理的综合评估框架

摘要:思想链(CoT)推理的进步显著增强了大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力。 然而,目前仍然缺乏一个严格的视频CoT推理评估框架。 目前的视频基准测试无法充分评估推…...

激光雷达点云动态目标剔除算法

剔除点云地图中动态目标的方法可分为基于体素、基于视点可见性和基于深度学习的方法。基于体素的方法通过点云地图体素占用率或点云地图体素与单帧点云数据差异剔除动态目标。 OctoMap算法在使用单帧点云数据构建点云地图的过程中,不断更新体素占用率,直…...

第五篇:Python面向对象编程(OOP)深度教程

1. 类与对象 1.1 基本概念 ​​类​​是创建对象的蓝图,定义了对象的​​属性​​(数据)和​​方法​​(行为)。​​对象​​是类的实例化实体,每个对象拥有独立的属性值和共享的类方法 ​​示例​​:定义Dog类 class Dog:species = "Canis familiaris" …...

Java IO精讲:从传统IO到NIO的深度探索

一、Java IO概述 Java IO(Input/Output) 是Java处理输入输出的核心API,涵盖文件操作、网络通信等场景。其发展分为三个阶段: 传统IO (java.io):基于流模型,阻塞式处理NIO (java.nio):New IO&a…...

效率工具- git rebase 全解

一、前言 对于git rebase 一直不太了解,这几天想着提高下git提交质量,就发现了这个好用的指令,顺便记录一下,好加深记忆 贴出官方文档以便大家进一步学习 Git 二、rebase是作用 rebase 官方解释为变基,可以理解为移动你的分支根节点,维护一个更好的提交记录。rebase把你当前…...

开启深度学习之旅

深度学习作为人工智能领域最激动人心的分支之一,正在改变我们与科技互动的方式。本文将为您提供深度学习的入门指南,帮助您踏上这一充满可能性的旅程。 一、深度学习基础概念 深度学习是机器学习的一个子集,它使用多层神经网络来模拟人脑的…...

JMeter的关联

关联:上一个请求的响应结果和下一个请求的数据有关系 xpath提取器 适用场景 HTML/XML文档结构化数据: 适用于从HTML或XML文档中提取结构化数据。例如,提取表格中的数据、列表中的项目等。示例:从HTML表格中提取所有行数据。 …...

jvm内存如何调优

以下是关于JVM内存调优的一些关键方法和最佳实践: 1. 堆内存配置 • 初始堆大小与最大堆大小: • 使用 -Xms 和 -Xmx 参数设置初始堆大小和最大堆大小。建议将两者设置为相同的值,以避免堆的动态扩展带来的性能开销。 • 堆内存大小通常建…...

[特殊字符] 第十四讲 | 空间异质性检验与地统计局部指标(LISA)应用

📌 关键词:空间异质性、LISA、局部Morans I、空间聚集、冷热点分析、GeoDa、R语言 🧠 导语:空间现象为何“不一样”? 在地理学与农学研究中,我们经常遇到“某地污染严重,而邻近区域却很轻微”的…...

【时时三省】(C语言基础)选择结构程序综合举例

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 下面综合介绍几个包含选择结构的应用程序。 例题1: 写一程序,判断某一年是否为闰年。 程序1: 先画出判别闰年算法的流程图,见下图用变量le…...

【软考系统架构设计师】软件工程知识点

1、 软件开发生命周期 软件定义时期:包括可行性研究和详细需求分析过程,任务是确定软件开发工程必须完成的总目标,具体分为问题定义、可行性研究、需求分析等 软件开发时期:软件的设计与实现,分为概要设计、详细设计、…...

C#容器源码分析 --- Queue<T>

Queue<T> 是 System.Collections.Generic 命名空间下的先进先出&#xff08;FIFO&#xff09;动态集合&#xff0c;其核心实现基于​​循环数组​​&#xff0c;通过维护头尾指针实现高效入队和出队操作。 .Net4.8 Queue<T>源码地址&#xff1a;queue.cs (microso…...

redis 进阶

前篇 1&#xff0c;持久化 定义&#xff1a;将内存中的数据写入到磁盘&#xff0c;防止数据丢失——如果我门没有使用持久化技术&#xff0c;下次重新启动REDIS的时候只有空的redis没有任何东西 RDB 定义&#xff1a;在指定的时间间隔内将内存中的所有数据集以文件的形式写…...

python文件打包无法导入ultralytics模块

&#x1f4a5;打包的 .exe 闪退了&#xff1f;别慌&#xff01;教你逐步排查 PyInstaller 打包的所有错误&#xff01; &#x1f6e0; 运行 .exe 查看报错信息✅ 正确姿势&#xff1a; ⚠ importlib 动态导入导致打包失败❓什么是动态导入&#xff1f;✅ 解决方式&#xff1a; …...

c++清理内存

c清理内存 1.内存状态监控 实时显示物理内存/备用内存使用情况 2.单进程内存清理 清理当前进程工作集内存 3.系统级内存清理 清理备用列表、已修改页、组合列表 4.全局进程优化 强制清理所有进程的工作集 5.权限管理 启用调试权限以执行敏感操作 6.用户交互 控制台菜单操作与实…...

操作系统之进程同步

1.什么是进程同步&#xff0c;为什么要引入进程同步? 进程同步是指多个进程在执行次序上进行协调&#xff0c;使它们按一定的规则共享资源和相互合作。引入进程同步是为了避免并发进程因资源竞争而产生数据不一致、混乱等问题&#xff0c;确保系统的稳定性和正确性。 2.同步…...

论文精度:基于LVNet的高效混合架构:多帧红外小目标检测新突破

论文地址:https://arxiv.org/pdf/2503.02220 目录 一、论文背景与结构 1.1 研究背景 1.2 论文结构 二、核心创新点解读 2.1 三大创新突破 2.2 创新结构原理 2.2.1 多尺度CNN前端 2.2.2 视频Transformer设计 三、代码复现指南 3.1 环境配置 3.2 数据集准备 3.3 训…...

C语言--汉诺塔问题

汉诺塔问题是一个典型的递归问题。 递归问题的基本思想&#xff1a;将问题逐步化简为相同思路但是规模更小的问题&#xff0c;直到问题可以直接解决 递归的关键在于基准情形和递归步骤&#xff0c;基准情形也就是退出条件&#xff0c;递归步骤也就是把问题简化为子问题的过程。…...

深度剖析SSD多段L2P表查找加速技术

在固态硬盘(SSD)控制器中,逻辑块地址(LBA)需要通过映射表(L2P Table)映射到NAND闪存的物理地址(PA)。随着SSD容量的增长,L2P表的大小也随之增加,这给查找操作带来了性能挑战。 在SSD控制器中,LBA需借助L2P表映射为NAND物理地址。映射表最小规模为 (O(n * \lg (n)))…...

【sgSpliter】自定义组件:可调整宽度、高度、折叠的分割线

特性&#xff1a; 允许设置显示折叠按钮允许设置折叠线按钮位置允许设置当拖拽区域到0&#xff0c;再点击箭头展开的默认宽度允许设置当拖拽宽度小于此宽度&#xff0c;自动折叠到0允许设置指定最小宽度允许设置指定最大宽度允许设置按钮风格:白色背景default、蓝色背景blue允许…...

图像预处理-插值方法

一.插值方法 当我们对图像进行缩放或旋转等操作时&#xff0c;需要在新的像素位置上计算出对应的像素值。 而插值算法的作用就是根据已知的像素值来推测未知位置的像素值。 1.1 最近邻插值 CV2.INTER_NEAREST 其为 warpAffine() 函数的参数 flags 的其一&#xff0c;表示最近…...

Adruino:传感器及步进电机

一、传感器 1、温湿度传感器 DHT11它采用专用的数字采集技术和温湿度传感器技术&#xff0c;包括一个电阻式感湿元件和NTC测温元件&#xff0c;并与一个高性能的8位单片机连接。 (1).引脚介绍 名称解释VCC供电引脚3&#xff5e;5VGND接地引脚DATA串行数据单总线 二、电机 1…...

leetcode 2787. Ways to Express an Integer as Sum of Powers

题目描述 这道题是0-1背包问题。可以理解为&#xff0c;有一个最大容量是n的背包&#xff0c;有n个物品&#xff0c;第i个物品的重量是i^x&#xff0c;问装满背包有多少种装法。题目要求必须是互不相同的数的x次幂的和等于n&#xff0c;那就表示每个数只能用一次&#xff0c;也…...

React 获得dom节点和组件通信

通过REF 实例对象的.current属性获得绑定的DOM节点 组件通信 组件通信 1 父传子 父组件传递数据 子组件接受数据 通过pros对象接受 子组件的形参列表props只读 props中数据不可修改 特殊情况 在子传父的过程中没有直接给子组件添加属性&#xff0c;而是向父组件中添加其他…...

AF3 ProteinDataset类的get_anchor_ind方法解读

AlphaFold3 protein_dataset 模块 ProteinDataset 类 get_anchor_ind 方法是一个 @staticmethod 静态方法,用来获取“锚定残基(anchor residues)”的索引,目的是在蛋白质序列中被遮蔽(masked)的区域两端找到“已知(known)”的残基,以便后续作为上下文参考。 源代码:…...

JavaScript异常机制与严格模式

目录 JavaScript 异常机制 1. 基本语法&#xff1a;try...catch...finally 2. 抛出异常&#xff1a;throw 3. 错误对象属性 4. 同步代码的异常处理 5. 异步代码的异常处理 5.1 回调函数 5.2 Promise 5.3 全局未捕获的 Promise 错误 6. 全局错误处理 7. 自定义错误与…...

【数据结构与算法】包装类初识泛型

文章目录 一.包装类1.1基本数据类型和对应的包装类1.2装箱和拆箱1.3自动拆箱和自动装箱【面试题】 二.什么是泛型三.引出泛型3.1 语法 四. 泛型的使用4.1 语法格式4.2 示例4.3 类型推导(Type Inference) 五. 裸类型(Raw Type) &#xff08;了解即可&#xff09;5.1 说明 六. 泛…...

Linux--进程信号

目录 1. 信号快速认识 1-1 ⽣活⻆度的信号 1-2 技术应⽤⻆度的信号 1-2-1 ⼀个样例 1-2-2 ⼀个系统函数 1-3 信号概念 1-3-1 查看信号​编辑 1-3-2 信号处理 2. 产⽣信号 2-1 通过终端按键产⽣信号 2-1-1 基本操作 2-2 调⽤系统命令向进程发信号 2-3 使⽤函数产⽣…...

Skynet入门(二)

常用接口说明 接口说明newservice(name, …)启动一个name的新服务&#xff0c;并返回新服务的地址start(func)用func初始换服务。编写服务时&#xff0c;都会写一句skynet.start&#xff0c;并在func写一些初始化代码dispatch(type, func为type类型的消息设定处理函数funcsend…...

TDengine 可靠性保障:数据持久化与容灾备份(二)

四、容灾备份策略揭秘 &#xff08;一&#xff09;主从复制与故障转移 在 TDengine 的高可用性架构中&#xff0c;主从复制是一种极为关键的设计模式&#xff0c;它就像是数据的 “安全复制机”&#xff0c;将数据从主节点精准无误地复制到多个从节点 。在这个过程中&#xf…...

一文讲透大模型强化学习基础:PPO、DPO、GRPO

DeepSeek-R1 的强化学习方案中&#xff0c;其亮点之一在于通过 GRPO 算法取代RLHF 常用的 PPO&#xff0c;通过尽可能减少人类标注数据&#xff0c;设计纯 RL 的环境&#xff0c;用精心设计的奖励机制来训练模型自己学会推理。 那么什么是PPO、GRPO&#xff0c;其产生的背景、…...

第十六届蓝桥杯大赛软件赛省赛 Python 大学 B 组 部分题解

题面链接Htlang/2025lqb_python_b 个人觉得今年这套题整体比往年要简单许多&#xff0c;但是G题想简单了出大问题&#xff0c;预估50101015120860&#xff0c;道阻且长&#xff0c;再接再厉 A: 攻击次数 答案&#xff1a;103&#xff1f;181&#xff1f;题目没说明白每回合是…...

5分钟搭建一个在线客服网站!免费!

快速搭建在线客服网站完整教程 本文将手把手教你如何从零开始搭建一个功能完善的在线客服系统&#xff0c;整个过程简单快速&#xff0c;适合新手操作。 一、服务器选购指南 注册雨云账号 如果您尚未注册雨云账号&#xff0c;可以通过以下方式获取优惠&#xff1a; 注册链…...

【测试】-- 测试用例

文章目录 1. 测试用例1.1 概念 2. 设计测试用例的万能公式2.1 常规思考逆向思维发散性思维2.2 万能公式 3. 设计测试用例的方法3.1 具体的设计⽅法3.1.1 等价类3.1.2 边界值3.1.3 正交法3.1.3.1 如何设计正交表 3.1.4 判定表法3.1.4.1 根据判定表法设计测用例的步骤 3.1.5 场景…...

深度剖析循环码解码:从原理到纠错实践

一、引言 循环码作为线性分组码中的重要一员,凭借其出色的纠错和检测能力,在通信领域得到了广泛应用。本文将深入探讨循环码的解码过程,详细阐述其纠错和检测的机理。 二、循环码基础回顾 2.1 循环码的定义与性质 循环码是一类具有循环特性的线性分组码,即任一码组循环…...