TDengine 存储引擎剖析:数据文件与索引设计(二)
TDengine 索引设计
索引设计关键特性
TDengine 的索引设计采用了多种技术和策略,以满足时序数据高效存储和快速查询的需求,具有以下关键特性:
- 多级时间戳压缩索引:TDengine 使用了时间戳压缩索引技术,能够有效减少索引存储空间,提高索引查询效率。通过对时间戳进行压缩编码,使得在相同的存储空间内可以存储更多的索引信息,从而加快了数据的定位速度。例如,在处理大量按时间顺序排列的传感器数据时,这种索引能够快速定位到指定时间范围内的数据,减少数据扫描的范围。
- 自适应段合并:当写入数据时,TDengine 会自动合并小段数据。在物联网场景中,传感器可能会频繁产生少量数据,这些小段数据如果不进行合并,会增加查询时需要读取的磁盘扇区数量,从而降低查询性能。TDengine 的自适应段合并机制会自动将这些小段数据合并成更大的数据段,减少了磁盘 I/O 操作,提高了查询性能 。
- 哈希分区:支持水平拆分,即哈希分区。通过将数据按照某个哈希函数进行分区,可以将数据分布到不同的存储节点上,从而降低单个节点的负载,进一步降低查询的延迟并提高吞吐量。在一个大规模的工业物联网系统中,可能有数千个设备同时产生数据,使用哈希分区可以将这些设备的数据均匀分布到多个节点上,提高系统的整体性能。
- 唯一索引:支持对特定字段创建唯一索引,这在保证数据的完整性和一致性方面非常重要。在电力监控系统中,每个电表的读数记录需要保证唯一性,通过创建唯一索引,可以防止插入重复的数据,确保数据的准确性。
- 复合索引:对于经常在一起查询的字段,可以创建复合索引来加速查询速度。在智能交通系统中,如果经常需要根据车辆的行驶时间和速度进行查询,那么可以创建一个包含时间和速度字段的复合索引,这样在查询时可以大大提高查询效率,减少查询时间。
索引文件(.head 文件)工作原理
.head 文件在 TDengine 的数据查询过程中扮演着至关重要的角色,它存储着.data 文件中数据块的索引信息。在.data 文件中的每个数据块的 BRIN 索引信息在.head 文件中以表为分组,按照时间顺序递增,形成索引块组 。
硬盘上的数据采用 BRIN 索引,这种索引方式主要适用于有着天然顺序的数据集,由于不需要再做排序,所以资源耗费少,十分契合时序数据的查询特点。在查询时,系统首先会加载.head 文件中的索引信息。当用户发起一个查询请求,比如查询某个时间段内的时序数据时,系统会根据查询条件,在.head 文件中查找对应的索引块组。通过索引块组中的索引信息,系统可以快速定位到.data 文件中包含所需数据的数据块位置。然后,系统根据这些位置信息,从.data 文件中读取相应的数据块,并返回给用户。这种通过.head 文件中的索引快速定位数据的方式,大大提高了查询效率,减少了数据读取的时间 。
索引优化策略与性能影响
.head 文件的大小会对查询性能产生重要影响,而影响.head 文件大小的因素主要有 maxrows、minrows 和 duration 等参数 。
- maxrows 和 minrows 参数:这两个参数决定了数据块的大小和数量。同样数量的数据,maxrows 值越小,数据块数量就越多;反之,maxrows 值越大,数据块数量就越少。而每个数据块都需要一条索引信息存储在.head 文件中,所以数据块数量的变化会直接影响.head 文件的大小。例如,同样是 1000 行数据,当 maxrows = 200 时,需要 5 个数据块;当 maxrows 为 1000 时,只需要 1 块。数据块数量的增加会导致.head 文件中索引信息增多,文件变大,进而可能影响查询性能,因为在查询时需要读取和处理更多的索引信息 。
- duration 参数:该参数控制单个数据文件存储数据的天数。duration 越大,单个数据文件存储的数据量就越大,数据块也就越多,.head 文件自然会越大。在实际应用中,曾有企业用户将 duration 参数设置为 1000 多天,导致数据查询性能严重下降。这是因为过大的.head 文件使得查询时读取索引信息的时间变长,增加了查询的响应时间 。
为了应对.head 文件大小对查询性能的影响,在 TDengine 3.0.2.5 版本中,针对.head 文件做了一项重要的缓存优化策略。对于常用的表索引数据,会被放在缓存中(采用 LRU 算法)。这意味着,当不同的查询任务涉及到已缓存索引的表时,不需要重复地读取.head 文件,从而减少了磁盘 I/O 操作,提高了查询效率。由于涉及已落盘数据的查询基本都需要首先访问.head 文件,所以该优化策略使得整体查询性能都得到了提升,特别是在高并发查询场景下,效果更为显著,形成了较大幅度的性能突破 。
总结与展望
TDengine 的存储引擎在数据文件与索引设计上展现出了诸多独特的优势,使其在时序数据处理领域表现卓越。其四位一体的数据文件结构,通过.data、.stt、.head 和.sma 文件的协同工作,实现了数据的高效存储、管理和快速查询。在数据写入流程中,基于 duration 的分区策略以及对乱序数据的有效处理机制,保证了数据的有序性和完整性,提高了写入和查询的效率 。
索引设计方面,TDengine 采用的多级时间戳压缩索引、自适应段合并、哈希分区、唯一索引和复合索引等技术,满足了不同场景下的查询需求,大大提升了查询性能。特别是.head 文件中 BRIN 索引的应用,以及 3.0.2.5 版本中对.head 文件的缓存优化策略,使得查询效率得到了进一步的提升 。
展望未来,随着物联网、工业互联网等领域的不断发展,时序数据的规模和复杂性将持续增加。TDengine 有望在以下几个方向进行优化和拓展:
- 进一步优化存储结构:针对不断增长的数据量,研究更高效的存储结构和压缩算法,进一步减少存储空间的占用,提高存储效率。
- 提升索引性能:探索更先进的索引技术,以应对更复杂的查询场景,提高索引的查询速度和灵活性。
- 加强对复杂数据类型和查询的支持:随着应用场景的不断丰富,支持更多复杂的数据类型和查询操作,满足用户多样化的需求。
- 拓展应用领域:将 TDengine 的优势应用到更多领域,如金融风控、智能交通、医疗健康等,为各行业的数字化转型提供更强大的数据支持 。
通过不断的优化和创新,TDengine 有望在时序数据库领域持续保持领先地位,为用户提供更高效、可靠的时序数据处理解决方案。
相关文章:
TDengine 存储引擎剖析:数据文件与索引设计(二)
TDengine 索引设计 索引设计关键特性 TDengine 的索引设计采用了多种技术和策略,以满足时序数据高效存储和快速查询的需求,具有以下关键特性: 多级时间戳压缩索引:TDengine 使用了时间戳压缩索引技术,能够有效减少索…...
基于Python的医疗质量管理指标智能提取系统【2025代码版】
系统概述 本系统旨在帮助医疗质量管理部从医院信息系统(HIS)中智能提取《2025年国家医疗质量安全改进目标》中的关键指标数据。系统采用Python编程语言,结合现代数据处理库,实现高效、准确的数据提取与分析功能。 import json import logging import logging.handlers impo…...
中介者模式(Mediator Pattern)
中介者模式(Mediator Pattern)是一种行为型设计模式。它通过引入一个中介者对象,来封装一系列对象之间的交互,使这些对象之间不再直接相互引用和通信,而是通过中介者进行间接通信,从而降低对象之间的耦合度,提高系统的可维护性和可扩展性。 一、基础 1. 意图 核心目的…...
Hbuilder 上的水印相机实现方案 (vue3 + vite + hbuilder)
效果 思路 通过 live-pusher 这个视频推流的组件来获取摄像头拿到视频的一帧图片之后,跳转到正常的 vue 页面,通过 canvas 来处理图片水印 源码 live-pusher 这个组件必须是 nvue 的 至于什么是 nvue,看这个官方文档吧 https://uniapp.dcl…...
聊聊Spring AI Alibaba的PdfTablesParser
序 本文主要研究一下Spring AI Alibaba的PdfTablesParser PdfTablesParser community/document-parsers/spring-ai-alibaba-starter-document-parser-pdf-tables/src/main/java/com/alibaba/cloud/ai/parser/pdf/tables/PdfTablesParser.java public class PdfTablesParser…...
二分查找-LeetCode
题目 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 示例 1: 输入: nums [-1,0,3,5,9,12], target 9 输出: 4 解释: …...
StarRocks Community Monthly Newsletter (Mar)
版本动态 3.4.1 版本更新 核心功能升级 数据安全与权限管控 支持「安全视图」功能,严格管控视图查询权限 MySQL协议连接支持SSL认证,保障数据传输安全 存算分离架构增强 支持自动创建Snapshot(集群恢复更便捷) Storage Volu…...
STM32+dht11+rc522+jq8400的简单使用
1.dht11的使用 硬件:3v3,gnd,data数据线接一个gpio,三根线即可 软件: ①dht11.c #include "dht11.h" #include "delay.h" #include "stdbool.h"static STRUCT_DHT11_TYPEDEF dht11;…...
mpstat指令介绍
文章目录 1. 功能介绍2. 语法介绍3. 应用场景4. 实际举例 1. 功能介绍 mpstat 英文全称( Multi-Processor Statistics),多处理器统计信息的含义。 下面大致说一下功能作用: 多核性能监控 可实时监控每个 CPU 核心的利用率、中断频率、上下文切换等指标&…...
网络层IP协议知识大梳理
全是通俗易懂的讲解,如果你本节之前的知识都掌握清楚,那就速速来看我的IP协议笔记吧~ 自己写自己的八股!让未来的自己看懂! (全文手敲,受益良多) 网路基础3 网路层 TCP并没有把数据发到网路…...
Linux-codec
codec原理图 codec接口 ①音频输入接口,连接mic ②音频输出接口,连接speaker ③sai/i2s接口,连接soc,soc和codec互发音频数据 ④i2c接口,连接soc,soc配置codecsai音频接口 MCLK:主时钟&#x…...
HTTP协议与web服务器
HTTP协议与web服务器 目录 一、浏览器与服务器通信过程 1.1 域名解析与连接建立 1.2 数据交互 1.3 连接管理 二、HTTP请求报头 2.1 请求行 2.2 请求报头 2.3 空行 2.4 请求体 三、HTTP应答报头 3.1 http应答报文头部信息 1. 状态行 2. 服务器名称 3. 数据长度 4…...
ECharts散点图-散点图7,附视频讲解与代码下载
引言: ECharts散点图是一种常见的数据可视化图表类型,它通过在二维坐标系或其它坐标系中绘制散乱的点来展示数据之间的关系。本文将详细介绍如何使用ECharts库实现一个散点图,包括图表效果预览、视频讲解及代码下载,让你轻松掌握…...
蓝桥杯之二分法(二)
存在某条件使得一边均满足,一边均不满足: 如果问题满足某种条件,使得在某个点之前的所有值都满足条件,而之后的所有值都不满足条件(或反之),那么可以使用二分法来找到这个边界。 1.问题的解具有…...
当 AI 有了 “万能插头” 和 “通用语言”:MCP 与 A2A 如何重构智能体生态
目录 一、MCP:让 AI 拥有 “万能工具插头” 1.1 从 “手工对接” 到 “即插即用” 1.2 架构解密:AI 如何 “指挥” 工具干活 1.3 安全优势:数据不出门,操作可追溯 二、A2A:让智能体学会 “跨语言协作” 2.1 从 “…...
从零开始 保姆级教程 Ubuntu20.04系统安装MySQL8、服务器配置MySQL主从复制、本地navicat远程连接服务器数据库
从零开始:Ubuntu 20.04 系统安装 MySQL 8、服务器配置 MySQL 主从复制、本地 Navicat 远程连接服务器数据库 初始化服务器1. 更新本地软件包列表2. 安装 MySQL 服务器3. 查看 MySQL 安装版本4. 登录 MySQL 管理终端5. 设置 root 用户密码(推荐使用 nativ…...
PHP序列化/反序列化漏洞原理
PHP反序列化原理详解 引言 PHP反序列化是PHP中一个重要的概念,它允许将序列化后的数据重新转换为原始的数据结构。在PHP中,可以使用serialize()函数将数据序列化为字符串,然后使用unserialize()函数将序列化后的字符串反序列化为原来的数据结…...
并查集(力扣2316)
这种涉及不同连通分量的,看上去就可以用并查集。并查集的模板请参见上一篇内容。并查集(力扣1971)-CSDN博客 现在我们要求的是无法互相到达的点对。根据观察易得,我们只需要求出每个并查集的元素数量,然后遍历每个点&…...
【web服务_负载均衡Nginx】一、Nginx 基础与核心概念解析
一、Nginx 概述:从起源到行业地位 Nginx(发音为 “engine x”)是一款高性能的开源 Web 服务器、反向代理服务器,同时具备负载均衡、内容缓存、TCP/UDP 代理及邮件代理等功能。它由俄罗斯工程师伊戈尔・赛索耶夫(Igo…...
【Python入门】文件读取全攻略:5种常用格式(csv/excel/word/ppt/pdf)一键搞定 | 附完整代码示例
大家好,我是唐叔!今天给大家带来一篇Python文件读取的终极指南。无论是数据分析、办公自动化还是爬虫开发,文件读取都是Python程序员必须掌握的核心技能。本文将详细介绍Python处理5大常用文件格式的方法,包含完整可运行的代码示例…...
考研系列-计算机网络冲刺考点汇总(下)
写在前面 本文将总结王道408考研课程的计算机网络冲刺考点的第四章到第六章内容(网络层、传输层、应用层)。 第四章、网络层 1.SDN SDN的基本概念 注意对应关系:数据平面-转发;控制平面-路由选择 2.路由选择算法 (1)RIP协议-基于…...
GitLab-CI集成FTP自动发布
简介 在某些场景下,代码是以 FTP 的方式部署到服务器上,那么我们可以使用 GitLab-CI 来实现自动发布。 配置参考 .sftp-deploy: &sftp-deploy |-files$(git log -10 --prettyformat: --name-only | grep -v ^$ | sort -u)include_patterns$(echo …...
Ubuntu 安装cuda踩坑记录
Ubuntu 安装cuda踩坑记录: 运行run文件时出错: sh cuda_12.4.0_550.54.14_linux.run 报错: ./cuda-installer: error while loading shared libraries: libxml2.so.2: cannot open shared object file: No such file or directory 解决&am…...
用GitHub Actions实现CI/CD
目录 简介GitHub Actions基础工作流配置文件实战案例 Node.js应用Python应用Docker容器构建与部署 最佳实践常见问题与解决方案总结 简介 持续集成/持续部署(CI/CD)已成为现代软件开发不可或缺的一部分。它通过自动化构建、测试和部署过程,帮助开发团队更快、更可…...
使用AI工具打造专业级PPT的完整方案,结合 DeepSeek构思、Kimi生成内容、Napkin优化设计 等工具,分阶段详细说明流程及工具使用
以下是使用AI工具打造专业级PPT的完整方案,结合 DeepSeek构思、Kimi生成内容、Napkin优化设计 等工具,分阶段详细说明流程及工具使用: 一、全流程阶段划分 阶段目标核心工具1. 构思阶段明确主题、结构、核心信息,生成大纲与逻辑…...
【数据结构】线性表( List)和 顺序表(ArrayList)
【数据结构】线性表( List)和 顺序表(ArrayList) 一、线性表 List二、List 接口的常用方法三、ArrayList与顺序表3.1 引入顺序表的原因?3.2 ArrayList 的使用3.2.1 ArrayList 的创建3.2.2 添加元素:list.ad…...
嵌入式开发--STM32软件和硬件CRC的使用--续篇
本文是《嵌入式开发–STM32软件和硬件CRC的使用》的续篇,又踩到一个坑,发出来让大家避一下坑。 按照G0系列的设置,得出错误的结果 前文对应的是STM32G0系列,今天在用STM32G4系列时,按照前文的设置,用硬件…...
探索鸡养殖虚拟仿真实验:科技赋能养殖新体验
在科技飞速发展的今天,虚拟仿真技术逐渐渗透到各个领域,就连传统的养殖业也迎来了数字化的变革。最近,我参与了一场别开生面的鸡养殖虚拟仿真实验,不仅学到了专业的养殖知识,还收获了前所未有的沉浸式体验。现在&#…...
知识图谱中医知识问答系统|养生医案综合可视化系|推荐算法|vue+flask+neo4j+mysql
文章结尾部分有CSDN官方提供的学长 联系方式名片 文章结尾部分有CSDN官方提供的学长 联系方式名片 关注B站,有好处! ✅编号 :F040 pro ✅技术架构: vueflaskmysqlneo4jltpac ✅实现功能:实现基于中医药材和药方的知识图谱可视化,在…...
【AI】——结合Ollama、Open WebUI和Docker本地部署可视化AI大语言模型
🎼个人主页:【Y小夜】 😎作者简介:一位双非学校的大三学生,编程爱好者, 专注于基础和实战分享,欢迎私信咨询! 🎆入门专栏:🎇【MySQL࿰…...
AI 模型高效化:推理加速与训练优化的技术原理与理论解析
AI 模型高效化:推理加速与训练优化的技术原理与理论解析 文章目录 AI 模型高效化:推理加速与训练优化的技术原理与理论解析一、推理加速:让模型跑得更快的“程序员魔法”(一)动态结构自适应推理:像人类一样…...
python学习—详解word邮件合并
系列文章目录 python学习—合并TXT文本文件 python学习—统计嵌套文件夹内的文件数量并建立索引表格 python学习—查找指定目录下的指定类型文件 python学习—年会不能停,游戏抽签抽奖 python学习—循环语句-控制流 python学习—合并多个Excel工作簿表格文件 pytho…...
vscode与vim+cscope+tags热键冲突
[ctrl w] s 对于vim时水平分割窗口热键 对vscode, [ctrl w]时关闭当前窗口热键 在vscode中如下配置可以发送热键到shell, 跳过vscode:...
直播系统源码开发:解锁幸运礼物功能的商业魔力与运营策略
在当今如火如荼的直播经济中,幸运礼物功能已成为平台提升用户黏性、刺激消费的"黄金按钮"。山东布谷科技将深入剖析幸运礼物功能的技术逻辑与商业价值,并为运营者提供一套完整的策略框架,帮助您在激烈的直播赛道中脱颖而出。 一、…...
毕业设计效率提升工具与避坑指南
本文为毕业设计后的经验记录,包含写作过程中的一些实用工具和注意事项。 一、📌实验及写作实用技巧二、🚀 效率提升工具三、📊论文完成后的格式检查 本文为毕业设计后的经验记录,包含写作过程中的一些实用工具和注意事…...
Python网络爬虫设计(二)
目录 六、BeautifulSoup库 1、常见的提取分析网页内容的三种方式 (1)正则表达式 (2)BeautifulSoup库 (3)pyppeteer库中的元素查找函数 2、HTML中的tag 3、BeautifulSoup库的安装和导入 4、Beautiful…...
滑动窗口209. 长度最小的子数组
1.题目 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于 target 的长度最小的 子数组 [numsl, numsl1, ..., numsr-1, numsr] ,并返回其长度。如果不存在符合条件的子数组,返回 0 。 示例 1: 输入&…...
如何避免被目标网站识别为爬虫?
文章目录 前言1. 合理设置请求头2. 控制请求频率3. 模拟真实用户行为4. 使用代理 IP5. 处理验证码6. 会话管理 前言 为避免被目标网站识别为爬虫,可从请求头设置、请求频率控制、模拟用户行为、使用代理、处理验证码和会话管理等多个方面采取措施,以下是…...
Dell戴尔服务器 PowerEdge R750xs + window server2012r2 || 2016
因要求需要给新服务器装个 win server2012或者2016系统 XXX使用U盘制作PE系统U盘安装系统不行,适合普通win8,win10,win11U盘制作PE系统U盘安装win10系统教程U盘制作PE系统U盘安装win10系统教程https://mp.weixin.qq.com/s/t0W8aNJaHPAU8T78nh…...
如何通过数据分析提升软件开发项目的成功率?
引言 在软件开发中,项目延期、超预算、需求反复变更等问题屡见不鲜。数据分析作为项目管理的重要工具,正在被越来越多的企业用于提升项目成功率。通过科学利用项目数据,团队可以做出更准确的决策,避免重复踩坑,从而大幅…...
模型的RAG
RAG 什么是RAG 当岳不群相当武林的盟主时候,你的给他一个葵花宝典(秘籍RAG) RAG的原理 建立索引: 首先要清洗和提取原始数据,将 PDF、Docx等不同格式的文件解析为纯文本数据 然后将文本数据分割成更小的片段(chunk)…...
基于多模态双路TCN-SE-YOLO的小目标检测
首先声明:该思路在小目标检测领域尚未有成果发表,感兴趣的小伙伴可以借鉴! 一、引言 1.1 研究背景 小目标检测在交通监控(车牌识别)、工业检测(PCB缺陷)及农业(病虫害斑点)等领域具有重要应用价值传统单模态检测方法在复杂场景下的漏检率高达40%以上(VisDrone 2021…...
idea maven 命令后控制台乱码
首先在idea中查看maven的编码方式 执行mvn -v命令 查看编码语言是GBK C:\Users\13488>mvn -v Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f) Maven home: D:\maven\apache-maven-3.6.3\bin\.. Java version: 1.8.0_202, vendor: Oracle Corporation, runt…...
在Vmware15(虚拟机免费) 中安装纯净win10详细过程
一、软件备选 1. VMware15.5.1 网盘下载地址 链接: https://pan.baidu.com/s/1y6GLJ2MG-1tomWblt3otsg?pwdim8e 提取码: im8e 2. windows镜像下载 去官网下载ios包 链接:https://www.microsoft.com/zh-cn/software-download/windows10 二、在VMware15.5.1下安装w…...
RISC-V 与 OpenHarmony 的结合意义与应用建议
RISC-V 与 OpenHarmony 的结合意义与应用建议 一、结合的意义 (一)硬件与软件的协同创新 RISC-V 作为硬件层的开源指令集架构,为 OpenHarmony 提供了强大的硬件支持。这种支持不仅体现在硬件性能的提升上,还为 OpenHarmony 的分…...
让SQL飞起来:搭建企业AI应用的SQL性能优化实战
我上一篇文章已经讲解过了如何使用公开的AI模型来优化SQL.但这个优化方法存在一定的局限性.因为公开的AI模型并不了解你的数据表结构是什么从而导致提供的优化建议不太准确.而sql表结构又是至关重要的安全问题,是不能泄露出去的.所以在此背景下我决定搭建一个自己的AI应用在内网…...
驱动开发硬核特训 · Day 14:深入理解 Power 管理驱动架构与实战应用
在嵌入式系统中,Power(电源)管理驱动既关乎系统稳定性,又直接影响功耗与续航,是系统设计中绕不开的核心模块。今天我们通过理论实战的形式,一次性讲清楚: Linux 中电源管理驱动的核心框架Regul…...
备份思科路由器设备文件实例
实例需求: (1)备份路由器的配置文件startup-config和映像文件 (2)备份交换机的配置文件startup-config和映像文件 注:PC3为TFTP服务器 结构示意图: 实例配置一: 备份路由器的配置文件startup-config和映像文件 步骤: 在PC3上打开tftp服务。确保PC3可以ping通11.1.1.…...
游戏引擎学习第231天
设定当天的主题 我们现在到了一个很少出现在直播中的阶段,但今天是那种需要解释计算机科学基础概念的日子。因此,今天我们将讨论这个内容,今天的重点是“大O表示法”(Order Notation),我将用黑板来解释这些…...
PclSharp ——pcl的c#nuget包
简介: NuGet Gallery | PclSharp 1.8.1.20180820-beta07 下载.NET Framework 4.5.2 Developer Pack: 下载 .NET Framework 4.5.2 Developer Pack Offline Installer 离线安装nupkg: nupkg是visual studio 的NuGet Package的一个包文件 安…...