《数据密集型应用系统设计》读书笔记:第二章
我们继续拆解 第2章:数据模型与查询语言。这章讲的是如何组织数据、如何访问数据,也是你选择数据库种类的根本依据。
第2章:数据模型与查询语言
一、为何数据模型重要?
Martin 开篇就强调,数据模型影响:
- 开发者怎么思考数据结构
- 数据库如何高效存取数据
- 未来系统能否灵活演化
一句话:数据模型决定你整个系统的“思维方式”。
二、主流数据模型介绍
1. 关系模型(Relational Model)
- 起源:1970年,E.F. Codd 提出,SQL就是它的查询语言。
- 特点:
- 表格形式(行-列)
- 强类型、模式严格(schema)
- 支持 JOIN、事务(ACID)
优点:
- 抽象能力强(范式、约束)
- 有丰富的查询语言(SQL)
- 工具和社区成熟
缺点:
- 模式变更困难(需要迁移)
- 对复杂嵌套结构支持差(比如文章下的评论、用户信息)
2. 文档模型(Document Model)
- 常见于 NoSQL,如 MongoDB、CouchDB
- 数据以文档结构(JSON、BSON)存储
优点:
- 灵活(schema-less)
- 适合嵌套结构和一对多模型
- 写起来更像程序员日常用的数据结构(对象/字典)
缺点:
- 缺少强约束,易出现“数据质量地狱”
- JOIN 支持较差,不适合复杂关联
- 查询能力弱于 SQL(虽然 Mongo 有 aggregation pipeline)
3. 图模型(Graph Model)
- 常用于关系密集型系统(社交网络、推荐系统)
- 节点 + 边(Neo4j、JanusGraph)
三、查询语言风格
1. 声明式(Declarative)
- 如 SQL:你只说**“我要什么”**,不用管“怎么做”。
- 优点:抽象、可优化(数据库可重写执行计划)
- 缺点:写复杂逻辑容易晦涩
2. 命令式(Imperative)
- 如 Mongo 的 API、MapReduce、Spark RDD
- 你要写清楚怎么一步步获取数据
Martin 提出一个观点:声明式语言对“查询优化器”更友好,也便于系统层做自动化优化。
四、模式设计:规范化 vs 去规范化
规范化(Normalization):
- 拆表、建关联、去重数据冗余
- 优点:节省空间、减少数据不一致
- 缺点:读取时需要 JOIN,性能差
去规范化(Denormalization):
- 常用于 NoSQL,把数据嵌套在一起(一个订单里直接嵌用户信息)
- 优点:查询快、写起来自然
- 缺点:冗余数据、更新困难
五、演进方向:混合模式
如今越来越多系统支持:
- JSON in SQL(PostgreSQL、MySQL 8.0)
- Schema 可变的文档数据库也支持 SQL 风格查询(如 Couchbase)
趋势是:融合两种模型的优点
六、设计原则与取舍
目标 | 推荐模型 | 原因 |
---|---|---|
强事务、一致性 | 关系型 | ACID、类型约束 |
灵活演化、嵌套结构 | 文档型 | Schema-less |
高度连接的数据 | 图数据库 | 高效查询复杂路径 |
写多读少,查询简单 | 文档型 + 去规范化 | 避免 JOIN,提高性能 |
查询复杂,关系清晰 | 关系型 + 规范化 | 易维护数据一致性 |
现在我们来用真实系统举例,对比不同数据模型的设计风格和适用场景。帮你在心中建立“这类问题该选哪个系统”的直觉。
真实系统 vs 数据模型对照表
系统 | 使用的数据模型 | 查询语言 | 典型场景 | 优点 | 缺点 |
---|---|---|---|---|---|
MySQL / PostgreSQL | 关系模型 | SQL(声明式) | 金融、电商订单系统、用户管理 | 事务支持强,JOIN 查询强大 | 模式刚性,改结构麻烦 |
MongoDB | 文档模型(BSON) | 查询 API + 聚合管道 | 博客、CMS、产品目录、社交评论 | 嵌套结构友好,灵活写入 | JOIN 支持差,事务弱(尽管后期补强) |
Redis | 键值模型 | 无标准查询语言(命令式) | 缓存、排行榜、临时会话 | 快!极快! | 数据结构简单,不适合复杂关系 |
Elasticsearch | 倒排索引 + 文档模型 | DSL 查询语法 | 搜索、日志分析、全文检索 | 模糊查询和分析超强 | 写入延迟、事务弱、存储成本高 |
Neo4j | 图模型(节点+边) | Cypher(声明式图查询) | 社交网络、推荐系统、权限体系 | 关系密集查询快、路径计算好 | 学习曲线陡,冷门 |
DynamoDB | 文档 + 键值混合 | 命令式 API | 高吞吐电商系统、IoT、大量并发写入 | 可扩展性极强(AWS 支持) | 索引和查询限制多 |
Cassandra | 列族模型(Wide Column) | CQL(类 SQL) | 时间序列、日志、分布式写多场景 | 写入性能强、横向扩展好 | 二级索引弱、不支持 JOIN |
典型使用案例举例
1. 用户系统(注册登录、基本信息管理)
- 推荐:MySQL / PostgreSQL
- 理由:数据结构稳定,强一致性需求(用户不能重名、ID唯一)
2. 博客平台或内容管理系统(文章、评论、标签)
- 推荐:MongoDB
- 理由:每篇文章是独立文档,嵌套评论天然适合文档结构,开发灵活
3. 搜索框(商品搜索、日志搜索)
- 推荐:Elasticsearch
- 理由:支持全文检索、模糊匹配、分词高亮、聚合分析
4. 即时排行榜、点赞数、缓存用户信息
- 推荐:Redis
- 理由:读取频繁,延迟要求极低,内存存储速度极快
5. 好友推荐系统、社交图谱
- 推荐:Neo4j
- 理由:需要高效计算“朋友的朋友”、“关注路径”、“共同爱好”等关系网络
6. 日志采集和监控系统(大数据、写多读少)
- 推荐:Cassandra / DynamoDB
- 理由:数据量大,写入压力大,不追求强一致性但要求扩展性
总结建议:怎么选数据模型?
- 你要做一个系统时,问自己两个问题:
- 我的数据长什么样?嵌套的?表格的?网状的?
- 我的操作怎么查?复杂 JOIN ?全文搜索?高并发读写?
关系清晰 + 查询复杂 → MySQL/PostgreSQL
嵌套数据 + 结构灵活 → MongoDB
搜索分析 → Elasticsearch
缓存排行榜 → Redis
图状关系 → Neo4j
高并发写入 → Cassandra/DynamoDB
七、本章总结关键词
- 数据模型 ≠ 存储格式,而是系统的结构化思维
- 选择模型是权衡:结构灵活性 vs 查询复杂性
- 声明式查询语言是生产力工具
- 未来是多模型系统的融合(Polyglot Persistence)
相关文章:
《数据密集型应用系统设计》读书笔记:第二章
我们继续拆解 第2章:数据模型与查询语言。这章讲的是如何组织数据、如何访问数据,也是你选择数据库种类的根本依据。 第2章:数据模型与查询语言 一、为何数据模型重要? Martin 开篇就强调,数据模型影响: …...
ubuntu24.04LTS安装向日葵解决方案
去向日葵官方下载ubuntu使用的deb包 向日葵 输入如下命令安装,将具体版本修改成自己下载的版本 andrew in ~/下载 λ sudo dpkg -i SunloginClient_15.2.0.63064_amd64.deb 正在选中未选择的软件包 sunloginclient。 (正在读取数据库 ... 系统当前共安装有 290947…...
Python基础语法1
目录 1、认识Python 1.1、计算机 1.2、编程 1.3、编程语言的类别 1.4、Python背景 1.5、Python的应用场景 1.6、Python的优缺点 1.7、Python前景 1.8、Python 环境 2、常量和表达式 3、变量和类型 3.1、定义变量 3.2、使用变量 3.3、变量的类型 3.3.1、整形 3.3…...
深度学习中多机训练概念下的DP与DDP
在进行单机多卡/多机多卡训练时,通常会遇到DP与DDP的概念,为此基于kimi大模型对二者的差异进行梳理。使用DP/DPP的核心是数据并行,也就是根据显卡数量对数据集进行分治,每一个显卡都有一个独立完整的模型和一个局部数据。在多个显…...
设计模式(结构型)-桥接模式
目录 摘要 定义 类图 角色 具体实现 优缺点 优点 缺点 使用场景 使用案例 JDBC 和桥接模式 总结 摘要 在软件开发领域,随着系统规模和复杂性的不断攀升,如何设计出具有良好扩展性、灵活性以及可维护性的软件架构成为关键挑战。桥接模式作为一…...
精品推荐 | 湖仓一体电商数据分析平台实践教程合集(视频教程+设计文档+完整项目代码)
精品推荐,湖仓一体电商数据分析平台实践教程合集,包含视频教程、设计文档及完整项目代码等资料,供大家学习。 1、项目背景介绍及项目架构 2、项目使用技术版本及组件搭建 3、项目数据种类与采集 4、实时业务统计指标分析一——ODS分层设计与数…...
【LangChain少样本提示工程实战】FewShotPromptTemplate原理与应用解析——附运行代码
目录 引言 重点提炼 一、FewShotPromptTemplate作用 1. 整合示例与模板,构建结构化提示 2. 引导模型理解任务逻辑 3. 提升少样本场景下的模型性能 4. 支持动态示例选择(扩展功能) 5. 与其他模块…...
基于LSTM的文本分类3——模型训练
前言 之前已经完成了模型搭建和文本数据处理,现在做一下模型训练。 源码 # -*- coding: UTF-8 -*- import numpy as np import torch import torch.nn as nn import torch.nn.functional as F from sklearn import metrics # 导入评估指标 import time from uti…...
【JS】关于原型/原型链
本文会讲解什么是原型,什么是原型链,以及查找原型的方法,最后会实现一个函数:判断某对象是否有某属性。 定义 原型:函数都有prototype属性,称作原型/原型对象 原型可以放一些方法和属性,共享…...
猫咪如厕检测与分类识别系统系列【五】信息存储数据库改进+添加猫咪页面制作+猫咪躯体匹配算法架构更新
前情提要 家里养了三只猫咪,其中一只布偶猫经常出入厕所。但因为平时忙于学业,没法时刻关注牠的行为。我知道猫咪的如厕频率和时长与健康状况密切相关,频繁如厕可能是泌尿问题,停留过久也可能是便秘或不适。为了更科学地了解牠的如…...
k8s的配置文件总结
在 Kubernetes 中,配置文件 是定义集群资源的核心,通常以 YAML 或 JSON 格式编写。以下是 Kubernetes 中关键的配置文件类型及其作用: 1. 核心工作负载配置 (1) Deployment • 用途:定义无状态应用的 Pod 副本管理策略ÿ…...
插值算法 - 最近邻插值实现
目录 1. 导入必要的库 2. nearest_neighbor_interpolation 3. 测试代码 数学原理 完整代码 本文实现了基于最近邻插值算法的图像缩放功能。 它使用 Python 编写,主要依赖于NumPy和PIL(Python Imaging Library)库。 NumPy用于高效的数值计算,而PIL仅用于图像的加载和…...
QEMU源码全解析 —— 块设备虚拟化(19)
接前一篇文章:QEMU源码全解析 —— 块设备虚拟化(18) 本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM源码解析与应用》 —— 李强,机械工业出版社 《KVM实战 —— 原理、进阶与性能调优》—— 任永杰 程舟,机械工业出版社 特此致谢! QEMU启动…...
常见的归一化(Normalization)方法
本文详解深度学习中常见的归一化方法。 【归一化是将数据按比例缩放,使之落入一个特定的区间】目录 1. 批量归一化(Batch Normalization,BN)1.1 数学原理1.2 代码示例 2. 层归一化(Layer Normalization,LN&…...
架构师面试(二十九):TCP Socket 编程
问题 今天考察网络编程的基础知识。 在基于 TCP 协议的网络 【socket 编程】中可能会遇到很多异常,在下面的相关描述中说法正确的有哪几项呢? A. 在建立连接被拒绝时,有可能是因为网络不通或地址错误或 server 端对应端口未被监听&#x…...
【高性能缓存Redis_中间件】二、redis进阶 高级特性及应用
一、前言 在第一篇文章中,我们已经对 Redis 消息队列有了基础的认识,掌握了其基本使用方法。然而,在实际的复杂业务场景中,仅仅运用基础功能是远远不够的。本篇文章将深入探讨 Redis 消息队列的高级特性,如消息确认机…...
vs2022 pcl1.15.0注意点
pcl1.15.0的版本变化很大,其中有一个地方需要设置成如下图所示 如果不设置生成的时候可能有以下错误: 严重性 代码 说明 项目 文件 行 禁止显示状态 详细信息 错误 C1189 #error: "Potential runtime error due to…...
React Router路由
例子 // 创建Router实例对象 const router createBrowserRouter([{path:/login,element:<div>我是登录</div>},{path:/article,element:<div>我是文章</div> }])在jsx中配置一个RouterProvider组件 绑定 router{router} 常规的组件配置...
深度学习(一)
(Ⅰ)神经网络和深度学习 一,ReLU激活函数 ReLU(Rectified Linear Unit)函数,输入大于0时,直接输出该值;输入小于0时,输出0 代码实现: 图中的每个节点都可以是ReLU激活函数的一部分 二,循环神经…...
【LeetCode 热题100】二叉树遍历入门:从中序遍历到层序与右视图(力扣94 / 102/199)(Go语言版)
🌳 二叉树遍历入门:从中序遍历到层序与右视图 本文涵盖 LeetCode 上的三道基础但极具代表性的二叉树遍历题: 二叉树的中序遍历 二叉树的层序遍历 二叉树的右视图 通过这些题目,我们将从 DFS 到 BFS,深入理解如何处理…...
Tauri 2.3.1+Leptos 0.7.8开发桌面应用--Sqlite数据库的写入、展示和选择删除
在前期工作的基础上(Tauri2Leptos开发桌面应用--Sqlite数据库操作_tauri sqlite-CSDN博客),尝试制作产品化学成分录入界面,并展示数据库内容,删除选中的数据。具体效果如下: 一、前端Leptos程序 前端程序主…...
MySQL 5.7.43 二进制安装指南:从零开始的高效快速实现安装部署
目录 引言:为什么选择二进制安装? 1 环境准备 1.1 基础环境检查 1.2 系统安全设置 2 系统优化配置 2.1 磁盘调度策略 2.2 系统资源限制 3 mariadb删除 4 依赖包安装 5 MySQL二进制安装包下载 6 MySQL安装部署 6.1 解压安装包 6.2 创建用户以…...
使用U盘安装 ubuntu 系统
1. 准备U 盘制作镜像 1.1 下载 ubuntu iso https://ubuntu.com/download/ 这里有多个版本以供下载,本文选择桌面版。 1.2 下载rufus https://rufus.ie/downloads/ 1.3 以管理员身份运行 rufus 设备选择你用来制作启动项的U盘,不能选错了;点…...
【家政平台开发(42)】筑牢家政平台安全防线:安全测试与漏洞修复指南
本【家政平台开发】专栏聚焦家政平台从 0 到 1 的全流程打造。从前期需求分析,剖析家政行业现状、挖掘用户需求与梳理功能要点,到系统设计阶段的架构选型、数据库构建,再到开发阶段各模块逐一实现。涵盖移动与 PC 端设计、接口开发及性能优化,测试阶段多维度保障平台质量,…...
JavaWeb-04-Web后端基础(SpringBootWeb、HTTP协议、分层解耦、IOC和DI)
目录 一、SpringBootWeb入门 1.1 概述 1.2 入门程序 1.2.1 需求 1.2.2 开发步骤 1.3 入门解析 二、HTTP协议 2.1 HTTP概述 2.1.1 介绍 2.1.2 特点 2.2 HTTP请求协议 2.2.1 介绍 2.2.2 获取请求数据 2.3 HTTP响应协议 2.3.1 格式介绍 2.3.2 响应状态码 2.3…...
随笔 20250413 Elasticsearch 的 term 查询
你这个问题非常经典,来自于 Elasticsearch 的 term 查询是 ✅精确匹配(case-sensitive,大小写敏感)! 🧨 为什么查不到 "World"? 你的查询语句是: GET /movie/_search {&…...
zk(Zookeeper)实现分布式锁
Zookeeper实现分布式锁 1,zk中锁的种类: 读锁:大家都可以读,要想上读锁的前提:之前的锁没有写锁 写锁:只有得到写锁的才能写。要想上写锁的前提是:之前没有任何锁 2,zk如何上读锁 创…...
操作系统简要概述
操作系统是计算机系统的核心软件,它管理和控制计算机硬件与软件资源,为用户提供方便、高效、安全的使用环境。以下是关于操作系统的详细介绍: 一、定义 操作系统(Operating System,简称 OS)是计算机硬件与…...
开漏模式的触发条件和工作状态
MOS管的漏-栅-源三极 漏极开路--开漏 电路整体概述 这是开漏(Open - Drain)电路结构,核心由输出控制模块和一对互补的MOS管(P - MOS和N - MOS)组成。开漏电路的特点是MOS管漏极开路,这种结构常用于需要实现…...
【Java学习笔记】Java第一课,梦开始的地方!!!
目录 1. 基本内容介绍和软件安装 2. 快速入门之第一个程序 hello world 3. 学习方法 基本介绍和软件安装 一、 Java 岗位与应用场景 说明:java 基础也称javaSE 岗位 1. javaEE 软件工程师 电商领域 团购 众筹 sns(社交网络) 教育 金…...
共享内存技术
一、共享内存 共享内存是一种高效的 进程间通信(IPC) 机制,允许多个进程直接访问同一块物理内存区域,无需通过内核缓冲区或文件进行数据拷贝。它通常用于需要 低延迟、高吞吐量 的数据交换场景(如实时系统、高频交易、…...
Lc 大数运算--快速幂 | 统计好数字的数目
快速幂算法是一种高效计算大数幂运算的方法,能将时间复杂度从传统算法的O(n)降低到O(log n)。它的核心思想是 分解指数分治思想,类似生活中的「拆快递」—— 把大包裹拆成小份,分批处理更高效。 一、生活示例:存钱罐的复利计算 假…...
Linux内存管理架构(2)
4.虚拟地址空间布局 4.1虚拟地址空间划分 对于64位处理器,目前不支持完全的64位虚拟地址 1.ARM64内核/用户虚拟地址划分 1. 虚拟地址的最大宽度 最大宽度:虚拟地址的最大宽度是48位。 内核虚拟地址: 在64位地址空间的顶部。高16位全是1。范围…...
图论基础理论
在我看来,想要掌握图的基础应用,仅需要三步走。 什么是图(基本概念)、图的构造(打地基)、图的遍历方式(应用的基础) 只要能OK的掌握这三步、就算图论入门了!࿰…...
最大子序和问题——动态规划/贪心算法解决
目录 一:问题描述 二:解决思路1——动态规划思想 三:C 语言代码实现 四:复杂度分析 五:解决思路2——贪心算法思想 六:具体步骤 七: C语言代码实现 八:复杂度分析 一:问题描述 …...
车载以太网-SOMEIP
文章目录 基本概念SOME/IP的起源与核心定位核心定位设计目标协议栈架构与OSI模型映射报文结构与数据序列化SOME/IP的核心通信机制通信模式分类服务发现协议(SOME/IP-SD)服务发现流程服务质量(QoS)管理SOME/IP在智能汽车中的典型应用SOME/IP测试与验证体系SOME/IP测试环境构…...
DrissionPage详细教程
1. 基本概述 DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能像requests一样收发数据包,更重要的是还能把两者合二为一。因此,简单来说DrissionPage可兼顾浏览器自动化的便利性和 requests 的高效率。 DrissionPa…...
6.1 GitHub亿级数据采集实战:双通道架构+三级容灾设计,破解API限制与反爬难题
GitHub 项目数据获取功能设计与实现 关键词:GitHub API 集成、网页爬虫开发、数据存储设计、定时任务调度、异常处理机制 1. 数据获取架构设计 采用双通道数据采集策略,同时使用 GitHub 官方 API 和网页爬虫技术确保数据完整性: #mermaid-svg-XUg7xhHrzFAozG4J {font-fami…...
LabVIEW 控制电机需注意的关键问题
在自动化控制系统中,LabVIEW 作为图形化编程平台,因其高度可视化、易于集成硬件等优势,被广泛应用于电机控制场景。然而,要实现稳定、精确、高效的电机控制,仅有软件并不足够,还需结合硬件选型、控制逻辑设…...
Linux系统远程操作和程序编译
目录 一、Linux远程终端登录、图形桌面访问、 X图形窗口访问和FTP文件传输操作 1.1 桥接模式 1.2 putty远程登录Ubuntu 1.3 win10远程登录并上传下载文件 1.4 X server仿真软件安装 1.5 树莓派在putty上的远程登录 1.6 使用ftp远程登录并实现文件上传下载 1.7 Linux下的…...
Mac配置开发环境
博主是一名Python后端开发,有时候环境太多 需要配置太多,故做此文章 环境Macbook ,请注意自己的是ARM 还是x86 结构 Vscode/Cursor配置Python debug 配置Debug launch.json {"version": "0.2.0","configuratio…...
LabVIEW配电器自动测试系统
随着航天技术的迅猛发展,航天器供配电系统的结构越来越复杂,对配电器的功能完整性、稳定性和可靠性提出了更高要求。传统人工测试方式难以满足高效率、高精度、可重复的测试需求。本项目开发了一套基于LabVIEW平台的宇航配电器自动测试系统,融…...
生成与强化学习:赋予VLA系统物理行动能力
引言:从“理解世界”到“改变世界” 当机器能够“看懂”图像、“听懂”指令时,一个更根本的挑战浮现:如何让它们像人类一样,将认知转化为精准的物理动作?无论是机械臂抓取杯子,还是自动驾驶汽车紧急避障&a…...
基于Springboot+Mysql的闲一品(含LW+PPT+源码+系统演示视频+安装说明)
系统功能 管理员功能:首页、个人中心、用户管理、零食分类管理、零食信息管理、订单评价管理、系统管理、订单管理。用户功能:首页、个人中心、订单评价管理、我的收藏管理、订单管理。前台首页功能:首页、零食信息、零食资讯、个人中心、后…...
jupyter4.4安装使用
一、chrome谷歌浏览器 1. 安装 1.1 下载地址: 下载地址: https://www.google.cn/intl/zh-CN_ALL/chrome/fallback/ 2 插件markdown-viewer 2.1 下载地址: 下载地址:https://github.com/simov/markdown-viewer/releases 2.2…...
Linux虚拟内存详解
引言 虚拟内存是现代操作系统中的核心概念之一,它为进程提供了一个连续的、独立的地址空间,有效解决了物理内存限制问题,并大大简化了程序开发和执行。本文将深入探讨Linux系统中虚拟内存的工作原理、实现机制以及相关的内存管理技术&#x…...
数据库安装(基于Linux下centos7)(保姆级教程)
前言:笔者有段时间没写博客了,今天笔者要分享新的知识了,那就是数据库,笔者会通过博客系统的且通俗易懂的分享数据库知识,对于想要学习数据库和学习过数据库的老铁复习都是非常有用的,绝对干货满满,那么今天…...
【自动驾驶 机器人】速度规划 |梯形/S型速度曲线
参考文章: (1)【自动驾驶】运动规划丨速度规划丨T型/S型速度曲线 (2)一文教你快速搞懂速度曲线规划之S形曲线(超详细图文推导附件代码) 1 梯形速度曲线 如下图所示梯形速度/加速度/加加速度曲…...
Qt C++内存泄漏排查方法
在Qt C++中排查内存泄漏可以按照以下步骤进行,结合工具使用和代码审查: 1. 使用内存检测工具 Valgrind (Linux/macOS) 安装Valgrind:sudo apt-get install valgrind运行程序并检测内存泄漏:valgrind --leak-check=full ./your_qt_app分析输出结果,定位未释放的内存块。Dr…...
[redis进阶一]redis的持久化(2)AOF篇章
目录 一 为什么有了RDB持久化机制还要有AOF呢 板书介绍具体原因: 编辑二 详细讲解AOF机制 (1)AOF的基本使用 1)板书如下 2)开启AOF机制: 3) AOF工作流程 (2)AOF是否会影响到redis性能 编辑 (3)AOF缓冲区刷新策略 (4)AOF的重写机制 板书如下: 为什么要有这个重写机…...