数据仓库: 9- 数据仓库数据治理
目录
- 9- 数据治理
- 9.1 数据标准化
- 9.1.1 数据标准化的定义
- 9.1.2 数据标准化的重要性
- 9.1.3 数据标准化的主要内容
- 9.1.4 数据标准化的实施步骤
- 9.1.5 数据标准化常用工具
- 9.1.6 数据标准化的挑战与应对策略
- 9.1.7 案例分析
- 9.1.8 总结
- 9.2 主数据管理(MDM)
- 9.2.1 主数据管理的核心目标
- 9.2.2 主数据管理的核心组件
- 9.2.3 主数据管理在数据仓库中的作用
- 9.2.4 主数据管理的实施流程
- 9.2.5 主数据管理的常见工具
- 9.2.6 主数据管理的挑战
- 9.3 数据生命周期管理
- 9.3.1 数据生命周期的关键阶段
- 9.3.2 数据生命周期管理的核心原则
- 9.3.3 数据生命周期管理在数据仓库中的应用
- 9.3.4 数据生命周期管理的挑战
- 9.3.5 数据生命周期管理的工具与技术
- 9.3.6 最佳实践
- end
9- 数据治理
9.1 数据标准化
数据标准化 是数据治理中的重要组成部分, 旨在通过建立一致的规则和标准来规范数据的定义、格式和质量, 从而确保数据在整个组织中能够被统一理解、存储和使用 ;
9.1.1 数据标准化的定义
数据标准化是指通过对数据的内容、格式、命名、编码等方面设定统一标准, 以解决数据源多样化、数据冗余和数据冲突等问题, 提升数据的共享性和可用性 ;
9.1.2 数据标准化的重要性
- 提高数据质量: 减少数据错误和不一致, 提升数据的准确性和完整性 ;
- 增强数据共享性: 跨部门或跨系统间的数据可以无缝对接 ;
- 支持决策分析: 统一的数据格式便于整合分析, 提升决策效率 ;
- 降低维护成本: 减少对不一致数据的清洗和转换需求 ;
9.1.3 数据标准化的主要内容
- 数据定义标准
- 数据字典: 定义每个字段的名称、类型、长度、含义等; 例如, "客户ID"应唯一标识客户, 且类型为整数 ;
- 元数据管理: 记录数据的背景信息 (如来源、更新频率) , 确保一致性 ;
- 数据格式标准化
- 日期格式: 统一为
YYYY-MM-DD
或其它约定格式 ; - 数据格式: 明确小数点位数、分隔符 (如千位符) ;
- 字符编码: 如统一采用 UTF-8 , 避免跨平台兼容性问题 ;
- 日期格式: 统一为
- 数据命名标准
- 字段命名规则: 如使用下划线连接词 (
customer_id
), 避免空格或特殊字符 ; - 表名规则: 按业务模块分类 (如
sales_customer
表示销售模块的客户信息) ; - 缩写规范: 明确缩写的含义, 避免歧义 (如
qty
表示数量quantity
) ;
- 字段命名规则: 如使用下划线连接词 (
- 数值标准
- 枚举值: 定义允许的取值范围 (如 ‘性别’ 字段仅限 ‘男、女’) ;
- 编码标准: 如国家代码采用ISO标准 (中国
CN
, 美国为US
) ; - 单位标准: 重量统一为
公斤
, 货币统一为 ‘人民币(CNY)’ ;
- 数据检验规则
- 主键唯一性: 确保主键字段无重复 ;
- 非空约束: 如 ‘客户姓名’ 字段不能为空 ;
- 关联性校验: 如’订单ID’ 必须存在于’订单表’ ;
9.1.4 数据标准化的实施步骤
- 需求分析
- 识别标准化的范围和优先级
- 收集各部门的数据需求, 明确冲突点
- 制定标准
- 定义统一的命名、格式、编码等规则
- 借鉴行业标准 (如ISO、GS1) 或参考已有成功实践
- 数据清洗
- 对现有数据进行标准化处理, 包括数据修正、去重、补全等 ;
- 实施于监控
- 通过 ETL (Extract, Transform, Load) 工具将标准化规则应用于数据流 ;
- 定期审计数据, 确保持续符合标准 ;
- 培训与推广
- 向业务部门和技术团队普及标准化规则 ;
- 编写数据标准化指南文档 ;
9.1.5 数据标准化常用工具
- 数据治理工具
- Talend Data Fabric : 提供数据清洗和标准化功能 ;
- Informatica : 支持数据质量管理和标准化 ;
- IBM InfoSphere DataStage : 专注于数据整合与质量管理 ;
- 数据库层面支持
- MySQL/PostgreSQL : 通过字段约束 (如
NOT NULL
、UNIQUE
) 实施部分标准化 ; - Hive : 适合大数据场景下的数据格式统一和分区管理 ;
- MySQL/PostgreSQL : 通过字段约束 (如
- 编程语言
- 使用 Python、Java 等语言结合正则表达式或数据清洗库 (如Pandas) 处理数据标准化 ;
9.1.6 数据标准化的挑战与应对策略
- 挑战
- 数据源多样性: 不同系统的数据格式和命名可能冲突 ;
- 标准不一致: 不同部门对同一字段的定义存在差异 ;
- 技术实现难度: 复杂的数据结构增加标准化难度 ;
- 业务阻力: 部分业务部门可能抵触变更现有数据格式 ;
- 应对策略
- 制定统一的企业级数据标准 ;
- 建立跨部门的数据治理委员会协调冲突 ;
- 引入自动化工具提升标准化效率 ;
- 持续培训和宣传标准化的意义 ;
9.1.7 案例分析
案例: 电商平台数据标准化
问题: 不同卖家上传的产品信息格式不统一, 导致搜索和推荐系统效果差 ;
解决方案:
- 制定商品属性标准化模版 (如名称、分类、价格单位) ;
- 实施自动化清洗工具, 将卖家数据映射到标准模版 ;
- 通过数据审计工具定期检查新数据的符合性 ;
效果: 提高了搜索结果的准确性, 提升了用户满意度 ;
9.1.8 总结
数据标准化是数据治理的核心, 确保数据的一致性、准确性和共享性 ;
通过制度和实施标准, 企业可以有效降低数据管理成本, 同时为高级分析和决策提供高质量的数据支持 .
9.2 主数据管理(MDM)
主数据管理(Master Data Management, MDM) 是数据治理的重要组成部分, 专注于对企业核心数据资产的统一管理 ;
主数据是企业中最核心、最关键的数据, 通常包括客户、供应商、产品、员工等关键实体的信息 ;
这些数据需要再企业不同部门、系统之间保持一致性和准确性 ;
9.2.1 主数据管理的核心目标
- 数据一致性: 确保数据在不同系统和部门中保持统一, 避免数据冲突和重复 ;
- 数据准确性: 确保主数据在不同系统和部门中保持统一, 避免数据冲突和重复;
- 数据共享: 为企业的各个业务系统提供统一的主数据视图, 支持跨部门和跨系统的数据共享 ;
- 数据可追溯性: 记录主数据的来源、修改历史, 确保变更可追溯 ;
- 数据安全性: 确保主数据访问权限的管控, 保护敏感信息 ;
9.2.2 主数据管理的核心组件
- 主数据模型:
- 定义主数据的结构和内容, 如字段、属性及其关系 ;
- 例如: 客户主数据模型可能包括姓名、联系方式、地址等属性 ;
- 数据标准:
- 确定主数据的命名规范、数据格式、数据类型等 ;
- 如统一产品编码规则或电话号码的存储格式 ;
- 数据治理规则:
- 定义主数据的创建、修改、审批流程, 确保操作规范 ;
- 如客户信息需要部门经理审批后才能进入系统 ;
- 主数据存储:
- 集中存储主数据的系统, 通常是专门的主数据管理平台 (如Informatica MDM、SAP MDG) ;
- 可能结合数据仓库、大数据平台存储和管理 ;
- 数据同步和集成:
- 确保数据能实时或定期同步到其他业务系统 ;
- 使用ETL、API或数据流工具实现多系统间的主数据集成 ;
- 数据质量管理:
- 包括数据清洗、去重、验证过程, 提升主数据的质量 ;
9.2.3 主数据管理在数据仓库中的作用
-
提供统一数据视图:
- 数据仓库从多个系统汇总数据,主数据管理确保所有系统数据一致,避免“多版本真相”问题。
- 例如,销售和财务部门统一使用相同的客户数据。
-
提升数据分析准确性:
- 主数据的一致性和准确性提高了报表和分析结果的可信度。
- 例如,精准分析某一产品的销售情况。
-
支持多维数据分析:
- 数据仓库中的维度表通常基于主数据构建,如客户维度、产品维度。
- 通过主数据管理,维度表更加规范和完整。
-
减少冗余数据存储:
- 主数据集中管理,避免数据仓库存储重复信息,节省存储空间。
-
简化数据整合流程:
- 数据仓库的数据通常来自多个来源,主数据管理为整合过程提供基础,减少清洗和转换工作量。
9.2.4 主数据管理的实施流程
-
主数据需求分析:
- 明确需要管理的主数据范围,如客户、供应商、产品等。
-
主数据模型设计:
- 制定主数据的逻辑模型和物理模型,包括字段、表结构。
-
主数据质量评估与清洗:
- 评估现有数据质量,清洗错误和重复数据。
-
主数据治理规则制定:
- 建立数据标准、管理流程、审批规则等。
-
主数据平台搭建:
- 选择或开发主数据管理工具,集成企业现有系统。
-
主数据分发与同步:
- 确保主数据实时更新并同步到各业务系统。
-
持续优化与维护:
- 持续监控主数据质量,优化治理规则。
9.2.5 主数据管理的常见工具
以下是一些主流的主数据管理工具, 可用于数据仓库和企业数据治理:
- Informatica MDM: 功能强大, 支持数据质量管理、主数据整合与同步 ;
- SAP Master Data Governance(MDG): 集成SAP生态系统, 适合使用SAP ERP的企业 ;
- Oracle MDM: 与Oracle数据和数据仓库无缝集成 ;
- IBM InfoSphere MDM: 提供强大的数据质量和数据治理功能 ;
- Microsoft Master Data Services(MDS): 集成于SQL Server, 适合中小企业 ;
9.2.6 主数据管理的挑战
- 数据源分散: 数据来自多个系统, 标准和格式差异大 ;
- 数据质量差: 主数据中可能存在错误、冗余或不完整的问题 ;
- 系统集成复杂: 主数据需要与多个业务系统实时同步, 集成难度高 ;
- 治理规则执行力不足: 缺乏明确的责任人和执行流程, 导致规则流于形式 ;
9.3 数据生命周期管理
数据生命周期管理(Data Lifecycle Management, DLM) 是数据治理的重要部分,旨在管理数据从创建到最终归档或销毁的整个生命周期。它通过定义清晰的流程和策略,确保数据在生命周期的各个阶段都得到适当的管理、使用和保护。
在数据仓库环境中,DLM的目标是优化存储资源、提升数据利用率、保证数据质量,并确保数据符合法规和企业的合规性要求。
9.3.1 数据生命周期的关键阶段
- 数据创建(Data Creation):
- 数据的生成或收集阶段,可能来自系统输入、用户交互、传感器采集等。
- 在数据仓库中,数据通常由交易系统(如ERP、CRM)或外部数据源生成。
- 数据存储(Data Storage):
- 数据进入存储系统后,根据其重要性和使用频率分类存储。
- 在数据仓库中,常见的存储分层包括:
- 热点数据(Hot Data):近期常用的数据,存储在高性能存储介质上。
- 温数据(Warm Data):使用频率较低的数据,存储在较便宜的存储介质上。
- 冷数据(Cold Data):很少访问的数据,存储在低成本的长期存储中。
- 数据使用(Data Usage):
- 数据被用户查询、分析、报表生成或用于机器学习模型。
- 数据使用阶段强调权限管理,确保不同角色只能访问相关数据。
- 数据维护(Data Maintenance):
- 包括数据清洗、质量检测、格式转换等操作,保证数据的准确性和完整性。
- 定期检查和更新数据,避免冗余和错误积累。
- 数据归档(Data Archival):
- 对不常使用但仍需保存的数据进行归档,减少主存储系统的负载。
- 在数据仓库中,归档数据可能移至冷存储(如HDFS、对象存储)。
- 数据销毁(Data Deletion):
- 当数据不再有用,且超出法律或业务规定的保留期限时,进行安全销毁。
- 通过彻底删除或覆盖确保敏感信息不会泄漏。
9.3.2 数据生命周期管理的核心原则
- 数据分类(Data Classification):
- 根据数据的敏感性、重要性和使用频率进行分级,如机密数据、内部数据、公开数据等。
- 数据分层存储(Data Tiering):
- 不同生命周期阶段的数据存储在合适的介质上以优化成本。
- 热点数据使用SSD或高性能数据库,冷数据使用磁盘或云存储。
- 数据质量管理(Data Quality Management):
- 在数据生命周期的每个阶段都需要持续监控数据质量,确保数据准确、完整和一致。
- 合规性和审计(Compliance and Audit):
- 遵守数据保留和隐私法规(如GDPR、CCPA),并记录数据生命周期的所有操作。
- 自动化管理(Automation Management):
- 借助工具和脚本自动化数据归档、迁移和销毁操作,提高效率并降低错误率。
9.3.3 数据生命周期管理在数据仓库中的应用
- ETL流程管理:
- 在数据创建阶段,ETL(Extract, Transform, Load)负责提取和清洗数据,确保数据准确进入仓库。
- 数据分层建模:
- 数据仓库中的数据通常分为:
- 源数据层(ODS)
- 数据仓库层(DWH)
- 数据集市层(Data Mart)
- 每一层数据的生命周期和存储要求不同,需要管理迁移和转换。
- 数据仓库中的数据通常分为:
- 历史数据归档:
- 定期将过时的明细数据归档到冷存储,保留聚合数据用于历史分析。
- 例如,将5年前的订单数据移至长期存储,仅保留月度汇总数据。
- 敏感数据保护:
- 在数据使用和存储阶段,确保敏感数据加密存储,并对访问记录审计。
- 存储成本优化:
- 对不常用的数据进行压缩、降级存储或归档,释放高性能存储的空间。
- 数据清理和销毁:
- 定期清理无效或重复数据,按规定销毁超过保留期限的数据。
- 使用数据标记(如有效期)和自动化脚本实现销毁。
9.3.4 数据生命周期管理的挑战
- 数据量激增
- 数据仓库中不断增长的海量数据给存储和管理带来压力。
- 数据多样性
- 数据格式复杂且来源多样,生命周期管理难度增加。
- 法规遵从性
- 不同地区和行业的合规要求各异(如隐私保护、数据保留时间)。
- 存储成本
- 随着数据归档和冷存储需求增加,优化存储成本成为关键。
- 缺乏自动化工具
- 手动管理数据生命周期效率低且易出错。
9.3.5 数据生命周期管理的工具与技术
- 数据治理平台
- Collibra、Informatica 等支持生命周期全流程管理。
- 存储技术
- 云存储服务(如AWS S3 Glacier、Google Cloud Archive)提供低成本冷存储选项。
- 大数据工具
- Apache Hadoop 和 HDFS 支持海量数据的归档和处理。
- 数据库功能
- 如 Oracle ILM(Information Lifecycle Management) 和 SQL Server TDE(Transparent Data Encryption)。
- 自动化脚本
- 使用 Python 或 Shell 脚本自动实现数据迁移、归档和删除。
9.3.6 最佳实践
- 制定清晰的数据策略
- 明确每种数据的生命周期策略,包括创建、使用、归档和销毁规则。
- 使用分层存储
- 根据数据访问频率优化存储介质,提高性价比。
- 实时监控与审计
- 持续跟踪数据状态,确保生命周期管理符合合规性要求。
- 自动化管理工具
- 使用自动化工具减少人为操作,降低错误风险。
- 定期审查和优化
- 根据业务需求和法规变化,调整生命周期管理策略。
end
相关文章:
数据仓库: 9- 数据仓库数据治理
目录 9- 数据治理9.1 数据标准化9.1.1 数据标准化的定义9.1.2 数据标准化的重要性9.1.3 数据标准化的主要内容9.1.4 数据标准化的实施步骤9.1.5 数据标准化常用工具9.1.6 数据标准化的挑战与应对策略9.1.7 案例分析9.1.8 总结 9.2 主数据管理(MDM)9.2.1 主数据管理的核心目标9.…...
Kutools for Excel 简体中文版 - 官方正版授权
Kutools for Excel 是一款超棒的 Excel 插件,就像给你的 Excel 加了个超能助手。它有 300 多种实用功能,现在还有 AI 帮忙,能把复杂的任务变简单,重复的事儿也能自动搞定,不管是新手还是老手都能用得顺手。有了它&…...
回归预测 | MATLAB实MLR多元线性回归多输入单输出回归预测
回归预测 | MATLAB实MLR多元线性回归多输入单输出回归预测 目录 回归预测 | MATLAB实MLR多元线性回归多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 回归预测 | MATLAB实MLR多元线性回归多输入单输出回归预测。 程序设计 完整代码:回…...
lerna使用指南
lerna版本 以下所有配置命令都是基于v8.1.9,lerna v5 v7版本差别较大,在使用时,注意自身的lerna版本。 lerna开启缓存及缓存配置 nx缓存是v5版本以后才有的,小于该版本的无法使用该功能。 初始化配置 缓存配置文件nx.json&am…...
LightGCN:为推荐系统简化图卷积网络的创新之作
LightGCN: Simplifying and Powering Graph Convolution Network for RecommendationSIGIR2020Collaborative Filtering, Recommendation, Embedding Propagation, Graph Neural Network 🌟 研究背景 在信息爆炸的互联网时代,个性化推荐系统成为缓解信…...
【图像去噪】论文精读:High-Quality Self-Supervised Deep Image Denoising(HQ-SSL)
请先看【专栏介绍文章】:【图像去噪(Image Denoising)】关于【图像去噪】专栏的相关说明,包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总(更新中) 文章目录 前言Abstract1 Introduction2 Convoluti…...
Elasticsarch:使用全文搜索在 ES|QL 中进行过滤 - 8.17
8.17 在 ES|QL 中引入了 match 和 qstr 函数,可用于执行全文过滤。本文介绍了它们的作用、使用方法、与现有文本过滤方法的区别、当前的限制以及未来的改进。 ES|QL 现在包含全文函数,可用于使用文本查询过滤数据。我们将回顾可用的文本过滤方法…...
17.C语言输入输出函数详解:从缓存原理到常用函数用法
目录 1.前言2.缓存和字节流3.printf4.scanf5.sscanf6.getchar与putchar7.puts与gets 1.前言 本篇原文为:C语言输入输出函数详解:从缓存原理到常用函数用法。 更多C进阶、rust、python、逆向等等教程,可点击此链接查看:酷程网 C…...
高等数学学习笔记 ☞ 不定积分与积分公式
1. 不定积分的定义 1. 原函数与导函数的定义: 若函数可导,且,则称函数是函数的一个原函数,函数是函数的导函数。 备注: ①:若函数是连续的,则函数一定存在原函数,反之不对。 ②&…...
Debye-Einstein-模型拟合比热容Python脚本
固体比热模型中的德拜模型和爱因斯坦模型是固体物理学中用于估算固体热容的两种重要原子振动模型。 爱因斯坦模型基于三种假设:1.晶格中的每一个原子都是三维量子谐振子;2.原子不互相作用;3.所有的原子都以相同的频率振动(与德拜…...
Ubuntu24.04安装AppImage报错AppImages require FUSE to run.
报错如下: 解决: sudo apt install libfuse2t64如果不行: sudo add-apt-repository universe sudo apt install libfuse2t64安装时又报错: [10354:0109/100149.571068:FATAL:setuid_sandbox_host.cc(158)] The SUID sandbox hel…...
3_CSS3 渐变 --[CSS3 进阶之路]
CSS3 引入了渐变(gradients),它允许在两个或多个指定的颜色之间显示平滑的过渡。CSS3 支持两种类型的渐变: 线性渐变(Linear Gradients):颜色沿着一条线性路径变化,可以是水平、垂直…...
uniapp 左右滑动切换Tab
各种开发会遇到很多奇葩的需求,今天这个是在页面 左右滑动,然后自动去切换Tab <viewtouchstart"touchStart"touchcancel"touchCancel"touchend"touchEnd"><components is"xxx"/></view>//---…...
STM32 FreeRTOS 任务创建和删除实验(动态方法)
动态创建,堆栈是在FreeRTOS管理的堆内存里,注意任务不要重复创建。 xxxxx_STACK_SIZE 128 uxTaskGetStackHighWaterMark()获取指定任务的任务栈的历史剩余最小值,根据这个结果适当调整启动任务的大小。 实验目标 学会 xTaskCreate( ) 和 vTaskDelete( ) 的使用: start_…...
宝塔面板 申请证书后 仍然提示不安全
证书显示有效,但是网站显示不安全 导致的原因是引入静态文件使用的是HTTP,查看方法为F12打开console控制台 可以看到静态文件全部都是HTTP 网站采用wordpress搭建,基于问题解决,其他方式搭建也是一样,处理掉所有的H…...
透明部署、旁路逻辑串联的区别
背景 需讨论防火墙到底是串联,还是旁挂。 通常串联指的就是“透明部署”,旁挂指的就是“逻辑串联”。 透明部署(串联) 也称为透明模式或桥接模式,是一种安全设备的部署方式。在这种模式下,安全设备被串联…...
C++实现设计模式---原型模式 (Prototype)
原型模式 (Prototype) 原型模式 是一种创建型设计模式,它通过复制现有对象来创建新对象,而不是通过实例化。 意图 使用原型实例指定要创建的对象类型,并通过复制该原型来生成新对象。提供一种高效创建对象的方式,尤其是当对象的…...
Canvas简历编辑器-选中绘制与拖拽多选交互方案
Canvas简历编辑器-选中绘制与拖拽多选交互方案 在之前我们聊了聊如何基于Canvas与基本事件组合实现了轻量级DOM,并且在此基础上实现了如何进行管理事件以及多层级渲染的能力设计。那么此时我们就依然在轻量级DOM的基础上,关注于实现选中绘制与拖拽多选交…...
kotlin的dagger hilt依赖注入
依赖注入(dependency injection, di)是设计模式的一种,它的实际作用是给对象赋予实例变量。 基础认识 class MainActivity : ComponentActivity() {override fun onCreate(savedInstanceState: Bundle?) {super.onCreate(savedInstanceSta…...
Flink类加载机制详解
1. 总览 在运行Flink应用时,它会加载各种类,另外我们用户代码也会引入依赖,由于他们依赖版本以及加载顺序等不同,就可能会导致冲突,所以很要必要了解Flink是如何加载类的。 根据加载的来源的不同,我们可以将类分为三种: Java Classpath:Java类路径下,这是Java通用的…...
在VSCode中设置bash命令行内容简写
在VSCode中设置bash命令行内容简写 1、打开shell配置文件2、在配置文件的末尾,添加以下行来创建别名3、重新加载配置文件以使更改生效4、在命令行使用缩写执行命令 比如,在VSCode的bash中输入 gc daily,而实际执行 git checkout daily. 1、…...
特制一个自己的UI库,只用CSS、图标、emoji图 第二版
图: 代码: index.html <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>M…...
51_Lua面向对象编程
面向对象编程(Object Oriented Programming,OOP)是一种非常流行的计算机编程架构。像C++、Java、Objective-C、Smalltalk、C#、Ruby等编程语言都支持面向对象编程。 1.面向对象编程特性 面向对象编程是一种编程范式,它使用“对象”来设计软件。对象是数据和行为的封装单元…...
Kafka——两种集群搭建详解 k8s
1、简介 Kafka是一个能够支持高并发以及流式消息处理的消息中间件,并且Kafka天生就是支持集群的,今天就主要来介绍一下如何搭建Kafka集群。 Kafka目前支持使用Zookeeper模式搭建集群以及KRaft模式(即无Zookeeper)模式这两种模式搭…...
OPT: Open Pre-trained Transformer语言模型
摘要 大规模语言模型通常需要数十万计算日的训练时间,展现了在零样本和小样本学习中的显著能力。鉴于其计算成本之高,这些模型在没有大量资本投入的情况下难以复现。对于那些通过API提供的少数模型,研究者无法获取完整的模型权重,…...
开源模型应用落地-LangChain高阶-记忆组件-RedisChatMessageHistory正确使用(八)
一、前言 LangChain 的记忆组件发挥着至关重要的作用,其旨在协助大语言模型(LLM)有效地留存历史对话信息。通过这一功能,使得大语言模型在对话过程中能够更出色地维持上下文的连贯性和一致性,进而能够像人类的记忆运作方式那样,进行更为自然、流畅且智能化的交互。 它仿佛…...
http和https有哪些不同
http和https有哪些不同 1.数据传输的安全性:http非加密,https加密 2.端口号:http默认80端口,https默认443端口 3.性能:http基于tcp三次握手建立连接,https在tcp三次握手后还有TLS协议的四次握手确认加密…...
UML系列之Rational Rose笔记七:状态图
一、新建状态图 依旧是新建statechart diagram; 二、工作台介绍 接着就是一个状态的开始:开始黑点依旧可以从左边进行拖动放置: 这就是状态的开始,和活动图泳道图是一样的;只能有一个开始,但是可以有多个…...
一个使用 Golang 编写的新一代网络爬虫框架,支持JS动态内容爬取
大家好,今天给大家分享一个由ProjectDiscovery组织开发的开源“下一代爬虫框架”Katana,旨在提供高效、灵活且功能丰富的网络爬取体验,适用于各种自动化管道和数据收集任务。 项目介绍 Katana 是 ProjectDiscovery 精心打造的命令行界面&…...
mycat介绍与操作步骤
文章目录 1.分库分表2.mycat 入门2.1 概述2.2 案例:水平分表1)准备工作2)配置3)启动并测试 3.mycat 配置详解3.1 schema.xml3.2 rule.xml3.3 server.xml 4.mycat 分片:垂直拆分1)准备工作2)配置…...
【Go】:图片上添加水印的全面指南——从基础到高级特性
前言 在数字内容日益重要的今天,保护版权和标识来源变得关键。为图片添加水印有助于声明所有权、提升品牌认知度,并防止未经授权的使用。本文将介绍如何用Go语言实现图片水印,包括静态图片和带旋转、倾斜效果的文字水印,帮助您有…...
R语言的语法糖
R语言的语法糖 引言 在编程语言中,所谓的“语法糖”是指那些使得程序员能够以更简洁、直观的方式书写代码的语法形式。R语言作为一种用于统计分析和数据可视化的编程语言,具有丰富的功能和灵活的语法。本文将深入探讨R语言中的语法糖,帮助读…...
乙游的尽头是虚拟偶像吗?
眼花了,竟然看到二次元乙游男主角走红毯了。 12月20日,某国际知名奢侈品品牌宣布,《恋与深空》四位男主将受邀出席品牌在上海举办的TF戏瘾之夜活动,并公开了四位男主的红毯照片。 没有真人实体的乙游男主走红毯?这是…...
【源码+文档+调试讲解】农产品研究报告管理系统
摘 要 农产品研究报告管理系统是一个旨在收集、整理、存储和分析农产品相关研究数据的综合性平台。农产品研究报告管理系统通常包含一个强大的数据库,它能够处理大量的研究数据,并对这些数据进行有效的管理和备份。农产品研究报告管理系统是现代农业科学…...
SQL UNION 操作符
SQL UNION 操作符 SQL UNION 操作符用于合并两个或多个 SELECT 语句的结果集。它将多个结果集组合成一个单独的结果集,并去除重复的行。为了使用 UNION,每个 SELECT 语句必须具有相同的列数,并且对应列的数据类型必须兼容。 语法 SELECT c…...
springboot vue uniapp 仿小红书 1:1 还原 (含源码演示)
线上预览: 移动端 http://8.146.211.120:8081/ 管理端 http://8.146.211.120:8088/ 小红书凭借优秀的产品体验 和超高人气 目前成为笔记类产品佼佼者 此项目将详细介绍如何使用Vue.js和Spring Boot 集合uniapp 开发一个仿小红书应用,凭借uniapp 可以在h5 小程序 app…...
扩散模型学习
扩散模型学习 DDPM(参考1) DDIM(参考1,参考2)...
【面试】MySQL 最左匹配原则
MySQL的最左匹配原则是在使用联合索引时非常重要的概念,理解并合理运用该原则能显著提升查询性能。以下从多个方面详细介绍: 1. 联合索引结构基础 联合索引是对多个列创建的索引。在MySQL中,联合索引以多列值的组合形式,按照创建…...
Mac 删除ABC 输入法
参考链接:百度安全验证 Mac下删除系统自带输入法ABC,正解!_mac删除abc输入法-CSDN博客 ABC 输入法和搜狗输入法等 英文有冲突~~ 切换后还会在英文状态,可以删除 ;可能会对DNS 输入有影响,但是可以通过复…...
Nginx代理同域名前后端分离项目的完整步骤
前后端分离项目,前后端共用一个域名。通过域名后的 url 前缀来区别前后端项目。 以 vue php 项目为例。直接上 server 模块的 nginx 配置。 server{ listen 80; #listen [::]:80 default_server ipv6onlyon; server_name demo.com;#二配置项目域名 index index.ht…...
21、Transformer Masked loss原理精讲及其PyTorch逐行实现
1. Transformer结构图 2. python import torch import torch.nn as nn import torch.nn.functional as Ftorch.set_printoptions(precision3, sci_modeFalse)if __name__ "__main__":run_code 0batch_size 2seq_length 3vocab_size 4logits torch.randn(batch…...
CNN张量输入形状和特征图
CNN张量输入形状和特征图 这个是比较容易理解的张量的解释,比较直观 卷积神经网络 在这个神经网络编程系列中,我们正在逐步构建一个卷积神经网络(CNN),所以让我们看看CNN的张量输入。 在最后两篇文章中&…...
RK3399开发板Linux实时性改造
本次测试基于NanoPC-T4开发板(国产化处理器RK3399),4.19.111内核Xenomai实时性改造测试。 Xenomai下载网站:https://xenomai.org/downloads/ NanoPC-T4网站:https://wiki.friendlyarm.com/wiki/index.php/NanoPC-T4/z…...
ASP.NET Core 中的高效后台任务管理
一、引言 在当今快速发展的 Web 开发领域,ASP.NET Core 凭借其卓越的性能、强大的功能和高度的灵活性,已然成为众多开发者构建现代 Web 应用程序的首选框架。它不仅能够高效地处理各种复杂的业务逻辑,还为开发者提供了丰富多样的工具和功能&…...
Spring Boot 2 学习指南与资料分享
Spring Boot 2 学习资料 Spring Boot 2 学习资料 Spring Boot 2 学习资料 在当今竞争激烈的 Java 后端开发领域,Spring Boot 2 凭借其卓越的特性,为开发者们开辟了一条高效、便捷的开发之路。如果你渴望深入学习 Spring Boot 2,以下这份精心…...
知识追踪模型DKT,DLKT详解及代码复现
定义与应用 知识追踪是一种 教育技术领域的重要方法 ,旨在通过分析学生的学习行为和表现,预测其掌握特定知识点的程度。这种方法的核心在于建立能够反映学习者认知状态的动态模型,从而实现对学生学习进度的实时监控和个性化指导。 DKT模型 DKT模型 是最早的知识追踪模型之…...
一类特殊积分的计算
一类特殊积分的计算 前言一、第一个引理二、第二个引理三、积分的计算后记 前言 今天讨论的这类积分是十分有趣的,在 Mathematics Stack Exchange 看见后,便打算在此将其中的计算过程完善一下。在本篇文章中,我们重点考虑求解如下积分&#…...
VScode 配置 C语言环境
遇到的问题集合 mingw官方下载网站(https://sourceforge.net/projects/mingw-w64/files/)更新之后,与网上大多数教程上写的界面不同了。 网上大多数教程让下载这个: 但是现在找不到这个文件。 写hello.c文件时,报错&…...
spring mvc源码学习笔记之十一
pom.xml 内容如下 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/P…...
小结:路由器和交换机的指令对比
路由器和交换机的指令有一定的相似性,但也有明显的区别。以下是两者指令的对比和主要差异: 相似之处 基本操作 两者都支持类似的基本管理命令,比如: 进入系统视图:system-view查看当前配置:display current…...