当前位置: 首页 > news >正文

数据库、数据仓库、数据湖有什么不同

数据库、数据仓库和数据湖是三种不同的数据存储和管理技术,它们在用途、设计目标、数据处理方式以及适用场景上存在显著差异。以下将从多个角度详细说明它们之间的区别:

1. 数据结构与存储方式

  • 数据库
    数据库主要用于存储结构化的数据,通常以表格形式组织,遵循预定义的模式和架构。这种结构化的数据便于快速查询和事务处理,适用于在线事务处理(OLTP)场景,如企业管理系统和电子商务平台。

  • 数据仓库
    数据仓库存储经过清洗、转换和加载(ETL)过程后的结构化数据,这些数据被整合成统一的格式,以便进行高效查询和分析。数据仓库的设计注重数据的一致性和准确性,适合支持决策制定和业务智能(BI)应用。

  • 数据湖
    数据湖存储原始格式的数据,包括结构化、半结构化和非结构化数据。它不需要事先定义模式,因此可以灵活地存储各种类型的数据,如文本、图像、视频等。数据湖强调数据的原始性和多样性,适合探索性分析和大规模数据分析。

2. 数据处理与访问

  • 数据库
    数据库采用“写时定义模式”(Schema-on-write),即在数据写入之前需要定义数据结构。这种模式确保了数据的一致性和准确性,但灵活性较低。

  • 数据仓库
    数据仓库采用“读时定义模式”(Schema-on-read),即在查询时才定义数据结构。这种方式允许快速加载新数据,并支持复杂的查询和报表生成。

  • 数据湖
    数据湖同样采用“读时定义模式”,支持多种查询语言(如SQL、Cypher)和编程语言(如Python、R),具有更高的灵活性和扩展性。

3. 用途与应用场景

  • 数据库
    主要用于支持在线事务处理(OLTP),适用于需要实时交互和高并发访问的场景,如银行交易系统、电子商务网站等。

  • 数据仓库
    主要用于支持在线分析处理(OLAP),适用于数据分析、报表生成和决策支持。它适合企业级的商业智能应用,如销售分析、客户行为分析等。

  • 数据湖
    数据湖适用于探索性数据分析、机器学习和大数据分析等场景。它能够存储大量原始数据,并支持实时流式处理和复杂的数据分析任务。

4. 存储方式与成本

  • 数据库
    数据库通常使用昂贵的存储方式,以确保高性能和高可靠性。其成本较高,但能够提供快速的数据访问。

  • 数据仓库
    数据仓库采用集中式存储架构,通常使用昂贵的硬件设备来保证性能。其成本相对较高,但适合处理大量结构化数据。

  • 数据湖
    数据湖通常使用分布式存储架构,如Hadoop或NoSQL数据库,以降低存储成本。其灵活性和扩展性使其成为大规模数据分析的理想选择。

5. 安全性与管理

  • 数据库
    数据库的安全性较高,因为其设计注重数据的一致性和完整性。同时,数据库通常配备完善的权限管理和审计功能。

  • 数据仓库
    数据仓库的安全性次于数据库,但仍具备一定的保护措施。其主要问题在于数据整合和转换过程中可能出现的数据质量问题。

  • 数据湖
    数据湖的安全性较低,因为其存储的是原始数据,缺乏预定义的模式和严格的访问控制。此外,数据湖容易出现“数据沼泽”问题,需要良好的元数据管理和治理机制。

6. 适用用户

  • 数据库
    主要面向业务专业人士,如系统管理员和数据库管理员。

  • 数据仓库
    主要面向商业分析师和决策者,用于支持复杂的查询和报表生成。

  • 数据湖
    主要面向数据科学家和工程师,用于探索性分析和大规模数据分析。

总结

数据库、数据仓库和数据湖各有其独特的用途和优势:

  • 数据库适合事务处理和实时交互;
  • 数据仓库适合数据分析和决策支持;
  • 数据湖适合探索性分析和大规模数据分析。

在实际应用中,可以根据具体需求选择合适的技术方案,或者将它们结合使用,以实现最佳的数据管理和分析效果。

数据库、数据仓库和数据湖在实际应用中如何结合使用?

数据库、数据仓库和数据湖在实际应用中可以结合使用,以满足不同场景的需求。以下是它们的结合使用方式及其特点:

1. 数据湖与数据仓库的结合

数据湖和数据仓库各有优势,但它们也可以互补使用。数据湖通常用于存储大规模的原始数据,包括结构化、半结构化和非结构化数据,而数据仓库则用于存储经过清洗和整合的数据,支持复杂查询和分析。因此,在实际应用中,企业通常会将两者结合使用:

  • 数据导入与处理:数据首先被导入到数据湖中,利用ETL(提取、转换和加载)过程对数据进行初步处理,然后将清洗后的数据加载到数据仓库中。
  • 灵活存储与高效分析:数据湖提供灵活的数据存储方式,支持实时数据探索和分析;而数据仓库则通过优化的数据模型和高性能查询能力,支持复杂的业务分析和决策支持。
  • 应用场景:例如,在客户关系管理、供应链管理和财务分析等场景中,数据仓库可以提供经过清洗和整合的数据,用于快速响应业务需求;而在大数据分析、机器学习和实时数据分析等场景中,数据湖则可以提供更灵活的数据存储和处理能力。

2. 数据库与数据湖的结合

数据库主要用于存储结构化数据,并支持事务处理和实时查询。然而,随着数据量的增加,数据库在处理大规模非结构化数据时存在局限性。因此,企业可以通过以下方式将数据库与数据湖结合使用:

  • 结构化与非结构化数据的协同管理:数据库可以用于存储结构化的事务性数据,而数据湖则用于存储非结构化的原始数据。这种结合方式可以充分利用数据库的事务处理能力和数据湖的灵活性。
  • 混合存储架构:例如,现代云平台上的“数据湖屋”(Data Lake House)结合了数据湖的灵活性和数据仓库的管理能力,提供了一个统一的平台来处理各种类型的数据和分析工作负载。

3. 数据库与数据仓库的结合

数据库和数据仓库在某些场景下也可以结合使用:

  • 事务处理与分析支持:数据库主要用于支持日常的事务处理,如订单管理、库存更新等;而数据仓库则用于支持复杂的分析任务,如报表生成、趋势分析等。通过结合使用,可以实现业务流程的高效运行和决策支持。
  • 跨系统协作:例如,在企业级应用中,数据库可以作为核心的数据存储层,而数据仓库则作为分析层,两者通过ETL工具或API进行数据交互,以支持业务流程和数据分析的无缝衔接。

4. 数据湖与数据库的结合

在某些特定场景下,企业可能会选择将数据湖与数据库结合使用:

  • 实时数据分析与事务处理:例如,基于文件系统的高性能数据仓库(如esProc)可以结合数据湖的特点,支持实时数据分析和跨源计算。这种方式可以满足实时事务处理和复杂数据分析的需求。
  • 开放架构与灵活性:通过采用开放的存储体系(如文件系统),可以实现数据湖与数据库的灵活结合,从而支持更广泛的数据类型和分析需求。

总结

数据库、数据仓库和数据湖各有其独特的优势和适用场景。在实际应用中,企业可以根据具体需求选择合适的方案,或者将它们结合使用以实现最佳效果。例如,对于需要处理大规模原始数据的场景,可以选择数据湖;对于需要高效分析和决策支持的场景,则可以选择数据仓库;而对于需要事务处理和实时查询的场景,则可以选择数据库。

数据湖中的“数据沼泽”问题具体指的是什么?

数据湖中的“数据沼泽”问题具体指的是数据湖中由于缺乏有效的治理、组织和元数据管理,导致数据变得混乱、未被利用或难以找到的现象。这种现象使得数据湖失去了其作为高效存储和分析工具的初衷,反而成为了一个难以维护和利用的“沼泽”。

以下是关于“数据沼泽”问题的详细解释:

  1. 缺乏治理和组织
    数据湖如果没有适当的治理和组织,可能会演变成“数据沼泽”。这包括缺乏对数据生命周期的管理(从创建到销毁),以及对数据来源、用途和使用方式的追踪不足。例如,如果数据没有被正确分类、标记或索引,用户将难以找到所需的数据,从而导致数据的价值无法被充分利用。

  2. 元数据不足
    元数据是数据湖中非常重要的组成部分,它帮助用户理解数据的含义、来源和用途。如果元数据缺失或不完整,数据湖中的数据将变得不可靠和无用。例如,没有元数据支持的数据湖可能无法提供足够的上下文信息,使得数据分析变得困难甚至不可能。

  3. 数据质量问题
    数据质量是数据湖成功的关键因素之一。如果数据湖中存在大量脏数据(如重复、错误或损坏的数据),这些数据不仅会浪费存储空间,还会导致分析结果的不准确。此外,如果数据未经过清洗和整理,可能会进一步加剧“数据沼泽”的问题。

  4. 数据冗余和过期
    数据湖中存储的数据量可能非常庞大,但如果管理不当,可能会出现数据冗余或过期的情况。例如,未定期清理陈旧或无关的数据会导致存储成本增加,并降低数据湖的效率和可用性。

  5. 安全性与隐私问题
    数据湖中的数据往往包含敏感信息,如果缺乏有效的安全性和隐私保护措施,可能会导致数据泄露或滥用。这不仅影响企业的合规性,还可能损害用户信任。

  6. 技术复杂性
    数据湖的技术架构通常较为复杂,包括批处理、实时流处理、分布式文件系统等。如果未能有效整合这些技术,或者未能为不同类型的用户(如分析师、开发人员和业务用户)提供友好的访问方式,也可能导致“数据沼泽”的出现。

解决方案

为了避免“数据沼泽”的问题,企业可以采取以下措施:

  • 实施数据治理政策:建立明确的数据治理框架,包括数据生命周期管理、权限控制和审计机制。
  • 加强元数据管理:投资于高质量的元数据描述工具,确保数据的可发现性和可理解性。
  • 优化数据质量:定期清理和整理数据,移除冗余或过期的数据。
  • 提高安全性与隐私保护:采用先进的安全技术和隐私保护措施,确保敏感数据的安全。
  • 简化技术架构:通过简化技术架构和提供友好的用户界面,降低用户的使用门槛。

总之,“数据沼泽”问题反映了数据湖在缺乏治理和组织时可能面临的挑战。

数据仓库在处理大量结构化数据时,如何保证数据质量和一致性?

数据仓库在处理大量结构化数据时,确保数据质量和一致性是至关重要的。以下是实现这一目标的关键方法和策略:

1. 数据清洗与预处理

数据清洗是数据仓库中确保数据质量的重要步骤。通过ETL(Extract, Transform, Load)过程,可以将原始数据转换为可使用格式,解决缺失值、不一致的测量单位和重复记录等问题。此外,数据清洗还包括去除冗余、错误和重复数据,以提高数据的准确性和一致性。

2. 数据一致性

数据一致性是数据仓库的核心问题之一,它确保数据在逻辑上、时间上和完整性上的一致性。具体方法包括:

  • 逻辑一致性:确保数据在不同系统或表之间的一致性。
  • 时间一致性:确保数据在时间维度上的准确性,例如保留快照以分析趋势。
  • 完整性一致性:通过验证记录数、空值记录数等指标,确保数据的完整性和一致性。

3. 数据质量的多维度提升

数据质量可以通过多个方面进行提升,包括完整性、一致性、准确性、妥当性、及时性和唯一性。这些质量维度确保数据在组织中的统一使用,并支持高质量的数据分析和决策。

4. 混合数据清洗技术

为了提高数据质量,可以采用混合数据清洗技术,结合多种方法来清除数据中的错误、文本错误、量化错误或重复数据。这种方法特别适用于处理复杂的数据集。

5. 实时流处理技术

对于需要实时处理的数据,如社交媒体内容或日志文件,可以采用流处理技术。这种技术能够实时采集、清洗和分析数据,确保数据的时效性和一致性。

6. 数据治理与监控

通过实施数据治理策略,可以监控和管理数据质量。例如,使用Shell脚本和Hive脚本验证数据的健康状况,确保每日数据符合质量标准。此外,还可以将清理后的数据反馈给源系统,以改进源系统的数据质量。

7. 适配器服务与灵活高效的数据处理

适配器服务可以实现不同数据源的灵活高效处理,确保数据的准确性、完整性和一致性。这种服务特别适用于处理半结构化和非结构化数据。

总结

通过上述方法和技术,数据仓库能够有效处理大量结构化数据,确保数据质量和一致性。

数据湖的安全性管理机制有哪些最佳实践?

数据湖的安全性管理机制涉及多个方面,包括数据隐私保护、数据访问控制、数据加密、数据生命周期管理、数据质量管理以及数据治理等。以下是一些最佳实践:

  1. 数据隐私保护机制

    • 建立全面的数据访问和控制权限,确保数据安全。这包括对数据的分类管理,根据不同的敏感性和重要性设置不同的访问权限。
    • 使用动态掩码和访问控制技术,确保只有授权用户才能访问特定的数据。
  2. 数据加密

    • 在数据存储和传输过程中使用加密技术,确保数据的机密性和完整性。例如,可以采用SSL加密来保护数据传输过程中的安全。
    • 对敏感数据进行脱敏处理,防止数据泄露。
  3. 数据生命周期管理

    • 实施数据生命周期管理策略,确保数据在不同阶段(如创建、存储、使用和销毁)的安全性。这包括定期备份和恢复策略,以防止数据丢失。
    • 根据数据的使用频率和重要性,合理规划数据的存储位置和访问权限。
  4. 数据质量管理

    • 确保数据的准确性、完整性、一致性和时效性。通过清洗、转换和标准化操作提高数据质量。
    • 定期分析数据质量,及时发现并处理异常数据,避免数据污染。
  5. 数据治理

    • 制定明确的数据治理政策,包括数据来源、处理步骤、所有权和使用情况的定义。
    • 建立管理同意、透明度和预期用途的流程,确保数据的合法合规使用。
    • 遵循相关法规要求,如GDPR等,确保数据处理符合法律标准。
  6. 访问控制和审计日志

    • 引入基于角色的访问控制(RBAC)和细粒度访问控制,确保用户只能访问其职责范围内的数据。
    • 记录详细的审计日志,监控数据访问和操作行为,以便在发生安全事件时进行追溯。
  7. 数据安全架构

    • 采用分布式存储系统(如HDFS和Ceph)来支持大规模数据存储,并结合高性能计算框架(如Apache Spark)进行高效处理。
    • 构建多租户环境,确保不同用户之间的数据隔离和安全性。
  8. 智能分析与可视化

    • 利用数据挖掘与分析技术,结合业务场景定制开发分析模型,提供可视化工具和交互式界面,满足不同受众的需求。
    • 通过智能分析工具,实时监控数据湖的安全状态,及时发现潜在的安全威胁。
  9. 运维管理

    • 提高运维效率,采用自动化和智能化手段,减少人为错误和操作风险。
    • 定期进行系统维护和升级,确保数据湖的安全性和稳定性。
如何评估数据库、数据仓库和数据湖的成本效益?

评估数据库、数据仓库和数据湖的成本效益需要从多个方面进行综合分析,包括存储成本、处理能力、灵活性、扩展性以及对业务决策的支持等。以下是基于我搜索到的资料的详细分析:

1. 存储成本

  • 数据库:传统数据库通常使用昂贵的专用硬件存储结构化数据,因此其存储成本较高,尤其是在处理大量数据时。
  • 数据仓库:数据仓库采用昂贵的存储方式,以提供快速响应时间,适合结构化数据的存储和查询。然而,这种存储方式的成本较高,且扩展性有限。
  • 数据湖:数据湖使用廉价的商用硬件存储原始数据,因此在存储成本上具有显著优势。尽管如此,如果需要对数据进行复杂处理或高质量分析,可能需要额外的计算资源,从而增加运营成本。

2. 处理能力和灵活性

  • 数据库:主要用于日常事务处理,支持实时查询和事务操作,但其灵活性较低,难以适应非结构化或半结构化数据。
  • 数据仓库:支持OLAP(在线分析处理)技术,适用于复杂查询和数据分析,但其配置固定,扩展性有限。
  • 数据湖:支持多种数据格式(如文本、日志文件等),具有高度灵活性,可以轻松扩展以适应不同需求。此外,数据湖允许用户保留原始数据格式,从而支持更广泛的数据分析。

3. 扩展性和可维护性

  • 数据库:扩展性较差,通常需要昂贵的硬件升级或更换。
  • 数据仓库:虽然可以适度扩展,但其扩展性仍受到限制,且需要额外的资源来维护其性能。
  • 数据湖:具有高度可扩展性,能够轻松应对大规模数据增长。然而,由于数据湖中的数据未经预处理,可能需要额外的ETL(提取、转换、加载)步骤来准备数据。

4. 业务决策支持

  • 数据库:主要用于日常业务操作,支持实时决策,但其分析能力有限。
  • 数据仓库:专注于支持决策制定,通过优化数据检索和分析能力,为业务提供深入洞察。
  • 数据湖:支持更广泛的分析场景,包括实时分析和机器学习应用。然而,由于缺乏预定义的数据结构,可能需要更多的工程工作来提取有价值的信息。

5. 成本效益对比

  • 数据库:适合需要实时响应和高事务处理能力的场景,但其高昂的存储和维护成本可能不适合大规模数据管理。
  • 数据仓库:适合需要复杂查询和数据分析的企业,但其固定配置和扩展性限制可能增加长期运营成本。
  • 数据湖:在存储成本上具有明显优势,同时支持灵活的数据管理和广泛的数据分析场景。然而,如果需要高质量的数据处理和分析,可能需要额外的成本投入。

6. 综合建议

  • 对于需要实时事务处理和简单查询的企业,可以选择数据库。
  • 对于需要复杂数据分析和决策支持的企业,可以选择数据仓库。
  • 对于需要灵活扩展和广泛数据分析的企业,建议采用数据湖,并结合数据仓库的特性(如湖仓一体模型),以实现成本效益最大化。

相关文章:

数据库、数据仓库、数据湖有什么不同

数据库、数据仓库和数据湖是三种不同的数据存储和管理技术,它们在用途、设计目标、数据处理方式以及适用场景上存在显著差异。以下将从多个角度详细说明它们之间的区别: 1. 数据结构与存储方式 数据库: 数据库主要用于存储结构化的数据&…...

MLM之MiniCPM-o:MiniCPM-o的简介(涉及MiniCPM-o 2.6和MiniCPM-V 2.6)、安装和使用方法、案例应用之详细攻略

MLM之MiniCPM-o:MiniCPM-o的简介(涉及MiniCPM-o 2.6和MiniCPM-V 2.6)、安装和使用方法、案例应用之详细攻略 目录 MiniCPM-o的简介 0、更新日志 1、MiniCPM-o系列模型特点 MiniCPM-o 2.6 的主要特点 MiniCPM-V 2.6的主要特点 2、MiniCPM-o系列模型架构 MiniC…...

【Conda 和 虚拟环境详细指南】

Conda 和 虚拟环境的详细指南 什么是 Conda? Conda 是一个开源的包管理和环境管理系统,支持多种编程语言(如Python、R等),最初由Continuum Analytics开发。 主要功能: 包管理:安装、更新、删…...

Rust 控制流语法详解

Rust 控制流语法详解 控制流是编程语言中用于控制代码执行顺序的重要机制。Rust 提供了多种控制流语法,包括条件判断(if、else if)、循环(loop、while、for)等。本文将详细介绍这些语法,并通过示例展示它们…...

VLC-Qt: Qt + libVLC 的开源库

参考链接 https://blog.csdn.net/u012532263/article/details/102737874...

洛谷 P5146 最大差值 C语言

P5146 最大差值 - 洛谷 | 计算机科学教育新生态 题目描述 HKE 最近热衷于研究序列&#xff0c;有一次他发现了一个有趣的问题&#xff1a; 对于一个序列 A1​,A2​,…,An​&#xff0c;找出两个数 i,j&#xff08;1≤i<j≤n&#xff09;&#xff0c;使得 Aj​−Ai​ 最大。…...

Zabbix 推送告警 消息模板 美化(钉钉Webhook机器人、邮件)

目前网络上已经有很多关于Zabbix如何推送告警信息到钉钉机器人、到邮件等文章。 但是在搜索下来&#xff0c;发现缺少了对告警信息的美化的文章。 本文不赘述如何对Zabbix对接钉钉、对接邮件&#xff0c;仅介绍我采用的美化消息模板的内容。 活用AI工具可以减轻很多学习、脑力负…...

MySQL数据库环境搭建

下载MySQL 官网&#xff1a;https://downloads.mysql.com/archives/installer/ 下载社区版就行了。 安装流程 看b站大佬的视频吧&#xff1a;https://www.bilibili.com/video/BV12q4y1477i/?spm_id_from333.337.search-card.all.click&vd_source37dfd298d2133f3e1f3e3c…...

书生大模型实战营7

文章目录 L1——基础岛提示词工程实践什么是Prompt(提示词)什么是提示工程提示设计框架CRISPECO-STAR LangGPT结构化提示词LangGPT结构编写技巧构建全局思维链保持上下文语义一致性有机结合其他 Prompt 技巧 常用的提示词模块 浦语提示词工程实践(LangGPT版)自动化生成LangGPT提…...

Spark的基本概念

个人博客地址&#xff1a;Spark的基本概念 | 一张假钞的真实世界 编程接口 RDD&#xff1a;弹性分布式数据集&#xff08;Resilient Distributed Dataset &#xff09;。Spark2.0之前的编程接口。Spark2.0之后以不再推荐使用&#xff0c;而是被Dataset替代。Dataset&#xff…...

langchain基础(二)

一、输出解析器&#xff08;Output Parser&#xff09; 作用&#xff1a;&#xff08;1&#xff09;让模型按照指定的格式输出&#xff1b; &#xff08;2&#xff09;解析模型输出&#xff0c;提取所需的信息 1、逗号分隔列表 CommaSeparatedListOutputParser&#xff1a;…...

读取要素类中的几何信息

在arcpy中,每个要素都有相关的集合对象,都可以在游标中访问.本节将使用SearchCursor和Polyon对象来读取面要素类几何信息. 操作方法 1.打开IDLE,新建一个脚本 2.导入arcpy模块 3.设置输入要素类为目标面要素类 infc "<>" 4.传入输入要素类创建SearchCurs…...

洛谷 P1130 红牌 C语言

题目描述 某地临时居民想获得长期居住权就必须申请拿到红牌。获得红牌的过程是相当复杂&#xff0c;一共包括 N 个步骤。每一步骤都由政府的某个工作人员负责检查你所提交的材料是否符合条件。为了加快进程&#xff0c;每一步政府都派了 M 个工作人员来检查材料。不幸的是&…...

五. Redis 配置内容(详细配置说明)

五. Redis 配置内容(详细配置说明) 文章目录 五. Redis 配置内容(详细配置说明)1. Units 单位配置2. INCLUDES (包含)配置3. NETWORK (网络)配置3.1 bind(配置访问内容)3.2 protected-mode (保护模式)3.3 port(端口)配置3.4 timeout(客户端超时时间)配置3.5 tcp-keepalive()配置…...

LeetCode题练习与总结:有效三角形的个数--611

一、题目描述 给定一个包含非负整数的数组 nums &#xff0c;返回其中可以组成三角形三条边的三元组个数。 示例 1: 输入: nums [2,2,3,4] 输出: 3 解释:有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3示例 2: 输入: nums [4,2,3,4] 输出: 4 提示: 1 &…...

【multi-agent-system】ubuntu24.04 安装uv python包管理器及安装依赖

uv包管理器是跨平台的 参考sudo apt-get update sudo apt-get install -y build-essential我的开发环境是ubuntu24.04 (base) root@k8s-master-pfsrv:/home/zhangbin/perfwork/01_ai/08_multi-agent-system# uv venv 找不到命令 “uv”,但可以通过以下软件...

【自然语言处理(NLP)】深度学习架构:Transformer 原理及代码实现

文章目录 介绍Transformer核心组件架构图编码器&#xff08;Encoder&#xff09;解码器&#xff08;Decoder&#xff09; 优点应用代码实现导包基于位置的前馈网络残差连接后进行层规范化编码器 Block编码器解码器 Block解码器训练预测 个人主页&#xff1a;道友老李 欢迎加入社…...

STM32单片机学习记录(2.2)

一、STM32 13.1 - PWR简介 1. PWR&#xff08;Power Control&#xff09;电源控制 &#xff08;1&#xff09;PWR负责管理STM32内部的电源供电部分&#xff0c;可以实现可编程电压监测器和低功耗模式的功能&#xff1b; &#xff08;2&#xff09;可编程电压监测器&#xff08;…...

毕业设计:基于卷积神经网络的鲜花花卉种类检测算法研究

目录 前言 课题背景和意义 实现技术思路 一、算法理论基础 1.1 卷积神经网络 1.2目标检测算法 二、 数据集 2.1 数据集 2.2 数据扩充 三、实验及结果分析 3.1 实验环境搭建 3.2 模型训练 最后 前言 &#x1f4c5;大四是整个大学期间最忙碌的时光,一边要忙着备考或…...

DeepSeek-R1模型1.5b、7b、8b、14b、32b、70b和671b有啥区别?

deepseek-r1的1.5b、7b、8b、14b、32b、70b和671b有啥区别&#xff1f;码笔记mabiji.com分享&#xff1a;1.5B、7B、8B、14B、32B、70B是蒸馏后的小模型&#xff0c;671B是基础大模型&#xff0c;它们的区别主要体现在参数规模、模型容量、性能表现、准确性、训练成本、推理成本…...

云原生(五十三) | SQL查询操作

文章目录 SQL查询操作 一、数据库DDL操作 1、登陆数据库 2、创建DB数据库 二、数据表DDL操作 1、创建数据表 2、RDS中SQL查询操作 三、SQL查询操作 1、RDS中SQL查询操作 SQL查询操作 一、数据库DDL操作 1、登陆数据库 2、创建DB数据库 创建一个普通账号&#xff0c…...

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_strerror_init()函数

目录 ngx_strerror_init()函数声明 ngx_int_t 类型声明定义 intptr_t 类型 ngx_strerror_init()函数实现 NGX_HAVE_STRERRORDESC_NP ngx_strerror_init()函数声明 在 nginx.c 的开头引入了: #include <ngx_core.h> 在 ngx_core.h 中引入了 #include <ngx_er…...

【HTML入门】Sublime Text 4与 Phpstorm

文章目录 前言一、环境基础1.Sublime Text 42.Phpstorm(1)安装(2)启动Phpstorm(3)“启动”码 二、HTML1.HTML简介(1)什么是HTML(2)HTML版本及历史(3)HTML基本结构 2.HTML简单语法(1)HTML标签语法(2)HTML常用标签(3)表格(4)特殊字符 总结 前言 在当今的软件开发领域&#xff0c…...

亲和传播聚类算法应用(Affinity Propagation)

亲和传播聚类算法应用&#xff08;Affinity Propagation&#xff09; 亲和传播&#xff08;Affinity Propagation&#xff0c;简称 AP&#xff09;是一种基于“消息传递”的聚类算法&#xff0c;与 K-Means 等传统聚类方法不同&#xff0c;它不需要用户预先指定簇的数量&#…...

【VM】VirtualBox安装CentOS8虚拟机

阅读本文前&#xff0c;请先根据 VirtualBox软件安装教程 安装VirtualBox虚拟机软件。 1. 下载centos8系统iso镜像 可以去两个地方下载&#xff0c;推荐跟随本文的操作用阿里云的镜像 centos官网&#xff1a;https://www.centos.org/download/阿里云镜像&#xff1a;http://…...

pytorch实现文本摘要

人工智能例子汇总&#xff1a;AI常见的算法和例子-CSDN博客 import numpy as npfrom modelscope.hub.snapshot_download import snapshot_download from transformers import BertTokenizer, BertModel import torch# 下载模型到本地目录 model_dir snapshot_download(tians…...

大数据相关职位介绍之一(数据分析,数据开发,数据产品经理,数据运营)

大数据相关职位介绍之一 随着大数据、人工智能&#xff08;AI&#xff09;和机器学习的快速发展&#xff0c;数据分析与管理已经成为各行各业的重要组成部分。从互联网公司到传统行业的数字转型&#xff0c;数据相关职位在中国日益成为推动企业创新和提升竞争力的关键力量。以…...

Vue3.0实战:大数据平台可视化(附完整项目源码)

文章目录 创建vue3.0项目项目初始化项目分辨率响应式设置项目顶部信息条创建页面主体创建全局引入echarts和axios后台接口创建express销售总量图实现完整项目下载项目任何问题都可在评论区,或者直接私信即可。 创建vue3.0项目 创建项目: vue create vueecharts选择第三项:…...

多模态论文笔记——NaViT

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细解读多模态论文NaViT&#xff08;Native Resolution ViT&#xff09;&#xff0c;将来自不同图像的多个patches打包成一个单一序列——称为Patch n’ Pack—…...

AI大模型开发原理篇-5:循环神经网络RNN

神经概率语言模型NPLM也存在一些明显的不足之处:模型结构简单&#xff0c;窗口大小固定&#xff0c;缺乏长距离依赖捕捉&#xff0c;训练效率低&#xff0c;词汇表固定等。为了解决这些问题&#xff0c;研究人员提出了一些更先进的神经网络语言模型&#xff0c;如循环神经网络、…...

无人机图传模块 wfb-ng openipc-fpv,4G

openipc 的定位是为各种模块提供底层的驱动和linux最小系统&#xff0c;openipc 是采用buildroot系统编译而成&#xff0c;因此二次开发能力有点麻烦。为啥openipc 会用于无人机图传呢&#xff1f;因为openipc可以将现有的网络摄像头ip-camera模块直接利用起来&#xff0c;从而…...

C++ Primer 自定义数据结构

欢迎阅读我的 【CPrimer】专栏 专栏简介&#xff1a;本专栏主要面向C初学者&#xff0c;解释C的一些基本概念和基础语言特性&#xff0c;涉及C标准库的用法&#xff0c;面向对象特性&#xff0c;泛型特性高级用法。通过使用标准库中定义的抽象设施&#xff0c;使你更加适应高级…...

Kanass快速安装配置教程(入门级)

Kanass是一款国产开源免费的项目管理工具&#xff0c;工具简洁易用、开源免费&#xff0c;本文将介绍如何快速安装配置kanass&#xff0c;以快速上手。&#xfeff; 1、快速安装 1.1 Linux 安装 点击官网 -> 演示与下载 ->下载&#xff0c;下载Linux安装包&#xff0c;…...

【自然语言处理(NLP)】基于Transformer架构的预训练语言模型:BERT 训练之数据集处理、训练代码实现

文章目录 介绍BERT 训练之数据集处理BERT 原理及模型代码实现数据集处理导包加载数据生成下一句预测任务的数据从段落中获取nsp数据生成遮蔽语言模型任务的数据从token中获取mlm数据将文本转换为预训练数据集创建Dataset加载WikiText-2数据集 BERT 训练代码实现导包加载数据构建…...

深度解析:网站快速收录与网站安全性的关系

本文转自&#xff1a;百万收录网 原文链接&#xff1a;https://www.baiwanshoulu.com/58.html 网站快速收录与网站安全性之间存在着密切的关系。以下是对这一关系的深度解析&#xff1a; 一、网站安全性对收录的影响 搜索引擎惩罚&#xff1a; 如果一个网站存在安全隐患&am…...

《基于Scapy的综合性网络扫描与通信工具集解析》

在网络管理和安全评估中&#xff0c;网络扫描和通信是两个至关重要的环节。Python 的 Scapy 库因其强大的网络数据包处理能力&#xff0c;成为开发和实现这些功能的理想工具。本文将介绍一个基于 Scapy 编写的 Python 脚本&#xff0c;该脚本集成了 ARP 扫描、端口扫描以及 TCP…...

MySQL索引详解

MySQL索引详解 什么是索引索引的原理索引的分类索引的数据结构二叉树平衡二叉树B树B树 聚集索引与非聚集索引概念利用聚集索引查找数据利用非聚集索引查找数据覆盖索引与回表操作 如何正确使用索引 什么是索引 索引是存储引擎中一种数据结构&#xff0c;或者说数据的组织方式&…...

【NEXT】网络编程——上传文件(不限于jpg/png/pdf/txt/doc等),或请求参数值是file类型时,调用在线服务接口

最近在使用华为AI平台ModelArts训练自己的图像识别模型&#xff0c;并部署了在线服务接口。供给客户端&#xff08;如&#xff1a;鸿蒙APP/元服务&#xff09;调用。 import核心能力&#xff1a; import { http } from kit.NetworkKit; import { fileIo } from kit.CoreFileK…...

【Qt】界面优化

界面优化 设置全局样式样式文件使⽤ Qt Designer 编辑样式选择器设置子控件样式伪类选择器样式属性盒模型设置按钮样式设置复选框样式输入框样式列表样式菜单栏样式 在 Qt 中对界面的优化和 CSS 类似。语法结构如下&#xff1a; 选择器 {属性名: 属性值; }例如&#xff1a; QP…...

机器学习算法在网络安全中的实践

机器学习算法在网络安全中的实践 本文将深入探讨机器学习算法在网络安全领域的应用实践&#xff0c;包括基本概念、常见算法及其应用案例&#xff0c;从而帮助程序员更好地理解和应用这一领域的技术。"> 序言 网络安全一直是信息技术领域的重要议题&#xff0c;随着互联…...

课题介绍:基于惯性与单目视觉信息融合的室内微小型飞行器智能自主导航研究

室内微小型飞行器在国防、物流和监测等领域中应用广泛&#xff0c;但在复杂的非合作环境中实时避障和导航仍面临诸多挑战。由于微小型飞行器的载荷和能源限制&#xff0c;迫切需要开发高效的智能自主导航系统。本项目旨在研究基于惯性导航与单目视觉信息融合的技术&#xff0c;…...

Observability:实现 OpenTelemetry 原生可观察性的商业价值

作者&#xff1a;来自 Elastic David Hope 利用开放标准和简化的数据收集转变组织的可观察性策略。 现代组织面临着前所未有的可观察性挑战。随着系统变得越来越复杂和分散&#xff0c;传统的监控方法难以跟上步伐。由于数据量每两年翻一番&#xff0c;系统跨越多个云和技术&am…...

nginx 报错404

404&#xff1a;服务器无法正常解析页面&#xff0c;大多是配置问题(路径配置错误)、或访问页面不存在 如果你也是用nginx来转接服务的话&#xff0c;那你有可能碰到过这种情况&#xff0c;当你启动服务后&#xff0c;在本地打开页面&#xff0c;发现404&#xff0c;然后你找遍…...

2.2.1 人眼色觉与色度图

文章目录 人眼色觉色度图 人眼色觉 视网膜上的视杆细胞、视锥细胞在人眼色觉中起到重要作用。视杆细胞主要用在弱光暗环境下&#xff0c;其数量远远多于视锥细胞。视锥细胞负责明亮环境的视觉&#xff0c;有L,M,S三种类型的细胞&#xff0c;分别对长、中、短波长敏感&#xff0…...

DeepSeek 遭 DDoS 攻击背后:DDoS 攻击的 “千层套路” 与安全防御 “金钟罩”

当算力博弈升级为网络战争&#xff1a;拆解DDoS攻击背后的技术攻防战——从DeepSeek遇袭看全球网络安全新趋势 在数字化浪潮席卷全球的当下&#xff0c;网络已然成为人类社会运转的关键基础设施&#xff0c;深刻融入经济、生活、政务等各个领域。从金融交易的实时清算&#xf…...

c语言(关键字)

前言&#xff1a; 感谢b站鹏哥c语言 内容&#xff1a; 栈区&#xff08;存放局部变量&#xff09; 堆区 静态区&#xff08;存放静态变量&#xff09; rigister关键字 寄存器&#xff0c;cpu优先从寄存器里边读取数据 #include <stdio.h>//typedef&#xff0c;类型…...

眼见着折叠手机面临崩溃,三星计划增强抗摔能力挽救它

据悉折叠手机开创者三星披露了一份专利&#xff0c;通过在折叠手机屏幕上增加一个抗冲击和遮光层的方式来增强折叠手机的抗摔能力&#xff0c;希望通过这种方式进一步增强折叠手机的可靠性和耐用性&#xff0c;来促进折叠手机的发展。 据悉三星和研发可折叠玻璃的企业的做法是在…...

Excel to form ?一键导入微软表单

一句话痛点 “你的Excel越强大&#xff0c;手动复制到Forms就越痛苦。” 合并单元格崩溃成乱码、下拉菜单变纯文本、条件逻辑消失无踪——这些不是技术问题&#xff0c;而是低效工作模式的死刑判决书。 直击解决方案&#xff1a;3分钟&#xff0c;3步&#xff0c;300%效率 1…...

使用Ollama本地化部署DeepSeek

1、Ollama 简介 Ollama 是一个开源的本地化大模型部署工具&#xff0c;旨在简化大型语言模型&#xff08;LLM&#xff09;的安装、运行和管理。它支持多种模型架构&#xff0c;并提供与 OpenAI 兼容的 API 接口&#xff0c;适合开发者和企业快速搭建私有化 AI 服务。 Ollama …...

【xdoj-离散线上练习】T251(C++)

解题反思&#xff1a; 开始敲代码前想清楚整个思路比什么都重要嘤嘤嘤&#xff01;看到输入m, n和矩阵&#xff0c;注意不能想当然地认为就是高m&#xff0c;宽n的矩阵&#xff0c;细看含义 比如本题给出了树的邻接矩阵&#xff0c;就是n*n的&#xff0c;代码实现中没有用到m这…...