“大模型横扫千军”背后的大数据挖掘--浅谈MapReduce
文章目录
- O 背景知识
- 1 数据挖掘
- 2 邦费罗尼原则
- 3 TF.IDF
- 4 哈希函数
- 5 分布式文件系统
- 一、MapReduce基本介绍
- 1. Map 任务
- 2. 按键分组
- 3. Reduce 任务
- 4. 节点失效处理
- 5.小测验:在一个大型语料库上有100个map任务和若干reduce任务:
- 二、基于MapReduce的基本运算
- 1. 选择(Selection)
- 2. 交(Intersection)
- 3. 并(Union)
- 4. 补(Difference)
- 5. 聚合分组(Aggregation and Grouping)
- 6. 矩阵乘法(Matrix Multiplication)
- 三、MapReduce的复杂性估计
- 1. 复制率(Replication Rate)
- 2. Reduce 规模(Reduce Size)
- 3. 映射模式(Mapping Patterns)
O 背景知识
1 数据挖掘
定义:数据挖掘是从大规模数据集中提取有用信息和模式的过程,通常应用于预测和决策支持。
例子:零售商通过分析销售数据,发现顾客在购买啤酒时经常同时购买尿布。基于这一发现,零售商可以优化商品陈列,提升销量。
2 邦费罗尼原则
定义:邦费罗尼原则指出,如果某个特征在随机数据中频繁出现,那么这种特征在特定数据集中的显著性可能不可靠。
例子:假设在多个随机抽样中发现某个疾病与吸烟之间的关联。如果该关联在随机数据中普遍存在,那么在具体研究中,该关联可能并不是显著的。
3 TF.IDF
定义:TF.IDF是一个用于评估文本中某个词汇重要性的度量,结合了该词在文档中的出现频率和在所有文档中的稀有性。
TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本挖掘技术,用于评估某个词在文档中的重要性。它结合了词在文档中的频率(TF)和词在整个文档集中的稀有性(IDF)。下面是 TF 和 IDF 的计算方法。
- 词频(TF)
词频(Term Frequency, TF)是指某个特定词汇在文档中出现的频率。计算公式如下:
TF ( t , d ) = 词 t 在文档 d 中出现的次数 文档 d 中总词数 \text{TF}(t, d) = \frac{\text{词 t 在文档 d 中出现的次数}}{\text{文档 d 中总词数}} TF(t,d)=文档 d 中总词数词 t 在文档 d 中出现的次数
其中:
- ( t ) 是某个特定的词。
- ( d ) 是某个特定的文档。
- 逆文档频率(IDF)
逆文档频率(Inverse Document Frequency, IDF)用于衡量词汇的重要性,尤其是那些在多个文档中都出现的词汇。计算公式如下:
IDF ( t ) = log ( N ∣ { d ∈ D : t ∈ d } ∣ ) \text{IDF}(t) = \log\left(\frac{N}{|\{d \in D: t \in d\}|}\right) IDF(t)=log(∣{d∈D:t∈d}∣N)
其中:
- ( N ) 是文档总数。
- ∣ { d ∈ D : t ∈ d } ∣ |\{d \in D: t \in d\}| ∣{d∈D:t∈d}∣是包含词 ( t ) 的文档数量。
- TF-IDF 计算
结合以上两者,TF-IDF 的计算公式为: TF-IDF ( t , d ) = TF ( t , d ) × IDF ( t ) \text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t) TF-IDF(t,d)=TF(t,d)×IDF(t)
例子:在一篇关于“数据挖掘”的文章中,词“数据”出现了50次,而在100篇文档中只出现在10篇中。则“数据”的TF.IDF值较高,说明它是该文档的重要主题词。
4 哈希函数
定义:哈希函数是将输入数据(如字符串)转换为固定大小(通常是整数)的输出值的算法,具有快速计算和均匀分布的特点。
例子:在一个用户数据库中,使用哈希函数将用户的电子邮件地址转换为一个哈希值,这样可以快速查找用户的信息而不必逐个匹配。
5 分布式文件系统
定义:分布式文件系统是一种将文件存储在网络中多台计算机上,并允许用户和应用程序通过统一接口进行访问的系统。它能实现文件的透明访问、数据冗余和高可用性。
特征:
- 多副本:文件通常在多个节点上存储副本,以提高容错性和数据安全性。
- 并发访问:支持多个用户同时访问和修改文件,提供机制以维护数据一致性。
例子:在Hadoop的HDFS中,文件会被分割成多个块,并在不同的节点上存储这些块的副本,以便于大数据处理和容错;在Google File System中,文件也会被划分为多个块,并在多个服务器上进行冗余存储。
一、MapReduce基本介绍
定义:MapReduce 是一种编程模型和处理大规模数据集的计算框架,最早由 Google 提出。它将数据处理过程分为两个主要阶段:Map 阶段和 Reduce 阶段。MapReduce 允许开发人员以简洁的方式进行并行计算,适用于大数据环境。
1. Map 任务
在 Map 阶段,输入数据被分成若干个片段,独立处理。每个片段通过一个 Map 函数进行处理,Map 函数的作用是读取输入数据并生成一系列的中间键值对。
- 输入:原始数据集(如文本文件)。
- 输出:中间键值对(key-value pairs),这些键值对将被用于后续的 Reduce 任务。
示例:在词频统计中,Map 函数会把每个单词作为键,值为 1,生成如 {“hello”: 1, “world”: 1} 的中间结果。
2. 按键分组
在 Map 阶段之后,系统会对所有 Map 任务生成的中间键值对进行洗牌(Shuffle)和分组,将相同的键聚集在一起,并将这些键值对发送到相应的 Reduce 任务。
- 洗牌:将所有 Map 任务输出的中间结果进行排序和分配。
- 分组:相同的键会被聚集在一起,便于 Reduce 阶段处理。
这一过程确保每个 Reduce 任务只处理一组特定的键及其相关联的值。
3. Reduce 任务
Reduce 阶段的主要任务是处理从 Map 任务中得到的中间数据,合并相同键的值并生成最终输出结果。
- 输入:中间键值对(经过分组后的数据)。
- 输出:最终结果,通常是经过汇总、计算后的数据(例如词频计数的总和)。
示例:在词频统计中,Reduce 函数会将相同单词的值进行求和,最终输出如 {“hello”: 10, “world”: 5} 的结果。
4. 节点失效处理
在分布式环境中,节点失效是常见的问题。MapReduce 框架设计了机制来处理节点失效,以确保任务的可靠性和正确性。
- 任务重试:如果某个 Map 或 Reduce 任务的执行节点失败,系统会自动重新调度该任务到其他可用节点进行执行。
- 任务监控:主控制节点(如 Job Tracker)会监控每个任务的执行状态,及时发现失败并重新分配任务。
- 数据冗余:数据片段会在多个节点上进行冗余存储,这样即使某个节点失效,其他节点仍然可以提供相应的数据。
5.小测验:在一个大型语料库上有100个map任务和若干reduce任务:
(a) 如果在 Map 任务中不使用组合器,那么处理值的 Reducer 的时间差异会不会很大?为什么?
回答:
如果不使用组合器,所有的中间键值对都会被直接发送到 Reducer。在大规模数据集的情况下,Map 阶段可能会生成大量中间结果,尤其是在词频统计这样的应用中,比如同一个词可能会出现多次。
- 时间差异:由于所有的中间结果都需要通过网络传输到 Reducer,处理大量重复的键值对会导致网络带宽的浪费和 Reducer 的处理时间增加,可能会导致某些 Reducer 处理的时间远远长于其他 Reducer。因此,Reducer 的处理时间差异可能会很大。
- 组合器的作用:组合器可以在 Map 任务的本地阶段对中间结果进行初步汇总,从而减少传输到 Reducer 的数据量,这样可以显著提高整体效率并减少时间差异。
(b) 如果将 Reducer 组合成数量较少的 Reduce 任务,比如说随机的 10 个任务,那么上述时间差异不会十分显著?如果将 Reducer 组合成 10,000 个 Reduce 任务,结果会怎么样?
回答:
-
数量较少的 Reduce 任务:如果将 Reducer 组合成较少的 Reduce 任务(如 10 个),每个 Reducer 将需要处理更多的中间键值对。虽然每个 Reducer 的工作量增大,但由于任务数量较少,整体处理时间可能不会显著增加,因为任务调度和启动的开销相对较小,且可以并行处理。
-
数量较多的 Reduce 任务:如果将 Reducer 组合成 10,000 个 Reduce 任务,可能会导致以下问题:
- 过多的任务调度开销:每个任务的启动和调度都有一定的成本,过多的任务会导致系统资源的浪费和调度延迟。
- 不均衡的负载:由于每个 Reducer 可能处理的中间结果数量相对较少,可能会导致有些 Reducer 完成得很快,而有些 Reducer 可能仍在处理数据,造成整体效率下降。
- 资源消耗:大量的 Reducer 任务会消耗更多的系统资源,可能导致系统性能瓶颈。
© 假设我们在 100 个 Map 任务中使用组合器,那么上面时间的差异不会很显著?为什么?
回答:
当使用组合器时,Map 阶段可以在本地汇总和压缩输出的中间结果,减少传输到 Reducer 的数据量。
- 数据量减少:组合器能够有效地减少传输到 Reducer 的中间结果数量。这不仅降低了网络带宽的需求,还减少了 Reducer 端处理的工作量。
- 时间差异降低:由于每个 Reducer 接收到的中间结果量相对较少,处理时间差异会缩小,因此整体的处理时间差异不会显著。所有 Reducer 能够更均匀地分配工作负载,提高了处理效率。
二、基于MapReduce的基本运算
MapReduce 是一种强大的编程模型,适用于处理和生成大规模数据集。它在多种基本运算中都得到了广泛应用,以下是基于 MapReduce 的一些基本运算的介绍,包括选择、交、并、补、聚合分组和矩阵乘法等。
1. 选择(Selection)
选择操作用于从数据集中筛选满足特定条件的记录。在 MapReduce 中,该操作主要在 Map 阶段完成。
实现步骤:
- Map 阶段:读取输入数据集,检查每条记录是否满足条件(如某一字段的值是否为特定值)。如果满足条件,就输出该记录。
- Reduce 阶段:通常选择操作不需要 Reduce 阶段,因为只需输出符合条件的结果。
示例:假设我们有一个包含用户信息的日志文件,我们想要选择年龄大于 18 岁的用户:
def map_function(record):if record.age > 18:emit(record.id, record)
2. 交(Intersection)
交操作用于找到两个数据集中的共同元素。在 MapReduce 中,可以通过 Map 和 Reduce 组合实现。
实现步骤:
- Map 阶段:对每个数据集的记录进行处理,输出形式为
(key, source)
,其中key
是记录的关键字段,source
是数据集标识。 - Reduce 阶段:对于相同的
key
,检查其来源。如果来自两个不同的数据集,则输出这个key
。
示例:假设有两个用户ID列表,我们要找出两个列表中的共同元素。
def map_function(record):emit(record.user_id, "dataset1") # 对于第一个数据集emit(record.user_id, "dataset2") # 对于第二个数据集def reduce_function(key, values):if "dataset1" in values and "dataset2" in values:emit(key, key) # 输出交集的元素
3. 并(Union)
并操作用于合并两个数据集,返回两个数据集中的所有元素。在 MapReduce 中,也可以通过 Map 和 Reduce 来实现。
实现步骤:
- Map 阶段:对两个数据集的记录进行处理,将所有记录发送到 Reducer。
- Reduce 阶段:简单地输出所有接收到的记录。
示例:将两个用户ID列表合并为一个列表。
def map_function(record):emit(record.user_id, None)def reduce_function(key, values):emit(key, key) # 输出并集的元素
4. 补(Difference)
补操作用于找到在一个数据集中存在但在另一个数据集中不存在的元素。可以通过 Map 和 Reduce 实现。
实现步骤:
- Map 阶段:处理数据集,输出
(key, source)
。 - Reduce 阶段:检查
key
的来源,如果只来自第一个数据集,则输出该key
。
示例:找出在第一个用户ID列表中,但不在第二个用户ID列表中的元素。
def map_function(record):emit(record.user_id, "dataset1") # 第一个数据集def reduce_function(key, values):if "dataset1" in values and "dataset2" not in values:emit(key, key) # 输出补集的元素
5. 聚合分组(Aggregation and Grouping)
聚合分组操作用于根据某些键对数据进行分组,并对每组的数据进行汇总计算(如求和、计数等)。
实现步骤:
- Map 阶段:根据特定的键(如某字段的值)输出
(key, value)
对。 - Reduce 阶段:对相同的
key
进行汇总计算。
示例:计算每个用户的订单总数。
def map_function(record):emit(record.user_id, 1) # 每个订单计为 1def reduce_function(user_id, values):total_orders = sum(values) # 汇总每个用户的订单数emit(user_id, total_orders)
6. 矩阵乘法(Matrix Multiplication)
矩阵乘法是更复杂的运算,可以通过 MapReduce 来实现。假设我们有两个矩阵 A 和 B,想要计算 C = A * B。
实现步骤:
- Map 阶段:将矩阵 A 和 B 的元素进行处理。对于 A 的每个元素 (i, j),输出
(i, k)
,值为A[i][j] * B[j][k]
。对于 B 的每个元素,输出(j, k)
及其对应值。 - Reduce 阶段:将相同的
(i, k)
汇总,计算总和。
示例:
# 假设 A[i][j] 和 B[j][k] 的索引表示
def map_a(i, j, value):for k in range(num_cols_B):emit((i, k), value * B[j][k]) # 从 A 发出def map_b(j, k, value):for i in range(num_rows_A):emit((i, k), value * A[i][j]) # 从 B 发出def reduce_function(index, values):total = sum(values) # 对于相同的 (i, k) 汇总emit(index, total)
三、MapReduce的复杂性估计
1. 复制率(Replication Rate)
定义:
在 MapReduce 中,复制率通常指的是所有 Map 任务产生的键值对的数量与其输入数据的大小之比。更具体地说,可以用以下公式表示:
复制率 = 所有 Map 任务产生的键值对数量 输入数据的大小 \text{复制率} = \frac{\text{所有 Map 任务产生的键值对数量}}{\text{输入数据的大小}} 复制率=输入数据的大小所有 Map 任务产生的键值对数量
影响因素:
- 数据冗余:较高的复制率意味着每个输入记录会生成更多的输出键值对,这可能会增加后续处理的复杂性。
- 中间结果的处理:在某些情况下,尤其是使用组合器时,复制率可以影响 Reducer 接收到的数据量,从而影响性能。
- 资源利用率:过高的复制率可能导致不必要的资源消耗,尤其是在处理大规模数据时。
复杂性估计:
复制率是评估 MapReduce 性能的重要指标。合理的复制率能够提高数据处理效率,但过高的复制率则可能会导致资源浪费和处理延迟。因此,在设计 MapReduce 作业时,需要仔细考虑复制率的设置。
2. Reduce 规模(Reduce Size)
定义:
Reduce 规模通常指的是参与 Reduce 阶段的任务数量和每个任务处理的数据量,决定了整个 MapReduce 作业的并行处理能力。
影响因素:
- 任务数量:增加 Reduce 任务的数量可以提高并行处理能力,降低单个任务的负载。
- 数据倾斜:如果某些键的值集中,可能导致某些 Reduce 任务的负载过重,从而影响整体性能。
- 网络传输开销:Reduce 任务接收的数据量越大,其网络传输成本也越高。
复杂性估计:
合理的 Reduce 规模设计可以提高作业的执行效率。需要根据输入数据的规模和特性调整 Reduce 任务的数量,以避免数据倾斜和资源浪费。
3. 映射模式(Mapping Patterns)
定义:
映射模式指的是在 MapReduce 中数据如何被映射(处理)的方式。不同的映射模式会对复杂性和性能产生不同影响。
常见的映射模式:
- 单一映射模式:每个 Mapper 处理特定的数据分片,适合于简单的处理任务。
- 分布式映射模式:多个 Mapper 同时处理数据,适用于大规模并行计算,增强了处理能力。
- 多输入模式:一个 Mapper 可以处理来自多个输入源的数据,适合于需要联合多份数据进行处理的场景。
复杂性估计:
映射模式影响时间复杂性和空间复杂性。选择合适的映射模式可以提高数据处理的效率。例如,分布式映射模式通常能获得更好的处理速度,但可能会增加对资源的需求。
相关文章:
“大模型横扫千军”背后的大数据挖掘--浅谈MapReduce
文章目录 O 背景知识1 数据挖掘2 邦费罗尼原则3 TF.IDF4 哈希函数5 分布式文件系统 一、MapReduce基本介绍1. Map 任务2. 按键分组3. Reduce 任务4. 节点失效处理5.小测验:在一个大型语料库上有100个map任务和若干reduce任务: 二、基于MapReduce的基本运…...
< OS 有关 > 阿里云 几个小时前 使用密钥替换 SSH 密码认证后, 发现主机正在被“攻击” 分析与应对
信息来源: 文件:/var/log/auth.log 因为在 sshd_config 配置文件中,已经定义 LogLevel INFO 部分内容: 2025-01-27T18:18:55.68272708:00 jpn sshd[15891]: Received disconnect from 45.194.37.171 port 58954:11: Bye Bye […...
【C++高并发服务器WebServer】-7:共享内存
本文目录 一、共享内存1.1 shmget函数1.2 shmat1.3 shmdt1.4 shmctl1.5 ftok1.6 共享内存和内存映射的关联1.7 小demo 二、共享内存操作命令 一、共享内存 共享内存允许两个或者多个进程共享物理内存的同一块区域(通常被称为段)。由于一个共享内存段会称…...
Python中容器类型的数据(下)
集合 集合 (set) 是一种可迭代的、无序的、不能包含重复元素的容器类型的数据。 Python中的集合是一种重要的数据结构,以下为你详细介绍: 定义与特点 无序性:集合中的元素没有固定顺序, {1, 2, 3} 和 {3, 2, 1} 在Python中是同一…...
JavaScript系列(45)--响应式编程实现详解
JavaScript响应式编程实现详解 🔄 今天,让我们深入探讨JavaScript的响应式编程实现。响应式编程是一种基于数据流和变化传播的编程范式,它使我们能够以声明式的方式处理异步数据流。 响应式编程基础概念 🌟 💡 小知识…...
uniapp版本升级
1.样式 登录进到首页,弹出更新提示框,且不可以关闭,侧边返回直接退出! 有关代码: <uv-popup ref"popupUpdate" round"8" :close-on-click-overlay"false"><view style"…...
K8s运维管理平台 - KubeSphere 3.x 和4.x 使用分析:功能较强,UI美观
目录标题 Lic使用感受优点:优化点: 实操首页项目 | 应用负载 | 配置 | 定制资源定义存储监控告警集群设置 **KubeSphere 3.x** 和 **4.x**1. **架构变化**:2. **多集群管理**:3. **增强的 DevOps 功能**:4. **监控与日…...
使用Python Dotenv库管理环境变量
使用Python Dotenv库管理环境变量 在开发Python应用程序时,管理配置信息(如API密钥、数据库连接字符串等)是一个常见的需求。为了确保安全性和灵活性,通常不建议将这些敏感信息硬编码在代码中。这时,dotenv库就派上了…...
HTTP 配置与应用(不同网段)
想做一个自己学习的有关的csdn账号,努力奋斗......会更新我计算机网络实验课程的所有内容,还有其他的学习知识^_^,为自己巩固一下所学知识,下次更新校园网设计。 我是一个萌新小白,有误地方请大家指正,谢谢…...
异或哈希总结
例题 例题1https://codeforces.com/problemset/problem/1175/Fhttps://codeforces.com/problemset/problem/1175/F 例题2https://codeforces.com/contest/2014/problem/Hhttps://codeforces.com/contest/2014/problem/H例题4https://codeforces.com/contest/1418/problem/Ght…...
我的2024年总结
趁着摸鱼赶紧写一下吧 去年目标review 还是将去年的目标完成了一些 【接纳不完美,多拍照片】 这个还是部分做到了,今年和一些朋友们见面时都注意拍照留记录了,不过还可以继续加强,因为外貌上发生了重大变化,下面细说…...
简易CPU设计入门:控制总线的剩余信号(二)
项目代码下载 请大家首先准备好本项目所用的源代码。如果已经下载了,那就不用重复下载了。如果还没有下载,那么,请大家点击下方链接,来了解下载本项目的CPU源代码的方法。 CSDN文章:下载本项目代码 上述链接为本项目…...
软件开发中的密码学(国密算法)
1.软件行业中的加解密 在软件行业中,加解密技术广泛应用于数据保护、通信安全、身份验证等多个领域。加密(Encryption)是将明文数据转换为密文的过程,而解密(Decryption)则是将密文恢复为明文的过程。以下…...
ArcGIS10.2 许可License点击始终启动无响应的解决办法及正常启动的前提
1、问题描述 在ArcGIS License Administrator中,手动点击“启动”无响应;且在计算机管理-服务中,无ArcGIS License 或者License的启动、停止、禁止等均为灰色,无法操作。 2、解决方法 ①通过cmd对service.txt进行手动服务的启动…...
rust feature h和 workspace相关知识 (十一)
feature 相关作用和描述 在 Rust 中,features(特性) 是一种控制可选功能和依赖的机制。它允许你在编译时根据不同的需求启用或禁用某些功能,优化构建,甚至改变代码的行为。Rust 的特性使得你可以轻松地为库提供不同的…...
动手学深度学习-卷积神经网络-3填充和步幅
目录 填充 步幅 小结 在上一节的例子(下图) 中,输入的高度和宽度都为3,卷积核的高度和宽度都为2,生成的输出表征的维数为22。 正如我们在 上一节中所概括的那样,假设输入形状为nhnw,卷积核形…...
最长递增——蓝桥杯
1.题目描述 在数列 a1,a2,⋯,an 中,如果ai<ai1<ai2<⋯<aj,则称 ai 至 aj 为一段递增序列,长度为 j−i1。 定一个数列,请问数列中最长的递增序列有多长。 输入描述 输入的第一行包含一个整数 n。…...
DeepSeek R1 对比 AlphaGo,Zero 的思考过程
作者:真中合欢 原文:https://zhuanlan.zhihu.com/p/19897045280 等了好久,终于等来R1的论文,我在当天晚上第一时间拜读。整篇论文的实验和理论给我一种简洁的优雅,和DeepSeek-V3那篇论文的感觉完全不同。读论文的过程中…...
【2025最新计算机毕业设计】基于SSM房屋租赁平台【提供源码+答辩PPT+文档+项目部署】(高质量源码,可定制,提供文档,免费部署到本地)
作者简介:✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌ 主要内容:🌟Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能…...
蓝桥杯练习日常|c/c++竞赛常用库函数(下)
书接上回......蓝桥杯算法日常|c\c常用竞赛函数总结备用-CSDN博客 目录 书接上回......https://blog.csdn.net/weixin_47011416/article/details/145290017 1、二分查找 2、lower_bound uper_bound 3、memset() 函数原型 参数说明 返回值 常见用…...
手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码)
手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码) 目录 手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码)Stable Diffusion 原理图Stable Diffusion的原理解释Stable Diffusion 和Di…...
技术总结:FPGA基于GTX+RIFFA架构实现多功能SDI视频转PCIE采集卡设计方案
目录 1、前言工程概述免责声明 3、详细设计方案设计框图SDI 输入设备Gv8601a 均衡器GTX 解串与串化SMPTE SD/HD/3G SDI IP核BT1120转RGBFDMA图像缓存RIFFA用户数据控制RIFFA架构详解Xilinx 7 Series Integrated Block for PCI ExpressRIFFA驱动及其安装QT上位机HDMI输出RGB转BT…...
【16届蓝桥杯寒假刷题营】第2期DAY5
2.最大公因数 - 蓝桥云课 问题描述 给你2个正整数N,M。 你需要构造一个有N个数的正整数序列a,满足以下条件: ∑i1NaiM。 求gcd(a),可能的最大值。 输入描述 输入一行两个正整数N,M,表示数组的长…...
26.项目集风险管理战略和项目集风险管理活动有何区别与联系?
项目集风险管理战略和项目集风险管理活动有何区别与联系? 项目集风险管理战略和项目集风险管理活动在项目集管理中的作用不同,但又是密切相关的。 区别: 1.定义 项目集风险管理战略:指的是制定一套全面的、系统的方针和方法,…...
PETSc源码分析: Time Integrators
本文结合PETSc源代码,总结PETSc中的ODE/DAE求解器。 注1:限于研究水平,分析难免不当,欢迎批评指正。 注2:文章内容会不定期更新。 参考文献 Balay S. PETSc/TAO Users Manual, Revision 3.22. Argonne National Labo…...
Spring Boot是什么及其优点
简介 Spring Boot是基于Spring框架开发的全新框架,其设计目的是简化Spring应用的初始化搭建和开发过程。 Spring Boot整合了许多框架和第三方库配置,几乎可以达到“开箱即用”。 优点 可快速构建独立的Spring应用。 直接嵌入Tomcat、Jetty和Underto…...
21.Word:小赵-毕业论文排版❗【39】
目录 题目 NO1.2 NO3.4 NO5.6 NO7.8.9 NO10.11.12 题目 NO1.2 自己的论文当中接收老师的修改:审阅→比较→源文档:考生文件夹:Word.docx→修订的文档:考生文件夹:教师修改→确定→接收→接收所有修订将合并之…...
LeetCode --- 433周赛
题目列表 3427. 变长子数组求和 3428. 最多 K 个元素的子序列的最值之和 3429. 粉刷房子 IV 3430. 最多 K 个元素的子数组的最值之和 一、变长子数组求和 题意要求我们能快速算出 n u m s [ s t a r t . . . i ] nums[start...i] nums[start...i] 这段区间和,其中…...
LLM幻觉(Hallucination)缓解技术综述与展望
LLMs 中的幻觉问题(LLM 幻觉:现象剖析、影响与应对策略)对其可靠性与实用性构成了严重威胁。幻觉现象表现为模型生成的内容与事实严重不符,在医疗、金融、法律等对准确性要求极高的关键领域,可能引发误导性后果&#x…...
Rocky9.5编译freeswitch【记录】
文件目录 tree -dL 1 . ├── flite-2.0.0 ├── freeswitch ├── ldns-1.8.4 ├── libcodec2-2.59 ├── libks ├── ooh323-0.1 ├── opus ├── signalwire-client-c ├── sofia-sip ├── spandsp ├── v8-6.1.298 └── zeromq-2.1.9操作记录 ip a nm…...
自定义数据集 使用tensorflow框架实现逻辑回归并保存模型,然后保存模型后再加载模型进行预测
在 TensorFlow 中实现逻辑回归、保存模型并加载模型进行预测的过程可以分为以下几个步骤: 准备数据:创建或加载你的自定义数据集。构建逻辑回归模型。训练模型。保存模型。加载模型。使用加载的模型进行预测。 import tensorflow as tf import numpy as…...
WPF进阶 | WPF 数据绑定进阶:绑定模式、转换器与验证
WPF进阶 | WPF 数据绑定进阶:绑定模式、转换器与验证 一、前言二、WPF 数据绑定基础回顾2.1 数据绑定的基本概念2.2 数据绑定的基本语法 三、绑定模式3.1 单向绑定(One - Way Binding)3.2 双向绑定(Two - Way Binding)…...
八股——Java基础(四)
目录 一、泛型 1. Java中的泛型是什么 ? 2. 使用泛型的好处是什么? 3. Java泛型的原理是什么 ? 什么是类型擦除 ? 4.什么是泛型中的限定通配符和非限定通配符 ? 5. List和List 之间有什么区别 ? 6. 可以把List传递给一个接受List参数的方法吗? 7. Arra…...
2025蓝桥杯JAVA编程题练习Day1
1.刑侦科推理试题 题目描述 有以下10道单选题,编程求这10道题的答案。 这道题的答案是: A. A B. B C. C D. D 第5题的答案是: A. C B. D C. A D. B 以下选项中哪一题的答案与其他三项不同: A. 第3题 B. 第6题 C. 第2题 D.…...
数据结构与算法-要点整理
知识导图: 一、数据结构 包含:线性表(数组、队列、链表、栈)、散列表、树(二叉树、多路查找树)、图 1.线性表 数据之间就是“一对一“的逻辑关系。 线性表存储数据的实现方案有两种,分别是顺序存储结构和链式存储结构。 包含:数组、队列、链表、栈。 1.1 数组…...
SaaS底层盈利逻辑剖析:运维费与服务费的战略抉择
一、引言 1.1 研究背景与意义 在数字化浪潮的推动下,SaaS(软件即服务)行业近年来取得了迅猛发展,成为软件产业中不可或缺的一部分。SaaS 通过互联网提供软件服务,企业无需进行复杂的本地软件安装和硬件购置ÿ…...
Python爬虫之——Cookie存储器
目录 专栏导读1、背景介绍2、库的安装3、核心代码4、完整代码总结 专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 🏳️🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注 &…...
【数据结构】(2)时间、空间复杂度
一、衡量算法好坏的指标 时间复杂度衡量算法的运行速度,空间复杂度衡量算法所需的额外空间。这些指标,是某场景中选择使用哪种数据结构和算法的依据。如今,计算机的存储器已经变得容易获得,所以不再太关注空间复杂度。 二、渐进表…...
理解 IS-IS 中重要概念之间的关系
本文为 “IS-IS 中重要概念” 相关文章合辑。 未整理去重。 理解 IS-IS、CLNS、CMNS、NSAP、NET 等概念之间的关系 1. 核心概念 IS-IS (Intermediate System to Intermediate System) 一种链路状态路由协议,基于 SPF(最短路径优先)算法计…...
AI 模型评估与质量控制:生成内容的评估与问题防护
在生成式 AI 应用中,模型生成的内容质量直接影响用户体验。然而,生成式模型存在一定风险,如幻觉(Hallucination)问题——生成不准确或完全虚构的内容。因此,在构建生成式 AI 应用时,模型评估与质…...
Mybatis-plus缓存
mybatis-plus缓存 MyBatis-Plus 是一个 MyBatis 的增强工具,在 MyBatis 的基础上提供了更多的便利性和强大的功能,包括但不限于分页、条件构造器、通用 Mapper、代码生成器等。MyBatis-Plus 也内置了基础的缓存功能,但需要注意的是ÿ…...
unity学习20:time相关基础 Time.time 和 Time.deltaTime
目录 1 unity里的几种基本时间 1.1 time 相关测试脚本 1.2 游戏开始到现在所用的时间 Time.time 1.3 时间缩放值 Time.timeScale 1.4 固定时间间隔 Time.fixedDeltaTime 1.5 两次响应时间之间的间隔:Time.deltaTime 1.6 对应测试代码 1.7 需要关注的2个基本…...
系统思考—转型
“我知道自己有问题,但问题到底出在哪里?” 很多中小企业主都会在这样的迷茫中徘徊。市场变化太快、团队执行力不强、内部沟通不畅……这些问题似乎无处不在。但其实,真正让企业陷入困境的,并不是问题本身,而是——看…...
Java面试题2025-设计模式
1.说一下开发中需要遵守的设计原则? 设计模式中主要有六大设计原则,简称为SOLID ,是由于各个原则的首字母简称合并的来(两个L算一个,solid 稳定的),六大设计原则分别如下: 1、单一职责原则 单一职责原则的定义描述非…...
本地Harbor仓库搭建流程
Harbor仓库搭建流程 本文主要介绍如何搭建harbor仓库,推送本地镜像供其他机器拉取构建服务 harbor文档:Harbor 文档 | 配置 Harbor YML 文件 - Harbor 中文 github下载离线安装包 Releases goharbor/harbor 这是harbor的GitHub下载地址,…...
爬虫基础之爬取某基金网站+数据分析
声明: 本案例仅供学习参考使用,任何不法的活动均与本作者无关 网站:天天基金网(1234567.com.cn) --首批独立基金销售机构-- 东方财富网旗下基金平台! 本案例所需要的模块: 1.requests 2.re(内置) 3.pandas 4.pyecharts 其他均需要 pip install 模块名 爬取步骤: …...
Qt调用FFmpeg库实时播放UDP组播视频流
基于以下参考链接,通过改进实现实时播放UDP组播视频流 https://blog.csdn.net/u012532263/article/details/102736700 源码在windows(qt-opensource-windows-x86-5.12.9.exe)、ubuntu20.04.6(x64)(qt-opensource-linux-x64-5.12.12.run)、以…...
YOLOv10改进,YOLOv10检测头融合DynamicHead,添加小目标检测层(四头检测)+CA注意机制,全网首发
摘要 作者提出一种新的检测头,称为“动态头”,旨在将尺度感知、空间感知和任务感知统一在一起。如果我们将骨干网络的输出(即检测头的输入)视为一个三维张量,其维度为级别 空间 通道,这样的统一检测头可以看作是一个注意力学习问题,直观的解决方案是对该张量进行全自…...
【ComfyUI专栏】推荐几个常用的云端ComfyUI平台
如果我们本身的系统资源不足,但是我们依然能够使用显卡来利用ComfyUI生成我们需要的图片或者视频。当前平台中主要有两个不同的廉价平台提供了ComfyUI的功能,这里提供的资源基本上都是基于分钟进行计算。这些平台的好处就是基本上不需要你额外进行配置。…...
std::pair源码:operator=被delete了,提供的是sfinae版本
D:\DevTools\VS2017\VC\Tools\MSVC\14.16.27023\include\utility pair& operator(const volatile pair&) delete;真正版本:template<class _Other1 _Ty1,class _Other2 _Ty2,enable_if_t<conjunction_v<is_assignable<_Ty1&, const _Oth…...