当前位置：首页 > news >正文

Spark使用过程中的 15 个常见问题、详细解决方案

news 来源：原创 2025/8/3 2:44:48

- - 问题 1：Spark 作业超时
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 2：内存溢出
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 3：Shuffle 性能问题
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 4：Spark 作业调度不均
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 5：任务失败
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 6：GC 频繁
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 7：数据倾斜
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 8：Executor 失败
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 9：JVM 参数配置不当
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 10：资源不足导致调度延迟
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 11：SQL 查询性能差
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 12：无法读取数据源
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 13：Zookeeper 配置问题
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 14：HDFS 数据读取失败
  - - 问题描述
    - 解决方案
    - Python 实现
  - 问题 15：Spark 集群失去联系
  - - 问题描述
    - 解决方案
    - Python 实现

以下是关于 Spark 使用过程中的 15 个常见问题、详细解决方案及 Python 面向对象代码实现的总结。对于每个问题，给出了实际代码示例和解决方案。

问题 1：Spark 作业超时

问题描述

Spark 作业可能会因为资源不足或任务调度不当而超时。

解决方案

增加 Spark 的超时时间。
调整 Spark 的资源分配，确保每个作业都能获得足够的 CPU 和内存。

Python 实现

from pyspark.sql import SparkSessionclass SparkJobTimeoutConfig:def __init__(self, spark):self.spark = sparkdef update_timeout(self, spark_conf, timeout_ms):print(f"设置 Spark 作业超时为 {timeout_ms} 毫秒。")self.spark.conf.set(spark_conf, timeout_ms)# 示例
spark = SparkSession.builder.appName("TimeoutExample").getOrCreate()
configurer = SparkJobTimeoutConfig(spark)
configurer.update_timeout("spark.network.timeout", 120000)  # 设置超时为120秒

问题 2：内存溢出

问题描述

Spark 作业可能由于内存配置不足而导致内存溢出。

解决方案

增加 executor 的内存，使用 spark.executor.memory 配置。
增加分区数，减少单个任务的内存占用。

Python 实现

class SparkMemoryConfig:def __init__(self, spark):self.spark = sparkdef configure_memory(self, memory_size):print(f"配置每个 Executor 的内存为 {memory_size}。")self.spark.conf.set("spark.executor.memory", memory_size)# 示例
spark = SparkSession.builder.appName("MemoryConfigExample").getOrCreate()
memory_configurer = SparkMemoryConfig(spark)
memory_configurer.configure_memory("4g")

问题 3：Shuffle 性能问题

问题描述

Spark 在进行 shuffle 操作时，性能可能会显著下降，尤其是在大规模数据集下。

解决方案

增加 shuffle 文件的压缩。
调整 shuffle 的分区数，避免过多或过少的分区。

Python 实现

class ShuffleOptimizer:def __init__(self, spark):self.spark = sparkdef optimize_shuffle(self, shuffle_partitions=200, shuffle_compression="snappy"):print(f"设置 shuffle 分区数为 {shuffle_partitions} 和压缩格式为 {shuffle_compression}。")self.spark.conf.set("spark.sql.shuffle.partitions", shuffle_partitions)self.spark.conf.set("spark.shuffle.compress", "true")self.spark.conf.set("spark.shuffle.spill.compress", "true")self.spark.conf.set("spark.io.compression.codec", shuffle_compression)# 示例
spark = SparkSession.builder.appName("ShuffleOptimization").getOrCreate()
shuffle_optimizer = ShuffleOptimizer(spark)
shuffle_optimizer.optimize_shuffle(shuffle_partitions=300, shuffle_compression="lz4")

问题 4：Spark 作业调度不均

问题描述

Spark 作业调度不均可能导致一些节点被过度利用，而其他节点处于空闲状态。

解决方案

使用 Fair Scheduler 或 Capacity Scheduler 进行作业调度。
调整 spark.scheduler.mode 参数，选择公平调度或容量调度模式。

Python 实现

class SchedulerConfig:def __init__(self, spark):self.spark = sparkdef configure_scheduler(self, scheduler_mode="FAIR"):print(f"设置 Spark 调度模式为 {scheduler_mode}。")self.spark.conf.set("spark.scheduler.mode", scheduler_mode)# 示例
spark = SparkSession.builder.appName("SchedulerConfigExample").getOrCreate()
scheduler_config = SchedulerConfig(spark)
scheduler_config.configure_scheduler(scheduler_mode="FAIR")

问题 5：任务失败

问题描述

Spark 任务失败可能是由于资源不足、数据损坏或代码错误导致的。

解决方案

增加任务的重试次数，使用 spark.task.maxFailures 配置。
调整 spark.speculation 配置启用任务推测执行。

Python 实现

class TaskFailureHandler:def __init__(self, spark):self.spark = sparkdef set_retry_policy(self, max_failures=4, enable_speculation=True):print(f"设置任务最大重试次数为 {max_failures}，启用推测执行: {enable_speculation}")self.spark.conf.set("spark.task.maxFailures", max_failures)self.spark.conf.set("spark.speculation", enable_speculation)# 示例
spark = SparkSession.builder.appName("TaskFailureHandler").getOrCreate()
failure_handler = TaskFailureHandler(spark)
failure_handler.set_retry_policy(max_failures=6, enable_speculation=True)

问题 6：GC 频繁

问题描述

频繁的垃圾回收 (GC) 会影响 Spark 作业的性能。

解决方案

调整 Spark 的内存设置，确保每个任务使用的内存合理。
增加 executor 的数量，减少每个 executor 的内存压力。

Python 实现

class GCOptimizer:def __init__(self, spark):self.spark = sparkdef adjust_gc_settings(self, executor_cores=2, executor_memory="2g"):print(f"调整 GC 设置，executor 核心数为 {executor_cores}，内存为 {executor_memory}。")self.spark.conf.set("spark.executor.cores", executor_cores)self.spark.conf.set("spark.executor.memory", executor_memory)# 示例
spark = SparkSession.builder.appName("GCOptimization").getOrCreate()
gc_optimizer = GCOptimizer(spark)
gc_optimizer.adjust_gc_settings(executor_cores=4, executor_memory="4g")

问题 7：数据倾斜

问题描述

Spark 中的某些操作（如 join、groupBy）可能导致数据倾斜，导致部分任务处理数据过多而其他任务几乎没有数据。

解决方案

对数据进行分区，使用 salting 技术进行均衡。
使用 broadcast 变量进行广播小表以避免数据倾斜。

Python 实现

class DataSkewHandler:def __init__(self, spark):self.spark = sparkdef handle_skew(self, df):print("处理数据倾斜，使用广播变量优化 join 操作。")# 假设 `small_df` 是一个小表small_df = self.spark.read.parquet("/path/to/small_df")broadcasted_df = self.spark.broadcast(small_df)result_df = df.join(broadcasted_df, on="key", how="left")return result_df# 示例
spark = SparkSession.builder.appName("DataSkewExample").getOrCreate()
df = spark.read.parquet("/path/to/large_df")
skew_handler = DataSkewHandler(spark)
result = skew_handler.handle_skew(df)

问题 8：Executor 失败

问题描述

Executor 失败可能由于内存溢出、硬件故障或长时间运行的任务。

解决方案

增加 executor 的内存配置，使用 spark.executor.memory 配置。
设置合适的任务分配，避免 executor 资源过载。

Python 实现

class ExecutorFailureHandler:def __init__(self, spark):self.spark = sparkdef configure_executor(self, memory_size="4g", cores=2):print(f"配置 executor 内存为 {memory_size}，核心数为 {cores}。")self.spark.conf.set("spark.executor.memory", memory_size)self.spark.conf.set("spark.executor.cores", cores)# 示例
spark = SparkSession.builder.appName("ExecutorFailureExample").getOrCreate()
executor_handler = ExecutorFailureHandler(spark)
executor_handler.configure_executor(memory_size="6g", cores=4)

问题 9：JVM 参数配置不当

问题描述

Spark 的 JVM 参数配置不当，可能会影响性能或导致任务失败。

解决方案

通过 spark.driver.extraJavaOptions 和 spark.executor.extraJavaOptions 配置 JVM 参数。

Python 实现

class JVMConfig:def __init__(self, spark):self.spark = sparkdef configure_jvm(self, java_options="-Xmx4g"):print(f"配置 JVM 参数: {java_options}")self.spark.conf.set("spark.driver.extraJavaOptions", java_options)self.spark.conf.set("spark.executor.extraJavaOptions", java_options)# 示例
spark = SparkSession.builder.appName("JVMConfigExample").getOrCreate()
jvm_configurer = JVMConfig(spark)
jvm_configurer.configure_jvm(java_options="-Xmx8g")

问题 10：资源不足导致调度延迟

问题描述

Spark 作业可能因为资源不足，导致调度延迟，影响作业执行时间。

解决方案

增加集群的资源，确保足够的 executor 和内存。
使用动态资源分配 (spark.dynamicAllocation.enabled) 来提高资源利用率。

Python 实现

class ResourceAllocation:def __init__(self, spark):self.spark = sparkdef enable_dynamic_allocation(self, min_executors=2, max_executors=10):print(f"启用动态资源分配，最小 Executors 为 {min_executors}，最大 Executors 为 {max_executors}。")self.spark.conf.set("spark.dynamicAllocation.enabled", "true")self.spark.conf.set("spark.dynamicAllocation.minExecutors", min_executors)self.spark.conf.set("spark.dynamicAllocation.maxExecutors", max_executors)# 示例
spark = SparkSession.builder.appName("ResourceAllocationExample").getOrCreate()
resource_allocator = ResourceAllocation(spark)
resource_allocator.enable_dynamic_allocation(min_executors=3, max_executors=15)

问题 11：SQL 查询性能差

问题描述

SQL 查询执行时性能较差，尤其是在大数据量下。

解决方案

使用 cache() 或 persist() 方法缓存数据。
调整 Spark SQL 配置，优化查询性能。

Python 实现

class SQLPerformanceOptimizer:def __init__(self, spark):self.spark = sparkdef optimize_sql(self, df):print("优化 SQL 查询，缓存数据。")df.cache()df.show()# 示例
spark = SparkSession.builder.appName("SQLPerformanceExample").getOrCreate()
df = spark.read.parquet("/path/to/data")
optimizer = SQLPerformanceOptimizer(spark)
optimizer.optimize_sql(df)

问题 12：无法读取数据源

问题描述

Spark 可能无法读取数据源，可能是因为数据路径错误、格式不支持等问题。

解决方案

确保数据路径正确，并且 Spark 支持该格式。
使用适当的读取方法（如 .csv(), .parquet()）指定格式。

Python 实现

class DataSourceReader:def __init__(self, spark):self.spark = sparkdef read_data(self, file_path, format="parquet"):print(f"读取 {format} 格式的数据：{file_path}")if format == "parquet":return self.spark.read.parquet(file_path)elif format == "csv":return self.spark.read.csv(file_path, header=True, inferSchema=True)# 示例
spark = SparkSession.builder.appName("DataSourceExample").getOrCreate()
reader = DataSourceReader(spark)
df = reader.read_data("/path/to/data", format="csv")

问题 13：Zookeeper 配置问题

问题描述

Zookeeper 配置不当会影响 Spark 集群的协调和容错能力。

解决方案

配置正确的 Zookeeper 地址和端口。
调整 spark.zookeeper.url 配置，确保节点间通信稳定。

Python 实现

class ZookeeperConfig:def __init__(self, spark):self.spark = sparkdef configure_zookeeper(self, zk_url="localhost:2181"):print(f"设置 Zookeeper 地址为 {zk_url}。")self.spark.conf.set("spark.zookeeper.url", zk_url)# 示例
spark = SparkSession.builder.appName("ZookeeperConfigExample").getOrCreate()
zk_configurer = ZookeeperConfig(spark)
zk_configurer.configure_zookeeper(zk_url="zookeeper1:2181")

问题 14：HDFS 数据读取失败

问题描述

Spark 读取 HDFS 数据时可能因权限或路径错误导致失败。

解决方案

检查文件路径，确保路径正确。
检查 HDFS 文件权限，确保 Spark 有读取权限。

Python 实现

class HDFSReader:def __init__(self, spark):self.spark = sparkdef read_hdfs_data(self, hdfs_path):print(f"读取 HDFS 数据：{hdfs_path}")return self.spark.read.parquet(hdfs_path)# 示例
spark = SparkSession.builder.appName("HDFSReadExample").getOrCreate()
hdfs_reader = HDFSReader(spark)
df = hdfs_reader.read_hdfs_data("hdfs://namenode/path/to/data")

问题 15：Spark 集群失去联系

问题描述

Spark 集群的节点可能因为网络故障或配置错误导致失去联系。

解决方案

检查 Spark 集群配置文件，确保所有节点的配置一致。
检查网络连接，确保节点间的通信通畅。

Python 实现

class ClusterHealthChecker:def __init__(self, spark):self.spark = sparkdef check_cluster_health(self):print("检查 Spark 集群健康状态。")status = self.spark.sparkContext.statusTracker()print(status)# 示例
spark = SparkSession.builder.appName("ClusterHealthCheck").getOrCreate()
health_checker = ClusterHealthChecker(spark)
health_checker.check_cluster_health()

这些是 Spark 中常见的 15 个问题、分析及解决方案。通过面向对象的设计，给出了解决问题的实现方式和代码示例，帮助开发者更加高效地配置、调优和排除故障。

Spark使用过程中的 15 个常见问题、详细解决方案

目录问题 1：Spark 作业超时问题描述解决方案Python 实现问题 2：内存溢出问题描述解决方案Python 实现问题 3：Shuffle 性能问题问题描述解决方案Python 实现问题 4：Spark 作业调度不均问题描述解决方案Python 实现问题 5&…...

编程日记 2025/8/3 2:44:48

ASP.NET MVC宠物商城系统

该系统采用B/S架构，使用C#编程语言进行开发，以ASP.NET MVC框架为基础，以Visual Studio 2019为开发工具，数据库采用SQL Server进行保存数据。系统主要功能包括登录注册、宠物展示、个人中心、我的订单、购物车、用户管理、宠物类别…...

编程日记 2025/8/2 13:13:51

DQN系列算法详解

代码链接见文末 1. Q-learning 1.1 概述 Q-Learning是一种强化学习算法，目的是通过选择能带来最大长期收益的行为来完成任务。做事包含瞬时奖励和记忆经验奖励：在Q-Learning中，每个动作都会带来“瞬时奖励”，同时也会根据过去的经验记住哪些行为更有利。瞬时奖励：这里…...

编程日记 2025/7/29 23:38:10

uniapp发布android上架应用商店权限

先看效果： 实现原理： 一、利用uni.addInterceptor的拦截器，在一些调用系统权限前拦截，进行弹窗展示，监听确定取消实现业务逻辑。二、弹窗是原生nativeObj进行drawRect绘制的三、权限申请调用使用的 plus.android.…...

编程日记 2025/7/31 6:38:28

已阻止加载“http://localhost:8086/xxx.js”的模块，它使用了不允许的 MIME 类型 (“text/plain”)。

记录今天解决的一个小bug 在终端启动8080端口号监听后，打开网址http://localhost:8080，发现不能正确加载页面，打开检查-控制台，出现如下警告：已阻止加载“http://localhost:8086/xxx.js”的模块，它使用了不…...

编程日记 2025/8/1 19:15:44

JavaEE之线程初阶（上）

前文我们知道计算机中的每一个程序都对应着一个进程，进程是CPU申请资源的最小单位，那么线程是什么呢，线程中我们又能学习到什么新的知识呢？？ 我们来一探究竟 1. 认识线程（Thread） 线程是什么 …...

编程日记 2025/7/30 8:16:05

Spring Security @PreAuthorize注解

PreAuthorize 注解在 Spring Security 中提供了一种声明式的方法，可以在您的 Spring Boot 应用中添加方法级别的安全检查。本教程将引导您设置并有效使用 PreAuthorize，确保用户只能在具有特定角色或权限的情况下调用 REST API。什么是 PreAuthorize&a…...

编程日记 2025/8/1 22:58:58

windows已建立威胁IP排查

在应急响应的时候，需要筛选出服务器建立连接的进程、PID，此代码可满足该需求实现共计2步首先windos netstat-ano > all.txt， 上传至pycharm路径第一步获取服务器建立连接的ip import re# 从文件读取 netstat 输出 def read_netstat_f…...

编程日记 2025/7/29 23:37:51

AI 大模型如何重塑软件开发流程？——技术革新与未来展望

人工智能的蓬勃发展为许多领域注入了强劲动力，而在软件开发这一关键技术领域，AI 大模型的应用正在彻底改变传统流程。从代码自动生成到智能测试，再到协同开发和流程优化，AI 正逐步成为软件开发者的得力助手，也推动企业…...

编程日记 2025/8/2 21:28:55

Admin.NET框架前端由于keep-alive设置缓存导致的onUnmount未触发问题

bug版本：next分支，基于.NET6版本； 问题描述： 1、添加keep-alive后，在其下运行的组件会出现onActived(被关注时)和onDeactived(取消关注时)生命周期，而组件原有生命周期为onMounted(被创造时)和onUnmounted(…...

编程日记 2025/8/2 16:35:59

Rest-assured

依赖 <--rest-assured依赖--><dependency><groupId>io.rest-assured</groupId><artifactId>rest-assured</artifactId><version>4.4.0</version><scope>test</scope> </dependency><--junit5依赖-->…...

编程日记 2025/7/30 11:15:56

ubuntu24挂载硬盘记录

1、显示硬盘及所属分区情况。在终端窗口中输入如下命令： sudo fdisk -l 找到自己硬盘的分区我的地址/dev/sda 2、显示硬盘及所属分区情况。在终端窗口中输入如下命令，格式化自己硬盘： sudo mkfs -t ext4 /dev/sda 3、在终端窗口中输入如下…...

编程日记 2025/7/30 4:38:59

Dubbo集成SpringBoot实现远程服务调用

SpringBoot集成Dubbo Dubbo介绍了解 Dubbo 核心概念和架构dubbo特性dubbo运行原理图 SpringBoot集成Dubbo技术实战一、Dubbo Spring Boot 版本关系二、引入Maven依赖demo项目基础结构引入依赖创建每个模块1）api模块2）provider模块3）consumer模…...

编程日记 2025/8/2 16:46:33

Redis最终篇分布式锁以及数据一致性

在前三篇我们几乎说完了Redis的所有的基础知识以及Redis怎么实现高可用性,那么在这一篇文章中的话我们主要就是说明如果我们使用Redis出现什么问题以及解决方案是什么,这个如果在未来的工作中也有可能会遇到,希望对看这篇博客的人有帮助,话不多说直接开干一.Hotkey以及BigKey…...

编程日记 2025/7/31 7:40:19

TCP协议

报文格式源/目的端口号：数据从哪个进程来，到哪个进程去32位序号：TCP传输过程中，在发送端出的字节流中，传输报文中的数据部分的每一个字节都有它的编号32位确认号：标识了报文接收端期望接收的字节序列4位首…...

编程日记 2025/8/2 13:39:33

Vue3 源码解析（十）：watch 的实现原理

本篇文章笔者会讲解 Vue3 中侦听器相关的 api：watchEffect 和 watch 。在 Vue3 之前 watch 是 option 写法中一个很常用的选项，使用它可以非常方便的监听一个数据源的变化，而在 Vue3 中随着 Composition API 的写法推行也将 watch 独立成了一…...

编程日记 2025/8/3 1:29:18

2023年9月GESPC++一级真题解析

一、单选题（每题2分，共30分） 题号 123456789101112131415 答案 CDBCDBACACBBDDA 1. 我们通常说的 “ 内存 ” 属于计算机中的（）。 A. 输出设备 B. 输⼊设备 C. 存储设备 D. 打印设备【答案】 C 【考纲知识点】…...

编程日记 2025/8/3 1:32:59

vscode 远程连接ssh 密钥方式

目录 1. powershell 生成key： 2. 在服务器上安装公钥 linux测试成功： 3).为了确保连接成功，输入如下指令以保证以下文件权限正确： 3 开启 ssh 密钥登录 vscode 远程连接配置 python连接测试ok 查看日志： 1. po…...

编程日记 2025/7/31 21:51:55

字符函数和字符串函数

字符分类函数 C语言中有⼀系列的函数是专门做字符分类的，也就是⼀个字符是属于什么类型的字符的。这些函数的使用都需要包含⼀个头文件：ctype.h 这些函数的用法非常类似。 int islower ( int c )islower是能够判断参数部分是否是小写字母的。通过返…...

编程日记 2025/7/27 22:05:43

如何利用ChatGPT加速开发与学习：以BPMN编辑器为例

在现代开发中，开发者经常会遇到各种需要编写和学习新技术的任务。ChatGPT作为一种强大的自然语言处理工具，不仅可以辅助编写代码，还可以帮助学习新的编程概念和解决开发中的难题。本文将以开发一个BPMN（业务流程建模与标注&#x…...

编程日记 2025/8/2 18:23:27

深度学习2

四、tensor常见操作 1、元素值 1.1、获取元素值 tensor.item() 返回tensor的元素；只能在一个元素值使用，多个报错，当存在多个元素值时需要使用索引进行获取到一个元素值时在使用 item。 1.2、元素值运算 tensor对元素值的运算：…...

编程日记 2025/8/3 2:39:58

工业生产安全-安全帽第二篇-用java语言看看opencv实现的目标检测使用过程

一.背景公司是非煤采矿业，核心业务是采选，大型设备多，安全风险因素多。当下政府重视安全，头部技术企业的安全解决方案先进但价格不低，作为民营企业对安全投入的成本很敏感。利用我本身所学，准备搭建公司的…...

编程日记 2025/8/3 2:42:22

单片机学习笔记 9. 8×8LED点阵屏

更多单片机学习笔记：单片机学习笔记 1. 点亮一个LED灯单片机学习笔记 2. LED灯闪烁单片机学习笔记 3. LED灯流水灯单片机学习笔记 4. 蜂鸣器滴~滴~滴~单片机学习笔记 5. 数码管静态显示单片机学习笔记 6. 数码管动态显示单片机学习笔记 7. 独立键盘单片机学习笔记 8…...

编程日记 2025/7/27 6:37:20

c++ 力扣题（1）JZ64

JZ64求123...n_牛客题霸_牛客网因此不能使用等差求和（禁掉位运算为了禁掉等差求和，右移一位就是等差除二）、循环、递归来解决我们运用到在统计构造次数所学到的内容： 1.可以利用静态全局变量的思想来做 2.构造n次对象&…...

编程日记 2025/7/30 22:52:02

logback动态获取nacos配置

文章目录前言一、整体思路二、使用bootstrap.yml三、增加环境变量四、pom文件五、logback-spring.xml更改总结前言主要是logback动态获取nacos的配置信息,结尾完整代码项目springcloudnacosplumelog，使用的时候、特别是部署的时候，需要改环境&#…...

编程日记 2025/7/28 21:11:22

基于零相差前馈补偿的 PID 控制

零相差前馈补偿是一种结合前馈补偿与反馈控制的策略，旨在提高控制系统对参考信号的跟踪精度。通过设计合理的前馈补偿器，使得系统对参考输入实现零相位差的跟踪，同时利用 PID 控制器保证系统的稳定性和动态性能。 1. 原理概述目标&#xff…...

编程日记 2025/7/28 14:32:40

任务通知的本质(任务通知车辆运行) 软件定时器的本质（增加游戏音效）

任务通知的本质没有任务通知所谓"任务通知"，你可以反过来读"通知任务"。我们使用队列、信号量、事件组等等方法时，并不知道对方是谁。使用任务通知时，可以明确指定：通知哪个任务。使用队列、信号量、…...

编程日记 2025/7/30 7:33:57

如何在 MySQL 中进行数据导入和导出？

在 MySQL 中进行数据的导入和导出是一项常见的任务，用于数据备份、恢复、迁移以及数据分析等多种用途。MySQL 提供了多种方法来进行数据的导入和导出，每种方法都有其适用的场景和特点。以下是几种常用的 MySQL 数据导入和导出方法，包括命令行…...

编程日记 2025/8/1 13:53:37

python语言基础-5 进阶语法-5.3 流式编程

声明：本内容非盈利性质，也不支持任何组织或个人将其用作盈利用途。本内容来源于参考书或网站，会尽量附上原文链接，并鼓励大家看原文。侵删。 5.3 流式编程（参考链接：https://www.zhihu.com/question/59062…...

编程日记 2025/7/31 16:13:20

宿主机使用代理在宿主机的全局配置文件中添加代理信息 vim /etc/profile export http_proxyhttp://127.0.0.1:7897 export https_proxyhttp://127.0.0.1:7897 export no_proxy"localhost,127.0.0.1,::1,172.171.0.0" docker 命令使用代理例如我想在使用使用 do…...

编程日记 2025/7/31 5:26:53

[个人专属博客] - docker安装

🎉🎉🎉🎉🎉🎉 欢迎访问的个人博客：http://swzbk.site/，加好友，一起赚🧧🧧🧧 🎉🎉🎉🎉&…...

编程日记 2025/7/31 3:09:56

yolo自动化项目实例解析（九）导航

比如我们经常使用的导航，说白了就是寻找两点之间最近的路径，也就是所谓的寻路，我们需要想办法让程序知道他要去哪里，路径包含（起点、轨迹、终点） 一、录制轨迹从平面角度来看，我们可以把区域视…...

编程日记 2025/7/29 20:14:40

MySQL 报错：1137 - Can‘t reopen table

MySQL 报错：1137 - Can’t reopen table 1. 问题对临时表查询： select a.ts_code,a.tsnum,b.tsnum from (select t.ts_code ,count(*) tsnum from tmp_table t group by t.ts_code having count(*) > 20 and count(*)< 50 ) a ,(select t.ts_…...

编程日记 2025/7/30 21:03:22

Bokeh实现大规模数据可视化的最佳实践

目录引言一、Bokeh简介二、安装Bokeh 三、数据准备四、性能优化五、创建图表六、添加交互功能七、应用案例八、高级技巧九、总结引言在数据科学领域，数据可视化是一个至关重要的环节。通过可视化，我们可以直观地理解数据的特征和趋势，为数据分析和决策…...

编程日记 2025/7/27 4:52:42

HTMLCSS：比赛记分卡

效果演示这段 HTML 和 CSS 代码创建了一个卡片式的体育比赛信息展示组件，用于显示篮球比赛的两个队伍名称、比赛时间、比分以及一些装饰性的视觉元素。 HTML <div class"card"><div data-status"inprogress" class"teams"…...

编程日记 2025/8/1 11:55:04

什么是 Faiss？

好的，我来详细解释 Faiss，它的用途、使用场景，以及如何安装和使用。什么是 Faiss？ Faiss 是由 Facebook AI Research 开发的一个开源库，专门用于高效的相似性搜索和聚类。它非常擅长在高维向量空间中进行快速搜索&a…...

编程日记 2025/8/1 16:58:21

【prism】遇到一个坑，分享！

背景我通用prism的方式写了一个弹窗，弹窗绑定一个 Loaded 事件，但是Loaded事件一直不触发！！！具体过程我的loaded事件也是通过命令的方式绑定的： <i:Interaction.Triggers><i:EventTrigger EventName="Loaded...

编程日记 2025/7/1 19:06:48

vue制作代码比较工具

前两天朋友问我有没有vue可以做一个json代码在线比较工具我也是在网上搜了一下找到的废话不说直接上代码采用 v3 pnpm i v-code-diff <div><CodeDiff:old-string"oldStr":new-string"newStr"output-format"side-by-side"/>…...

编程日记 2025/8/1 16:14:53

GPT系列文章

GPT系列文章 GPT1 GPT1是由OpenAI公司发表在2018年要早于我们之前介绍的所熟知的BERT系列文章。总结：GPT 是一种半监督学习，采用两阶段任务模型，通过使用无监督的 Pre-training 和有监督的 Fine-tuning 来实现强大的自然语言理解。在 Pre-t…...

编程日记 2025/7/29 22:35:54

Qt实现可拖拽的矩形

之前项目上需要用Qt来绘制可拖拽改变形状的矩形。看了Qt Graphics相关的内容，虽然对Qt怎么添加图元的有了些了解，但是具体如何实现拖拽效果，一时也没有什么好的想法。还好网上有人分享的例子，很受启发。后来又回顾了一下这部分的代…...

编程日记 2025/7/31 11:06:31

python爬虫初体验（五）—— 边学边玩小游戏

1. 打开浏览器利用webbrowser 模块的 open()函数可以启动一个新浏览器，打开指定的 URL。 import webbrowser webbrowser.open(http://inventwithpython.com/) 2. 猜数字游戏 # -*- coding: utf-8 -*- # This is a guess the number game. import randomsecretN…...

编程日记 2025/8/1 11:18:10

学习日志015--python单链表

创建 class Node:def __init__(self,data):# 数据域self.data data# 链接域self.next Noneclass LinkList:def __init__(self,):# 初始化头节点self.head None# 记录链表的长度self.size 0 增加 #头插def insert_head(self,value):# 创建新节点node Node(value)q self…...

编程日记 2025/8/1 22:33:46

51WORLD与南京水利研究院联合研发，国产数字孪生超融合一体机

近日，太湖流域水治理国际会议在江苏省无锡市举行。大会由水利部国际合作与科技司、河湖管理司、中国水利学会、水利部太湖流域管理局、无锡市人民政府、中国交通建设集团有限公司指导，南京水利科学研究院主办，以“践行新发展理念、推进流域水…...

编程日记 2025/8/2 13:40:17

自动泊车变自动撞车？小米SU7遭遇批量事故

科技新知原创作者丨依蔓编辑丨蕨影小米系统bug，70多辆小米SU7同一天自动泊车撞墙、撞柱！ 近日，多名车主反映小米汽车SU7标准版“自动泊车”功能出现故障，造成不同程度的撞击、剐蹭损伤。小米客服此前回应涉事车主&#xff0…...

编程日记 2025/7/31 6:26:47

异常和中断

在计算机系统中，异常和中断是两种常见的用于处理异步事件的机制。以下是常见的异常和中断及其特点的详细解释： 异常（内中断） 异常，也称为内中断，是由CPU内部事件引起的中断。异常通常与程序执行的当前指令…...

编程日记 2025/8/2 17:31:07

代理IP在后端开发中的应用与后端工程师的角色

目录引言代理IP的基本概念和工作原理代理IP在后端开发中的应用网络爬虫与数据采集负载均衡与性能优化安全防护与隐私保护后端工程师在使用代理IP时面临的挑战结论引言在数字化时代，网络技术的飞速发展极大地推动了各行各业的发展。其中&#xff…...

编程日记 2025/7/30 18:48:20

设计模式之观察者模式

观察者模式（Observer Pattern）是一种行为型设计模式，它定义了一种一对多的依赖关系，让多个观察者对象同时监听一个主题对象（Subject）。当主题对象的状态发生变化时，所有依赖于它的观察者都会得到…...

编程日记 2025/8/1 16:12:07

SQLSever显示物理和逻辑 IO活动量的相关信息及显示分析、编译和执行各语句所需的毫秒数。

SQLSever SET STATISTICS IO显示物理和逻辑 IO活动量的相关信息及SET STATISTICS TIME显示分析、编译和执行各语句所需的毫秒数。 1、 SET STATISTICS IO (Transact-SQL) 物理 IO 与访问磁盘上的数据页相关，逻辑 IO 与访问内存中的数据页（数据缓存&…...

编程日记 2025/7/30 18:48:14

CSS3 动画：前端开发的动态美

CSS3 动画：前端开发的动态美 CSS3 动画是现代网页设计中不可或缺的一部分，它为静态的网页元素添加了动态效果，提升了用户体验。本文将深入探讨CSS3动画的基础知识、高级技巧，并展示如何在实际项目中应用这些动画。 CSS3 动画基础 CSS3动画主要通过@keyframes和动画属性（…...

编程日记 2025/7/28 13:55:44

目录

问题 1：Spark 作业超时

问题描述

解决方案

Python 实现

问题 2：内存溢出

问题描述

解决方案

Python 实现

问题 3：Shuffle 性能问题

问题描述

解决方案

Python 实现

问题 4：Spark 作业调度不均

问题描述

解决方案

Python 实现

问题 5：任务失败

问题描述

解决方案

Python 实现

问题 6：GC 频繁

问题描述

解决方案

Python 实现

问题 7：数据倾斜

问题描述

解决方案

Python 实现

问题 8：Executor 失败

问题描述

解决方案

Python 实现

问题 9：JVM 参数配置不当

问题描述

解决方案

Python 实现

问题 10：资源不足导致调度延迟

问题描述

解决方案

Python 实现

问题 11：SQL 查询性能差

问题描述

解决方案

Python 实现

问题 12：无法读取数据源

问题描述

解决方案

Python 实现

问题 13：Zookeeper 配置问题

问题描述

解决方案

Python 实现

问题 14：HDFS 数据读取失败

问题描述

解决方案

Python 实现

问题 15：Spark 集群失去联系

问题描述

解决方案

Python 实现

相关文章：