当前位置：首页 > news >正文

Apache Sqoop数据采集问题

news 来源：原创 2025/9/19 0:42:35

Sqoop数据采集格式问题

一、Sqoop工作原理
二、Sqoop命令格式
三、Oracle数据采集格式问题
四、Sqoop增量采集方案

Apache Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

一、Sqoop工作原理

数据导入：Sqoop通过MapReduce任务来实现数据的并行导入。首先，它会将关系型数据库中的数据表按照一定的规则进行分区，然后为每个分区启动一个Map任务，同时从数据库中读取相应分区的数据，并将数据写入到HDFS或其他Hadoop存储系统中。这样可以充分利用Hadoop集群的分布式计算能力，提高数据导入的效率。
导出过程：与导入类似，Sqoop也会将数据进行分区处理，然后通过Map任务将Hadoop中的数据读取出来，并按照目标关系型数据库的格式要求，将数据写入到数据库中。

Sqoop通过创建一个数据传输的MR程序，进而实现数据传输。

Sqoop安装：

JAVA环境配置
Hadoop环境配置
相关数据库驱动包

只要环境满足以上设置，直接解压Sqoop安装包即可安装，修改配置后即可使用。

二、Sqoop命令格式

基础使用语法:

sqoop import | export \
--数据库连接参数
--HDFS或者Hive的连接参数
--配置参数

数据传输常用参数:

选项	参数
–connect	jdbc:mysql://hostname:3306(数据库连接URL)
–username	数据库用户名
–password	数据库用户密码
–table	指定数据表
–columns	指定表列值
–where	数据过滤条件
–e/–query	自定义SQL语句
–driver	指定数据库驱动
–delete-target-dir	导入数据时，清空目标目录
–target-dir	指定导入数据的目录(通常为HDFS路径)
–export-dir	指定导出数据的源目录(通常为HDFS路径)

Sqoop命令的使用方法可以通过sqoop -h命令查看相关使用方法，此处不在赘述了

三、Oracle数据采集格式问题

场景：

Step1: 查看业务数据库中 CISS_SERVICE_WORKORDER 表的数据条数。
```
select count(1) as cnt from CISS_SERVICE_WORKORDER;  178609条
```

Step2: 采集CISS_SERVICE_WORKORDER的数据到HDFS上

sqoop import \
--connect jdbc:oracle:thin:@oracle.bigdata.cn:1521:helowin \  
--username ciss \
--password 123456 \
--table CISS4.CISS_SERVICE_WORKORDER \
--delete-target-dir \
--target-dir /test/full_imp/ciss4.ciss_service_workorder \
--fields-terminated-by "\001" \   #指定数据分割符
-m 1  #指定并行度

Step3: 使用Hive查看导入数据表的行数

create external table test_text(
line string # 将导入的数据一行作为表中的一列
)
location '/test/full_imp/ciss4.ciss_service_workorder';
select count(*) from test_text;  195825条

问题:
Sqoop采集完数据后，HDFS数据中存储的数据行数跟源数据库的数据量不符合。

原因:

sqoop以文本格式导入数据时，默认的换行符是特殊字符。
Oracle中的数据列中如果出现了\n、\r、\t等特殊字符，就会被划分为多行

Oracle数据:

id	name	age
001	zhang\nsan	18

Sqoop转换后的数据:


001	zhang
san	18

Hive表中的数据:

id	name	age
001	zhang
san	18

解决方法:

方案一:
- 删除或者替换数据中的换行符
- Sqoop参数 --hive-drop-import-delims 删除换行符
- Sqoop参数 --hive-delims-replacement char 替换换行符
不建议使用，破坏原始数据结构，ODS层数据尽量抱持原结构
方案二:
- 采用特殊的存储格式，AVRO格式

常见的文件格式介绍:

类型	介绍
TextFile	Hive默认的文件格式，最简单的数据格式，便于查看和编辑，耗费存储空间，I/O性能较低
SequenceFile	含有键值对的二进制文件，优化磁盘利用率和I/O，并行操作数据，查询效率高，但存储空间消耗最大
AvroFile	特殊的二进制文件，设计的主要目标是为了满足schema evolution，Schema和数据保存在一起
OrcFile	列式存储，Schema存储在footer中，不支持schema evolution，高度压缩比并包含索引，查询速度非常快
ParquetFile	列式存储，与Orc类似，压缩比不如Orc，但是查询性能接近，支持的工具更多，通用性更强

Avro格式特点

优点
- 二进制数据存储，性能好、效率高
- 使用JSON描述模式，支持场景更丰富
- Schema和数据统一存储，消息自描述(将表中的一行数据作为对象存储，并且Schema为元数据)
- 模式定义允许定义数据的排序
缺点
- 只支持Avro自己的序列化格式
- 少量列的读取性能比较差，压缩比较低
场景：基于行的大规模结构化数据写入、列的读取非常多或者Schema变更操作比较频繁的场景

Sqoop使用Avro格式:

  sqoop import \-Dmapreduce.job.user.classpath.first=true \--connect jdbc:oracle:thin:@oracle.bigdata.cn:1521:helowin \--username ciss \--password 123456 \--table CISS4.CISS_SERVICE_WORKORDER \--delete-target-dir \--target-dir /test/full_imp/ciss4.ciss_service_workorder \--as-avrodatafile \    # 选择文件存储格式为AVRO--fields-terminated-by "\001" \-m 1

Hive建表指定文件的存储格式:

create external table test_avro(
line string
)
stored as avro
location '/test/full_imp/ciss4.ciss_service_workorder';

AVRO 数据以二进制序列化存储，字段通过预定义的模式（Schema）解析，而非依赖分隔符，即使字段内容包含逗号、换行符等特殊字符，也不会影响数据结构的正确性。
Schema 定义（JSON 格式），明确描述了字段名称、类型、顺序等信息。

四、Sqoop增量采集方案

Sqoop 支持两种增量模式：

append 模式：
适用于 仅追加数据 的表（如日志表），基于 递增列（如自增主键 id）采集新数据。
lastmodified 模式：
适用于 数据会更新 的表（如用户表），基于 时间戳列（如 last_update_time）采集新增或修改的数据。

append模式要求源数据表具备自增列，如建表时设置的自增id
lastmodified模式要求源数据表具有时间戳字段。

Append模式:

要求：必须有一列自增的值，按照自增的int值进行判断

特点：只能导入增加的数据，无法导入更新的数据

场景：数据只会发生新增，不会发生更新的场景

sqoop import \                                   # 执行数据导入操作--connect jdbc:mysql://node3:3306/sqoopTest \  # 连接MySQL数据库（地址：node3，数据库名：sqoopTest）--username root \                             # 数据库用户名：root--password 123456 \                           # 数据库密码：123456--table tb_tohdfs \                           # 要导入的源表：tb_tohdfs--target-dir /sqoop/import/test02 \           # HDFS目标目录（数据将写入此路径）--fields-terminated-by '\t' \                 # 字段分隔符为制表符（\t）--check-column id \                           # 指定增量检查列：id（通常是自增主键）--incremental append \                        # 增量模式为“append”（仅导入新数据）--last-value 0 \                              # 上次导入的id最大值（初始值为0，首次导入id>0的数据）-m 1                                          # 使用1个Map任务（单线程）

appebd模式使用last-value记录上次导入的数据id最大值，初次导入一般为全量导入，即id>0

此处的last_value需要手动填写，因此可以使用Sqoop的job管理进行自动记录。

sqoop job --create my_job -- import ... --incremental append --check-column id --last-value 0
sqoop job --exec my_job  # 自动更新 last-value

lastmodified模式：
要求：必须包含动态时间变化这一列，按照数据变化的时间进行判断

特点：既导入新增的数据也导入更新的数据

场景：表中的记录会新增或更新，且每次更新都会修改 lastmode 时间戳。一般无法满足要求，所以不用。

sqoop import \                                   # 执行数据导入操作--connect jdbc:mysql://node3:3306/sqoopTest \  # 连接MySQL数据库（地址：node3，数据库名：sqoopTest）--username root \                             # 数据库用户名：root--password 123456 \                           # 数据库密码：123456--table tb_lastmode \                         # 要导入的源表：tb_lastmode--target-dir /sqoop/import/test03 \           # HDFS目标目录（数据将写入此路径）--fields-terminated-by '\t' \                 # 字段分隔符为制表符（\t）--incremental lastmodified \                  # 增量模式为“lastmodified”（采集新增或修改的数据）--check-column lastmode \                     # 指定时间戳列：lastmode（记录数据的更新时间）--last-value '2021-06-06 16:09:32' \          # 上次导入的最大时间值（导入此时间之后的新增/修改数据）-m 1                                          # 使用1个Map任务（单线程）

lastmodified模式使用时间戳记载数据的更新线。

若同一条记录被多次更新，且 lastmode 时间超过 --last-value，Sqoop 会多次导入该记录。

解决方案：添加 --merge-key <主键列> 参数，合并新旧数据（基于主键去重）：

 --merge-key id  # 假设 id 是主键列

自定义模式:
要求：每次运行的输出目录不能相同

特点：自己实现增量的数据过滤，可以实现新增和更新数据的采集

场景：一般用于自定义增量采集每天的分区数据到Hive

sqoop  import \
--connect jdbc:mysql://node3:3306/db_order \
--username root \
--password-file file:///export/data/sqoop.passwd \
--query "select * from tb_order where substring(create_time,1,10) = '2021-09-14' or substring(update_time,1,10) = '2021-09-14' and \$CONDITIONS " \
--delete-target-dir \
--target-dir /nginx/logs/tb_order/daystr=2021-09-14 \
--fields-terminated-by '\t' \
-m 1

自定义模式可以根据设置的sql进行数据导入，因此是最常用的场景。

Apache Sqoop数据采集问题

Sqoop数据采集格式问题一、Sqoop工作原理二、Sqoop命令格式三、Oracle数据采集格式问题四、Sqoop增量采集方案 Apache Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库&…...

编程日记 2025/9/19 0:42:35

再学GPIO（二）

GPIO寄存器每个GPI/O端口有两个32位配置寄存器(GPIOx_CRL，GPIOx_CRH)，两个32位数据寄存器(GPIOx_IDR和GPIOx_ODR)，一个32位置位/复位寄存器(GPIOx_BSRR)，一个16位复位寄存器(GPIOx_BRR)和一个32位锁定寄存器(GPIOx_LCKR)。 GPIO…...

编程日记 2025/9/9 0:07:11

err: Error: Request failed with status code 400

好的，今天学习ai的时候从前端发送请求，实在是想不通为啥会啥是一个坏请求，后来从前端方法一个一个找参数，传递的值都有，然后想到我这边需要传递的是一个对象，那么后端使用的RequestParam就接收不到json对象…...

编程日记 2025/9/19 0:42:35

解决qnn htp 后端不支持boolean 数据类型的方法。

一、背景 1.1 问题原因 Qnn 模型在使用fp16的模型转换不支持类型是boolean的cast 算子，因为 htp 后端支持量化数据类型或者fp16，不支持boolean 类型。 ${QNN_SDK_ROOT_27}/bin/x86_64-linux-clang/qnn-model-lib-generator -c ./bge_small_fp16.cpp -b …...

编程日记 2025/9/11 1:47:15

k8s学习记录（五）：Pod亲和性详解

一、前言上一篇文章初步探讨了 Kubernetes 的节点亲和性，了解到它在 Pod 调度上比传统方式更灵活高效。今天我们继续讨论亲和性同时Kubernetes 的调度机制。二、Pod亲和性上一篇文章中我们介绍了节点亲和性，今天我们讲解一下Pod亲和性。首先我们先看…...

编程日记 2025/9/18 18:57:22

MongoDB与PHP7的集成与优化

MongoDB与PHP7的集成与优化引言随着互联网技术的飞速发展，数据库技术在现代软件开发中扮演着越来越重要的角色。MongoDB作为一种流行的NoSQL数据库，以其灵活的数据模型和强大的扩展性受到众多开发者的青睐。PHP7作为当前最流行的服务器端脚本语言之一，其性能和稳定性也得…...

编程日记 2025/9/9 8:39:49

maven相关概念深入介绍

1. pom.xml文件就像Make的MakeFile、Ant的build.xml一样，Maven项目的核心是pom.xml。POM（Project Object Model，项目对象模型）定义了项目的基本信息，用于描述项目如何构建，声明项目依赖，等等。…...

编程日记 2025/9/12 19:36:22

以科技之力，启智慧出行 —— 阅读《NVIDIA 自动驾驶安全报告》及观看实验室视频有感

作为中南民族大学通信工程专业的学生，近期研读《NVIDIA 自动驾驶安全报告》并观看其实验室系列视频后，我深刻感受到自动驾驶技术不仅是一场交通革命，更是一次社会生产力的解放与民族精神的升华。这场变革的浪潮中，我看到了科技如何…...

编程日记 2025/9/7 16:50:21

2P4M-ASEMI机器人功率器件专用2P4M

编辑：LL 2P4M-ASEMI机器人功率器件专用2P4M 型号：2P4M 品牌：ASEMI 封装：TO-126 批号：最新引脚数量：3 封装尺寸：如图特性：双向可控硅工作结温：-40℃~150℃ 在…...

编程日记 2025/9/12 3:14:55

基础的贝叶斯神经网络（BNN）回归

下面是一个最基础的贝叶斯神经网络（BNN）回归示例，采用PyTorch实现，适合入门理解。这个例子用BNN拟合 y x 噪声的一维回归问题，输出均值和不确定性（方差）。 import torch import torch.nn a…...

编程日记 2025/9/12 13:33:52

小黑代码 class Solution:def setZeroes(self, matrix: List[List[int]]) -> None:"""Do not return anything, modify matrix in-place instead."""items []m len(matrix)n len(matrix[0])for i in range(m):for j in range(n):if not m…...

编程日记 2025/9/12 11:41:29

整合 | 大模型时代：微调技术在医疗智能问答矩阵的实战应用20250427

🔎 整合 | 大模型时代：微调技术在医疗智能问答矩阵的实战应用一、引言在大模型技术高速变革的背景下，数据与微调技术不再是附属品，而是成为了AI能力深度重构的核心资产。尤其在医疗行业中，微调技术改写了智能分诊和…...

编程日记 2025/9/11 19:11:32

Web安全：威胁解析与综合防护体系构建

Web安全：威胁解析与综合防护体系构建 Web安全是保护网站、应用程序及用户数据免受恶意攻击的核心领域。随着数字化转型加速，攻击手段日益复杂，防护需兼顾技术深度与系统性。以下从威胁分类、防护技术、最佳实践及未来趋势四个维度&#xff0…...

编程日记 2025/9/9 15:53:57

spring项目rabbitmq es项目启动命令

应该很多开发者遇到过需要启动中间件的情况，什么测试服务器挂了，服务连不上nacos了巴拉巴拉的，虽然是测试环境，但也会手忙脚乱，疯狂百度。这里介绍一些实用方法有各种不同的场景，一是重启，服…...

编程日记 2025/9/8 15:58:42

人工智能期末复习1

该笔记为2024.7出版的人工智能技术应用导论（第二版）课本部分的理论总结。一、人工智能的产生与发展概念：人工智能是通过计算机系统和模型模拟、延申和拓展人类智能的理论、方法、技术及应用系统的一门新的技术科学。发展：19…...

编程日记 2025/9/18 17:39:12

深入理解指针（5）

字符指针变量对下述代码进行调试继续go,并且观察p2 弹出错误： 为什么报错呢？ 因为常量字符串是不能被修改的，否则，编译器报错。最后，打印一下： 《剑指offer》中收录了⼀道和字符串相关的笔试题&#…...

编程日记 2025/9/18 0:49:41

新魔百和CM311-5_CH／YST／ZG代工_GK6323V100C_2+8G蓝牙版_强刷卡刷固件包（可救砖）

新魔百和CM311-5_CH／YST／ZG代工_GK6323V100C_28G蓝牙版_强刷卡刷固件包（可救砖） 1、准备一个优盘卡刷强刷刷机，用一个usb2.0的8G以下U盘，fat32，2048块单分区格式化（强刷对&#xff…...

编程日记 2025/9/10 17:54:08

磁盘清理git gc

#!/bin/bash find / -type d -name “.git” 2>/dev/null | while read -r git_dir; do repo_dir ( d i r n a m e " (dirname " (dirname"git_dir") echo “Optimizing r e p o d i r " c d " repo_dir" cd " repodir"cd&…...

编程日记 2025/8/17 13:31:57

django admin AttributeError: ‘UserResorce‘ object has no attribute ‘ID‘

在 Django 中遇到 AttributeError: ‘UserResource’ object has no attribute ‘ID’ 这类错误通常是因为你在代码中尝试访问一个不存在的属性。在你的例子中，错误提示表明 UserResource 类中没有名为 ID 的属性。这可能是由以下几个原因造成的： 拼写错…...

编程日记 2025/9/4 18:25:57

现代Python打包工具链

现代Python打包工具如Poetry、Flit和Hatch提供了更简单、更强大的方式来管理项目依赖和打包流程。下面我将通过具体示例详细介绍这三种工具。 1. Poetry - 全功能依赖管理工具 Poetry是最流行的现代Python项目管理工具之一，它集依赖管理、虚拟环境管理和打包发布于一…...

编程日记 2025/9/4 4:40:46

(done) 吴恩达版提示词工程 8. 聊天机器人 (聊天格式设计，上下文内容，点餐机器人)

视频：https://www.bilibili.com/video/BV1Z14y1Z7LJ/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 别人的笔记：https://zhuanlan.zhihu.com/p/626966526 8. 聊天机器人（Chatbot） …...

编程日记 2025/9/16 5:53:11

Maven概述

1.maven是什么？ Maven 是一个基于项目对象模型（Project Object Model，POM）概念的项目构建工具，主要用于 Java 项目的构建、依赖管理和项目信息管理。（跨平台的项目管理工具，用于构建和管理任何…...

编程日记 2025/9/17 12:20:29

SKLearn - Biclustering

文章目录 Biclustering （双聚类）谱二分聚类算法演示生成样本数据拟合 SpectralBiclustering绘制结果 Spectral Co-Clustering 算法演示使用光谱协同聚类算法进行文档的二分聚类 Biclustering （双聚类） 关于双聚类技术的示例。谱…...

编程日记 2025/9/18 16:49:52

使用c++实现一个简易的量子计算，并向外提供服务

实现一个简易的量子计算模拟器并提供服务是一个相对复杂的过程，涉及到量子计算的基本概念、C编程以及网络服务的搭建。以下是一个简化的步骤指南，帮助你开始这个项目： 步骤 1: 理解量子计算基础在开始编码之前，你需要对量子计算…...

编程日记 2025/9/18 22:26:36

京东攻防岗位春招面试题

围绕电商场景，以下是5道具有代表性的技术面试题及其解析，覆盖供应链、电商大促、红蓝对抗等场景。《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?…...

编程日记 2025/9/11 18:39:29

Kafka批量消费部分处理成功时的手动提交方案

Kafka批量消费部分处理成功时的手动提交方案当使用Kafka批量消费时，如果500条消息中只有部分处理成功，需要谨慎处理偏移量提交以避免消息丢失或重复消费。以下是几种处理方案示例： 方案1：记录成功消息并提交最后成功偏移量 Co…...

编程日记 2025/9/10 0:14:59

消息中间件

零、文章目录消息中间件 1、中间件 （1）概述中间件（Middleware）是位于操作系统、网络与数据库之上，应用软件之下的一层独立软件或服务程序，其核心作用是连接不同系统、屏蔽底层差异，并为应…...

编程日记 2025/8/29 6:29:31

vue3直接操作微信小程序云开发数据库，web网页对云数据库进行增删改查

我们开发好小程序以后，有时候需要编写一个管理后台网页对数据库进行管理，之前我们只能借助云开发自带的cms网页，但是cms网页设计的比较丑，工作量和代码量也不够，所以我们今天就来带大家实现用vue3编写管理后台直接管理…...

编程日记 2025/9/17 16:12:04

重塑编程体验边界：明基RD280U显示器深度体验

重塑编程体验边界：明基RD280U显示器深度体验写在前面本文将以明基RD280U为核心，通过技术解析、实战体验与创新案例，揭示专业显示器如何重构开发者的数字工作台。前言：当像素成为生产力的催化剂在GitHub的年度开发者调查中&…...

编程日记 2025/9/13 4:56:23

Linux命令-iostat

iostat 命令介绍 iostat 是一个用于监控 Linux 系统输入/输出设备加载情况的工具。它可以显示 CPU 的使用情况以及设备和分区的输入/输出统计信息，对于诊断系统性能瓶颈（如磁盘或网络活动缓慢）特别有用。语法： iostat [options…...

编程日记 2025/9/17 22:59:42

Hyper-V安装Win10系统，报错“No operating system was loaded“

环境： Win10专业版 Hyper-V 问题描述： Hyper-V安装Win10系统，报错"No operating system was loaded" 已挂载ISO但仍无法启动的深度解决方案 🔧如果已确认ISO正确挂载且启动顺序已调整，但虚拟机仍提…...

编程日记 2025/9/18 8:57:23

Zabbix

zabbix官网: https://www.zabbix.com zabbix中文操作手册：https://www.zabbix.com/documentation/5.0/zh/manual/introduction/features 1、SERVER Zabbix server 是 Zabbix 软件的核心组件。Zabbix Agent 向Zabbix server报告可用性、系统完整性信息和统计信息。…...

编程日记 2025/9/10 20:14:34

NEPCON China 2025 | 具身智能时代来临，灵途科技助力人形机器人“感知升级”

4月22日至24日，生产设备暨微电子工业展（NEPCON China 2025）在上海如期开展。本届展会重磅推出“人形机器人拆解展区”，汇聚35家具身智能产业链领军企业，围绕机械结构、传感器布局、驱动系统与AI算法的落地应用&#xf…...

编程日记 2025/9/8 19:51:44

css响应式布局设置子元素高度和宽度一样

css响应式布局设置子元素高度和宽度一样常常遇到响应式布局其中父元素（类名为.list）包含多个子元素（类名为.item），每个子元素中显示一张图片，并且这些图片能够根据子元素的宽度和高度进行自适应调整。 …...

编程日记 2025/9/18 11:31:03

【AI论文】RefVNLI：迈向可扩展的主题驱动文本到图像生成评估

摘要：主题驱动的文本到图像（T2I）生成旨在生成与给定文本描述一致的图像，同时保留参考主题图像的视觉特征。尽管该领域具有广泛的下游适用性——从增强图像生成的个性化到视频渲染中一致的角色表示——但该领域的进展受到缺乏可靠…...

编程日记 2025/9/3 2:17:53

信创系统 sudoers 权限配置实战！从小白到高手

好文链接：实战！银河麒麟 KYSEC 安全中心执行控制高级配置指南 Hello，大家好啊！今天给大家带来一篇关于信创终端操作系统中 sudoers 文件详解的实用文章！在 Linux 系统中，sudo 是一项非常重要的权限控制机制…...

编程日记 2025/9/7 4:17:36

用户行为检测技术解析：从请求头到流量模式的对抗与防御

用户行为检测是反爬机制的核心环节，网站通过分析请求特征、交互轨迹和时间模式，识别异常流量并阻断爬虫。本文从基础特征检测与高级策略分析两个维度，深入解析用户行为检测的技术原理与对抗方案。一、基础特征检测：请求头与交互…...

编程日记 2025/9/12 21:49:39

关于Android Studio的AndroidManifest.xml的详解

AndroidManifest.xml 是 Android 项目的核心配置文件，它定义了应用的基本信息、所需权限、组件、功能等。它为 Android 系统提供了关于应用如何运行的重要信息。每个 Android 应用程序必须包含这个文件，而且这个文件的配置直接影响到应用的行为和安装要求…...

编程日记 2025/9/16 0:28:31

全栈自动化：从零构建智能CI/CD流水线

1. 基础架构：GitLab Kubernetes 1.1 GitLab CI/CD核心配置 GitLab通过.gitlab-ci.yml定义流水线阶段。以下是一个基础模板： stages:- build- test- deploybuild_job:stage: buildscript:- echo "Compiling the code..."- make…...

编程日记 2025/9/10 15:14:01

xe-upload上传文件插件

1.xe-upload地址：文件选择、文件上传组件（图片，视频，文件等） - DCloud 插件市场 2.由于开发app要用到上传文件组件，uni.chooseFile在app上不兼容，所以找到了xe-upload，兼容性很强&a…...

编程日记 2025/9/4 8:13:14

PySpark中DataFrame应用升阶及UDF使用

目录 1. 加载数据2. 列常见操作2.1 添加新列2.2 重命名列2.3 删除指定列2.4 修改数据 3 空值处理3.1 丢弃空值3.2 空值填充 4 聚合操作4.1 分组聚合 5 用户自定义函数（UDF）5.1 传统UDF函数5.2 Pandas UDF（向量化UDF） 参考资料 imp…...

编程日记 2025/9/11 12:20:31

C++ ——引用

引用定义引用是一个已存在的变量的别名。用法类型 & 别名引用指向的变量名关于别名的理解： 别名可以理解为绰号或者小名，比如美猴王、齐天大圣、斗战胜佛等，指的都是孙悟空。这意味着： ①别名和别名指向的变量其实是同…...

编程日记 2025/9/15 2:36:45

OpenCV 图形API（65）图像结构分析和形状描述符------拟合二维点集的直线函数 fitLine2D()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述拟合一条直线到2D点集。该函数通过最小化 ∑ i ρ ( r i ) \sum_i \rho(r_i) ∑iρ(ri)来将一条直线拟合到2D点集，其中 ri 是第…...

编程日记 2025/9/11 19:01:18

k8s生成StarRocks集群模版

集群由1个fe3个be组成，满足以下要求： 1、由3个pod组成，每pod分配2c4g 2、第一个pod里有一个be与一个fe，同在一个容器里，fe配置jvm内存设置为1024mb，be的jvm内存设置为1024MB 3、第二第三个pod里分别有一…...

编程日记 2025/9/16 2:50:28

web基础+HTTP+HTML+apache

目录一.web基础 1.1web是什么 1.2HTTP 1.2.1HTTP的定义 1.2.2 HTTP请求过程 1.2.3 HTTP报文 1 请求报文 2 响应报文 1.2.4 HTTP协议状态码 1.2.5 HTTP方法 1.2.6 HTTP协议版本二.HTML CSS和JavaScript 2.1HTML 2.1.1HTML的概述 2.1.2 HTML中的部分基本标签&…...

编程日记 2025/9/13 20:29:25

C++修炼：list模拟实现

Hello大家好！很高兴我们又见面啦！给生活添点passion，开始今天的编程之路！ 我的博客：<但凡. 我的专栏：《编程之路》、《数据结构与算法之美》、《题海拾贝》、《C修炼之路》欢迎点赞，关注&am…...

编程日记 2025/9/18 14:28:24

Lua 第12部分日期和时间

Lua 语言的标准库提供了两个用于操作日期和时间的函数，这两个函数在 C 语言标准库中也存在，提供的是同样的功能。虽然这两个函数看上去很简单，但依旧可以基于这些简单的功能完成很多复杂的工作。 Lua 语言针对日期和时间使用两种表示方式。 …...

编程日记 2025/9/8 2:13:00

NL2SQL调研

一背景 1.1 引言随着数据时代的到来，数据库已成为企业和组织存储、管理和分析数据的核心基础设施。然而，传统的数据库查询需要使用结构化查询语言（SQL），这要求用户具备特定的技术知识，限制了数据库的广…...

编程日记 2025/9/7 17:04:22

服务器ubuntu镜像磁盘空间怎么管理

在 Ubuntu 服务器上，管理镜像磁盘空间是系统维护中的一项关键任务，尤其是在使用虚拟化技术时(如 Docker、LVM、KVM 等)。合理管理磁盘空间可以有效防止磁盘空间不足，提升系统的稳定性和性能。本文将为你介绍如何在 Ubuntu 系统中有效管理镜像…...

编程日记 2025/9/18 16:52:09

uniapp+vue3表格样式

<view class"tableMain" v-if"state.use_scope2"><view class"tableBox"><view class"th"><view class"col">站点名称</view><view class"col">站点状态</view><vi…...

编程日记 2025/9/10 14:05:02

Sqoop数据采集格式问题

一、Sqoop工作原理

二、Sqoop命令格式

三、Oracle数据采集格式问题

四、Sqoop增量采集方案

相关文章：