当前位置：首页 > news >正文

Python Pandas（7）：Pandas 数据清洗

news 来源：原创 2025/9/3 0:17:06

数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。数据清洗与预处理的常见步骤：

缺失值处理：识别并填补缺失值，或删除含缺失值的行/列。
重复数据处理：检查并删除重复数据，确保每条数据唯一。
异常值处理：识别并处理异常值，如极端值、错误值。
数据格式转换：转换数据类型或进行单位转换，如日期格式转换。
标准化与归一化：对数值型数据进行标准化（如 Z-score）或归一化（如 Min-Max）。
类别数据编码：将类别变量转换为数值形式，常见方法包括 One-Hot 编码和标签编码。
文本处理：对文本数据进行清洗，如去除停用词、词干化、分词等。
数据抽样：从数据集中抽取样本，或通过过采样/欠采样处理类别不平衡。
特征工程：创建新特征、删除不相关特征、选择重要特征等。

本文使用到的测试数据 property-data.csv 如下：

上表包含了四种空数据：

1 Pandas 清洗空值

如果我们要删除包含空字段的行，可以使用 dropna() 方法，语法格式如下：

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
how：默认为 'any' 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how='all' 一行（或列）都是 NA 才去掉这整行。
thresh：设置需要多少非空值的数据才可以保留下来的。
subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数。
inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。

1.1 isnull() 判断各个单元格是否为空

我们可以通过 isnull() 判断各个单元格是否为空。

import pandas as pddf = pd.read_csv('property-data.csv')print(df['NUM_BEDROOMS'])
print(df['NUM_BEDROOMS'].isnull())

以上例子中我们看到 Pandas 没有把 n/a 和 NA 当作空数据，不符合我们要求，我们可以指定空数据类型：

import pandas as pdmissing_values = ["n/a", "na", "--"]
df = pd.read_csv('property-data.csv', na_values=missing_values)print(df['NUM_BEDROOMS'])
print(df['NUM_BEDROOMS'].isnull())

1.2 dropna() 删除包含空数据的行

接下来的实例演示了删除包含空数据的行。

import pandas as pddf = pd.read_csv('property-data.csv')new_df = df.dropna()print(new_df.to_string())

默认情况下，dropna() 方法返回一个新的 DataFrame，不会修改源数据。如果你要修改源数据 DataFrame, 可以使用 inplace = True 参数:

df.dropna(inplace = True)

我们也可以移除指定列有空值的行：

import pandas as pddf = pd.read_csv('property-data.csv')df.dropna(subset=['ST_NUM'], inplace=True)print(df.to_string())

1.3 fillna() 替换空字段

我们也可以 fillna() 方法来替换一些空字段：

import pandas as pddf = pd.read_csv('property-data.csv')df.fillna(12345, inplace=True)print(df.to_string())

我们也可以指定某一个列来替换数据，例如使用 12345 替换 PID 为空数据：

df.fillna({ 'PID' : 12345 }, inplace = True)

替换空单元格的常用方法是计算列的均值、中位数值或众数。Pandas使用 mean()、median() 和 mode() 方法计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）。

1.3.1 mean() 均值替换

import pandas as pddf = pd.read_csv('property-data.csv')x = df["ST_NUM"].mean()
df.fillna({ 'ST_NUM': x }, inplace=True)
print(df.to_string())

以上实例输出结果如下，红框为计算的中位数替换来空单元格：

1.3.2 median() 中位数替换

import pandas as pddf = pd.read_csv('property-data.csv')
x = df["ST_NUM"].median()
df.fillna({'ST_NUM': x}, inplace=True)
print(df.to_string())

1.3.3 mode() 众数替换

import pandas as pddf = pd.read_csv('property-data.csv')x = df["ST_NUM"].mode()
df.fillna({'ST_NUM': x.values[0]}, inplace=True)
print(df.to_string())

mode()可能会出现多个值，所以需要用values[index]指定。

2 Pandas 清洗格式错误数据

数据格式错误的单元格会使数据分析变得困难，甚至不可能。我们可以通过包含空单元格的行，或者将列中的所有单元格转换为相同格式的数据。以下实例会格式化日期：

import pandas as pd# 第三个日期格式错误
data = {"Date": ['2020/12/01', '2020/12/02', '20201226'],"duration": [50, 40, 45]
}df = pd.DataFrame(data, index=["day1", "day2", "day3"])df['Date'] = pd.to_datetime(df['Date'], format='mixed')print(df.to_string())

3 Pandas 清洗错误数据

数据错误也是很常见的情况，我们可以对错误的数据进行替换或移除。以下实例会替换错误年龄的数据：

import pandas as pdperson = {"name": ['Google', 'Bing', 'Taobao'],"age": [50, 40, 12345]  # 12345 年龄数据是错误的
}df = pd.DataFrame(person)df.loc[2, 'age'] = 30  # 修改数据print(df.to_string())

也可以设置条件语句，例如将 age 大于 120 的设置为 120:

import pandas as pdperson = {"name": ['Google', 'Bing', 'Taobao'],"age": [50, 200, 12345]
}df = pd.DataFrame(person)for x in df.index:if df.loc[x, "age"] > 120:df.loc[x, "age"] = 120print(df.to_string())

也可以将错误数据的行删除，例如将 age 大于 120 的删除:

import pandas as pdperson = {"name": ['Google', 'Runoob', 'Taobao'],"age": [50, 40, 12345]  # 12345 年龄数据是错误的
}df = pd.DataFrame(person)for x in df.index:if df.loc[x, "age"] > 120:df.drop(x, inplace=True)print(df.to_string())

4 Pandas 清洗重复数据

如果我们要清洗重复数据，可以使用 duplicated() 和 drop_duplicates() 方法。如果对应的数据是重复的，duplicated() 会返回 True，否则返回 False。

import pandas as pdperson = {"name": ['Google', 'Bing', 'Bing', 'Taobao'],"age": [50, 40, 40, 23]
}
df = pd.DataFrame(person)print(df.duplicated())

删除重复数据，可以直接使用drop_duplicates() 方法。

import pandas as pdperson = {"name": ['Google', 'Bing', 'Bing', 'Taobao'],"age": [50, 40, 40, 23]
}
df = pd.DataFrame(person)df.drop_duplicates(inplace=True)
print(df)

5 常用方法及说明

操作	方法/步骤	说明	常用函数/方法
缺失值处理	填充缺失值	使用指定的值（如均值、中位数、众数等）填充缺失值。	`df.fillna(value)`
	删除缺失值	删除包含缺失值的行或列。	`df.dropna()`
重复数据处理	删除重复数据	删除 DataFrame 中的重复行。	`df.drop_duplicates()`
异常值处理	异常值检测（基于统计方法）	通过 Z-score 或 IQR 方法识别并处理异常值。	自定义函数（如基于 Z-score 或 IQR）
	替换异常值	使用合适的值（如均值或中位数）替换异常值。	自定义函数（如替换异常值）
数据格式转换	转换数据类型	将数据类型从一个类型转换为另一个类型，如将字符串转换为日期。	`df.astype()`
	日期时间格式转换	转换字符串或数字为日期时间类型。	`pd.to_datetime()`
标准化与归一化	标准化	将数据转换为均值为0，标准差为1的分布。	`StandardScaler()`
	归一化	将数据缩放到指定的范围（如 [0, 1]）。	`MinMaxScaler()`
类别数据编码	标签编码	将类别变量转换为整数形式。	`LabelEncoder()`
	独热编码（One-Hot Encoding）	将每个类别转换为一个新的二进制特征。	`pd.get_dummies()`
文本数据处理	去除停用词	从文本中去除无关紧要的词，如 "the" 、 "is" 等。	自定义函数（基于 `nltk` 或 `spaCy`）
	词干化与词形还原	提取词干或恢复单词的基本形式。	`nltk.stem.PorterStemmer()`
	分词	将文本分割成单词或子词。	`nltk.word_tokenize()`
数据抽样	随机抽样	从数据中随机抽取一定比例的样本。	`df.sample()`
	上采样与下采样	通过过采样（复制少数类样本）或欠采样（减少多数类样本）来平衡数据集中的类别分布。	`SMOTE()`（上采样）； `RandomUnderSampler()`（下采样）
特征工程	特征选择	选择对目标变量有影响的特征，去除冗余或无关特征。	`SelectKBest()`
	特征提取	从原始数据中创建新的特征，提升模型的预测能力。	`PolynomialFeatures()`
	特征缩放	对数值特征进行缩放，使其具有相同的量级。	`MinMaxScaler()` 、 `StandardScaler()`
类别特征映射	特征映射	将类别变量映射为对应的数字编码。	自定义映射函数
数据合并与连接	合并数据	将多个 DataFrame 按照某些列合并在一起，支持内连接、外连接、左连接、右连接等。	`pd.merge()`
	连接数据	将多个 DataFrame 进行行或列拼接。	`pd.concat()`
数据重塑	数据透视表	将数据根据某些维度进行分组并计算聚合结果。	`pd.pivot_table()`
	数据变形	改变数据的形状，如从长格式转为宽格式或从宽格式转为长格式。	`df.melt()` 、 `df.pivot()`
数据类型转换与处理	字符串处理	对字符串数据进行处理，如去除空格、转换大小写等。	`str.replace()` 、 `str.upper()` 等
	分组计算	按照某个特征分组后进行聚合计算。	`df.groupby()`
缺失值预测填充	使用模型预测填充缺失值	使用机器学习模型（如回归模型）预测缺失值，并填充缺失数据。	自定义模型（如 `sklearn.linear_model.LinearRegression`）
时间序列处理	时间序列缺失值填充	使用时间序列的方法（如前向填充、后向填充）填充缺失值。	`df.fillna(method='ffill')`
	滚动窗口计算	使用滑动窗口进行时间序列数据的统计计算（如均值、标准差等）。	`df.rolling(window=5).mean()`
数据转换与映射	数据映射与替换	将数据中的某些值替换为其他值。	`df.replace()`

Python Pandas（7）：Pandas 数据清洗

数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。数据清洗与预处理的常见步骤： 缺失值处理：识别并…...

编程日记 2025/9/3 0:17:06

基于javaweb的SpringBootoa办公自动化系统设计和实现(源码+文档+部署讲解）

🎬 秋野酱：《个人主页》 🔥 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长文章目录运行环境开发工具适用功能说明部分代码展示运行环境 Java≥8、MySQL≥5.7 开发工具 eclipse/idea/myeclipse/sts等均可配置运行…...

编程日记 2025/9/2 19:26:58

算法08-递归调用转为循环的通用方法

前导：问题引入在Python中，递归调用过多会导致“递归深度过深”的错误，通常是因为递归没有正确终止条件或者递归层次太深。这种错误通常会导致程序抛出 RecursionError 异常。 Python默认的递归深度限制大约是1000层（可以通过sys.getrecursionlimit()查看）。修正方式…...

编程日记 2025/9/2 16:18:09

[qt5学习笔记]用vs2022(msvc2017)+copilot进行QtWidgetsApplication源码解析

一直没深入了解qt，又一段时间没写qt，重新捡起来。开发环境本地vs2022(msvc2017, v14.30)先升级到最新版本，方便使用copilot。参考 VS2022QT5环境搭建下载 qt5.14.2 用vs的qt插件设置qt5.14.2x86路径，x64版本未安装。创建一…...

编程日记 2025/9/2 16:18:31

Nginx--日志（介绍、配置、日志轮转）

前言：本博客仅作记录学习使用，部分图片出自网络，如有侵犯您的权益，请联系删除一、Nginx日志介绍 nginx 有一个非常灵活的日志记录模式，每个级别的配置可以有各自独立的访问日志, 所需日志模块 ngx_http_log_module 的…...

编程日记 2025/8/28 9:40:38

Transformer 模型介绍（一）——综述

Transformer 是一种完全基于注意力机制的神经网络模型，首次在2017年的论文《Attention Is All You Need》中提出。该模型最初用于机器翻译任务，并在特定任务中表现优于谷歌的其他神经网络机器翻译模型。Transformer 也是 Seq2Seq（序列到序列&…...

编程日记 2025/9/1 12:50:46

squid版本维护年限 apt install -y cephadmecho >> "deb http://mirrors.163.com/ceph/debian-squid/ bookworm main" echo >> "deb-src http://mirrors.163.com/ceph/debian-squid/ bookworm main"#安装源 cephadm install #开始初始化一个最…...

编程日记 2025/9/1 0:45:40

封装neo4j的持久层和服务层

目录持久层 mp 模仿： 1.抽取出通用的接口类 2.创建自定义的repository接口服务层 mp 模仿： 1.抽取出一个IService通用服务类 2.创建ServiceImpl类实现IService接口 3.自定义的服务接口 4.创建自定义的服务类工厂模式为什么可以使用工厂…...

编程日记 2025/8/26 19:29:39

HTML 简介

1.什么是 HTML？ 超文本：暂且简单理解为 “超级的文本”，和普通文本比，内容更丰富。标记：文本要变成超文本，就需要用到各种标记符号。语言：每一个标记的写法、读音、使用规则&#xff0c…...

编程日记 2025/9/3 0:15:57

【AWS】EC2 安全组设置

在使用 Amazon Web Services (AWS) 的 EC2 实例时，很多用户会遇到关于安全组设置的问题，尤其是在创建或修改安全组时输入描述信息时。最近，有一个常见的错误是当用户在 EC2 安全组配置中添加描述时，使用了中文字符，…...

编程日记 2025/8/29 18:28:01

git bisect 使用二分法查找引入错误的提交

git bisect 使用二分法查找引入错误的提交 Git bisect 命令官方文档 git bisect 这个命令使用二分搜索算法来查找项目历史中哪个提交引入了一个错误使用该命令时，首先告诉它一个已知包含错误的 “坏” 提交以及一个已知在错误出现之前的 “好” 提交然后 git b…...

编程日记 2025/9/2 18:28:46

STM32 Flash详解教程文章

目录 Flash基本概念理解 Flash编程接口FPEC Flash擦除/写入流程图 Flash选项字节基本概念理解 Flash电子签名函数读取地址下存放的数据 Flash的数据处理限制部分编写不易，请勿搬运，感谢理解！！！ Flash基本概念…...

编程日记 2025/9/3 0:15:58

业务开发 | 基础知识 | Maven 快速入门

Maven 快速入门 1.Maven 全面概述 Apache Maven 是一种软件项目管理和理解工具。基于项目对象模型的概念（POM），Maven 可以从中央信息中管理项目的构建，报告和文档。 2.Maven 基本功能因此实际上 Maven 的基本功能就是作为 Ja…...

编程日记 2025/9/2 15:48:36

Python实现从SMS-Activate平台，自动获取手机号和验证码（进阶版2.0）

前言本文是该专栏的第52篇，后面会持续分享python的各种干货知识，值得关注。在本专栏之前，笔者在文章《Python实现SMS-Activate接口调用，获取手机号和验证码》中，有详细介绍基于SMS-Activate平台，通过python来实现自动获取目标国家的手机号以及对应的手机号验证码。而…...

编程日记 2025/8/28 17:53:27

网络安全 | 安全信息与事件管理（SIEM）系统的选型与实施

网络安全 | 安全信息与事件管理（SIEM）系统的选型与实施一、前言二、SIEM 系统的功能概述2.1 数据收集与整合2.2 实时监控与威胁检测2.3 事件响应与自动化2.4 合规性管理三、SIEM 系统选型的关键因素3.1 功能需求评估3.2 可扩展性与性能3.3 易用性与可维…...

编程日记 2025/9/1 15:01:02

解决DeepSeek服务器繁忙问题

目录解决DeepSeek服务器繁忙问题一、用户端即时优化方案二、高级技术方案三、替代方案与平替工具（最推荐简单好用） 四、系统层建议与官方动态用加速器本地部署DeepSeek 使用加速器本地部署DeepSeek的完整指南一、核心原理与工具选择二、…...

编程日记 2025/9/3 0:15:09

node.js+兰空图床实现随机图

之前博客一直用的公共的随机图API，虽然图片的质量都挺不错的，但是稳定性都比较一般，遂打算使用之前部署的兰空图床，自己弄一个随机图本文章服务器操作基于雨云——新一代云服务提供商的云服务器进行操作，有兴趣的话可…...

编程日记 2025/8/28 10:54:48

DeepSeek vs ChatGPT：AI对决中的赢家是……人类吗？

DeepSeek vs ChatGPT：AI对决中的赢家是……人类吗？ 文章目录 DeepSeek vs ChatGPT：AI对决中的赢家是……人类吗？一、引言1. 背景2. 问题二、DeepSeek vs ChatGPT：谁更胜一筹？2.1 语言生成能力评测对比场景…...

编程日记 2025/8/31 22:58:38

mac搭建环境

从0-1搭建mac环境先查看自己的芯片信息 bash uname -mbash-3.2$ uname -m arm64这里是自己的型号安装brew xcode-select --install xcode-select -p /bin/zsh -c “$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)” source /Users/lanren/.…...

编程日记 2025/9/1 14:13:42

【R语言】t检验

一、基本介绍 t检验（t-test）是用于比较两个样本均值是否存在显著差异的一种统计方法。 t.test()函数的调用格式： t.test(x, yNULL, alternativec("two.sided", "less", "greater"), mu0, pairFALSE, var.eq…...

编程日记 2025/9/2 21:53:34

尚硅谷爬虫note005

一、编解码 1.get请求的quote方法将汉字转为Unicode字符 # _*_ coding : utf-8 _*_ # Time : 2025/2/12 16:33 # Author : 20250206-里奥 # File : demo19_get请求的quote方法 # Project : PythonProject10-14# 景甜page # https://www.baidu.com/s?ieutf-8&f8&rsv…...

编程日记 2025/8/31 11:11:56

词袋模型和词嵌入模型区别和关联分析（词袋模型是否属于词嵌入模型）

词袋模型（Bag of Words, BoW）不属于词嵌入模型，它们是两种完全不同的文本表示方法。以下从多个维度对比二者的核心区别 1. 本质区别特性词袋模型 (BoW)词嵌入模型 (Word Embedding)表示形式离散的稀疏向量（高维，维度…...

编程日记 2025/9/3 0:15:59

借用python 学习 VM的 FTP(VisionMaster4.3)

无懒不python:看官方V社区有介绍: 需要安装 Quick Easy FTP Server V4.0.0.exe 为了表示敬意再次放出链接: V社区-机器智能技术交流-VM关于FTP存图的一点分享好了VM先放一边先用python自收自发: 毕竟这个免费 FTP服务端: 0.ftpserver.py 需要安装的库和注意事项已经在…...

编程日记 2025/8/30 7:23:16

BDD风格测试

BDD风格测试（Behavior-Driven Development） BDD（行为驱动开发）是一种以自然语言描述系统行为的测试方法论，强调团队协作与业务价值验证。结合Mockito的BDD风格API，可以编写更符合业务场景描述、更易读的测…...

编程日记 2025/8/30 0:44:47

[免费]Springboot+Vue医疗(医院)挂号管理系统【论文+源码+SQL脚本】

大家好，我是java1234_小锋老师，看到一个不错的SpringbootVue医疗(医院)挂号管理系统，分享下哈。项目视频演示【免费】SpringBootVue医疗(医院)挂号管理系统 Java毕业设计_哔哩哔哩_bilibili 项目介绍在如今社会上，关于信息上…...

编程日记 2025/8/21 8:26:36

Linux 查看磁盘中的大文件

在 Linux 系统中，你可以使用以下方法来查看磁盘中的大文件信息： 1. 使用 find 命令 find 命令可以递归查找指定目录下的大文件。 find /path/to/directory -type f -size 100M -exec ls -lh {} \;/path/to/directory：要查找的目录路径&…...

编程日记 2025/8/30 7:07:46

浅识MQ的 Kafka、ActiveMQ、RabbitMQ、RocketMQ区别

DeepSeek回复： 以下是主流消息队列（MQ）的对比分析，结合核心特性、适用场景和实际案例说明： 一、主流MQ对比分析维度 Kafka RabbitMQ RocketMQ ActiveMQ所属公司Apache（LinkedIn开源）…...

编程日记 2025/8/28 18:48:59

君海游戏岗位，需要私我

游戏岗位内推啦，需要找我哈共14个职位广告投放主管社会招聘全国广告投放社会招聘全国设计主管社会招聘全国海外投放社会招聘广东省广州市海外运营社会招聘广东省广州市产品运营专员社会招聘广东省广州市平台运营社会招聘广东…...

编程日记 2025/8/29 6:16:14

Vue2/Vue3分别如何使用Watch

在 Vue 2 和 Vue 3 中，watch 用于监听数据的变化并执行相应的逻辑。虽然两者的核心功能相同，但在语法和使用方式上有一些区别。以下是 Vue 2 和 Vue 3 中使用 watch 的详细说明： Vue 2 中的 watch 在 Vue 2 中，watch 是通过选项式…...

编程日记 2025/9/2 11:16:53

boss直聘登录网易易盾无感滑块分析

声明: 本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！ 逆向分析实测网站是存在风控的比较…...

编程日记 2025/8/28 12:09:34

蓝桥杯 Java B 组之日期与时间计算（闰年、星期计算）

Day 5：日期与时间计算（闰年、星期计算） 在编程竞赛中，日期和时间计算是常见考点，涉及闰年判断、星期计算、日期间隔计算等问题。本日的学习目标： 判断闰年计算某个日期是星期几计算两个日期之间相差多少…...

编程日记 2025/9/1 11:54:50

51单片机之引脚图（详解）

8051单片机引脚分类与功能笔记 1. 电源引脚 VCC（第40脚）：接入5V电源，为单片机提供工作电压。GND（第20脚）：接地端，确保电路的电位参考点。 2.时钟引脚 XTAL1（第19脚&a…...

编程日记 2025/8/30 14:57:58

掌控系统性能的利器：自动化系统性能监控工具

友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到： ● 深入解析：每一篇文章都将…...

编程日记 2025/9/2 20:37:56

用大模型学大模型03-数学基础概率论随机变量概率分布

deepseek.com:什么是概率，什么是随机变量？深度学习中常用概率的分布有哪些？ 1. 什么是概率？ 概率是描述事件发生的可能性的数值，范围在 0 到 1 之间： 0：事件不可能发生。1：事件必…...

编程日记 2025/9/2 15:02:08

ASP.NET Core 使用 FileStream 将 FileResult 文件发送到浏览器后删除该文件

FileStream 在向浏览器发送文件时节省了服务器内存和资源，但如果需要删除文件怎么办？本文介绍如何在发送文件后删除文件；用 C# 编写。另请参阅：位图创建和下载使用FileStream向浏览器发送数据效率更高，因为文件是从…...

编程日记 2025/8/29 21:33:41

如何使用DHTMLX Scheduler的拖放功能，在 JS 日程安排日历中创建一组相同的事件

DHTMLX Scheduler 是一个全面的调度解决方案，涵盖了与规划事件相关的广泛需求。假设您在我们的 Scheduler 文档中找不到任何功能，并且希望在我们的 Scheduler 文档中看到您的项目。在这种情况下，很可能可以使用自定义解决方案来实现此类功能。…...

编程日记 2025/8/21 6:44:16

UE_C++ —— Unreal Interfaces

目录一，Declare an Interface in C 二，Interface Specifiers 三，Implement an Interface in C 四，Declare Interface Functions 五，C Only Interface Functions 六，Blueprint Callable Interface Fu…...

编程日记 2025/8/31 17:32:20

mapbox 从入门到精通 - 目录

👨‍⚕️ 主页： gis分享者 👨‍⚕️ 感谢各位大佬点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏：mapbox 从入门到精通文章目录一、🍀总目录1.1 ☘️ mapbox基础1.2 ☘️…...

编程日记 2025/9/1 10:55:43

CentOS搭建PPPOE服务器

一、安装软件包 yum -y install rp-pppoe 二、配置服务器 1.修改配置文件打开/etc/ppp/pppoe-server-options文件 nano /etc/ppp/pppoe-server-options 编辑为以下内容： # PPP options for the PPPoE server # LIC: GPL require-pap require-chap login …...

编程日记 2025/8/30 17:08:23

在 CentOS 系统中配置交换空间（Swap）解决内存不足

🚀 作者主页： 有来技术 🔥 开源项目： youlai-mall ︱vue3-element-admin︱youlai-boot︱vue-uniapp-template 🌺 仓库主页： GitCode︱ Gitee ︱ Github 💖 欢迎点赞 👍 收藏 ⭐评论 …...

编程日记 2025/8/29 1:31:03

pytorch训练五子棋ai

有3个文件 game.py 五子棋游戏 mod.py 神经网络模型 xl.py 训练的代码 aigame.py 玩家与对战的五子棋 game.py class Game:def __init__(self, h, w):# 行数self.h h# 列数self.w w# 棋盘self.L [[- for _ in range(w)] for _ in range(h)]# 当前玩家 - 表示空 X先…...

编程日记 2025/8/28 9:12:20

超越DeepSeek R1的Moe开源大模型 Qwen2.5-max 和 Qwen Chat Web UI 的发布，阿里搅动AI生态

敲黑板，说重点，最近阿里推出的 Qwen2.5-max 和 Qwen Chat Web UI，将对AI生态又一次冲击。说冲击，因为 DeepSeek R1的热潮还未散退的情况下，由于服务器压力不能注册新的API，然后价格涨价，服务有…...

编程日记 2025/9/2 10:20:41

动态规划两个数组的dp问题系列一＞两个字符串的最小ASCII 删除和

这里写目录标题题目解析：状态表示：状态转移方程：初始化：填表顺序：返回值：代码呈现： 题目解析： 状态表示： 状态转移方程： 初始化： 填表顺序&#…...

编程日记 2025/8/31 8:02:13

【C语言】程序环境与预处理

目录程序的翻译环境和执行环境粗谈编译链接翻译环境编译的几个阶段及链接运行环境预处理详解预定义符号 #define #define 定义标识符 #define 定义宏 #define 替换规则 #和## 带副作用的宏参数宏和函数的对比命名约定 #undef 命令行定义条件编译 …...

编程日记 2025/8/30 11:52:57

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language Models, LLMs）推理能力的重要技术手段，特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的…...

编程日记 2025/8/28 12:03:41

AnythingLLM打造私有知识库

一、 OllamaDeepSeek安装 https://blog.csdn.net/Stestack/article/details/145405151?spm1001.2014.3001.5502二、 nomic-embed-text nomic-embed-text主要用于文本嵌入和句子相似度任务，能够将这些任务应用于分类、聚类、检索等多种自然语言处理场景。该模型在…...

编程日记 2025/8/29 8:45:25

springboot多数据源事务管理

在Java应用中，使用多数据源时，事务管理是一个常见且复杂的问题。由于每个数据源都有自己的事务管理器，跨多个数据源的事务管理需要特别处理。以下是几种常见的解决方案： 1. JTA（Java Transaction API） JT…...

编程日记 2025/8/29 23:02:25

Lineageos 22.1 aosp15 定制学习专栏介绍

一.前言学习了一段时间的rom开发，需求也大概做了一些，但是一直没有记录下来总结，这个专栏开始会基于如下平台开始尝试做一些常见模块的需求定制，记录学习，如果有错误欢迎指正，大家一起学习!至于pixel编译…...

编程日记 2025/9/1 16:30:53

win10中mstsc远程Centos-Stream 9图形化界面

文章目录 1 前置状态2 安装配置XRDP3 关闭SELinux3.1 查看selinux状态3.2 关闭selinux 4 启动XRDP5 Win10远程连接测试 1 前置状态已安装CentOS9桌面版；Windows10。 2 安装配置XRDP sudo yum install epel-release sudo yum install xrdp sudo yum install tige…...

编程日记 2025/8/27 19:43:37

【Deepseek】解决Deepseek服务器繁忙的问题

随着Deepseek的爆火越来越多的人使用Deepseek,就导致很多情况下出现服务器繁忙的情况。本博客将讲述如何使用Deepseek不卡顿或者出现服务器繁忙的情况。一.绕开官方服务器现在无论是网页版还是app都是在访问【深度求索】的官方服务器，所以才会出现服务器繁忙的…...

编程日记 2025/9/1 16:14:29