当前位置：首页 > news >正文

Pandas：数据处理与分析的核心操作

news 来源：原创 2025/7/31 23:45:45

Pandas：数据处理与分析的核心操作

Pandas 是 Python 数据分析的核心库，它提供了高性能、易用的数据结构和数据分析工具。本文将详细介绍 Pandas 的核心操作，帮助你高效进行数据处理和分析。

1. Pandas 基础数据结构

Pandas 有两个主要的数据结构：Series（一维）和 DataFrame（二维）。

import pandas as pd
import numpy as np# 创建 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print("Series 示例:")
print(s)# 创建 DataFrame
# 从字典创建
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],'age': [25, 30, 35, 40],'city': ['New York', 'Paris', 'London', 'Tokyo']}
df1 = pd.DataFrame(data)
print("\nDataFrame 从字典创建:")
print(df1)# 从 NumPy 数组创建
dates = pd.date_range('20230101', periods=6)
df2 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print("\nDataFrame 从NumPy数组创建:")
print(df2)# 查看 DataFrame 的基本信息
print("\nDataFrame基本信息:")
print(f"维度: {df2.shape}")
print(f"数据类型:\n{df2.dtypes}")
print(f"索引: {df2.index}")
print(f"列名: {df2.columns}")
print(f"前5行:\n{df2.head()}")
print(f"后5行:\n{df2.tail()}")
print(f"摘要统计:\n{df2.describe()}")

2. 数据选择与索引

Pandas 提供了多种灵活的方式来选择和访问数据。

# 创建示例DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50],'C': [100, 200, 300, 400, 500]}
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])
print("原始DataFrame:")
print(df)# 选择单列，返回Series
print("\n选择A列:")
print(df['A'])
print(type(df['A']))# 选择多列，返回DataFrame
print("\n选择A和C列:")
print(df[['A', 'C']])# 通过标签选择行 (.loc)
print("\n通过标签选择一行:")
print(df.loc['c'])# 通过标签选择多行
print("\n通过标签选择多行:")
print(df.loc[['a', 'c', 'e']])# 通过标签选择行和列
print("\n通过标签选择行和列:")
print(df.loc['b':'d', 'A':'C'])# 通过位置索引选择 (.iloc)
print("\n通过位置选择第二行:")
print(df.iloc[1])# 通过位置索引选择多行多列
print("\n通过位置选择多行多列:")
print(df.iloc[1:4, [0, 2]])# 条件选择
print("\n条件选择 A > 2:")
print(df[df.A > 2])# 多条件选择
print("\n多条件选择 A > 2 且 B < 40:")
print(df[(df.A > 2) & (df.B < 40)])# 使用 query 方法进行条件选择 (更简洁)
print("\n使用query选择 A > 2 且 B < 40:")
print(df.query("A > 2 and B < 40"))

3. 数据清洗与处理

数据清洗是数据分析中的关键步骤，Pandas 提供了多种工具来处理缺失值、重复数据等问题。

# 创建包含缺失值的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],'B': [10, np.nan, 30, 40, 50],'C': [100, 200, 300, np.nan, 500],'D': ['a', 'b', 'c', 'd', np.nan]
})
print("包含缺失值的DataFrame:")
print(df)# 检查缺失值
print("\n每列缺失值数量:")
print(df.isnull().sum())# 删除包含缺失值的行
print("\n删除包含任何缺失值的行:")
print(df.dropna())# 只删除全为缺失值的行
print("\n只删除全为缺失值的行:")
print(df.dropna(how='all'))# 填充缺失值
print("\n用0填充缺失值:")
print(df.fillna(0))# 用前一个有效值填充
print("\n用前一个有效值填充:")
print(df.fillna(method='ffill'))# 用后一个有效值填充
print("\n用后一个有效值填充:")
print(df.fillna(method='bfill'))# 不同列使用不同的填充值
print("\n不同列使用不同的填充值:")
print(df.fillna({'A': 0, 'B': -1, 'C': 999, 'D': 'missing'}))# 删除重复行
df_dup = pd.DataFrame({'A': [1, 1, 2, 3, 4],'B': [10, 10, 20, 30, 40]
})
print("\n包含重复行的DataFrame:")
print(df_dup)
print("\n删除重复行:")
print(df_dup.drop_duplicates())# 替换值
df_replace = pd.DataFrame({'A': [1, 2, 3, 4, 5],'B': ['a', 'b', 'c', 'd', 'e']
})
print("\n替换前的DataFrame:")
print(df_replace)
print("\n替换后的DataFrame:")
print(df_replace.replace({1: 100, 'a': 'apple'}))

4. 数据转换与重塑

Pandas 提供了强大的功能来重塑和转换数据。

# 转置
df = pd.DataFrame({'A': [1, 2, 3],'B': [4, 5, 6],'C': [7, 8, 9]
})
print("原始DataFrame:")
print(df)
print("\n转置后:")
print(df.T)# 重置索引
df_idx = pd.DataFrame({'A': [1, 2, 3, 4, 5],'B': [10, 20, 30, 40, 50]
}, index=['a', 'b', 'c', 'd', 'e'])
print("\n带有自定义索引的DataFrame:")
print(df_idx)
print("\n重置索引后:")
print(df_idx.reset_index())  # 保留原索引为列
print("\n重置索引并丢弃原索引:")
print(df_idx.reset_index(drop=True))# 设置索引
df_set = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],'age': [25, 30, 35],'city': ['New York', 'Paris', 'London']
})
print("\n原始DataFrame:")
print(df_set)
print("\n将name设置为索引:")
print(df_set.set_index('name'))# 多层索引
df_multi = pd.DataFrame({'date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02'],'city': ['New York', 'Paris', 'New York', 'Paris'],'temp': [0, 2, -1, 3],'humidity': [45, 50, 55, 60]
})
print("\n原始DataFrame:")
print(df_multi)
print("\n设置多层索引:")
df_multi_idx = df_multi.set_index(['date', 'city'])
print(df_multi_idx)# 重塑DataFrame - stack和unstack
print("\n从多层索引转为长格式 (stack):")
stacked = df_multi_idx.stack()
print(stacked)
print("\n从长格式转回宽格式 (unstack):")
print(stacked.unstack())# 数据透视表
df_pivot = pd.DataFrame({'date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02'],'city': ['New York', 'Paris', 'New York', 'Paris'],'metric': ['temp', 'temp', 'temp', 'temp'],'value': [0, 2, -1, 3]
})
print("\n原始长格式数据:")
print(df_pivot)
print("\n转换为透视表:")
pivot_table = df_pivot.pivot(index='date', columns='city', values='value')
print(pivot_table)# melt - 从宽格式转为长格式
df_wide = pd.DataFrame({'date': ['2023-01-01', '2023-01-02'],'New York': [0, -1],'Paris': [2, 3]
})
print("\n宽格式数据:")
print(df_wide)
print("\n转换为长格式 (melt):")
df_long = pd.melt(df_wide, id_vars=['date'], var_name='city', value_name='temperature')
print(df_long)

5. 分组和聚合操作

分组和聚合是数据分析中的常见操作，用于汇总和分析数据。

# 创建示例数据
df = pd.DataFrame({'category': ['A', 'A', 'A', 'B', 'B', 'C', 'C', 'C'],'store': ['S1', 'S1', 'S2', 'S2', 'S3', 'S3', 'S4', 'S4'],'sales': [10, 15, 20, 25, 30, 35, 40, 45],'profit': [1, 2, 3, 4, 5, 6, 7, 8]
})
print("原始数据:")
print(df)# 按单个列分组
print("\n按category分组并计算sales和profit的均值:")
print(df.groupby('category').mean())# 按多个列分组
print("\n按category和store分组并计算总和:")
print(df.groupby(['category', 'store']).sum())# 分组后应用多种聚合函数
print("\n按category分组并应用多种聚合函数:")
print(df.groupby('category').agg({'sales': ['sum', 'mean', 'std'],'profit': ['min', 'max']}))# 使用命名聚合
print("\n使用命名聚合:")
print(df.groupby('category').agg(total_sales=('sales', 'sum'),avg_sales=('sales', 'mean'),min_profit=('profit', 'min'),max_profit=('profit', 'max')
))# 过滤分组
print("\n过滤分组 - 只显示总销售额>50的类别:")
print(df.groupby('category').filter(lambda x: x['sales'].sum() > 50))# 分组转换 - 应用函数到各组
print("\n分组转换 - 标准化每组内的sales:")
print(df.groupby('category')['sales'].transform(lambda x: (x - x.mean()) / x.std()))# 应用自定义函数到分组
def top_n_sales(group, n=1):return group.nlargest(n, 'sales')print("\n找出每个类别中销售额最高的记录:")
print(df.groupby('category').apply(top_n_sales))

6. 合并与连接数据

Pandas 提供了多种方法来合并和连接数据集。

# 创建示例数据
df1 = pd.DataFrame({'employee_id': [1, 2, 3, 4],'name': ['Alice', 'Bob', 'Charlie', 'David'],'department': ['HR', 'IT', 'Finance', 'IT']
})df2 = pd.DataFrame({'employee_id': [1, 2, 5, 6],'salary': [50000, 60000, 70000, 80000],'bonus': [5000, 6000, 7000, 8000]
})df3 = pd.DataFrame({'department': ['HR', 'IT', 'Finance', 'Marketing'],'location': ['New York', 'London', 'Paris', 'Tokyo']
})print("表1 - 员工信息:")
print(df1)
print("\n表2 - 薪资信息:")
print(df2)
print("\n表3 - 部门信息:")
print(df3)# 合并 (如SQL join)
print("\n内连接 (inner join):")
print(pd.merge(df1, df2, on='employee_id', how='inner'))print("\n左连接 (left join):")
print(pd.merge(df1, df2, on='employee_id', how='left'))print("\n右连接 (right join):")
print(pd.merge(df1, df2, on='employee_id', how='right'))print("\n外连接 (outer join):")
print(pd.merge(df1, df2, on='employee_id', how='outer'))# 在不同的列上连接
print("\n使用不同列名连接:")
df2_renamed = df2.rename(columns={'employee_id': 'emp_id'})
print(pd.merge(df1, df2_renamed, left_on='employee_id', right_on='emp_id'))# 按索引连接
df1_idx = df1.set_index('employee_id')
df2_idx = df2.set_index('employee_id')
print("\n按索引连接:")
print(pd.merge(df1_idx, df2_idx, left_index=True, right_index=True))# 使用连接键
print("\n使用多个连接键:")
print(pd.merge(df1, df3, on='department'))# 连接后处理重复列名
print("\n处理重复列名:")
df1_dup = pd.DataFrame({'id': [1, 2, 3], 'name': ['A', 'B', 'C'], 'value': [10, 20, 30]})
df2_dup = pd.DataFrame({'id': [1, 2, 4], 'name': ['X', 'Y', 'Z'], 'value': [100, 200, 300]})
print(pd.merge(df1_dup, df2_dup, on='id', suffixes=('_left', '_right')))# 垂直连接 (如SQL UNION)
df4 = pd.DataFrame({'name': ['Eve', 'Frank'],'department': ['Sales', 'Marketing'],'employee_id': [7, 8]
})
print("\n垂直连接 (concat):")
print(pd.concat([df1, df4]))# 忽略索引并重置
print("\n垂直连接并重置索引:")
print(pd.concat([df1, df4], ignore_index=True))# 追加行
new_row = pd.DataFrame({'employee_id': [9], 'name': ['Grace'], 'department': ['R&D']})
print("\n追加行:")
print(pd.concat([df1, new_row], ignore_index=True))

7. 时间序列分析

Pandas 提供了强大的时间序列处理功能，特别适合金融和时间序列数据分析。

# 创建时间序列
dates = pd.date_range(start='2023-01-01', end='2023-01-10')
print("日期范围:")
print(dates)# 创建月度时间序列
months = pd.date_range('2023-01-01', periods=12, freq='M')
print("\n月份范围:")
print(months)# 创建工作日时间序列
business_days = pd.date_range('2023-01-01', periods=10, freq='B')
print("\n工作日范围:")
print(business_days)# 创建带有时间序列索引的DataFrame
ts_data = pd.DataFrame({'value': np.random.randn(len(business_days))
}, index=business_days)
print("\n时间序列数据:")
print(ts_data)# 时间序列重采样 (如从日数据变为月数据)
print("\n按周重采样 (求均值):")
print(ts_data.resample('W').mean())print("\n按月重采样 (求和):")
print(ts_data.resample('M').sum())# 时间偏移
print("\n时间偏移 - 后移一天:")
print(ts_data.shift(1))print("\n时间偏移 - 前移一天:")
print(ts_data.shift(-1))# 滚动窗口计算
print("\n3天滚动窗口均值:")
print(ts_data.rolling(window=3).mean())print("\n5天滚动窗口标准差:")
print(ts_data.rolling(window=5).std())# 扩展窗口计算 (累计)
print("\n扩展窗口计算 (累计均值):")
print(ts_data.expanding().mean())# 时间序列移动 (按日历日而非索引)
longer_ts = pd.DataFrame({'value': np.random.randn(30)
}, index=pd.date_range('2023-01-01', periods=30))
print("\n按5个日历日移动:")
print(longer_ts.tshift(periods=5, freq='D').head())

8. 数据分析与可视化

Pandas 与 Matplotlib 集成，提供了便捷的数据可视化功能。

# 需要安装matplotlib: pip install matplotlib
import matplotlib.pyplot as plt# 创建示例数据
np.random.seed(42)
dates = pd.date_range('2023-01-01', periods=30)
df = pd.DataFrame({'A': np.random.randn(30).cumsum(),'B': np.random.randn(30).cumsum(),'C': np.random.randn(30).cumsum(),'D': np.random.randn(30).cumsum()
}, index=dates)print("数据集:")
print(df.head())# 线图
df.plot(figsize=(10, 6), title='时间序列曲线')
plt.savefig('line_plot.png')
plt.close()# 柱状图
df.iloc[0:10].plot.bar(figsize=(10, 6), title='柱状图')
plt.savefig('bar_plot.png')
plt.close()# 堆叠柱状图
df.iloc[0:10].plot.bar(stacked=True, figsize=(10, 6), title='堆叠柱状图')
plt.savefig('stacked_bar_plot.png')
plt.close()# 直方图
df.plot.hist(bins=20, alpha=0.7, figsize=(10, 6), title='直方图')
plt.savefig('histogram_plot.png')
plt.close()# 箱形图
df.plot.box(figsize=(10, 6), title='箱形图')
plt.savefig('box_plot.png')
plt.close()# 散点图
df.plot.scatter(x='A', y='B', figsize=(10, 6), title='散点图')
plt.savefig('scatter_plot.png')
plt.close()# 饼图
abs(df.iloc[0]).plot.pie(autopct='%1.1f%%', figsize=(10, 6), title='饼图')
plt.savefig('pie_chart.png')
plt.close()# 热力图 (需要安装seaborn: pip install seaborn)
import seaborn as sns
plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('相关性热力图')
plt.savefig('heatmap.png')
plt.close()

9. 数据导入与导出

Pandas 支持多种数据格式的读取和写入。

# CSV文件
# 导出为CSV
df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],'age': [25, 30, 35],'city': ['New York', 'Paris', 'London']
})
df.to_csv('data.csv', index=False)
print("已导出到CSV文件")# 从CSV导入
df_from_csv = pd.read_csv('data.csv')
print("\n从CSV导入的数据:")
print(df_from_csv)# Excel文件 (需要安装openpyxl: pip install openpyxl)
# 导出到Excel
df.to_excel('data.xlsx', index=False, sheet_name='员工数据')
print("\n已导出到Excel文件")# 从Excel导入
df_from_excel = pd.read_excel('data.xlsx')
print("\n从Excel导入的数据:")
print(df_from_excel)# JSON
# 导出到JSON
df.to_json('data.json', orient='records')
print("\n已导出到JSON文件")# 从JSON导入
df_from_json = pd.read_json('data.json')
print("\n从JSON导入的数据:")
print(df_from_json)# 数据库 (需要安装sqlalchemy和相应数据库驱动)
# 这里使用SQLite作为示例
from sqlalchemy import create_engine
engine = create_engine('sqlite:///example.db')# 写入数据库
df.to_sql('employees', engine, if_exists='replace', index=False)
print("\n已写入到SQLite数据库")# 从数据库读取
df_from_db = pd.read_sql('SELECT * FROM employees', engine)
print("\n从数据库读取的数据:")
print(df_from_db)# 从URL读取数据
try:# 尝试从网络读取数据df_url = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/data/csv/iris.csv')print("\n从URL导入的数据 (前5行):")print(df_url.head())
except:print("\n无法从URL读取数据，请检查网络连接")# HTML表格
html_data = """
<table><tr><th>Name</th><th>Age</th></tr><tr><td>Alice</td><td>25</td></tr><tr><td>Bob</td><td>30</td></tr>
</table>
"""with open('sample.html', 'w') as f:f.write(html_data)# 从HTML读取
df_html = pd.read_html('sample.html')
print("\n从HTML读取的数据:")
print(df_html[0])  # read_html返回列表，因为一个HTML文件可能包含多个表格

10. 高级功能与性能优化

Pandas 提供了一些高级功能和性能优化技巧，适用于处理大型数据集。

# 分类数据类型
df = pd.DataFrame({'id': range(1000),'category': np.random.choice(['A', 'B', 'C', 'D'], 1000),'value': np.random.randn(1000)
})# 转换为分类类型以节省内存
print(f"原始内存使用: {df['category'].memory_usage()} bytes")
df['category'] = df['category'].astype('category')
print(f"使用分类类型后内存使用: {df['category'].memory_usage()} bytes")# apply函数用于应用自定义操作
def complex_operation(row):if row['category'] in ['A', 'B']:return row['value'] * 2else:return row['value'] / 2# 使用apply应用到每行 (较慢)
start_time = pd.Timestamp.now()
df['result1'] = df.apply(complex_operation, axis=1)
end_time = pd.Timestamp.now()
print(f"\napply方法耗时: {(end_time - start_time).total_seconds()*1000:.2f} ms")# 使用向量化操作 (更快)
start_time = pd.Timestamp.now()
mask = df['category'].isin(['A', 'B'])
df['result2'] = df['value'] * 2
df.loc[~mask, 'result2'] = df.loc[~mask, 'value'] / 2
end_time = pd.Timestamp.now()
print(f"向量化操作耗时: {(end_time - start_time).total_seconds()*1000:.2f} ms")# 确认结果相同
print(f"结果是否相同: {(df['result1'] == df['result2']).all()}")# 分块处理大型文件
def process_in_chunks(filename, chunksize=1000):total_rows = 0for chunk in pd.read_csv(filename, chunksize=chunksize):# 这里可以处理每个分块total_rows += len(chunk)return total_rows# 创建一个大文件作为示例
large_df = pd.DataFrame({'id': range(10000),'value': np.random.randn(10000)
})
large_df.to_csv('large_file.csv', index=False)print(f"\n分块处理大文件，总行数: {process_in_chunks('large_file.csv')}")# 使用query进行高效筛选
start_time = pd.Timestamp.now()
filtered1 = df[(df['value'] > 0) & (df['category'].isin(['A', 'C']))]
end_time = pd.Timestamp.now()
print(f"\n使用布尔索引筛选耗时: {(end_time - start_time).total_seconds()*1000:.2f} ms")start_time = pd.Timestamp.now()
filtered2 = df.query("value > 0 and category in ['A', 'C']")
end_time = pd.Timestamp.now()
print(f"使用query筛选耗时: {(end_time - start_time).total_seconds()*1000:.2f} ms")print(f"结果行数是否相同: {len(filtered1) == len(filtered2)}")

结论

Pandas 是 Python 数据分析的核心工具，提供了丰富的功能来处理和分析各种类型的数据。从数据清洗到高级分析，从数据导入到可视化，Pandas 提供了全面的解决方案。通过掌握本文介绍的核心操作，你将能够更高效地进行数据处理和分析工作。

随着数据集规模的增长，了解如何优化 Pandas 代码以提高性能变得尤为重要。此外，将 Pandas 与其他库（如 NumPy、Matplotlib、scikit-learn 等）结合使用，可以构建强大的数据科学工作流。

Pandas：数据处理与分析的核心操作

Pandas：数据处理与分析的核心操作 Pandas 是 Python 数据分析的核心库，它提供了高性能、易用的数据结构和数据分析工具。本文将详细介绍 Pandas 的核心操作，帮助你高效进行数据处理和分析。 1. Pandas 基础数据结构 Pandas 有两个主要的数…...

编程日记 2025/7/31 23:45:45

Kotlin实现Android应用保活方案

Kotlin实现Android应用保活优化方案以下的Android应用保活实现方案，更加符合现代Android开发规范，同时平衡系统限制和用户体验。 1. 前台服务方案 class OptimizedForegroundService : Service() {private val notificationId 1private val channel…...

编程日记 2025/7/31 23:37:57

硬件电路(25)-过温保护器件ksd9700温控开关

一、概述 KSD9700系列温控开关是一种双金属作为感温元件的温控器，具有动作迅速、控温精确、控制电流大、使用寿命长的特点，被广泛应用于各类微型电机、电磁炉、空调电机、小家电等做温度保护控制。二、应用 KSD9700系列产品是一种双金属作为感温元件的…...

编程日记 2025/7/31 23:42:47

vuex实现同一页面radio-group点击不同按钮显示不同表单

本文实现的是点击单一规格和多规格两个按钮会在页面显示不同的表单方法一  <el-form label-width"80px" class"text-align-left"><el-form-item label"商品规格"><!-- 监听skus_type的改…...

编程日记 2025/7/31 23:45:43

代码随想录训练营第36天 ||1049. 最后一块石头的重量 II 494. 目标和 474. 一和零

1049. 最后一块石头的重量 II 讲解：代码随想录思路： 01背包问题：题意说要求粉碎石头后留下的最小石头重量，石头粉碎的规则是两个石头如果重量相等，同时粉碎，如果重量不相等，粉碎后的重量是大…...

编程日记 2025/7/31 23:42:45

[Spring]SSM整合

第一步整合任何框架，首先都是导入相关的jar包： <dependency><groupId>org.springframework</groupId><artifactId>spring-webmvc</artifactId><version>5.3.18</version></dependency><!--mybatis依…...

编程日记 2025/7/31 6:55:11

【HDFS】HDFS数据迁移与备份全攻略：从日常备份到灾难恢复

目录 1 HDFS数据迁移与备份概述 2 集群间数据迁移：DistCp工具详解 2.1 DistCp工作原理架构 2.2 DistCp标准工作流程 2.3 DistCp性能优化方案 3 离线备份实施策略 3.1 HDFS到本地备份架构 4 灾难恢复方案设计 4.1 基于快照的恢复流程 4.2 数据一致性校验方…...

编程日记 2025/7/30 21:19:13

动态规划入门：背包问题求具体方案（以0-1背包问题为例）

本质：有向图最短（长）路问题字典序最小方案？--贪心思路？（本题未使用） 分析第一个物品： 写代码时tip：要考虑“边读边做”还是“先读后做” #include<iostream> #i…...

编程日记 2025/7/27 17:09:01

git学习日志

你看到的是 Vim 文本编辑器的界面，并非 git 的窗口。这是你通过 vim hello.txt 命令打开的新文件。以下是分步操作指南： 1. 进入编辑模式按下键盘上的 i 键（进入 “INSERT” 模式），此时左下角会显示 -- INSERT --。现…...

编程日记 2025/7/30 23:09:36

数字孪生废气处理工艺流程

图扑数字孪生废气处理工艺流程系统。通过精准 3D 建模，对废气收集、预处理、净化、排放等全流程进行 1:1 数字化复刻，实时呈现设备运行参数、污染物浓度变化等关键数据。借助图扑可视化界面，管理者可直观掌握废气处理各环节状态&#xff0c…...

编程日记 2025/7/30 13:59:55

iPhone 13P 换超容电池，一年实记的“电池循环次数-容量“柱状图

继上一篇 iPhone 13P 更换"移植电芯"和"超容电池"🔋体验，详细记录了如何更换这两种电池，以及各自的优略势对比。一晃一年过去，时间真快，这次分享下记录了使用超容电池的 “循环次数 - 容量(mAh)…...

编程日记 2025/7/30 5:13:58

豆瓣图书数据采集与可视化分析（二）- 豆瓣图书数据清洗与处理

文章目录前言一、查看数据基本信息二、拆分pub列三、日期列处理四、价格列处理五、出版社列处理六、评价人数列处理七、缺失值处理八、重复数据处理九、异常值处理十、完整代码十一、清洗与处理后的数据集展示前言豆瓣作为国内知名的文化社区，拥有庞大且丰富的图…...

编程日记 2025/7/28 8:12:45

【Sa-Token】学习笔记05 - 踢人下线源码解析

目录前言强制注销踢人下线源码解析前言所谓踢人下线，核心操作就是找到指定 loginId 对应的 Token，并设置其失效。上图为踢人下线后，前端应该用图像给出来让用户重新登录，而不是让前端收到一个描述着被下线的JSON 强…...

编程日记 2025/7/28 20:39:10

Linux | I.MX6ULL 文件系统

01 本节所有的测试程序需要开发板有 Qt 环境来运行。我们提供的文件系统是由 yocto 裁剪整理得来的。之后我们会整理一份单独移植的 qt 系统。方便用户移植第三方软件。如果用户的文件系统非我们的出厂版本，请参考之前烧写章节重新烧写出厂文件系统。开发板启动需要输入登录…...

编程日记 2025/7/31 13:56:45

Python3基础语法

一：注释 Python中用#表示单行注释，#之后的同行的内容都会被注释掉。使用三个连续的双引号表示多行注释，两个多行注释标识之间内容会被视作是注释。二：基础变量类型与操作符 1. 除法 * 除法 / python3中就算是两个整数相除&a…...

编程日记 2025/7/29 10:52:31

QEMU源码全解析 —— 块设备虚拟化（20）

接前一篇文章：QEMU源码全解析 —— 块设备虚拟化（19）本文内容参考：《趣谈Linux操作系统》 —— 刘超，极客时间《QEMU/KVM源码解析与应用》 —— 李强，机械工业出版社特此致谢！上一回大致解析了drive_new函数，本回重点对于drive_new函数中调用的blockdev_init函…...

编程日记 2025/7/31 16:17:47

JavaScript 笔记 --- part 4 --- Web API (part 2)

(webAPI part2) DOM 基本操作事件流定义: 指的是事件完整执行过程中的流动路径捕获阶段: 事件从最外层的窗口对象开始，逐层向内传播到目标元素，并触发相应的事件处理程序。冒泡阶段: 事件从目标元素开始，逐层向外传播到最外层的窗口对象…...

编程日记 2025/7/27 14:41:19

从入门到精通汇编语言第六章（中断及外部设备操作）

参考教程：通俗易懂的汇编语言（王爽老师的书）_哔哩哔哩_bilibili 一、移位指令 1、8个移位指令 （1）逻辑左移指令SHL：SHL OPR, CNT。 ①OPR为操作数，CNT为左移位数，该指令将OPR视作…...

编程日记 2025/7/31 5:53:09

PySide6 GUI 学习笔记——常用类及控件使用方法（常用类尺寸QSizeF）

QSizeF 类（浮点尺寸类） 文章目录 QSizeF 类（浮点尺寸类）概述主要方法列表详细说明及应用举例注意事项概述 QSizeF 类使用浮点精度定义二维对象的尺寸。官方文档在这里。主要方法列表 __init__(self) …...

编程日记 2025/7/30 9:44:30

操作系统中的虚拟化技术深度对话

操作系统中的虚拟化技术深度对话参与者：系统工程师（Engineer）、开发者（Developer）、学生（Student） 1. 虚拟化的基本概念 Student：虚拟化到底是什么？为什么操作系统需要…...

编程日记 2025/7/28 8:12:29

第35讲：构建属于自己的遥感大模型平台，并接入地理数据工作流

目录 🌍 写在前面一、为什么要构建属于自己的遥感大模型平台？二、核心技术选型推荐 ✅ 前端部分 ✅ 后端部分 ✅ 部署平台三、平台架构设计思路四、案例实战：构建一个在线遥感分割平台 📌 第一步：模型服务封装（FastAPI） 📌 第二步：前端上传与展示（L…...

编程日记 2025/7/29 12:04:30

langchain-nextjs-template 模板安装与配置

前提条件： node安装yarn 安装：npm install -g yarn 目录 1. 克隆项目2. 安装依赖3. 配置环境变量4. 修改模型配置5. 启动开发服务器6. 项目结构说明7. 功能说明8. 自定义提示模板部分过程文件截图 1. 克隆项目首先，从 GitHub 克隆 LangCha…...

编程日记 2025/7/28 8:12:25

安卓单机斗地主,具备休闲挑战等多模式

软件介绍斗地主单机版是一款超适合在安卓设备上玩的游戏。当你周末玩网游玩累了的时候，它就是个很不错的选择哦。多种模式可选这个斗地主单机版有不同的模式呢，有休闲模式、挑战模式、炸弹场和大师赛。你可以根据自己的喜好随意挑选模式&#xff0c…...

编程日记 2025/7/28 8:12:23

电解电容失效分析过程、失效分析报告

参考： 深度剖析关键电子元器件电解电容内部故障隐患电解电容的参数指标电路板中电解电容是存在寿命的，电解电容中的电解液随着时间会慢慢减少导致电容容值降低，最终导致电源出现问题。相信大家都见过电解电容鼓包的情况。所以做设计的时…...

编程日记 2025/7/28 8:12:21

Ubuntu修改Swap交换空间大小

前言： 安装Ubuntu系统时，选择了默认空间分配方案，Swap空间仅1G，而实际的物理内存有32G，分给Swap空间至少为内存的1倍，最好是内存值的2倍，系统相当卡顿，重做系统后，费力部…...

编程日记 2025/7/30 1:20:02

SpringBoot 知识图谱

预警：本文非常长，建议先 mark 后看，也许是最后一次写这么长的文章说明：前面有 4 个小节关于 Spring 的基础知识，分别是：IOC 容器、JavaConfig、事件监听、SpringFactoriesLoader 详解，它们占据了本文的大部分内容，虽然它们之间可能没有太多的联系，但这些知识对于理解 …...

编程日记 2025/7/28 8:12:17

智谱开源新一代GLM模型，全面布局AI智能体生态

2024年4月15日，智谱在中关村论坛上正式发布了全球首个集深度研究与实际操作能力于一体的AI智能体——AutoGLM沉思。这一革命性技术的发布标志着智谱在AGI（通用人工智能）领域的又一次重要突破。智谱的最新模型不仅推动了AI智能体技术的升级&am…...

编程日记 2025/7/28 2:19:13

一文读懂Python之numpy模块（34）

一、模块简介 numpy是Python语言中做科学计算的基础库，重在于数值计算，有一个强大的N维数组对象Array，同时NumPy 提供了大量的库函数和操作，可以帮助程序员轻松地进行Array数值计算。 numpy在数据分析和机器学习领域被广泛使用。…...

编程日记 2025/7/31 8:30:17

Lora 微调自定义device_map

Lora 微调自定义device_map 首先查看模型权重参数配置model.safetensors.index.json 查看多少解码器这里的layer可以理解为解码器层，后面有qkv，bais，layernomal等 # 显卡数量 num_gpus = 5 # 总层数 num_layers = 28layers_per_gpu = num_layers // num...

编程日记 2025/7/28 8:12:12

二叉树的顺序结构及实现

一.二叉树的顺序结构二.堆的概念及结构三.堆的实现一.二叉树的顺序结构普通的二叉树是不适合用数组来存储的，因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆 ( 一种二叉树 ) 使用顺序结构的数组来存储。二.堆的概念…...

编程日记 2025/7/30 16:16:36

python生成项目依赖文件requirements.txt

文章目录通过pip freeze去生成通过pipreqs去生成通过pip freeze去生成 pip freeze > requirements.txt会将整个python的Interceptor的环境下lib包下所有的依赖都生成到这个文件当中，取决于我们使用的python的版本下所有的安装包。不建议使用这种方式&#xff…...

编程日记 2025/7/28 8:12:08

Cribl 对Windows-xml log 进行 -flatten-03

The Flatten Function Description The Flatten Function is used to flatten fields out of a nested structure. Lets flatten the _raw JSON object, to further reduce the events size before we send it to the intended destination(s). Steps – Adding a Flatten…...

编程日记 2025/7/28 8:12:06

Pandas：数据处理与分析的核心操作

1. Pandas 基础数据结构

2. 数据选择与索引

3. 数据清洗与处理

4. 数据转换与重塑

5. 分组和聚合操作

6. 合并与连接数据

7. 时间序列分析

8. 数据分析与可视化

9. 数据导入与导出

10. 高级功能与性能优化

结论

相关文章：