当前位置：首页 > news >正文

【ShuQiHere】pandas 与 DataFrame 全面详解

news 来源：原创 2025/9/17 11:14:36

【ShuQiHere】

本文将为您系统介绍 pandas 与 DataFrame 之间的区别，着重讲解 DataFrame 的常用方法以及相关的数据可视化操作，包括 df.hist()、df.plot()、df.boxplot() 等。无论您是数据分析新手还是有经验的专业人士，都可以从本文中快速掌握 pandas 的核心功能和使用技巧。

什么是 pandas？
什么是 DataFrame？
pandas 与 DataFrame 的区别
pandas 常用函数
- 数据读取与写入
- 描述性统计
- 数据处理
DataFrame 常用方法
- 数据查看与选择
- 数据清洗
- 数据转换
- 数据聚合与分组
- 数据合并与连接
- 数据排序
数据可视化方法
- df.hist()
- df.plot()
- df.boxplot()
综合示例操作
总结

1. 什么是 pandas？

pandas 是一个开源的 Python 数据分析与处理库，由 Wes McKinney 在 2008 年创建，旨在提供高效、灵活且易用的数据结构和数据分析工具。随着数据科学和机器学习的迅猛发展，pandas 已成为数据分析师、科学家和工程师日常工作中不可或缺的工具。

主要功能：
- 数据清洗与准备：处理缺失值、重复数据、数据格式转换等。
- 数据筛选与过滤：根据条件筛选数据，提取感兴趣的部分。
- 数据聚合与分组：按某些特征分组数据，进行汇总统计。
- 时间序列分析：处理和分析时间序列数据，如股票价格、气温变化等。
- 数据可视化（结合 Matplotlib 等库）：快速生成各种图表，直观展示数据特征。
核心数据结构：
- Series：一维标签数组，类似于 Python 列表，但每个元素都有标签（索引）。
- DataFrame：二维标签数据结构，类似于电子表格或数据库中的表格，是 pandas 最重要的数据结构之一。

pandas 的设计理念是让数据分析变得简单直观，同时保持高效的性能。无论是处理小规模的数据，还是大规模的数据集，pandas 都能胜任。

2. 什么是 DataFrame？

DataFrame 是 pandas 中最重要的数据结构之一，提供了一个二维的、大小可变的、带有标签的表格数据结构。可以将其看作是由多个 Series 组成的字典，每个 Series 代表表格的一列。

特点：
- 二维结构：拥有行和列，类似于电子表格或 SQL 表格。
- 标签化：行和列都有标签（索引），便于数据的定位和访问。
- 灵活性：支持多种数据类型（整数、浮点数、字符串等），可以轻松增删行列，处理缺失数据等。
- 高效性：底层基于 NumPy 实现，具备高效的计算性能。

创建 DataFrame 的方式：

从字典创建：

import pandas as pddata = {'姓名': ['小明', '小红', '小刚'],'年龄': [25, 30, 22],'城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)

这种方式简单直观，适用于数据量较小且结构明确的情况。

从列表创建：

data = [['小明', 25, '北京'],['小红', 30, '上海'],['小刚', 22, '广州']
]
df = pd.DataFrame(data, columns=['姓名', '年龄', '城市'])

适用于数据以列表形式存储的情况。

从 CSV 文件读取：
```
df = pd.read_csv('data.csv')
```
常用于从文件中导入数据，处理大规模数据集。

从 SQL 数据库读取：

import sqlite3conn = sqlite3.connect('database.db')
df = pd.read_sql_query('SELECT * FROM table_name', conn)

适用于从数据库中提取数据，便于与现有数据库系统集成。

DataFrame 提供了丰富的方法和属性，使数据操作和分析变得高效便捷。

3. pandas 与 DataFrame 的区别

要理解 pandas 和 DataFrame 之间的区别，需要明确它们各自的角色和功能：

pandas：
- 是一个完整的 Python 数据分析库，包含多种数据结构（如 Series 和 DataFrame）以及大量功能函数。
- 提供了用于数据读取、写入、处理、分析和可视化的全面工具集。
- 作为一个库，pandas 提供了所有实现数据分析任务所需的基础设施和工具。
DataFrame：
- 是 pandas 库中的一个核心数据结构，用于存储和操作二维数据。
- 类似于电子表格或数据库中的表格，具有行和列的结构。
- 提供了丰富的方法和属性，专门用于数据的选择、过滤、转换、聚合等操作。

简而言之，pandas 是整个“工具箱”，包含各种工具和函数；而 DataFrame 是其中一个重要的“工具”，专门用于处理表格数据。

4. pandas 常用函数

pandas 提供了丰富的函数，用于数据的读取、写入、处理和分析。以下介绍一些常用的 pandas 函数及其用途，帮助你在日常数据分析中高效工作。

数据读取与写入

1. 读取数据

pandas 支持从多种文件格式中读取数据，常见的有 CSV、Excel、JSON、SQL 等。可根据具体需求，选择合适的读取函数。

CSV 文件
```
import pandas as pddf = pd.read_csv('data.csv')
```
读取 CSV 文件，是最常用的数据导入方法之一。支持多种参数，如指定分隔符、处理缺失值等。
Excel 文件
```
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
```
读取 Excel 文件，适用于从电子表格中提取数据。支持指定工作表、处理多表格数据等。
JSON 文件
```
df = pd.read_json('data.json')
```
读取 JSON 文件，适用于从 API 或 Web 服务获取的数据。

SQL 数据库

import sqlite3conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)

从 SQL 数据库中读取数据，适用于与数据库系统集成的场景。

2. 写入数据

完成数据处理和分析后，通常需要将结果保存到文件或数据库中，以便后续使用或共享。

CSV 文件
```
df.to_csv('output.csv', index=False)
```
将 DataFrame 保存为 CSV 文件。index=False 参数可以避免保存行索引。
Excel 文件
```
df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)
```
将 DataFrame 保存为 Excel 文件。支持指定工作表名称和是否保存行索引。
JSON 文件
```
df.to_json('output.json', orient='records', lines=True)
```
将 DataFrame 保存为 JSON 文件。orient 和 lines 参数可以控制 JSON 格式。
SQL 数据库
```
df.to_sql('table_name', conn, if_exists='replace', index=False)
```
将 DataFrame 写入 SQL 数据库。if_exists 参数控制表存在时的操作方式，如 replace、append 等。

描述性统计

描述性统计用于快速了解数据的基本特征，如中心趋势和离散程度。pandas 提供了多种统计方法，方便快捷地获取这些信息。

df.describe()
```
stats = df.describe()
print(stats)
```
返回数值型列的计数、均值、标准差、最小值、四分位数和最大值等统计信息，是数据探索的第一步。

常用统计方法：

mean_age = df['年龄'].mean()   # 平均值
total_salary = df['工资'].sum()  # 总和
min_age = df['年龄'].min()     # 最小值
max_salary = df['工资'].max()   # 最大值
median_age = df['年龄'].median() # 中位数
std_salary = df['工资'].std()   # 标准差

这些方法可以单独使用，也可以结合使用，帮助全面了解数据的分布和特征。

数据处理

数据处理包括数据的清洗、转换、合并等操作，是数据分析中至关重要的一部分。pandas 提供了强大的函数来帮助完成这些任务。

合并与连接：
- pd.concat([df1, df2], axis=0)
  
  ：纵向合并
```
df_combined = pd.concat([df1, df2], axis=0)
```
- pd.concat([df1, df2], axis=1)
  
  ：横向合并
```
df_combined = pd.concat([df1, df2], axis=1)
```
- pd.merge(df1, df2, on=‘列名’)
  
  ：基于某列合并（类似 SQL JOIN）
```
df_merged = pd.merge(df1, df2, on='ID')
```

创建数据透视表：

pivot = df.pivot_table(values='销售额', index='地区', columns='月份', aggfunc='sum')

数据过滤：

high_salary_df = df[df['工资'] > 6000]

数据排序：

sorted_df = df.sort_values(by='工资', ascending=False)

通过这些数据处理方法，pandas 成为处理复杂数据任务的强大工具，帮助你轻松应对各种数据挑战。

5. DataFrame 常用方法

DataFrame 提供了许多方法，用于具体操作表格数据。以下是一些常见的方法与示例，帮助你高效地进行数据操作和分析。

数据查看与选择

查看数据
- df.head(n)：查看前 n 行
- df.tail(n)：查看后 n 行
- df.info()：获取数据概要（列名、数据类型、非空值数量）
- df.shape：查看数据维度 (行数, 列数)
选择数据
- 按列选择
  
  ：
```
ages = df['年龄']
```
- 按行选择
  
  ：
  - df.loc[行标签]：基于标签选择
  - df.iloc[行号]：基于整数位置选择
- 按条件选择
  
  ：
```
high_salary_df = df[df['工资'] > 6000]
```
- 多重选择
  
  ：
```
subset = df.loc[0:2, ['姓名', '工资']]
```

数据清洗

数据清洗确保数据的准确性和一致性，是数据分析的重要一步。

处理缺失值
- df.dropna()：删除含有缺失值的行
- df.fillna(填充值)：用指定值填充缺失值
- df.fillna(method='ffill')：前向填充
- df.fillna(method='bfill')：后向填充
删除重复数据
- df.drop_duplicates()：删除重复行
- df.drop_duplicates(subset=['列名'])：按指定列删除重复

数据标准化

统一字符串格式

：

df['城市'] = df['城市'].str.strip().str.upper()

统一日期格式

：

df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d')

数据转换

数据转换是将数据从一种形式转换为另一种形式，以适应不同的分析需求。

应用函数
- df.apply(函数)：将函数应用于每列或每行
- df.applymap(函数)：将函数应用于每个元素
数据类型转换
- df['年龄'] = df['年龄'].astype(float)：转换数据类型
- pd.to_numeric()：转换为数值类型
- pd.to_datetime()：转换为日期时间类型
重塑数据
- df.melt()：宽格式转长格式
- df.pivot()：长格式转宽格式

数据聚合与分组

数据聚合与分组用于对数据进行汇总和统计，发现数据模式与趋势。

分组操作

grouped_sum = df.groupby('城市')['工资'].sum()
grouped_mean = df.groupby('城市')['工资'].mean()
grouped_multi = df.groupby(['城市', '性别'])['工资'].mean()

聚合函数

df.agg({'列名': ['sum', 'mean']})：多种聚合

自定义聚合函数：

agg_results = df.agg({'工资': ['sum', 'mean', lambda x: x.max() - x.min()],'年龄': ['median']
})

分组后聚合：

grouped = df.groupby('城市').agg({'工资': 'mean','年龄': 'median'
})

数据合并与连接

在数据分析过程中，往往需要将来自不同来源的数据整合在一起，以获得更全面的信息。

合并 DataFrame
- pd.merge(df1, df2, on='列名', how='inner/left/right/outer')：基于某列合并
- pd.concat([df1, df2], axis=0)：纵向连接
- pd.concat([df1, df2], axis=1)：横向连接

高级合并

多键合并

：

df_merged = pd.merge(df1, df2, on=['ID', '日期'])

分别指定左右合并列

：

df_merged = pd.merge(df1, df2, left_on='ID', right_on='UserID')

数据排序

数据排序有助于按特定顺序展示数据，发现趋势和异常值。

排序
- df.sort_values(by='列名', ascending=True/False)：按某列排序
- df.sort_index()：按索引排序

多列排序

df_sorted = df.sort_values(by=['城市', '工资'], ascending=[True, False])

排序参数
- inplace=True：原地排序
- na_position='first' 或 'last'：指定 NaN 值位置

6. 数据可视化方法

数据可视化是数据分析的重要环节，帮助我们直观地理解数据的分布、趋势和关系。pandas 提供了多种内置的可视化方法，结合 Matplotlib 等库，可以快速生成各种图表。

df.hist()

df.hist() 用于绘制每个数值型列的直方图，帮助了解数据的分布情况。

import matplotlib.pyplot as pltdf.hist(bins=10, figsize=(10, 8))
plt.suptitle('数据分布直方图')
plt.show()

常用参数

：
- bins：直方图的柱数。
- figsize：图表大小。
- column：指定绘制哪几列。
- color：颜色。

示例：

df.hist(column='工资', bins=5, figsize=(6,4), color='skyblue')
plt.title('工资分布直方图')
plt.xlabel('工资')
plt.ylabel('频数')
plt.show()

df.plot()

df.plot() 是一个功能强大的通用绘图方法，支持多种图表类型，如折线图、散点图、条形图等。通过 kind 参数可快速生成不同类型的图表。

df.plot(kind='line', x='日期', y='销售额')
plt.show()

常用参数

：
- kind：图表类型（line、scatter、bar、hist 等）。
- x/y：指定 x 轴、y 轴数据列。
- title：图表标题。
- xlabel、ylabel：轴标签。
- figsize：图表大小。
- color：颜色。
- marker：折线图中的标记样式。

示例：

# 折线图
df.plot(kind='line', x='姓名', y='工资', marker='o', color='green', title='员工工资折线图')
plt.xlabel('姓名')
plt.ylabel('工资')
plt.grid(True)
plt.show()# 散点图
df.plot(kind='scatter', x='年龄', y='工资', color='red', title='年龄 vs 工资散点图')
plt.xlabel('年龄')
plt.ylabel('工资')
plt.show()# 条形图
df.plot(kind='bar', x='姓名', y='工资', color='purple', title='员工工资条形图')
plt.xlabel('姓名')
plt.ylabel('工资')
plt.show()

df.boxplot()

df.boxplot() 用于绘制箱线图，帮助识别数据的中位数、四分位数和异常值。

df.boxplot(column=['工资', '年龄'], by='城市')
plt.title('工资与年龄箱线图')
plt.suptitle('')
plt.show()

常用参数

：
- column：指定要绘制的列。
- by：按某列分组绘制箱线图。
- grid：是否显示网格。
- figsize：图表大小。
- vert：是否垂直显示。

示例：

df.boxplot(column=['工资', '工资增长'], grid=False)
plt.title('工资与工资增长箱线图')
plt.ylabel('金额')
plt.show()

7. 综合示例操作

以下示例将数据的读取、清洗、转换、聚合以及可视化结合起来，演示如何使用 pandas 完成一个完整的数据分析过程。

import pandas as pd
import matplotlib.pyplot as plt# 1. 创建 DataFrame
data = {'姓名': ['小明', '小红', '小刚', '小丽'],'年龄': [25, 30, 22, 28],'城市': ['北京', '上海', '广州', '深圳'],'工资': [5000, 6000, 4500, 7000]
}
df = pd.DataFrame(data)# 2. 查看前几行数据
print("前两行数据：")
print(df.head(2))# 3. 查看描述性统计
print("\n描述性统计：")
print(df.describe())# 4. 选择'年龄'列
ages = df['年龄']
print("\n年龄列：")
print(ages)# 5. 过滤年龄大于25的人
filtered_df = df[df['年龄'] > 25]
print("\n年龄大于25的人：")
print(filtered_df)# 6. 添加新列 - 工资增长（假设工资增长10%）
df['工资增长'] = df['工资'] * 1.1
print("\n添加工资增长列：")
print(df)# 7. 删除缺失值（此示例中无缺失值）
df_clean = df.dropna()
print("\n删除缺失值后的 DataFrame：")
print(df_clean)# 8. 按城市分组并求平均工资
grouped = df.groupby('城市')['工资'].mean()
print("\n按城市分组的平均工资：")
print(grouped)# 9. 数据可视化# 9.1 直方图 - 工资分布
df.hist(column='工资', bins=5, figsize=(6,4), color='skyblue')
plt.title('工资分布直方图')
plt.xlabel('工资')
plt.ylabel('频数')
plt.show()# 9.2 折线图 - 员工工资
df.plot(kind='line', x='姓名', y='工资', marker='o', color='green', title='员工工资折线图')
plt.xlabel('姓名')
plt.ylabel('工资')
plt.grid(True)
plt.show()# 9.3 箱线图 - 工资与工资增长
df.boxplot(column=['工资', '工资增长'], grid=False)
plt.title('工资与工资增长箱线图')
plt.ylabel('金额')
plt.show()

代码说明：

创建 DataFrame：生成一个包含姓名、年龄、城市和工资信息的示例数据。
查看数据

：
- df.head(2)：查看前两行数据。
- df.describe()：获取数值型列的基本统计信息。
选择与过滤

：
- 筛选“年龄”列，进一步查看和分析。
- 筛选年龄大于 25 岁的人员。
数据转换

：
- 添加“工资增长”列，假设增长 10%，展示新增列的计算。
数据清洗

：
- 删除缺失值（本示例无缺失值，仅作示范）。
数据分组

：
- 按城市分组，计算各城市的平均工资，比较不同城市间的薪资水平。
数据可视化

：
- 直方图：展示工资分布。
- 折线图：展示每位员工的工资。
- 箱线图：展示工资与工资增长的分布情况。

通过此示例，可以更好地理解 pandas 与 DataFrame 各种功能的实际应用与组合，完成一个从数据读取到可视化的完整分析流程。

8. 总结

pandas 是一个功能强大的 Python 数据分析库，提供了多种数据结构（Series、DataFrame）和丰富的函数，能满足数据读取、清洗、转换、聚合、可视化等全流程需求。
DataFrame 是 pandas 处理二维数据的核心结构，类似于电子表格，拥有行、列标签，并提供了非常直观的操作方式。
pandas 常用函数 可以轻松完成数据读取、写入、清洗、聚合等操作；DataFrame 本身也具有大量的方法（如 head()、describe()、groupby()、pivot_table() 等）来满足日常分析需求。
数据可视化 方法（df.hist()、df.plot()、df.boxplot() 等）结合 Matplotlib，可快速生成多种图表，直观地探索和展示数据。
通过综合示例，我们展示了如何结合运用 pandas 的各种功能，实现一个完整的数据分析与可视化流程，进一步加深了对其强大功能与便捷性的体会。

希望本篇详尽的介绍能帮助您更好地理解和使用 pandas 与 DataFrame。如有其他问题，欢迎随时提问或交流！

关于更多数据分析技巧

建议掌握 NumPy（pandas 的底层依赖）以获得更深入的向量化操作体验。
结合 Matplotlib、Seaborn 等高级可视化库，可进一步提升图表的美观度与可读性。
熟练应用 SQL 与数据库连接，有助于应对大规模数据场景并进行复杂的查询。

祝您的数据分析之旅顺利高效！如果本文对您有所帮助，欢迎分享给更多需要的人。