当前位置：首页 > news >正文

【Python】主成分分析PCA - 算法、问题与Python实现

news 来源：原创 2025/9/18 1:29:01

【Python】主成分分析PCA - 算法、问题与Python实现

一、PCA 算法简介
- （一）概念及作用
- （二）基本原理
- （三）算法步骤
- - 1.数据预处理
  - 2.计算协方差矩阵
  - 3.进行特征值分解
  - 4.选择主成分
  - 5.完成数据降维
二、PCA 常见问题
- （一）与其他算法的混淆点
- （二）参数相关问题
- （三）异常值影响
三、Python 实现
- （一）准备工作
- - **导入的库：**
- （二）代码实现步骤
- - 1.数据预处理（去中心化）
  - 2.计算协方差矩阵
  - 3.进行特征值分解：
  - 4. 选择主成分：
  - 5.完成数据降维：
- （三）结果解读与分析
四、总结

一、PCA 算法简介

（一）概念及作用

主成分分析PCA，旨在利用降维的思想，把多指标转化为少数几个综合指标。
例如，在面对大量样本或大矩阵的数据时（像许多机器学习、深度学习应用场景中常出现的情况），虽然多变量大样本能提供丰富信息，但也增加了数据采集工作量，并且多数情况下变量之间可能存在相关性，这使得问题分析的复杂性大大增加，对整体分析带来不便。若分别对每个指标孤立分析，难以做到综合考量；而盲目减少指标又会损失很多信息，容易得出错误结论。
PCA 可以很好地解决这个问题，它能在减少需要分析的指标或维度的同时，尽量减少原指标所含信息的损失，以达到对收集的数据进行全面分析的目的。
另外，PCA 还常用于数据压缩，比如图像处理领域的 KL 变换就使用 PCA 做图像压缩，通过将高维数据映射到低维空间，实现数据量的减少；在特征提取方面，能够帮助找出数据中最具代表性的特征，去除一些冗余或者相关性较强的特征；同时也是数据预处理的有效手段，可简化后续数据分析、建模等操作流程。

（二）基本原理

核心：通过线性变换将原始数据投影到新的坐标系中，使得各主成分按照方差从大到小的顺序进行排列。
从几何意义上来说，以二维空间为例，想象将坐标轴进行旋转，旋转到坐标轴和数据分布所形成椭圆的长短轴平行时，代表长轴的变量就描述了数据的主要变化，而短轴的变量则描述了次要变化，此时我们可以用长轴变量代表数据包含的大部分信息，而忽略短轴所代表的信息，这样就完成了降维。推广到多维空间也是类似的道理。
那么如何去寻找方差最大的方向作为主成分方向呢？假设我们有一组数据，用向量表示（包含多个样本点，每个样本点又有多个维度特征），我们希望找到一个投影方向（可以用向量表示），当把数据投影到这个方向上时，投影后的数据方差尽可能大。这里涉及到一些数学推导，根据方差的定义以及线性代数的知识，我们知道投影后的数据方差可以表示为（其中就是协方差矩阵的一种形式），同时为了保证这个方向是唯一的，通常会加上约束条件（即是单位向量），然后利用拉格朗日乘子法等数学方法求解这个带约束的最优化问题，最终可以得出是协方差矩阵的特征向量。按照特征值的大小，对应的特征向量所确定的方向就是方差从大到小的主成分方向，这样就完成了主成分的提取以及按照方差大小的排序。

（三）算法步骤

1.数据预处理

**去除均值：**首先对数据进行去中心化操作，即对于每一个特征维度，计算其均值，将每个样本在该维度上的值减去这个均值，目的是让数据的中心位于原点，方便后续的计算以及更好地体现数据的变化情况。例如，假设有一组二维数据，先分别计算维度的均值和维度的均值，然后将每个样本变为。
缩放特征：如果数据的各个特征维度的量纲不一致（比如一个特征是长度，单位是厘米，另一个特征是重量，单位是千克），那么还需要对特征进行缩放，常见的方法有标准化（将数据变为均值为 0，方差为 1 的分布）等，使得不同特征在后续计算中具有同等的重要性，避免因量纲问题导致某些特征对结果产生过大或过小的影响。

2.计算协方差矩阵

经预处理后的数据，接着计算其协方差矩阵。协方差矩阵反映了各个特征之间的相关性程度，其元素表示第个特征和第个特征之间的协方差。如果协方差为正值，说明两个特征正相关；协方差为负值，说明负相关；协方差为 0，则表示两个特征相互独立。对于维数据（有个特征），其协方差矩阵是一个的对称矩阵，可以通过相应的数学公式和编程方法（如在 Python 中利用numpy库的cov函数）来计算得到。

3.进行特征值分解

计算出协方差矩阵后，对其进行特征值分解。
特征值代表了对应特征向量方向上数据的方差大小，而特征向量就是我们前面提到的主成分方向。通过线性代数中的特征值分解算法，可以得到协方差矩阵的所有特征值以及对应的特征向量，并且一般按照特征值从大到小的顺序进行排列。

4.选择主成分

根据实际需求确定要选取的主成分个数。
常见的选取方法有两种，一种是设定一个累计方差贡献率的阈值（比如通常要求累计方差贡献率达到 80% 以上），按照特征值从大到小依次选取主成分，直到累计方差贡献率满足设定的阈值；另一种是根据特征值的大小，一般选取特征值大于等于 1 的主成分，因为特征值小于 1 意味着该主成分的解释力相对较低，对整体数据的代表性不强。

5.完成数据降维

确定好主成分后，将原始数据投影到选取的主成分所构成的空间中，也就是用原始数据与选取的主成分对应的特征向量做矩阵乘法运算，从而得到降维后的数据。例如，原始数据矩阵为（维，为样本个数，为特征个数），选取的个主成分对应的特征向量组成的矩阵为（维），那么降维后的数据（维）就可以通过来计算得到。

二、PCA 常见问题

（一）与其他算法的混淆点

在学习和使用 PCA 的过程中，很容易和一些其他算法产生混淆，其中较为典型的就是线性回归。

首先，从目的上看，线性回归主要是用于预测结果，它通过构建自变量与因变量之间的线性关系，基于给定的自变量来对因变量进行预测。例如在房价预测场景中，根据房屋面积、房龄等自变量去预测房价这个因变量。而 PCA 的目的并非是做预测，它重点在于对数据进行降维处理，将高维数据投影到低维空间，同时尽可能保留原数据的主要信息，以方便后续的数据处理、可视化或者特征提取等操作。
在计算误差方面也存在不同。线性回归计算的是点到拟合直线在垂直方向上的距离误差，也就是尝试最小化预测误差，使得预测值与真实值之间的差距尽可能小。而 PCA 计算的是点到投影点的正交距离（也就是最短距离），将其作为投射误差，PCA 的目标是找到一个令平方投影误差最小的低维空间。

（二）参数相关问题

PCA 的一个显著特点是完全无参数限制，这意味着它最后的结果只与数据本身有关，和用户是相对独立的。这种特性既有优势也存在一定弊端。

从优势角度来看：它使得算法具有较强的通用性和客观性，无需用户手动去调整大量参数，降低了使用门槛，并且能够简化模型或是对数据进行压缩，同时最大程度地保持了原有数据的信息，计算方法相对简单，易于在计算机上实现。
弊端也一样：有时候用户是具备一定的先验知识的，比如在某些特定领域中，根据过往经验或者专业知识，知道某些特征维度可能需要特殊对待，或者期望在降维过程中融入一些人为的干预因素，但由于 PCA 无参数限制这一特点，用户没办法将这些先验知识应用到处理过程中，就有可能导致最终的降维效果不佳，不能完全契合实际业务需求。例如在医学影像分析领域，专业医生可能对某些影像特征有特殊的关注和判断标准，但 PCA 在降维时不会考虑这些额外信息，可能会丢失一些关键特征的影响因素。

（三）异常值影响

异常值对 PCA 的结果产生影响主要是和 PCA 基于方差进行计算的原理相关。
PCA 的核心是要找到方差最大的方向作为主成分方向，数据的方差大小在整个算法过程中起着关键作用。而异常值往往是那些偏离大部分数据分布范围很远的数据点，它们的存在会极大地增大方差。比如说在一组正常身高数据集中（普遍在 150cm - 190cm 之间），突然出现了一个 250cm 这样的异常值，就会使得整体的方差被拉高。
在进行主成分计算时，方差的改变会干扰到各个方向上数据的分散程度衡量，进而影响对主成分方向的判断，最终导致计算出的主成分不能很好地代表原数据的真实结构和主要特征。所以在实际应用 PCA 之前，通常建议先对数据进行异常值的检测和处理，尽可能保证数据的质量，使得 PCA 能够发挥出更好的降维效果。

三、Python 实现

（一）准备工作

导入的库：

numpy 、sklearn.decomposition 模块里的 PCA 类，这个类可以让我们很方便地实现主成分分析，无需手动去进行复杂的底层计算。有时候可能还会用到 joblib 库来存储和读取训练好的 PCA 模型等，例如 import numpy as np 、from sklearn.decomposition import PCA 、import joblib 就是常见的导入语句写法。
数据集方面：以iris 数据集为例来进行介绍。

（二）代码实现步骤

1.数据预处理（去中心化）

from sklearn.datasets import load_iris
import numpy as npiris = load_iris()
X = iris.data
X_mean = np.mean(X, axis=0)
X_norm = X - X_mean# 用iris 数据集获取特征数据 X，然后利用 numpy 库的 mean 函数按列（axis=0 表示按列求均值）计算每一个特征维度的均值，接着将每个样本在各维度上的值减去对应的均值，这样就实现了数据去中心化操作，得到了处理后的 X_norm 数据，方便后续计算。

2.计算协方差矩阵

cov_matrix = np.cov(X_norm, rowvar=False)# 用 numpy 库的 cov 函数来计算协方差矩阵，参数 rowvar=False 表示一行代表一个样本，一列代表一个特征维度，计算出的 cov_matrix 就是反映各个特征之间相关性程度的协方差矩阵，其元素 C_{ij} 体现了第 i 个特征和第 j 个特征之间的协方差大小。

3.进行特征值分解：

eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)
# 通过 numpy 库的 linalg.eig 函数对协方差矩阵进行特征值分解，得到的 eigenvalues 就是各个特征值，代表了对应特征向量方向上数据的方差大小，而 eigenvectors 就是对应的特征向量，也就是我们所需要的主成分方向，并且这些特征值和特征向量一般是按照特征值从大到小的顺序排列的（不过在有些情况下可能需要我们进一步手动排序来确保顺序准确用于后续操作）。

4. 选择主成分：

k = 2  # 这里假设选择2个主成分，实际可根据需求调整
top_eigenvectors = eigenvectors[:, :k]
# 通常可以根据累计方差贡献率的阈值或者特征值大小等方法来确定要选取的主成分个数，这里简单示例选取 k （比如 k = 2 ）个主成分，然后通过切片操作从所有特征向量中取出对应个数的特征向量组成 top_eigenvectors，它就是我们确定好的用于降维的主成分所对应的特征向量矩阵。

5.完成数据降维：

X_projected = np.dot(X_norm, top_eigenvectors)
# 最后，将原始的去中心化后的数据 X_norm 与选取的主成分对应的特征向量矩阵 top_eigenvectors 做矩阵乘法运算（通过 numpy 的 dot 函数实现），得到的 X_projected 就是降维后的数据了，其维度从原来的特征维度降低到了我们选取的主成分个数对应的维度。

（三）结果解读与分析

首先，查看降维后的数据维度情况，比如我们前面示例中如果原始数据是 (150, 4) （150 个样本，4 个特征维度），经过降维选取 2 个主成分后，得到的降维后的数据维度变为 (150, 2)，这就直观体现了数据维度的降低情况。
然后，关注 PCA 类或者相关计算得到的特征值相关信息。例如在 sklearn 库中，PCA 实例化对象有 explained_variance_ 属性，它返回所有的特征值，我们可以通过查看这些特征值的大小以及它们之间的比例关系，了解每个主成分所解释的方差大小。还有 explained_variance_ratio_ 属性，它表示每一个特征向量对应的特征值占总的特征值之和的比值，也就是各个主成分的方差贡献率，通过累积这些贡献率，我们可以判断选取的主成分对原始数据方差的解释程度。比如累计方差贡献率达到 80% 以上，就说明我们选取的这些主成分能够较好地保留原始数据的大部分信息，降维效果是比较合理的；反之，如果贡献率过低，则可能需要考虑增加主成分个数等调整操作。

四、总结

希望本文有大家有帮助，如有错误，欢迎指正。
转载请注明原文链接：
https://blog.csdn.net/weixin_41613094/article/details/144589068?sharetype=blogdetail&sharerId=144589068&sharerefer=PC&sharesource=weixin_41613094&spm=1011.2480.3001.8118

【Python】主成分分析PCA - 算法、问题与Python实现

一、PCA 算法简介

（一）概念及作用

（二）基本原理

（三）算法步骤

1.数据预处理

2.计算协方差矩阵

3.进行特征值分解

4.选择主成分

5.完成数据降维

二、PCA 常见问题

（一）与其他算法的混淆点

（二）参数相关问题

（三）异常值影响

三、Python 实现

（一）准备工作

导入的库：

（二）代码实现步骤

1.数据预处理（去中心化）

2.计算协方差矩阵

3.进行特征值分解：

4. 选择主成分：

5.完成数据降维：

（三）结果解读与分析

四、总结

相关文章：