当前位置：首页 > news >正文

降维算法之t-SNE

news 来源：原创 2025/9/3 11:21:40

t-SNE（t-Distributed Stochastic Neighbor Embedding）算法详解

先说理解：

t-SNE（t-distributed Stochastic Neighbor Embedding）是一种用来“可视化高维数据”的降维方法，通俗来说，它就像一个“超级地图绘制员”，能把一堆复杂得看不懂的数据（比如几百个特征）“压扁”到2D或3D的平面图上，让你一眼就能看出数据的分布和聚集情况。

让我用一个生活化的例子来解释：

场景：朋友圈分组

假设你有100个朋友，每个朋友有50个特征：身高、体重、爱好、性格、收入等等。你想把他们画在一张纸上，分成几组相似的“朋友圈”，但50个特征没法直接画。t-SNE 就像一个帮你整理朋友的“神器”：

看关系：它先看看哪些朋友在高维空间里“靠得近”（特征相似），哪些“离得远”。
挤到平面：然后，它把这100个朋友“挤”到一张2D纸上，尽量保持原来的“亲疏关系”：相似的朋友靠在一起，不相似的分开。
调整细节：t-SNE 还会细调位置，让这张图既好看又准确，方便你一眼看出谁跟谁是一伙的。

怎么工作的？

高维距离：t-SNE 先算出高维空间里每对数据点（朋友）的“相似度”（用概率表示，越近越相似）。
低维模拟：然后，它在2D或3D空间里随机放点，再调整这些点的位置，让低维的“相似度”尽量匹配高维的。
优化布局：通过不断调整，t-SNE 让“近邻保持近，远邻保持远”，最后给你一张直观的图。

和 PCA 的区别

PCA：像整理东西，找的是“变化最大的方向”，结果是线性的，适合分析整体趋势。
t-SNE：像画社交地图，专注于“局部邻居关系”，结果是非线性的，适合展示聚类和分组。

举个例子

假如你有1000张照片的数据，每张有100个特征（颜色、纹理等）。t-SNE 可以把它们降到2D，画成一张散点图。你童鞋，你会看到：猫咪照片聚成一团，狗狗照片聚成另一团，风景照又分开一团，特别直观。

生活中的意义

t-SNE 就像你在整理相册，想快速看看哪些照片是同一个主题（度假、聚会）。它帮你把复杂数据变成一张“关系图”，一目了然。

简单来说，t-SNE 就是：把高维的乱七八糟数据，压成一张好看的2D地图，让你轻松看出谁跟谁近！

1. t-SNE 的基本概念

t-SNE（t-Distributed Stochastic Neighbor Embedding，t 分布随机邻居嵌入）是一种非线性降维算法，主要用于数据可视化，尤其适用于高维数据的低维表示（如 2D、3D 可视化）。

t-SNE 与 PCA 的区别

PCA 关注全局结构，通过线性变换找到最大方差方向。
t-SNE 关注局部结构，保持数据点之间的邻近关系。

由于 t-SNE 能够揭示数据的局部簇结构，因此在数据可视化、图像分析和生物信息学等领域被广泛使用。

2. t-SNE 的数学原理

2.1 高维空间中的相似度计算

t-SNE 首先在高维空间中定义数据点之间的概率分布，即每个点 $x_i$ 相对于另一个点 $x_j$ 的相似度 $p_{j|i}$ ，定义如下：
$p_{j|i} = \frac{\exp(-\|x_i - x_j\|^2 / 2\sigma^2)}{\sum_{k \neq i} \exp(-\|x_i - x_k\|^2 / 2\sigma^2)}$
其中 $\sigma$ 是高斯核带宽，用于控制相似度的尺度。

最终，高维数据点 $x_i$ 和 $x_j$ 之间的联合概率分布 $P_{ij}$ 计算如下：
$P_{ij} = \frac{p_{j|i} + p_{i|j}}{2n}$

2.2 低维空间中的相似度计算

在低维（目标）空间中，t-SNE 用**t 分布（自由度 1）**来计算相似度，以增强远距离点的区分度：
$Q_{ij} = \frac{(1 + \|y_i - y_j\|^2)^{-1}}{\sum_{k \neq l} (1 + \|y_k - y_l\|^2)^{-1}}$

2.3 Kullback-Leibler 散度（KL 散度）优化

t-SNE 通过最小化高维分布 $P_{ij}$ 和低维分布 $Q_{ij}$ 之间的Kullback-Leibler（KL）散度来优化数据点的位置：
$\sum_{i \neq j} P_{ij} \log \frac{P_{ij}}{Q_{ij}}$
通过梯度下降优化 $C$ ，使得 $Q_{ij}$ 逼近 $P_{ij}$ ，最终得到数据的低维表示。

3. t-SNE 的 Python 实现

import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits# 载入数据（手写数字数据集）
digits = load_digits()
X, y = digits.data, digits.target# 进行 t-SNE 降维
tsne = TSNE(n_components=2, perplexity=30, learning_rate=200, random_state=42)
X_tsne = tsne.fit_transform(X)# 可视化 t-SNE 结果
plt.figure(figsize=(8, 6))
plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='jet', alpha=0.7)
plt.colorbar(label='Digit Label')
plt.title("t-SNE Visualization of Digits Dataset")
plt.xlabel("t-SNE Component 1")
plt.ylabel("t-SNE Component 2")
plt.show()

4. t-SNE 的超参数

4.1 Perplexity（困惑度）

控制数据点的邻域大小，通常取值在 5 到 50 之间。
较小的 perplexity 关注局部结构，较大的 perplexity 关注全局结构。

4.2 Learning Rate（学习率）

影响梯度下降的步长，通常设置为 10 到 1000。
过低可能导致收敛缓慢，过高可能导致不稳定。

4.3 迭代次数（n_iter）

一般设为 1000 到 5000，确保收敛。

5. t-SNE 的优缺点

优点

能够很好地揭示数据的局部结构和簇结构。
适用于高维数据可视化。
适用于非线性数据结构的降维。

缺点

计算复杂度高（ $O(n^2)$ ），不适合大规模数据集。
随机性较大（不同运行可能得到不同的结果）。
不适用于数据外推（无法直接应用于新数据点）。

6. t-SNE 的应用场景

数据可视化：将高维数据映射到 2D/3D 以进行聚类和模式发现。
图像分析：用于人脸识别、图像分类等任务。
生物信息学：基因表达数据降维，可视化不同基因的分布模式。

7. 总结

t-SNE 是一种非线性降维方法，专注于局部结构的保持。
使用 KL 散度优化高维数据的低维投影。
适用于数据可视化，但计算复杂度较高。