快速學會一個機器學習算法：t-SNE降維

發布于 2025-3-7 11:35

瀏覽

0收藏

在高維數據分析與可視化領域，t-分布隨機鄰域嵌入（t-Distributed Stochastic Neighbor Embedding，簡稱t-SNE） 因其卓越的降維與可視化能力，成為數據科學家們的重要工具。本文將全面介紹t-SNE的算法概述、工作原理，并通過一個詳細的案例分析，展示如何在實際中應用t-SNE進行數據可視化。

一、什么是t-SNE？

t-SNE是一種非線性降維技術，主要用于高維數據的可視化。由Laurens van der Maaten和Geoffrey Hinton于2008年提出，t-SNE通過將高維數據映射到二維或三維空間，保留數據的局部結構，使得在低維空間中的數據點分布能夠反映出高維空間中的相似性與簇結構。t-SNE廣泛應用于圖像處理、自然語言處理、生物信息學等領域的數據探索與分析。

二、t-SNE的算法原理

t-SNE的核心思想是將高維數據點之間的相似性轉化為低維空間中的概率分布，并通過最小化這兩個分布之間的Kullback-Leibler散度（KL散度），實現數據的有效降維。

2.1 高維空間中的相似性

快速學會一個機器學習算法：t-SNE降維-AI.x社區

2.2 低維空間中的相似性

快速學會一個機器學習算法：t-SNE降維-AI.x社區

2.3 優化目標

快速學會一個機器學習算法：t-SNE降維-AI.x社區

通過梯度下降等優化方法，t-SNE逐步調整低維空間中的點位置，使得KL散度最小化，從而達到高維數據的有效降維與可視化。

2.4 關鍵特點

保留局部結構：t-SNE擅長保留數據的局部鄰域結構，使得相似的數據點在低維空間中保持相近。
處理非線性關系：與PCA等線性降維方法不同，t-SNE能夠捕捉數據中的非線性關系。
參數敏感性：t-SNE的效果對超參數（如學習率、鄰居數）較為敏感，需要根據具體數據進行調整。
計算復雜度：由于需要計算所有點對之間的相似性，t-SNE在處理大規模數據時計算開銷較大，但近年來通過近似算法和并行計算得到了優化。

三、案例分析

3.1 生成模擬數據

我們將生成一個包含四個簇的高維數據集，然后通過t-SNE將其映射到二維空間，以觀察t-SNE在不同簇之間的分離效果。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_blobs
from sklearn.manifold import TSNE

# 設置隨機種子，確保結果可重復
np.random.seed(42)

# 生成模擬數據
n_samples = 1000
n_features = 50
n_clusters = 4

X, y = make_blobs(n_samples=n_samples, n_features=n_features, centers=n_clusters, cluster_std=5.0, random_state=42)

# 打印數據形狀
print(f"數據形狀: {X.shape}")

Data shape: (1000, 50)

3.2 應用t-SNE進行降維

# 初始化t-SNE
tsne = TSNE(n_components=2, perplexity=30, learning_rate=200, n_iter=1000, random_state=42)

# 執行降維
X_embedded = tsne.fit_transform(X)

# 打印降維后的數據形狀
print(f"降維后數據形狀: {X_embedded.shape}")

Reduced data shape: (1000, 2)

3.3 可視化結果

# 設置Seaborn風格
sns.set(style="whitegrid", context="notebook", palette="deep")

# 創建一個畫布
plt.figure(figsize=(10, 8))

# 繪制t-SNE結果
scatter = plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y, cmap='viridis', s=50, alpha=0.7)

# 添加圖例
legend = plt.legend(*scatter.legend_elements(), title="簇")
plt.gca().add_artist(legend)

# 設置標題和標簽
plt.title('t-SNE 降維結果', fontsize=16)
plt.xlabel('t-SNE 維度 1', fontsize=14)
plt.ylabel('t-SNE 維度 2', fontsize=14)

# 隱藏頂端和右側邊框
sns.despine()

# 展示圖形
plt.show()