首页 > 其他分享 >无监督学习——降维问题:主成分分析(PCA)详解

无监督学习——降维问题:主成分分析(PCA)详解

时间:2025-03-13 16:28:13浏览次数:3  
标签:方差 投影 降维 详解 成分 PCA 数据

降维问题:主成分分析(PCA)详解

文章目录

一、引言

在机器学习和数据分析领域,我们常常会遇到高维数据。高维数据虽然包含了丰富的信息,但也带来了诸多问题,如计算复杂度增加、数据稀疏性、过拟合风险提高等。降维技术应运而生,它能够在尽可能保留数据重要信息的前提下,减少数据的维度。主成分分析(Principal Component Analysis,PCA)是一种常用的无监督降维方法,被广泛应用于数据可视化、特征提取、数据压缩等方面。本文将详细介绍 PCA 的原理、应用场景,并通过具体案例和代码展示其使用方法。

二、PCA 算法原理

2.1 基本思想

PCA 的核心思想是找到数据的主成分,这些主成分是数据方差最大的方向。通过将数据投影到这些主成分上,我们可以在减少数据维度的同时,尽可能保留数据的信息。具体来说,PCA 会寻找一组正交的方向(主成分),使得数据在这些方向上的投影方差最大。第一个主成分是数据方差最大的方向,第二个主成分是与第一个主成分正交且方差次大的方向,以此类推。

2.2 数学推导

假设我们有一个 n n n 维的数据集 X = [ x 1 , x 2 , ⋯   , x m ] T X = [x_1, x_2, \cdots, x_m]^T X=[x1​,x2​,⋯,xm​]T,其中 x i x_i xi​ 是一个 n n n 维向量, m m m 是样本数量。PCA 的目标是找到一个 n × k n\times k n×k 的投影矩阵 W W W,将 X X X 投影到 k k k 维空间( k < n k < n k<n),得到降维后的数据 Y = X W Y = XW Y=XW。

为了找到最优的投影矩阵 W W W,我们需要最大化投影后数据的方差。设投影后的样本为 y i = W T x i y_i = W^T x_i yi​=WTxi​,投影后数据的协方差矩阵为 S y = 1 m − 1 ∑ i = 1 m ( y i − y ˉ ) ( y i − y ˉ ) T S_y = \frac{1}{m - 1} \sum_{i = 1}^{m} (y_i - \bar{y})(y_i - \bar{y})^T Sy​=m−1

标签:方差,投影,降维,详解,成分,PCA,数据
From: https://blog.csdn.net/weixin_43651049/article/details/145870935

相关文章