降维问题:主成分分析(PCA)详解
文章目录
一、引言
在机器学习和数据分析领域,我们常常会遇到高维数据。高维数据虽然包含了丰富的信息,但也带来了诸多问题,如计算复杂度增加、数据稀疏性、过拟合风险提高等。降维技术应运而生,它能够在尽可能保留数据重要信息的前提下,减少数据的维度。主成分分析(Principal Component Analysis,PCA)是一种常用的无监督降维方法,被广泛应用于数据可视化、特征提取、数据压缩等方面。本文将详细介绍 PCA 的原理、应用场景,并通过具体案例和代码展示其使用方法。
二、PCA 算法原理
2.1 基本思想
PCA 的核心思想是找到数据的主成分,这些主成分是数据方差最大的方向。通过将数据投影到这些主成分上,我们可以在减少数据维度的同时,尽可能保留数据的信息。具体来说,PCA 会寻找一组正交的方向(主成分),使得数据在这些方向上的投影方差最大。第一个主成分是数据方差最大的方向,第二个主成分是与第一个主成分正交且方差次大的方向,以此类推。
2.2 数学推导
假设我们有一个 n n n 维的数据集 X = [ x 1 , x 2 , ⋯ , x m ] T X = [x_1, x_2, \cdots, x_m]^T X=[x1,x2,⋯,xm]T,其中 x i x_i xi 是一个 n n n 维向量, m m m 是样本数量。PCA 的目标是找到一个 n × k n\times k n×k 的投影矩阵 W W W,将 X X X 投影到 k k k 维空间( k < n k < n k<n),得到降维后的数据 Y = X W Y = XW Y=XW。
为了找到最优的投影矩阵 W W W,我们需要最大化投影后数据的方差。设投影后的样本为 y i = W T x i y_i = W^T x_i yi=WTxi,投影后数据的协方差矩阵为 S y = 1 m − 1 ∑ i = 1 m ( y i − y ˉ ) ( y i − y ˉ ) T S_y = \frac{1}{m - 1} \sum_{i = 1}^{m} (y_i - \bar{y})(y_i - \bar{y})^T Sy=m−1
标签:方差,投影,降维,详解,成分,PCA,数据 From: https://blog.csdn.net/weixin_43651049/article/details/145870935