什么是主维度分析(PCA)

文章目录

  • 什么是降维
  • 什么是主维度分析(PCA)

什么是降维

训练模型时,如果数据集的特征数过多(比如文本分类时,二元词组有上万个),那么训练起来会很慢。而且可能会因为数据量不够大,但是维度过高,使得数据分布非常的稀疏,降低训练效果。

降维能够有效的避免上述缺点。理想的降维是将和训练目的比较不相关的特征排除,仅留下有用的那部分,从而提高训练效果。

但是降维过程中,维数的下降不可避免地会导致信息的丢失。因为对数据降维后,模型在预测时需要恢复到原来的样子。

如何有效降低维数,同时尽量减少信息丢失,就是降维的目标。

什么是主维度分析(PCA)_第1张图片什么是主维度分析(PCA)_第2张图片什么是主维度分析(PCA)_第3张图片
【上图展示出:PCA中,降维并试图还原时,信息的丢失。三幅图按序分别代表:原始维度中的数据、分析出的主维度中的数据、降维至一个主维度后恢复至原维度的数据】

什么是主维度分析(PCA)

PCA(Principal component analysis,主维度分析)是一种维度提取方法,这需要和维度选择方法区分开。

选择,意味着从原有维度(特征)中选择一部分保留,而忽略其他维度(特征);而提取,可以随意构建新的维度,不限于已有的维度,然而新选出的维度就不一定具有特殊含义了,因而比起特征选择来说,不是很便于理解。

PCA提取维度的思路是,让新构建的维度上,数据的方差最大化。正如PCA的名字所示,主维度分析,是要通过分析数据,找出最主要的那些维度。找出的这些主要维度数量比原数据的维度小很多,从而达到降维的目的。

PCA是一种传统的适用性较强的方法。该方法首次发表于一个世纪前的1901年,目前已经有很多表现更加优秀的方法。此外,PCA是自编码器的一种特例。这也是为什么在深度学习中,通常没有机器学习中这样明显的一步特征提取的步骤。

你可能感兴趣的