❶ 主成分分析
主成分分析(Principal Component Analysis, PCA)
主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分。这些主成分是原始变量的线性组合,且彼此之间互不相关,能够反映出原始数据的大部分信息。
一、降维的作用
降维是将高维度的数据(指标太多)保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以节省大量的时间和成本,因此成为应用非常广泛的数据预处理方法。降维的优点包括:
二、主成分分析的思想
主成分分析的基本思想是通过线性变换,将原始的高维数据投影到低维空间上,同时尽量保持数据的原始信息。具体来说,就是寻找一个低维空间,使得原始数据在这个低维空间上的投影(即主成分)的方差最大,从而尽可能多地保留原始数据的信息。
(此处插入相关图片,展示主成分分析的思想和过程)
五、主成分分析的说明
在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
此外,主成分分析的成功应用还依赖于原始变量的合理选取。如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。
六、常见问题解答
逐步回归与主成分分析的选择:
如果你能够很好的解释清楚主成分代表的含义,那么可以在分析中使用主成分分析,同时也可以考虑使用逐步回归进行多重比较。
如果你解释不清楚主成分的含义,那么还是使用逐步回归更为稳妥。
主成分回归后是否需要带回原变量:
没必要将原变量带回到回归方程中。主成分的核心作用就是降维,如果带回去了,那么维度也就没有降下来,这与主成分分析的初衷相悖。