❶ 主成分分析
主成分分析(Principal Component Analysis, PCA)
主成分分析是一種降維演算法,它能將多個指標轉換為少數幾個主成分。這些主成分是原始變數的線性組合,且彼此之間互不相關,能夠反映出原始數據的大部分信息。
一、降維的作用
降維是將高維度的數據(指標太多)保留下最重要的一些特徵,去除雜訊和不重要的特徵,從而實現提升數據處理速度的目的。在實際的生產和應用中,降維在一定的信息損失范圍內,可以節省大量的時間和成本,因此成為應用非常廣泛的數據預處理方法。降維的優點包括:
二、主成分分析的思想
主成分分析的基本思想是通過線性變換,將原始的高維數據投影到低維空間上,同時盡量保持數據的原始信息。具體來說,就是尋找一個低維空間,使得原始數據在這個低維空間上的投影(即主成分)的方差最大,從而盡可能多地保留原始數據的信息。
(此處插入相關圖片,展示主成分分析的思想和過程)
五、主成分分析的說明
在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平,其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋。主成分的解釋其含義一般多少帶有點模糊性,不像原始變數的含義那麼清楚、確切,這是變數降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變數個數p(除非p本身較小),否則維數降低的「利」可能抵不過主成分含義不如原始變數清楚的「弊」。
此外,主成分分析的成功應用還依賴於原始變數的合理選取。如果原始變數之間具有較高的相關性,則前面少數幾個主成分的累計貢獻率通常就能達到一個較高水平,也就是說,此時的累計貢獻率通常較易得到滿足。主成分分析的困難之處主要在於要能夠給出主成分的較好解釋,所提取的主成分中如有一個主成分解釋不了,整個主成分分析也就失敗了。
六、常見問題解答
逐步回歸與主成分分析的選擇:
如果你能夠很好的解釋清楚主成分代表的含義,那麼可以在分析中使用主成分分析,同時也可以考慮使用逐步回歸進行多重比較。
如果你解釋不清楚主成分的含義,那麼還是使用逐步回歸更為穩妥。
主成分回歸後是否需要帶回原變數:
沒必要將原變數帶回到回歸方程中。主成分的核心作用就是降維,如果帶回去了,那麼維度也就沒有降下來,這與主成分分析的初衷相悖。