『壹』 主成分分析法適用於哪些問題
主成分分析法適用於變數間有較強相關性的數據,若原始數據相關性弱,則起不到很好的降維作用,降維後,存在少量信息丟失,不可能包含100%原始數據。
主成分分析是一種統計方法,即通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。主成分分析首先是由K.皮爾森對非隨機變數引入的,而後H.霍特林將此方法推廣到隨機向量的情形。
『貳』 主成分分析法的應用分析
在社會調查中,對於同一個變數,研究者往往用多個不同的問題來測量一個人的意見。這些不同的問題構成了所謂的測度項,它們代表一個變數的不同方面。主成分分析法被用來對這些變數進行降維處理,使它們「濃縮」為一個變數,稱為因子。
在用主成分分析法進行因子求解時,我們最多可以得到與測度項個數一樣多的因子。如果保留所有的因子,就起不到降維的目的了。但是我們知道因子的大小排列,我們可以對它們進行舍取。哪有那麼多小的因子需要舍棄呢?在一般的行為研究中,我們常常用到的判斷方法有兩個:特徵根大於1法與碎石坡法。
因為因子中的信息可以用特徵根來表示,所以我們有特徵根大於1這個規則。如果一個因子的特徵根大於1就保留,否則拋棄。這個規則,雖然簡單易用,卻只是一個經驗法則(rule of thumb),沒有明確的統計檢驗。不幸的是,統計檢驗的方法在實際中並不比這個經驗法則更有效(Gorsuch, 1983)。所以這個經驗法則至今仍是最常用的法則。作為一個經驗法則,它不總是正確的。它會高估或者低估實際的因子個數。它的適用范圍是20-40個的測度項,每個理論因子對應3-5個測度項,並且樣本量是大的 ( 3100)。
碎石坡法是一種看圖方法。如果我們以因子的次序為X軸、以特徵根大小為Y軸,我們可以把特徵根隨因子的變化畫在一個坐標上,因子特徵根呈下降趨勢。這個趨勢線的頭部快速下降,而尾部則變得平坦。從尾部開始逆向對尾部畫一條回歸線,遠高於回歸線的點代表主要的因子,回歸線兩旁的點代表次要因子。但是碎石坡法往往高估因子的個數。這種方法相對於第一種方法更不可靠,所以在實際研究中一般不用。
拋棄小因子、保留大因子之後,降維的目的就達到了。 在對社會調查數據進行分析時,除了把相關的問題綜合成因子並保留大的因子,研究者往往還需要對因子與測度項之間的關系進行檢驗,以確保每一個主要的因子(主成分)對應於一組意義相關的測度項。為了更清楚的展現因子與測度項之間的關系,研究者需要進行因子旋轉。常見的旋轉方法是VARIMAX旋轉。旋轉之後,如果一個測度項與對應的因子的相關度很高(>0.5)就被認為是可以接受的。如果一個測度項與一個不對應的因子的相關度過高(>0.4),則是不可接受的,這樣的測度項可能需要修改或淘汰。
用主成分分析法得到因子,並用因子旋轉分析測度項與因子關系的過程往往被稱為探索性因子分析。
在探索性因子分析被接受之後,研究者可以對這些因子之間的關系進行進一步測試,比如用結構方程分析來做假設檢驗。 1問題的提出主成分分析是一種降維的方法,便於分析問題,在諸多領域中都有廣泛的應用。但有些教科書與論文使用主成分分析時,出現了一些錯誤與不足,不能解決實際問題。如一些多元統計分析的教材中,用協方差矩陣的主成分分析出現了如下錯誤與不足:①沒有明確和判斷該數據降維的條件是否成立。②主成分系數的平方和不為1。③沒有明確和判斷所用數據是否適合作單獨的主成分分析。④選取的主成分對原始變數沒有代表性。以下從相關性等理論與結果上依次解決上述問題,並給出相應建議。2數據在行為與心理研究中,常常要求分析某種身份的人的行為特徵,如本例中的小學生的日常行為特徵,從而根據這些特徵引導小學生向更積極的行為態度發展。這里用文獻[1]的數據見表1,其來自某課題組的調查結果。課題組對北方某小學480名5~6年級學生的日常行為進行調查,共調查了11項指標如下:S1~對老師提問的反應、S2~對班級事務的關心、S3~自習課上的表現、S4~對家庭作業的態度、S5~關心同學的程度、S6~對待勞動的態度、S7~學習上的特殊興趣、S8~對待體育鍛煉的態度、S9~在娛樂上的偏好、S10~解決問題的思考方式、S11~對未來的打算
主成分分析法和層次分析法異同
1.基於相關性分析的指標篩選原理
兩個指標之間的相關系數,反映了兩個指標之間的相關性[1]。相關系數越大,兩個指標反映的信息相關性就越高[1]。而為了使評價指標體系簡潔有效,就需要避免指標反映信息重復[1]。通過計算同一準則層中各個評價指標之間的相關系數,刪除相關系數較大的指標,避免了評價指標所反映的信息重復[2]。通過相關性分析,簡化了指標體系,保證了指標體系的簡潔有效[2]。
2.基於主成分分析的指標篩選原理
(1)因子載荷的原理
通過對剩餘多個指標進行主成分分析,得到每個指標的因子載荷。因子載荷的絕對值小於等於1,而絕對值越是趨向於1,指標對評價結果越重要[3]。
(2)基於主成分分析的指標篩選原理
因子載荷反映指標對評價結果的影響程度,因子載荷絕對值越大表示指標對評價結果越重要,越應該保留;反之,越應該刪除。1通過對相關性分析篩選後的指標進行主成分分析,得到每個指標的因子載荷,從而刪除因子載荷小的指標,保證篩選出重要的指標[2]。
3.相關性分析和主成分分析相同點
一是,基於相關性分析的指標篩選和基於主成分分析的指標篩選,均是在准則層內進行指標的篩選處理,准則層之間不進行篩選。這種做法的原因是,通過人為地劃分不同准則層,反映評價事物不同層面的狀況,避免誤刪反應信息不同的重要指標[2]。
二是,基於相關性分析的指標篩選和基於主成分分析的指標篩選的思路,均是篩選出少量具有代表性的指標[2]。
4.相關性分析和主成分分析不同點
一是,兩次篩選的目的不同:基於相關性分析的指標篩選的目的是刪除反應信息冗餘的評價指標。基於主成分分析的指標篩選的目的是刪除對評價結果影響較小的評價指標[2]。
二是,兩次篩選的作用不同:基於相關性分析的指標篩選的作用是保證蹄選出的評價指標體系簡潔明快。基於主成分分析的指標簡選的目的是篩選出重要的指標[2]。
[1]遲國泰,曹婷婷,張昆.基於相關主成分分析的人的全面發展評價指標體系的構建[J].系統工
程理論與實踐,2013,32(1):112-119.
[2]李鴻禧.基於相關主成分分析的港口物流評價研究[D].遼寧大連:大連理工大學,2013.
[3]孫慧,劉媛媛,張娜娜.基於主成分分析的煤炭產業競爭力實證研究[J].資源與產業,2012,14(1):145-149.