A. 主成分分析法
在對災毀土地復墾效益進行分析時,會碰到眾多因素,各因素間又相互關聯,將這些存在相關關系的因素通過數學方法綜合成少數幾個最終參評因素,使這幾個新的因素既包含原來因素的信息又相互獨立。簡化問題並抓住其本質是分析過程中的關鍵,主成分分析法可以解決這個難題。
(一)主成分分析的基本原理
主成分分析法(Principal Components Analysis,PCA)是把原來多個變數化為少數幾個綜合指標的一種統計分析方法。從數學角度來看,這是一種降維處理方法,即通過對原始指標相關矩陣內部結果關系的研究,將原來指標重新組合成一組新的相互獨立的指標,並從中選取幾個綜合指標來反映原始指標的信息。假定有n個評價單元,每個評價單元用m個因素來描述,這樣就構成一個n×m階數據矩陣:
災害損毀土地復墾
如果記m個因素為 x1,x2,…,xm,它們的綜合因素為 z1,z2,…,zp(p≤m),則:
災害損毀土地復墾
系數lij由下列原則來決定:
(1)zi與zj(i≠j,i,j=1,2,…,p)相互無關;
(2)z1是x1,x2,…,xm的一切線性組合中方差最大者,依此類推。
依據該原則確定的綜合變數指標z1,z2,…,zp分別稱為原始指標的第1、第2、…、第p個主成分,分析時可只挑選前幾個方差最大的主成分。
(二)主成分分析法的步驟
(1)將原始數據進行標准化處理,以消除原始數據在數量級或量綱上的差異。
(2)計算標准化的相關數據矩陣:
災害損毀土地復墾
(3)用雅克比法求相關系數矩陣R的特徵值(λ1,λ2,…,λp)和與之相對應的特徵向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。
(4)選擇重要的主成分,並寫出其表達式。
主成分分析可以得到P個主成分,但是由於各個主成分的方差與其包含的信息量皆是遞減的,所以在實際分析時,一般不選取P個主成分,而是根據各個主成分所累計的貢獻率的大小來選取前K個主成分,這里的貢獻率是指某個主成分的方差在全部方差中所佔的比重,實際上也是某個特徵值在全部特徵值合計中所佔的比重。即:
災害損毀土地復墾
這說明,主成分所包含的原始變數的信息越強,貢獻率也就越大。主成分的累計貢獻率決定了主成分個數K的選取情況,為了保證綜合變數能包括原始變數的絕大多數信息,一般要求累計貢獻率達到85%以上。
另外,在實際應用過程中,選擇主成分之後,還要注意主成分實際含義的解釋。如何給主成分賦予新的含義,給出合理的解釋是主成分分析中一個相當關鍵的問題。一般來說,這個解釋需要根據主成分表達式的系數而定,並與定性分析來進行有效結合。主成分是原來變數的線性組合,在這個線性組合中各變數的系數有正有負、有大有小,有的又大小相當,因此不能簡單地把這個主成分看作是某個原變數的屬性作用。線性組合中各變數系數的絕對值越大表明該主成分主要包含了該變數;如果有幾個大小相當的變數系數時,則認為這一主成分是這幾個變數的綜合,而這幾個變數綜合在一起具有什麼樣的實際意義,就需要結合具體的問題和專業,給出合理的解釋,進而才能達到准確分析的目的。
(5)計算主成分得分。根據標准化的原始數據,將各個樣品分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數據,即為主成分得分。具體形式可如下:
災害損毀土地復墾
(6)依據主成分得分的數據,則可以進行進一步的統計分析。其中,常見的應用有主成分回歸,變數子集合的選擇,綜合評價等。
(三)主成分分析法的評價
通過主成分分析法來評價復墾產生的效益,可將多個指標轉化成盡可能少的綜合性指標,使綜合指標間互不相干,既減少了原指標信息的重疊度,又不丟失原指標信息的總含量。該方法不僅將多個指標轉化成綜合性指標,而且也能對每個主成分的影響因素進行分析,從而判別出影響整個評價體系的關鍵因素,並且主成分分析法在確定權重時可以科學地賦值,以避免主觀因素的影響。
需要注意的是,主成分分析法雖然可以對每個主成分的權重進行科學、定量的計算,避免人為因素及主觀因素的影響,但是有時候賦權的結果可能與客觀實際有一定誤差。因此,利用主成分分析法確定權重後,再結合不同專家給的權重,是最好的解決辦法。這樣可以在定量的基礎上作出定性的分析,通過一定的數理方法將兩種數據結合起來考慮。
B. 試述主成分分析,因子分析和對應分析三者之間的區別與聯系
一、方式不同:
1、主成分分析:
通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。
2、因子分析:
通過從變數群中提取共性因子,因子分析可在許多變數中找出隱藏的具有代表性的因子。
3、對應分析:
通過分析由定性變數構成的交互匯總表來揭示變數。
二、作用體現不同:
1、主成分分析:
主成分分析作為基礎的數學分析方法,其實際應用十分廣泛,比如人口統計學、數量地理學、分子動力學模擬、數學建模、數理分析等學科中均有應用。
2、因子分析:
因子分析在市場調研中有著廣泛的應用,主要包括消費者習慣和態度研究、品牌形象和特性研究、服務質量調查、個性測試。
3、對應分析:
能把眾多的樣品和眾多的變數同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉等復雜的數學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,是一種直觀、簡單、方便的多元統計方法。
(2)主成分分析方法的主要應用擴展閱讀
主成分分析對於原先提出的所有變數,將重復的變數(關系緊密的變數)刪去多餘,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。
對應分析是由法國人Benzenci於1970年提出的,起初在法國和日本最為流行,然後引入到美國。對應分析法是在R型和Q型因子分析的基礎上發展起來的一種多元統計分析方法,因此對應分析又稱為R-Q型因子分析。
在因子分析中,如果研究的對象是樣品,則需採用Q型因子分析;如果研究的對象是變數,則需採用R型因子分析。但是,這兩種分析方法往往是相互對立的,必須分別對樣品和變數進行處理。
C. 主成分分析方法適用哪個方面研究
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標(即主成分),其中每個主成分都能夠反映原始變數的大部分信息,且所含信息互不重復。這種方法在引進多方面變數的同時將復雜因素歸結為幾個主成分,使問題簡單化,同時得到的結果更加科學有效的數據信息。在實際問題研究中,為了全面、系統地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在多元統計分析中也稱為變數。因為每個變數都在不同程度上反映了所研究問題的某些信息,並且指標之間彼此有一定的相關性,因而所得的統計數據反映的信息在一定程度上有重疊。主要方法有特徵值分解,SVD,NMF等。
D. SPSS的主成分分析主要是解決什麼問題
spss的主成分分析主要應用在因子分析里,目的是將原來很多的因素,通過他們內在的相關分析,整合成新的一個或多個相對獨立的綜合因素,來代表原來散亂的因素。例如我們測量客戶滿意度,設計了10個題目,那數據收集完後,就可以通過因子分析,來看看這10個題目是否能綜合成幾個因素。通過spss的主成分分析,就可以得出相應結果。結果可能是其中5個題目的相關顯著,可以通過一個因素來歸納這5個因素,另外3個、2個也可以分別組成一個,而且主成分對應的特徵值大於1,這樣就最後就可以通過3個綜合因素來研究和分析客戶滿意度了
E. 主成分分析和聚類分析應用在哪些領域
主成分分析法在過程中產生新變數,而聚類分析法在過程中沒有產生新變數。
主成分分析法:一種數學變換的方法, 它把給定的一組相關變數通過線性變換轉成另一組不相關的變數,這些新的變數按照方差依次遞減的順序排列。
聚類分析法:理想的多變數統計技術,主要有分層聚類法和迭代聚類法。是研究分類的一種多元統計方法。你現在有了每個樣本的主成分分值,用這些分值,對這些樣本進行分類。 就是說,每個樣本現在有三個值了,就是三個主成分的值,現在要看看那些樣本比較相似。
F. 主成分分析法的應用分析
在社會調查中,對於同一個變數,研究者往往用多個不同的問題來測量一個人的意見。這些不同的問題構成了所謂的測度項,它們代表一個變數的不同方面。主成分分析法被用來對這些變數進行降維處理,使它們「濃縮」為一個變數,稱為因子。
在用主成分分析法進行因子求解時,我們最多可以得到與測度項個數一樣多的因子。如果保留所有的因子,就起不到降維的目的了。但是我們知道因子的大小排列,我們可以對它們進行舍取。哪有那麼多小的因子需要舍棄呢?在一般的行為研究中,我們常常用到的判斷方法有兩個:特徵根大於1法與碎石坡法。
因為因子中的信息可以用特徵根來表示,所以我們有特徵根大於1這個規則。如果一個因子的特徵根大於1就保留,否則拋棄。這個規則,雖然簡單易用,卻只是一個經驗法則(rule of thumb),沒有明確的統計檢驗。不幸的是,統計檢驗的方法在實際中並不比這個經驗法則更有效(Gorsuch, 1983)。所以這個經驗法則至今仍是最常用的法則。作為一個經驗法則,它不總是正確的。它會高估或者低估實際的因子個數。它的適用范圍是20-40個的測度項,每個理論因子對應3-5個測度項,並且樣本量是大的 ( 3100)。
碎石坡法是一種看圖方法。如果我們以因子的次序為X軸、以特徵根大小為Y軸,我們可以把特徵根隨因子的變化畫在一個坐標上,因子特徵根呈下降趨勢。這個趨勢線的頭部快速下降,而尾部則變得平坦。從尾部開始逆向對尾部畫一條回歸線,遠高於回歸線的點代表主要的因子,回歸線兩旁的點代表次要因子。但是碎石坡法往往高估因子的個數。這種方法相對於第一種方法更不可靠,所以在實際研究中一般不用。
拋棄小因子、保留大因子之後,降維的目的就達到了。 在對社會調查數據進行分析時,除了把相關的問題綜合成因子並保留大的因子,研究者往往還需要對因子與測度項之間的關系進行檢驗,以確保每一個主要的因子(主成分)對應於一組意義相關的測度項。為了更清楚的展現因子與測度項之間的關系,研究者需要進行因子旋轉。常見的旋轉方法是VARIMAX旋轉。旋轉之後,如果一個測度項與對應的因子的相關度很高(>0.5)就被認為是可以接受的。如果一個測度項與一個不對應的因子的相關度過高(>0.4),則是不可接受的,這樣的測度項可能需要修改或淘汰。
用主成分分析法得到因子,並用因子旋轉分析測度項與因子關系的過程往往被稱為探索性因子分析。
在探索性因子分析被接受之後,研究者可以對這些因子之間的關系進行進一步測試,比如用結構方程分析來做假設檢驗。 1問題的提出主成分分析是一種降維的方法,便於分析問題,在諸多領域中都有廣泛的應用。但有些教科書與論文使用主成分分析時,出現了一些錯誤與不足,不能解決實際問題。如一些多元統計分析的教材中,用協方差矩陣的主成分分析出現了如下錯誤與不足:①沒有明確和判斷該數據降維的條件是否成立。②主成分系數的平方和不為1。③沒有明確和判斷所用數據是否適合作單獨的主成分分析。④選取的主成分對原始變數沒有代表性。以下從相關性等理論與結果上依次解決上述問題,並給出相應建議。2數據在行為與心理研究中,常常要求分析某種身份的人的行為特徵,如本例中的小學生的日常行為特徵,從而根據這些特徵引導小學生向更積極的行為態度發展。這里用文獻[1]的數據見表1,其來自某課題組的調查結果。課題組對北方某小學480名5~6年級學生的日常行為進行調查,共調查了11項指標如下:S1~對老師提問的反應、S2~對班級事務的關心、S3~自習課上的表現、S4~對家庭作業的態度、S5~關心同學的程度、S6~對待勞動的態度、S7~學習上的特殊興趣、S8~對待體育鍛煉的態度、S9~在娛樂上的偏好、S10~解決問題的思考方式、S11~對未來的打算
主成分分析法和層次分析法異同
1.基於相關性分析的指標篩選原理
兩個指標之間的相關系數,反映了兩個指標之間的相關性[1]。相關系數越大,兩個指標反映的信息相關性就越高[1]。而為了使評價指標體系簡潔有效,就需要避免指標反映信息重復[1]。通過計算同一準則層中各個評價指標之間的相關系數,刪除相關系數較大的指標,避免了評價指標所反映的信息重復[2]。通過相關性分析,簡化了指標體系,保證了指標體系的簡潔有效[2]。
2.基於主成分分析的指標篩選原理
(1)因子載荷的原理
通過對剩餘多個指標進行主成分分析,得到每個指標的因子載荷。因子載荷的絕對值小於等於1,而絕對值越是趨向於1,指標對評價結果越重要[3]。
(2)基於主成分分析的指標篩選原理
因子載荷反映指標對評價結果的影響程度,因子載荷絕對值越大表示指標對評價結果越重要,越應該保留;反之,越應該刪除。1通過對相關性分析篩選後的指標進行主成分分析,得到每個指標的因子載荷,從而刪除因子載荷小的指標,保證篩選出重要的指標[2]。
3.相關性分析和主成分分析相同點
一是,基於相關性分析的指標篩選和基於主成分分析的指標篩選,均是在准則層內進行指標的篩選處理,准則層之間不進行篩選。這種做法的原因是,通過人為地劃分不同准則層,反映評價事物不同層面的狀況,避免誤刪反應信息不同的重要指標[2]。
二是,基於相關性分析的指標篩選和基於主成分分析的指標篩選的思路,均是篩選出少量具有代表性的指標[2]。
4.相關性分析和主成分分析不同點
一是,兩次篩選的目的不同:基於相關性分析的指標篩選的目的是刪除反應信息冗餘的評價指標。基於主成分分析的指標篩選的目的是刪除對評價結果影響較小的評價指標[2]。
二是,兩次篩選的作用不同:基於相關性分析的指標篩選的作用是保證蹄選出的評價指標體系簡潔明快。基於主成分分析的指標簡選的目的是篩選出重要的指標[2]。
[1]遲國泰,曹婷婷,張昆.基於相關主成分分析的人的全面發展評價指標體系的構建[J].系統工
程理論與實踐,2013,32(1):112-119.
[2]李鴻禧.基於相關主成分分析的港口物流評價研究[D].遼寧大連:大連理工大學,2013.
[3]孫慧,劉媛媛,張娜娜.基於主成分分析的煤炭產業競爭力實證研究[J].資源與產業,2012,14(1):145-149.
G. 主成分分析法(PCA)
3.2.2.1 技術原理
主成分分析方法(PCA)是常用的數據降維方法,應用於多變數大樣本的統計分析當中,大量的統計數據能夠提供豐富的信息,利於進行規律探索,但同時增加了其他非主要因素的干擾和問題分析的復雜性,增加了工作量,影響分析結果的精確程度,因此利用主成分分析的降維方法,對所收集的資料作全面的分析,減少分析指標的同時,盡量減少原指標包含信息的損失,把多個變數(指標)化為少數幾個可以反映原來多個變數的大部分信息的綜合指標。
主成分分析法的建立,假設xi1,xi2,…,xim是i個樣品的m個原有變數,是均值為零、標准差為1的標准化變數,概化為p個綜合指標F1,F2,…,Fp,則主成分可由原始變數線性表示:
地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例
計算主成分模型中的各個成分載荷。通過對主成分和成分載荷的數據處理產生主成分分析結論。
3.2.2.2 方法流程
1)首先對數據進行標准化,消除不同量綱對數據的影響,標准化可採用極值法
圖3.3 方法流程圖
2)根據標准化數據求出方差矩陣;
3)求出共變數矩陣的特徵根和特徵變數,根據特徵根,確定主成分;
4)結合專業知識和各主成分所蘊藏的信息給予恰當的解釋,並充分運用其來判斷樣品的特性。
3.2.2.3 適用范圍
主成分分析不能作為一個模型來描述,它只是通常的變數變換,主成分分析中主成分的個數和變數個數p相同,是將主成分表示為原始變數的線性組合,它是將一組具有相關關系的變數變換為一組互不相關的變數。適用於對具有相關性的多指標進行降維,尋求主要影響因素的統計問題。
H. 主成分分析的應用學科
主成分分析作為基礎的數學分析方法,其實際應用十分廣泛,比如人口統計學、數量地理學、分子動力學模擬、數學建模、數理分析等學科中均有應用,是一種常用的多變數分析方法。
I. 主成分分析法適用於哪些問題
主成分分析法適用於變數間有較強相關性的數據,若原始數據相關性弱,則起不到很好的降維作用,降維後,存在少量信息丟失,不可能包含100%原始數據。
主成分分析是一種統計方法,即通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。主成分分析首先是由K.皮爾森對非隨機變數引入的,而後H.霍特林將此方法推廣到隨機向量的情形。