A. 多元統計!!!急求!
1. 因子分析模型
因子分析法是從研究變數內部相關的依賴關系出發,把一些具有錯綜復雜關系的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。它的基本思想是將觀測變數進行分類,將相關性較高,即聯系比較緊密的分在同一類中,而不同類變數之間的相關性則較低,那麼每一類變數實際上就代表了一個基本結構,即公共因子。對於所研究的問題就是試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。
因子分析的基本思想:
把每個研究變數分解為幾個影響因素變數,將每個原始變數分解成兩部分因素,一部分是由所有變數共同具有的少數幾個公共因子組成的,另一部分是每個變數獨自具有的因素,即特殊因子
因子分析模型描述如下:
(1)X = (x1,x2,…,xp)¢是可觀測隨機向量,均值向量E(X)=0,協方差陣Cov(X)=∑,且協方差陣∑與相關矩陣R相等(只要將變數標准化即可實現)。
(2)F = (F1,F2,…,Fm)¢ (m<p)是不可測的向量,其均值向量E(F)=0,協方差矩陣Cov(F) =I,即向量的各分量是相互獨立的。
(3)e = (e1,e2,…,ep)¢與F相互獨立,且E(e)=0, e的協方差陣∑是對角陣,即各分量e之間是相互獨立的,則模型:
x1 = a11F1+ a12F2 +…+a1mFm + e1
x2 = a21F1+a22F2 +…+a2mFm + e2
………
xp = ap1F1+ ap2F2 +…+apmFm + ep
稱為因子分析模型,由於該模型是針對變數進行的,各因子又是正交的,所以也稱為R型正交因子模型。
其矩陣形式為: x =AF + e .
其中:
x=,A=,F=,e=
這里,
(1)m £ p;
(2)Cov(F,e)=0,即F和e是不相關的;
(3)D(F) = Im ,即F1,F2,…,Fm不相關且方差均為1;
D(e)=,即e1,e2,…,ep不相關,且方差不同。
我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e 稱為X的特殊因子。
A = (aij),aij為因子載荷。數學上可以證明,因子載荷aij就是第i變數與第j因子的相關系數,反映了第i變數在第j因子上的重要性。
2. 模型的統計意義
模型中F1,F2,…,Fm叫做主因子或公共因子,它們是在各個原觀測變數的表達式中都共同出現的因子,是相互獨立的不可觀測的理論變數。公共因子的含義,必須結合具體問題的實際意義而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨立的。模型中載荷矩陣A中的元素(aij)是為因子載荷。因子載荷aij是xi與Fj的協方差,也是xi與Fj的相關系數,它表示xi依賴Fj的程度。可將aij看作第i個變數在第j公共因子上的權,aij的絕對值越大(|aij|£1),表明xi與Fj的相依程度越大,或稱公共因子Fj對於xi的載荷量越大。為了得到因子分析結果的經濟解釋,因子載荷矩陣A中有兩個統計量十分重要,即變數共同度和公共因子的方差貢獻。
因子載荷矩陣A中第i行元素之平方和記為hi2,稱為變數xi的共同度。它是全部公共因子對xi的方差所做出的貢獻,反映了全部公共因子對變數xi的影響。hi2大表明x的第i個分量xi對於F的每一分量F1,F2,…,Fm的共同依賴程度大。
將因子載荷矩陣A的第j列( j =1,2,…,m)的各元素的平方和記為gj2,稱為公共因子Fj對x的方差貢獻。gj2就表示第j個公共因子Fj對於x的每一分量xi(i= 1,2,…,p)所提供方差的總和,它是衡量公共因子相對重要性的指標。gj2越大,表明公共因子Fj對x的貢獻越大,或者說對x的影響和作用就越大。如果將因子載荷矩陣A的所有gj2 ( j =1,2,…,m)都計算出來,使其按照大小排序,就可以依此提煉出最有影響力的公共因子。
3. 因子旋轉
建立因子分析模型的目的不僅是找出主因子,更重要的是知道每個主因子的意義,以便對實際問題進行分析。如果求出主因子解後,各個主因子的典型代表變數不很突出,還需要進行因子旋轉,通過適當的旋轉得到比較滿意的主因子。
旋轉的方法有很多,正交旋轉(orthogonal rotation)和斜交旋轉(oblique rotation)是因子旋轉的兩類方法。最常用的方法是最大方差正交旋轉法(Varimax)。進行因子旋轉,就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個方向分化,使大的載荷更大,小的載荷更小。因子旋轉過程中,如果因子對應軸相互正交,則稱為正交旋轉;如果因子對應軸相互間不是正交的,則稱為斜交旋轉。常用的斜交旋轉方法有Promax法等。
4.因子得分
因子分析模型建立後,還有一個重要的作用是應用因子分析模型去評價每個樣品在整個模型中的地位,即進行綜合評價。例如地區經濟發展的因子分析模型建立後,我們希望知道每個地區經濟發展的情況,把區域經濟劃分歸類,哪些地區發展較快,哪些中等發達,哪些較慢等。這時需要將公共因子用變數的線性組合來表示,也即由地區經濟的各項指標值來估計它的因子得分。
設公共因子F由變數x表示的線性組合為:
Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m
該式稱為因子得分函數,由它來計算每個樣品的公共因子得分。若取m=2,則將每個樣品的p個變數代入上式即可算出每個樣品的因子得分F1和F2,並將其在平面上做因子得分散點圖,進而對樣品進行分類或對原始數據進行更深入的研究。
但因子得分函數中方程的個數m小於變數的個數p,所以並不能精確計算出因子得分,只能對因子得分進行估計。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。
(1)回歸估計法
F = X b = X (X ¢X)-1A¢ = XR-1A¢ (這里R為相關陣,且R = X ¢X )。
(2)Bartlett估計法
Bartlett估計因子得分可由最小二乘法或極大似然法導出。
F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X = (A¢W-1A)-1A¢W-1X
(3)Thomson估計法
在回歸估計法中,實際上是忽略特殊因子的作用,取R = X ¢X,若考慮特殊因子的作用,此時R = X ¢X+W,於是有:
F = XR-1A¢ = X (X ¢X+W)-1A¢
這就是Thomson估計的因子得分,使用矩陣求逆演算法(參考線性代數文獻)可以將其轉換為:
F = XR-1A¢ = X (I+A¢W-1A)-1W-1A¢
5. 因子分析的步驟
因子分析的核心問題有兩個:一是如何構造因子變數;二是如何對因子變數進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。
(i)因子分析常常有以下四個基本步驟:
(1)確認待分析的原變數是否適合作因子分析。
(2)構造因子變數。
(3)利用旋轉方法使因子變數更具有可解釋性。
(4)計算因子變數得分。
(ii)因子分析的計算過程:
(1)將原始數據標准化,以消除變數間在數量級和量綱上的不同。
(2)求標准化數據的相關矩陣;
(3)求相關矩陣的特徵值和特徵向量;
(4)計算方差貢獻率與累積方差貢獻率;
(5)確定因子:
設F1,F2,…, Fp為p個因子,其中前m個因子包含的數據信息總量(即其累積貢獻率)不低於80%時,可取前m個因子來反映原評價指標;
(6)因子旋轉:
若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。
(7)用原指標的線性組合來求各因子得分:
採用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。
(8)綜合得分
以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此處wi為旋轉前或旋轉後因子的方差貢獻率。
(9)得分排序:利用綜合得分可以得到得分名次。
在採用多元統計分析技術進行數據處理、建立宏觀或微觀系統模型時,需要研究以下幾個方面的問題:
· 簡化系統結構,探討系統內核。可採用主成分分析、因子分析、對應分析等方法,在眾多因素中找出各個變數最佳的子集合,從子集合所包含的信息描述多變數的系統結果及各個因子對系統的影響。「從樹木看森林」,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統的結構,認識系統的內核。
· 構造預測模型,進行預報控制。在自然和社會科學領域的科研與生產中,探索多變數系統運動的客觀規律及其與外部環境的關系,進行預測預報,以實現對系統的最優控制,是應用多元統計分析技術的主要目的。在多元分析中,用於預報控制的模型有兩大類。一類是預測預報模型,通常採用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術。另一類是描述性模型,通常採用聚類分析的建模技術。
· 進行數值分類,構造分類模式。在多變數系統的分析中,往往需要將系統性質相似的事物或現象歸為一類。以便找出它們之間的聯系和內在規律性。過去許多研究多是按單因素進行定性處理,以致處理結果反映不出系統的總的特徵。進行數值分類,構造分類模式一般採用聚類分析和判別分析技術。
如何選擇適當的方法來解決實際問題,需要對問題進行綜合考慮。對一個問題可以綜合運用多種統計方法進行分析。例如一個預報模型的建立,可先根據有關生物學、生態學原理,確定理論模型和試驗設計;根據試驗結果,收集試驗資料;對資料進行初步提煉;然後應用統計分析方法(如相關分析、逐步回歸分析、主成分分析等)研究各個變數之間的相關性,選擇最佳的變數子集合;在此基礎上構造預報模型,最後對模型進行診斷和優化處理,並應用於生產實際。
Rotated Component Matrix,就是經轉軸後的因子負荷矩陣,
當你設置了因子轉軸後,便會產生這結果。
轉軸的是要得到清晰的負荷形式,以便研究者進行因子解釋及命名。
SPSS的Factor Analysis對話框中,有個Rotation鈕,點擊便會彈出Rotation對話框,
其中有5種因子旋轉方法可選擇:
1.最大變異法(Varimax):使負荷量的變異數在因子內最大,亦即,使每個因子上具有最高載荷的變數數最少。
2.四次方最大值法(Quartimax):使負荷量的變異數在變項內最大,亦即,使每個變數中需要解釋的因子數最少。
3.相等最大值法(Equamax):綜合前兩者,使負荷量的變異數在因素內與變項內同時最大。
4.直接斜交轉軸法(Direct Oblimin):使因素負荷量的差積(cross-procts)最小化。
5.Promax 轉軸法:將直交轉軸(varimax)的結果再進行有相關的斜交轉軸。因子負荷量取2,4,6次方以產生接近0但不為0的值,藉以找出因子間的相關,但仍保有最簡化因素的特性。
上述前三者屬於「直交(正交)轉軸法」(Orthogonal Rotations),在直交轉軸法中,因子與因子之間沒有相關,因子軸之間的夾角等於90 度。後兩者屬於「斜交轉軸」(oblique rotations),表示因子與因子之間彼此有某種程度的相關,因素軸之間的夾角不是90度。
直交轉軸法的優點是因子之間提供的訊息不會重疊,受訪者在某一個因子的分數與在其他因子的分數,彼此獨立互不相關;缺點是研究迫使因素之間不相關,但這種情況在實際的情境中往往並不常存在。至於使用何種轉軸方式,須視乎研究題材、研究目的及相關理論,由研究者自行設定。
在根據結果解釋因子時,除了要看因子負荷矩陣中,因子對哪些變數呈高負荷,對哪些變數呈低負荷,還須留意之前所用的轉軸法代表的意義。
2,主成分分析(principal component analysis)
將多個變數通過線性變換以選出較少個數重要變數的一種多元統計分析方法。又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。但是,在用統計分析方法研究這個多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
(1)主成分分析的原理及基本思想。
原理:設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。
基本思想:主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現再F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
(2)步驟
Fp=a1mZX1+a2mZX2+……+apmZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣∑的特徵值多對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變數經過標准化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標准化,本文所採用的數據就存在量綱影響[註:本文指的數據標准化是指Z標准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R為相關系數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1≥λ2≥…≥λp≥0 。
進行主成分分析主要步驟如下:
1. 指標數據標准化(SPSS軟體自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分Fi表達式;
5. 主成分Fi命名;
選用以上兩種方法時的注意事項如下:
1、因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變數的線性組合。
2、主成分分析的重點在於解釋個變數的總方差,而因子分析則把重點放在解釋各變數之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,的主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且藉助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的信息)來進入後續的分析,則可以使用主成分分析。當然,這中情況也可以使用因子得分做到。所以這中區分不是絕對的。
總得來說,主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用:a,了解數據。(screening the data),b,和cluster analysis一起使用,c,和判別分析一起使用,比如當變數很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份發對變數簡化。(rece dimensionality)d,在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
在演算法上,主成分分析和因子分析很類似,不過,在因子分析中所採用的協方差矩陣的對角元素不在是變數的方差,而是和變數對應的共同度(變數方差中被各因子所解釋的部分)。
(1)了解如何通過SPSS因子分析得出主成分分析結果。首先,選擇SPSS中Analyze-Data Rection-Factor…,在Extraction…對話框中選擇主成分方法提取因子,選擇好因子提取個數標准後點確定完成因子分析。打開輸出結果窗口後找到Total Variance Explained表和Component Matrix表。將Component Matrix表中第一列數據分別除以Total Variance Explained表中第一特徵根值的開方得到第一主成分表達式系數,用類似方法得到其它主成分表達式。打開數據窗口,點擊菜單項的Analyze-Descriptive Statistics-Descriptives…,在打開的新窗口下方構選Save standardized values as variables,選定左邊要分析的變數。點擊Options,只構選Means,點確定後既得待分析變數的標准化新變數。
選擇菜單項Transform-Compute…,在Target Variable中輸入:Z1(主成分變數名,可以自己定義),在Numeric Expression中輸入例如:0.412(剛才主成分表達式中的系數)*Z人口數(標准化過的新變數名)+0.212*Z第一產業產值+…,點確定即得到主成分得分。通過對主成分得分的排序即可進行各個個案的綜合評價。很顯然,這里的過程分為四個步驟:
Ⅰ.選主成分方法提取因子進行因子分析。
Ⅱ.計算主成分表達式系數。
Ⅲ.標准化數據。
Ⅳ.計算主成分得分。
我們的程序也將依該思路展開開發。
(2)對為何要將Component Matrix表數據除以特徵根開方的解釋
我們學過主成分分析和因子分析後不難發現,原來因子分析時的因子載荷矩陣就是主成分分析特徵向量矩陣乘以對應特徵根開方值的對角陣。而Component Matrix表輸出的恰是因子載荷矩陣,所以求主成分特徵向量自然是上面描述的逆運算。
成功啟動程序後選定分析變數和主成分提取方法即可在數據窗口輸出得分和在OUTPUT窗口輸出主成分表達式。
3,聚類分析(Cluster Analysis)
聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術 。
在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,並且可以描述出各細分市場的人群特徵,以便於客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。
4.判別分析(Discriminatory Analysis)
判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;採用不同的判別准則,又有費歇、貝葉斯、距離等判別方法。
費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。貝葉斯(BAYES)判別思想是根據先驗概率求出後驗概率,並依據後驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂後驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正後的結果。
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關於各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬於距離值最小的那個母體。
5.對應分析(Correspondence Analysis)
對應分析是一種用來研究變數與變數之間聯系緊密程度的研究技術。
運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。
這種研究技術還可以用於檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出後或市場推廣活動後消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。
B. 國際油價預測方法是什麼
國際上多採用三種油價預測分析方法。
多元回歸分析法:是預測分析的一種基本方法,它是因果關系分析的一個分支。因果關系可以用一組變數來描述,即自變數與因變數之間的關系,用y=f (x)表示。y是因變數,是預測目標——國際油價;x是自變數,是影響因素。該方法的優點是考慮因素少,計算公式簡單,便於操作。但缺點是:模型建立在統計數據的基礎上,以「過去」已知數據推算「未來」未知數據,存在著不確定性;回歸系數及常數不能排除偶然因素的影響;對國際原油市場供需量的預測精確度要求高,而這一點往往難以做到。
均衡價格法:是西方經濟學均衡理論在油價分析預測中的具體運用。它不僅考慮了供需之間的關系,還從利潤角度考慮原油價格的合理值。在競爭條件下,整個國際市場的供求關系決定著原油的價格水平,即原油的均衡價格是市場需求曲線與供給曲線相交點所對應的價格。在經濟學中還有一條著名的定律,是最優經濟效益在邊際收入等於邊際成本時達到。它是決定產量規模、價格等的重要依據。所以在制定原油價格和產量規模時,必須遵循這條規定。該方法的缺點是,實用性不強,推導過程中應用了回歸分析方法,准確度低,只適用於近期油價的預測。
層次分析法:由美國著名的運籌學家薩得在20世紀70年代中期提出,是系統工程中常用的軟科學方法。它特別適合用於處理那些多層次的復雜大系統問題和難以完全用定量方法分析與決策的社會系統工程的復雜問題。它可以將主觀判斷用數量形式來表達和處理,是一種定量和定性相結合的分析方法。但該方法的缺點是受人為因素影響大,人為主觀判斷往往事先決定了油價漲跌的趨勢。
C. 多元分析的分析方法
包括3類:①多元方差分析、多元回歸分析和協方差分析,稱為線性模型方法,用以研究確定的自變數與因變數之間的關系;②判別函數分析和聚類分析,用以研究對事物的分類;③主成分分析、典型相關和因素分析,研究如何用較少的綜合因素代替為數較多的原始變數。 是把總變異按照其來源(或實驗設計)分為多個部分,從而檢驗各個因素對因變數的影響以及各因素間交互作用的統計方法。例如,在分析2×2析因設計資料時,總變異可分為分屬兩個因素的兩個組間變異、兩因素間的交互作用及誤差(即組內變異)等四部分,然後對組間變異和交互作用的顯著性進行F檢驗。
優點
是可以在一次研究中同時檢驗具有多個水平的多個因素各自對因變數的影響以及各因素間的交互作用。其應用的限制條件是,各個因素每一水平的樣本必須是獨立的隨機樣本,其重復觀測的數據服從正態分布,且各總體方差相等。 用以評估和分析一個因變數與多個自變數之間線性函數關系的統計方法。一個因變數y與自變數x1、x2、…xm有線性回歸關系是指:
其中α、β1…βm是待估參數,ε是表示誤差的隨機變數。通過實驗可獲得x1、x2…xm的若干組數據以及對應的y值,利用這些數據和最小二乘法就能對方程中的參數作出估計,記為╋、勮…叧,它們稱為偏回歸系數。
優點
是可以定量地描述某一現象和某些因素間的線性函數關系。將各變數的已知值代入回歸方程便可求得因變數的估計值(預測值),從而可以有效地預測某種現象的發生和發展。它既可以用於連續變數,也可用於二分變數(0,1回歸)。多元回歸的應用有嚴格的限制。首先要用方差分析法檢驗因變數y與m個自變數之間的線性回歸關系有無顯著性,其次,如果y與m個自變數總的來說有線性關系,也並不意味著所有自變數都與因變數有線性關系,還需對每個自變數的偏回歸系數進行t檢驗,以剔除在方程中不起作用的自變數。也可以用逐步回歸的方法建立回歸方程,逐步選取自變數,從而保證引入方程的自變數都是重要的。 把線性回歸與方差分析結合起來檢驗多個修正均數間有無差別的統計方法。例如,一個實驗包含兩個多元自變數,一個是離散變數(具有多個水平),一個是連續變數,實驗目的是分析離散變數的各個水平的優劣,此變數是方差變數;而連續變數是由於無法加以控制而進入實驗的,稱為協變數。在運用協方差分析時,可先求出該連續變數與因變數的線性回歸函數,然後根據這個函數扣除該變數的影響,即求出該連續變數取等值情況時因變數的修正均數,最後用方差分析檢驗各修正均數間的差異顯著性,即檢驗離散變數對因變數的影響。
優點
可以在考慮連續變數影響的條件下檢驗離散變數對因變數的影響,有助於排除非實驗因素的干擾作用。其限制條件是,理論上要求各組資料(樣本)都來自方差相同的正態總體,各組的總體直線回歸系數相等且都不為0。因此應用協方差分析前應先進行方差齊性檢驗和回歸系數的假設檢驗,若符合或經變換後符合上述條件,方可作協方差分析。 判定個體所屬類別的統計方法。其基本原理是:根據兩個或多個已知類別的樣本觀測資料確定一個或幾個線性判別函數和判別指標,然後用該判別函數依據判別指標來判定另一個個體屬於哪一類。
判別分析不僅用於連續變數,而且藉助於數量化理論亦可用於定性資料。它有助於客觀地確定歸類標准。然而,判別分析僅可用於類別已確定的情況。當類別本身未定時,預用聚類分析先分出類別,然後再進行判別分析。 解決分類問題的一種統計方法。若給定n個觀測對象,每個觀察對象有p個特徵(變數),如何將它們聚成若干可定義的類?若對觀測對象進行聚類,稱為Q型分析;若對變數進行聚類,稱為R型分析。聚類的基本原則是,使同類的內部差別較小,而類別間的差別較大。最常用的聚類方案有兩種。一種是系統聚類方法。例如,要將n個對象分為k類,先將n個對象各自分成一類,共n類。然後計算兩兩之間的某種「距離」,找出距離最近的兩個類、合並為一個新類。然後逐步重復這一過程,直到並為k類為止。另一種為逐步聚類或稱動態聚類方法。當樣本數很大時,先將n個樣本大致分為k類,然後按照某種最優原則逐步修改,直到分類比較合理為止。
聚類分析是依據個體或變數的數量關系來分類,客觀性較強,但各種聚類方法都只能在某種條件下達到局部最優,聚類的最終結果是否成立,尚需專家的鑒定。必要時可以比較幾種不同的方法,選擇一種比較符合專業要求的分類結果。 把原來多個指標化為少數幾個互不相關的綜合指標的一種統計方法。例如,用p個指標觀測樣本,如何從這p個指標的數據出發分析樣本或總體的主要性質呢?如果p個指標互不相關,則可把問題化為p個單指標來處理。但大多時候p個指標之間存在著相關。此時可運用主成分分析尋求這些指標的互不相關的線性函數,使原有的多個指標的變化能由這些線性函數的變化來解釋。這些線性函數稱為原有指標的主成分,或稱主分量。
主成分分析有助於分辨出影響因變數的主要因素,也可應用於其他多元分析方法,例如在分辨出主成分之後再對這些主成分進行回歸分析、判別分析和典型相關分析。主成分分析還可以作為因素分析的第一步,向前推進就是因素分析。其缺點是只涉及一組變數之間的相互依賴關系,若要討論兩組變數之間的相互關系則須運用典型相關。 先將較多變數轉化為少數幾個典型變數,再通過其間的典型相關系數來綜合描述兩組多元隨機變數之間關系的統計方法。設x是p元隨機變數,y是q元隨機變數,如何描述它們之間的相關程度?當然可逐一計算x的p個分量和y的q個分量之間的相關系數(p×q個), 但這樣既繁瑣又不能反映事物的本質。如果運用典型相關分析,其基本程序是,從兩組變數各自的線性函數中各抽取一個組成一對,它們應是相關系數達到最大值的一對,稱為第1對典型變數,類似地還可以求出第2對、第3對、……,這些成對變數之間互不相關,各對典型變數的相關系數稱為典型相關系數。所得到的典型相關系數的數目不超過原兩組變數中任何一組變數的數目。
典型相關分析有助於綜合地描述兩組變數之間的典型的相關關系。其條件是,兩組變數都是連續變數,其資料都必須服從多元正態分布。
以上幾種多元分析方法各有優點和局限性。每一種方法都有它特定的假設、條件和數據要求,例如正態性、線性和同方差等。因此在應用多元分析方法時,應在研究計劃階段確定理論框架,以決定收集何種數據、怎樣收集和如何分析數據資料。
D. 簡述多元回歸法預測人口的原理及優缺點
一、多元線性回歸分析的優點:
1、在回歸分析中,如果有兩個或兩個以上的自變數,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯系的,由多個自變數的最優組合共同來預測或估計因變數,比只用一個自變數進行預測或估計更有效,更符合實際。因此多元線性回歸比一元線性回歸的實用意義更大。2、在多元線性回歸分析是多元回歸分析中最基礎、最簡單的一種。
3、運用回歸模型,只要採用的模型和數據相同,通過標準的統計方法可以計算出唯一的結果。、
多元線性回歸分析的缺點
有時候在回歸分析中,選用何種因子和該因子採用何種表達 式只是一種推測,這影響了用電因子的多樣性和某些因子的不可測性,使得回歸分析在某些 情況下受到限制。
多元線性回歸的基本原理和基本計算過程與一元線性回歸相同,但由於自變數個數多,計算相當麻煩,一般在實際中應用時都要藉助統計軟體。這里只介紹多元線性回歸的一些基本問題。
E. 多元線性回歸分析預測法的檢驗
多元線性回歸模型與一元線性回歸模型一樣,在計算出回歸模型之後,要對模型進行各種檢驗。
多元線性回歸模型的檢驗方法有:判定系數檢驗(R檢驗),回歸系數顯著性檢驗(T檢驗),回歸方程顯著性檢驗(F檢驗)。 。回歸方程的顯著性檢驗是檢驗所有自變數作為一個整體與因變數之間是否有顯著的線性相關關系。顯著性檢驗是通過F檢驗進行的。F檢驗值的計算公式是:F(k ,n-k-1)= 多元回歸方程的顯著性檢驗與一元回歸方程類似,在此也不再贅述。回歸方程的顯著性檢驗未通過可能是選擇自變數時漏掉了重要的影響因素,或者是自變數與因變數間的關系是非線性的,應重新建立預測模型。
M元線性回歸模型:如果隨機變數Y與固定變數x1,x2,x3,.....xm之間有顯著的線性相關關系,即:Y=b0+b1x1+b2x2+......+bmxm+c 成為m元線性回歸
F. 多元線性回歸分析模型中估計系數的方法是什麼
多元線性回歸分析模型中估計系數的方法是:多元線性回歸分析預測法
多元線性回歸分析預測法:是指通過對兩個或兩個以上的自變數與一個因變數的相關分析,建立預測模型進行預測的方法。當自變數與因變數之間存在線性關系時,稱為多元線性回歸分析。
多元線性回歸預測模型一般公式為: 多元線性回歸模型中最簡單的是只有兩個自變數(n=2)的二元線性回歸模型,其一般形式為:
下面以二元線性回歸分析預測法為例,說明多元線性回歸分析預測法的應用。
二元線性回歸分析預測法,是根據兩個自變數與一個因變數相關關系進行預測的方法。二元線性回歸方程的公式為:式中::因變數;
x1,x2:兩個不同自變數,即與因變數有緊密聯系的影響因素。
a,b1,b2:是線性回歸方程的參數。
a,b1,b2是通過解下列的方程組來得到。
二元線性回歸預測法基本原理和步驟同一元線性回歸預測法沒有原則的區別,大體相同。
「多元線性回歸分析預測法」網路鏈接:http://ke..com/view/1338395.htm
G. 回歸分析預測技術依據是什麼原理
回歸分析的基本概念是用一群變數預測另一個變數的方法。通俗點來講,就是根據幾件事情的相關程度來預測另一件事情發生的概率。回歸分析的目的是找到一個聯系輸入變數和輸出變數的最優模型。
回歸方法有許多種,可通過 3 種方法進行分類:自變數的個數、因變數的類型和回歸線的形狀。
1)依據相關關系中自變數的個數不同進行分類,回歸方法可分為一元回歸分析法和多元回歸分析法。在一元回歸分析法中,自變數只有一個,而在多元回歸分析法中,自變數有兩個以上。
2)按照因變數的類型,回歸方法可分為線性回歸分析法和非線性回歸分析法。
3)按照回歸線的形狀分類時,如果在回歸分析中,只包括一個自變數和一個因變數,且二者的關系可用一條直線近似表示,則這種回歸分析稱為一元線性回歸分析;如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是非線性關系,則稱為多元非線性回歸分析。
1. 線性回歸
線性回歸是世界上最知名的建模方法之一。在線性回歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計的。這些模型被叫作線性模型。在線性模型中,因變數是連續型的,自變數可以是連續型或離散型的,回歸線是線性的。
H. 常用的多元分析方法
多元分析方法包括3類:
多元方差分析、多元回歸分析和協方差分析,稱為線性模型方法,用以研究確定的自變數與因變數之間的關系;判別函數分析和聚類分析,用以研究對事物的分類;主成分分析、典型相關和因素分析,研究如何用較少的綜合因素代替為數較多的原始變數。
多元方差是把總變異按照其來源分為多個部分,從而檢驗各個因素對因變數的影響以及各因素間交互作用的統計方法。
判別函數是判定個體所屬類別的統計方法。其基本原理是:根據兩個或多個已知類別的樣本觀測資料確定一個或幾個線性判別函數和判別指標,然後用該判別函數依據判別指標來判定另一個個體屬於哪一類。
(8)多元分析方法中用於預測分析的是擴展閱讀
多元分析方法的歷史:
首先涉足多元分析方法是F.高爾頓,他於1889年把雙變數的正態分布方法運用於傳統的統計學,創立了相關系數和線性回歸。
其後的幾十年中,斯皮爾曼提出因素分析法,費希爾提出方差分析和判別分析,威爾克斯發展了多元方差分析,霍特林確定了主成分分析和典型相關。到20世紀前半葉,多元分析理論大多已經確立。
60年代以後,隨著計算機科學的發展,多元分析方法在心理學以及其他許多學科的研究中得到了越來越廣泛的應用。
I. 多元線性回歸分析預測法的公式
多元線性回歸預測模型一般公式為: 多元線性回歸模型中最簡單的是只有兩個自變數(n=2)的二元線性回歸模型,其一般形式為:
下面以二元線性回歸分析預測法為例,說明多元線性回歸分析預測法的應用。
二元線性回歸分析預測法,是根據兩個自變數與一個因變數相關關系進行預測的方法。二元線性回歸方程的公式為:式中::因變數;
x1,x2:兩個不同自變數,即與因變數有緊密聯系的影響因素。
a,b1,b2:是線性回歸方程的參數。
a,b1,b2是通過解下列的方程組來得到。
二元線性回歸預測法基本原理和步驟同一元線性回歸預測法沒有原則的區別,大體相同。
J. 多元地學圖像綜合處理方法在礦產資源預測中的應用
史殿林張玉君
(地礦部航空物探遙感中心)
摘要:本文以新疆黃山銅鎳礦區作為試驗區,通過分析已知礦床上的物化探、遙感等多元地學信息建立綜合地學信息找礦模式,根據這一找礦模式。並綜合利用圖像處理、多元分析等技術手段對這一地區的斷裂構造、岩性劃分和礦產預測進行了研究,作出了構造解譯圖、岩性分類圖和銅鎳礦靶區圖,首次明確圈定了黑山基性—超基性雜岩體,研究結果表明,利用航空物探、地面物化探以及遙感等多元地學信息建立統一格式的地學圖像綜合數據集並據此加以綜合分析處理,這一思想為改進礦產勘查解釋方法提供了新的潛力。
一、引言
目前,多元地學信息綜合圖像處理已引起地質信息處理解釋人員的極大興趣。
多元地學信息包括地質圖、物化探異常、MSS或TM圖像。本文所利用的地學信息計有:1∶5萬的航磁、航放(K、Th、U)、航電(520Hz、2020Hz、8020Hz振幅譜)、1∶20萬的區域重力和化探(Cu、Ni、Co)、MSS(4、5、7波段)。
為了綜合分析上述地學信息,首先必須實現圖像之間的相互配准,從而建立統一坐標的綜合數據集,對該綜合地學數據集進行圖像處理和多元分析,結合已知地質資料,最終得到構造解釋圖、岩性分類圖和礦產預測圖。
二、多元地學圖像的綜合處理方法
本文根據測區內幾個已知銅鎳礦床利用多元地學圖像來預測未知地區。整個工作都是在根據已知礦床建立的找礦模式的指導下進行的。因此我們首先研究多元地學信息找礦模式的問題。
1.多元地學信息找礦模式
分析測區內幾個已知礦床,結合多元地學圖像處理,可以得到本區多元地學信息找礦模式,見表1。
2.多元地學圖像綜合處理方法
地學領域中各種信息通常表現為二維圖件的形式,這種相同的表示方式非常便於對這些信息進行綜合處理。本文圍繞著構造解釋、岩性劃分、礦產預測三大地質問題綜合運用圖像顯示、增強、邏輯運算和多元分析技術,給出了多元地學圖像綜合處理流程。
表1
3.多元地學圖像的主分量分析
主分量分析通常也稱為KL變換,它是以圖像的統計性質為基礎的,其主要用途是用於數據壓縮和旋轉。本文採用主分量分析技術的目的在於減少綜合數據,集中數據的相關性,壓縮數據的維數,為岩性劃分做准備。這里分別對航放三元素KThU圖像、化探三元素CuNiCo圖像、三頻航電EM3圖像和MSS圖像進行了KL變換處理,取第一主分量。我們還對KThU和CuNiCo合成的6波段圖像進行了KL變換,取前三個主分量。結果表明,KL變換基本保持了原來的有用信息,同時大大地減少了數據間的相關性。
4.多元地學模式識別
有關模式識別的任務有「模式分類」和「模式分析」。文中的模式識別是模式分類意義上的「識別」。採用的方法是聚類分析法。
前已述及,我們現有的地學信息計有:航磁(M)、重力(G)、航放(K)、(Th)、(U)、航電(EM520A)、(EM2020A)、(EM8020A)、化探(Cu)、(Ni)、(Co)、MSS(7)、MSS(5)、MSS(4)共14個參數。它們構成了一個14維模式空間,該空間的一個點就代表一種模式,換句話說,該空間中的模式可以由這樣14個參數組成的向量來描述,在此稱之為模式向量。可以認為該模式向量在一定程度上刻劃了該地區的岩性變化,我們的目的就是將上述模式空間劃分為若干個模式類,從而揭示該地區的岩性變化。
一般來說,這樣一個模式空間中有許多相關的成分,它們對於分類貢獻不大,而且給計算帶來很大困難。因此,在進行分類之前,首先對模式空間進行降維處理。採用主分量分析技術,將原來由14維向量描述的模式變為用一個6維向量近似地描述。這6維向量分別為:KThU經KL變換後的第一主分量;CuNiCo經KL變換後的第一主分量;MSS經KL變換後的第一主分量;KM3經KL變換後的第一主分量;航磁灰度圖像;重力灰度圖像。這種處理辦法不僅大大地降低了數據的維數,由前述的主分量分析的討論可知,它也同時最大限度地保留了有用信息。
5.多元地學圖像標志提取及成礦預測
根據所建立的找礦模式,採用圖1給出的處理流程,得到銅鎳礦產預測圖。
圖1多元地學信息標志提取及成礦預測流程圖
三、結果討論
1.岩性劃分
利用多元地學模式識別技術,我們得到了多元地學圖像模式分類圖。該模式空間被劃分為8個模式類。結合地質資料進行推斷,這8個模式類分別對應基性—超基性岩,花崗質岩、下石炭統、中石炭統干洞組、中石炭統梧桐窩子組、第三系、第四系以及第三、四系互層。
2.礦產預測
根據圖1的處理流程和已知礦床的資料,得到如下預測方程和判別准則:
Y=0.15X1+0.25X2+0.20X3+0.05X4+0.20X5+0.15X6
表2
預測結果見圖2,其中除編號為4,6,7,9的靶區為已知含礦岩體外,其他均為本次工作提出的新的銅鎳礦靶區,特別需要指出的是13號靶區,以往被解釋為沉積岩,當地地質人員根據我們提供的成果資料經實地踏勘,證實該處為基性一超基性岩體,並命名為黑山岩體,計劃今年開展詳查工作,此外2號靶區與冶金部704隊發現的香山岩體相吻合。
圖2礦產預測圖
四、結論
上述成果表明,利用航空物探與地面物化探以及遙感信息建立圖像格式的綜合數據集為改進礦產勘查解釋方法提供了新的潛力。圖像處理技術已成為多元地學信息綜合解釋的有力工具。
在建立綜合數據集時,圖像間的相互配準是關鍵問題。在選擇標志時,應在充分研究已知礦床的基礎上,遵循每門學科的基本原理和方法,利用圖像處理快速成圖的優點反復試驗進行。
多元地學信息地質解釋工作常常是以類比、統計為基礎的。因此應盡可能收集有關資料,為進行類比、統計提供堅實的基礎。
參考文獻
[1]丁躍民.陸地衛星MSS圖像與地學資料的綜合處理及計算機成礦預測.環境遙感,1989,Vol.4,No.1.
[2]Cordell, L.Basement geology in the Southcast Missouri lead district interred from image analysis of aeromagnetic and data.Abstract of the Second Symposium on Exploration Geophysics, 1986,Xian,China,30—32。
原載〈計算機在地學中的應用討論會論文摘要 〉,1991。