導航:首頁 > 研究方法 > 回歸分析的效果驗證方法

回歸分析的效果驗證方法

發布時間:2022-06-12 10:40:50

Ⅰ 評價回歸模型是否合適的方法

當你只知道一兩種技巧時,生活通常是簡單的。如果結果是連續的,使用線性回歸;如果結果是二值的,使用邏輯回歸!然而,可供選擇的選項越多,選擇合適的答案就越困難。類似的情況也發生在回歸模型選擇中。
1、在多種類型的回歸模型中,基於自變數和因變數的類型、數據維數和數據的其它本質特徵,選擇最合適的技術是很重要的。以下是如何選擇合適的回歸模型的幾點建議:
(1)數據挖掘是建立預測模型不可缺少的環節。這應該是選擇正確的模型的第一步,比如確定各變數的關系和影響。
(2)比較適合於不同模型的擬合程度,我們可以分析它們不同的指標參數,例如統計意義的參數,R-square,Adjusted R-square,AIC,BIC 以及誤差項,另一個是 Mallows』 Cp 准則。通過將模型與所有可能的子模型進行對比(或小心地選擇他們),檢查模型可能的偏差。
(3)交叉驗證是評價預測模型的最佳方法。你可以將數據集分成兩組(訓練集和驗證集)。通過衡量觀測值和預測值之間簡單的均方差就能給出預測精度的度量。
(4)如果數據集有多個混合變數,則不應使用自動模型選擇方法,因為不希望同時將這些混合變數放入模型中。
(5)這也取決於你的目標。與高度統計學意義的模型相比,簡單的模型更容易實現。
(6)回歸正則化方法(LasSo、Ridge 和 ElasticNet)在數據集是高維和自變數是多重共線性的情況下工作良好。
2、什麼是回歸分析?回歸分析是一種預測建模技術的方法,研究因變數(目標)和自變數(預測器)之前的關系。這一技術被用在預測、時間序列模型和尋找變數之間因果關系。
3、有哪些回歸類型呢?
(1) 線性回歸(Linear Regression)
線性回歸是最為人熟知的建模技術,是人們學習如何預測模型時的首選之一。在此技術中,因變數是連續的,自變數可以是連續的也可以是離散的。回歸的本質是線性的。
線性回歸通過使用最佳的擬合直線(又被稱為回歸線),建立因變數(Y)和一個或多個自變數(X)之間的關系。
它的表達式為:Y=a+b*X+e,其中 a 為直線截距,b 為直線斜率,e 為誤差項。如果給出了自變數 X,就能通過這個線性回歸表達式計算出預測值,即因變數 Y。
(2)邏輯回歸用來計算事件成功(Success)或者失敗(Failure)的概率。當因變數是二進制(0/1,True/False,Yes/No)時,應該使用邏輯回歸。這里,Y 的取值范圍為 [0,1],它可以由下列等式來表示。
其中,p 是事件發生的概率。你可能會有這樣的疑問「為什麼在等式中使用對數 log 呢?」
因為我們這里使用的二項分布(因變數),所以需要選擇一個合適的激活函數能夠將輸出映射到 [0,1] 之間,Logit 函數滿足要求。在上面的等式中,通過使用最大似然估計來得到最佳的參數,而不是使用線性回歸最小化平方誤差的方法。

Ⅱ 回歸分析的基本步驟是什麼

回歸分析:

1、確定變數:明確預測的具體目標,也就確定了因變數。如預測具體目標是下一年度的銷售量,那麼銷售量Y就是因變數。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變數,並從中選出主要的影響因素。

2、建立預測模型:依據自變數和因變數的歷史統計資料進行計算,在此基礎上建立回歸分析方程,即回歸分析預測模型。

3、進行相關分析:回歸分析是對具有因果關系的影響因素(自變數)和預測對象(因變數)所進行的數理統計分析處理。只有當自變數與因變數確實存在某種關系時,建立的回歸方程才有意義。

因此,作為自變數的因素與作為因變數的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變數和因變數的相關的程度。

4、計算預測誤差:回歸預測模型是否可用於實際預測,取決於對回歸預測模型的檢驗和對預測誤差的計算。回歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。

5、確定預測值:利用回歸預測模型計算預測值,並對預測值進行綜合分析,確定最後的預測值。

Logistic Regression邏輯回歸

邏輯回歸是用來計算「事件=Success」和「事件=Failure」的概率。當因變數的類型屬於二元(1 / 0,真/假,是/否)變數時,應該使用邏輯回歸。這里,Y的值為0或1,它可以用下方程表示。

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence

ln(odds) = ln(p/(1-p))

logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk

在這里使用的是的二項分布(因變數),需要選擇一個對於這個分布最佳的連結函數。它就是Logit函數。在上述方程中,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。

以上內容參考:網路-回歸分析

Ⅲ 試驗數據回歸結果的評價方法

圖3-20是山西晉城成庄煤礦12個泥岩試樣的強度與圍壓的關系,相關數據在表3-5中給出。岩樣強度具有明顯的離散性。特別是岩樣1單軸壓縮的強度大於岩樣4 在圍壓2MPa下的強度。岩樣強度隨圍壓的變化並不完全是岩石材料的力學性質,其中包含了岩樣自身特性的變化。利用表3-5中的強度數據進行線性回歸,得到的Q=77.3MPa,K0=3.885,相應的內摩擦角φ=36.2°,相關系數R=0.885。如果對同一圍壓下3個岩樣的強度進行平均(圖3-20中×),再作回歸,所得結果不變,但相關系數增大為 R=0.985。不過當不同圍壓下的重復試驗次數不同時,是否進行平均將影響回歸結果。為了同等地反映岩樣的性質,最好對所有的試驗數據直接進行回歸分析[30]

圖3-20 泥岩試樣強度與圍壓的關系

表3-5 晉城泥岩試樣的單軸和三軸試驗結果

相同圍壓下岩樣的強度並不相同,有時圍壓升高岩樣的強度反而降低。如果不能區分岩樣之間的這種差異而直接進行回歸,盡管相關系數較高,得到的強度准則也不能表示材料性質。評價回歸結果需要更加直接的方法。

3.7.1 減少或增加部分試驗結果

表3-5中每一圍壓均使用3個岩樣進行壓縮試驗。假設由於某種原因(如突然停電或試驗機操作失誤等),部分岩樣沒有得到可靠的試驗結果,回歸強度准則時有效數據就會減少。如果試驗數據總量的少許變化對回歸結果影響很大,就意味著岩樣之間的離散性過大,回歸得到的強度准則並不可信。表3-6是減少一個岩樣強度後的回歸結果。其中第1行是全部12個岩樣強度的回歸結果,而序號1~12表示去除該岩樣後,利用其餘11個岩樣強度的回歸結果。K為3.537~4.124,差距達到原始值K0=3.885的15.1%。回歸結果都有大致相同的相關系數,但這並不表明它們都能同等准確地反映實際岩體的力學性質。

表3-6 減少一個岩樣強度後回歸結果

顯然,減少的數據越多回歸結果的差距將越大。若任意減少兩組數據,利用剩餘的10組數據進行回歸,則共有66種可能,回歸得到的K值分布如圖3-21所示。其變化范圍達到原始值K0的33.5%。如果每一圍壓僅利用2個岩樣進行試驗,即表3-5同一圍壓下3個數據中任意減少一個,則共有81種可能,回歸得到K值的分布如圖3-22所示。K的變化范圍進一步增大到K0的43.5%。因此實際試驗給出的K0具有一定的偶然性。需要說明的是,圖3-21和圖3-22中K值統計間距為0.2,大致相當於K0的5%。直方圖的形狀隨橫坐標的不同而稍有變化。

當然也可以增加即重復使用部分試驗數據進行回歸。表3-5每一圍壓有3個強度數據,將其中一個重復使用進行回歸,也有81種可能情形。具體分析從略。

3.7.2 改變岩樣使用順序

從圖3-20可以看出,12個試樣自身的強度特徵不同,因而試驗時岩樣的選用順序不同,其試驗結果也就不同。但回歸結果應該不受岩樣使用順序變化的顯著影響,才能真正反映岩石的力學性質,對此可以利用計算機進行間接驗證。

庫倫強度准則可以理解為,岩樣的三軸承載能力由其材料強度和圍壓共同確定。如果回歸得到的參數K0=3.885 真正反映了岩石的力學性質,那麼該參數也適用於試驗中的12個岩樣。這就是說,表3-5中圍壓σ3下軸向壓縮強度σS的岩樣,其材料強度或者說在單軸壓縮時的強度就應該是

M=σS-K0σ3 (3.30)

而該岩樣如果在另一圍壓X下壓縮時,強度將是

Y=M+K0X (3.31)

圖3-21 減少兩組數據後的K值直方圖

圖3-22 試驗重復次數2時的K值直方圖

利用公式(3.30)求得的各個岩樣材料強度M已經在表3-5的最後一列給出。重新排列岩樣次序,以公式(3.31)為基礎進行「假想試驗」,就可以得到岩樣在不同圍壓下的強度。利用這些強度再次進行回歸計算K值。若與原來的強度准則即K0差別很大,則意味著K0並不能適用於表3-5中12個岩樣,也難以希望它能夠描述岩石的強度特徵。

12個岩樣在4個圍壓下安排試驗,共有12!/(3!)4=369600 種可能。該數實在是太大。此處採取隨機抽樣排列的方法。具體過程如下:

(1)利用計算機發生12個0~1間的隨機數Ai,選取表1中第INT [12A1]+1岩樣作為試驗的第1個岩樣,INT為取整函數;逐次選取剩餘的13-i個岩樣中第INT [(13-i)Ai]+1岩樣作為試驗的第i個岩樣;將12個岩樣重新排列,材料強度為Li

(2)仍以表3-5的順序安排圍壓Xi進行「試驗」,各個岩樣的強度Yi=Li+K0Xi

(3)對新的12 對數據(Xi,Yi)進行線性回歸,得到新的圍壓影響系數K。

(4)重復上述過程,共1000 次。K 的分布如圖3-23所示,間距為0.4,相當於K0的10%。K 的平均值為 3.893,標准方差為0.632,達到平均值的16.2%。

圖3-23 岩樣使用順序變化對K的影響

在岩樣使用順序發生改變時,∑Xi

都是不變的,∑是i=1到12求和(下同),而

岩石的力學性質

也是不變的。從公式(3.9a)可以看出,K的數值取決於∑XiYi。而

岩石的力學性質

由於圍壓Xi和材料強度Li都是非負,因而二者排列的大小順序相同時,∑XiLi達到最大,從而使K值達到最大(數學證明省略)。這就是說,將材料強度較高的岩樣在高圍壓下壓縮破壞,而將強度低的岩樣單軸壓縮破壞,就會誇大圍壓的作用,得到過大的內摩擦系數。在岩樣材料強度和圍壓的排列順序相反時,得到的結果則相反。對表3-5的試驗數據進行具體計算,得到K的最大值是5.832,對應的Q=68.52MPa,相關系數R=0.994;K的最小值是2.027,對應的Q=85.64MPa,相關系數R=0.925差別顯著。這也表明實際得到的強度與圍壓關系(圖3-20)依賴於岩樣的使用順序,具有很大的偶然性。而回歸結果K是否反映了岩石材料的內摩擦力性質,與相關系數的大小並無直接關系。

3.7.3 對回歸結果的評價

為了對圖3-21、圖3-22和圖3-23 的K值分布有更明確的認識,表3-7 給出K的平均值、標准方差和平均值不同范圍內的樣本數量。多次計算表明,對圖3-23的重新排列岩樣進行的假想試驗而言,樣本數為1000時平均值的離散性仍可達到2%,如表3-7中4B至4E所示。

真正的強度准則需要反映圍壓變化對岩樣軸向承載能力的影響,而從表3-7可以看出,圖3-20給出的岩樣實際強度包含了岩樣和圍壓的雙重變化。因此,岩石力學的試驗規程中應該增添有關評價數據處理結果的內容。至於採取何種方法仍需要仔細研究。例如,以改變岩樣使用順序進行假想試驗(圖3-23)作為評價方法時,那麼由表3-4的試驗結果得到的結論就不是通常給出的K=3.9或φ=36.2°,相關系數R=0.89;而是圍壓對岩樣強度的影響系數K在3.89×(1±15%),或內摩擦角φ在32.4°至39.4°范圍內的可能性是60.2%。

表3-7「假想試驗」回歸結果的統計數據

又由式(3.33)得到

岩石的力學性質

代入式(3.9a)得

岩石的力學性質

顯然K值變化的原因是各個岩樣的材料強度Mi不等造成的。如果試驗的各級圍壓都增大β倍,則岩樣使用順序不同而引起的K值變化量將降低為1/β倍。圍壓的變化范圍越小,岩樣離散性的作用就越顯著。

如果能得到岩樣的應力-應變全程曲線,就可以利用變形性質大致相同岩樣的強度來確定強度准則。各個岩樣具有相同的K和不同的Q。即內摩擦力系數是岩石材料的力學特徵,而單軸壓縮強度只是岩石試樣的特徵。這與岩石的實際狀態相符。不考慮岩石材料的非均質性所造成的影響而進行簡單的平均或回歸分析,不能得到真正的岩石力學參數。

Ⅳ 數據分析師必須掌握的7種回歸分析方法

1、線性回歸


線性回歸是數據分析法中最為人熟知的建模技術之一。它一般是人們在學習預測模型時首選的技術之一。在這種數據分析法中,由於變數是連續的,因此自變數可以是連續的也可以是離散的,回歸線的性質是線性的。


線性回歸使用最佳的擬合直線(也就是回歸線)在因變數(Y)和一個或多個自變數(X)之間建立一種關系。


2、邏輯回歸


邏輯回歸是用來計算“事件=Success”和“事件=Failure”的概率。當因變數的類型屬於二元(1 /0,真/假,是/否)變數時,我們就應該使用邏輯回歸.


邏輯回歸不要求自變數和因變數是線性關系。它可以處理各種類型的關系,因為它對預測的相對風險指數OR使用了一個非線性的log轉換。


為了避免過擬合和欠擬合,我們應該包括所有重要的變數。有一個很好的方法來確保這種情況,就是使用逐步篩選方法來估計邏輯回歸。它需要大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差。


3、多項式回歸


對於一個回歸方程,如果自變數的指數大於1,那麼它就是多項式回歸方程。雖然會有一個誘導可以擬合一個高次多項式並得到較低的錯誤,但這可能會導致過擬合。你需要經常畫出關系圖來查看擬合情況,並且專注於保證擬合合理,既沒有過擬合又沒有欠擬合。下面是一個圖例,可以幫助理解:


明顯地向兩端尋找曲線點,看看這些形狀和趨勢是否有意義。更高次的多項式最後可能產生怪異的推斷結果。


4、逐步回歸


在處理多個自變數時,我們可以使用這種形式的回歸。在這種技術中,自變數的選擇是在一個自動的過程中完成的,其中包括非人為操作。


這一壯舉是通過觀察統計的值,如R-square,t-stats和AIC指標,來識別重要的變數。逐步回歸通過同時添加/刪除基於指定標準的協變數來擬合模型。


5、嶺回歸


嶺回歸分析是一種用於存在多重共線性(自變數高度相關)數據的技術。在多重共線性情況下,盡管最小二乘法(OLS)對每個變數很公平,但它們的差異很大,使得觀測值偏移並遠離真實值。嶺回歸通過給回歸估計上增加一個偏差度,來降低標准誤差。


除常數項以外,這種回歸的假設與最小二乘回歸類似;它收縮了相關系數的值,但沒有達到零,這表明它沒有特徵選擇功能,這是一個正則化方法,並且使用的是L2正則化。


6、套索回歸


它類似於嶺回歸。除常數項以外,這種回歸的假設與最小二乘回歸類似;它收縮系數接近零(等於零),確實有助於特徵選擇;這是一個正則化方法,使用的是L1正則化;如果預測的一組變數是高度相關的,Lasso 會選出其中一個變數並且將其它的收縮為零。


7、回歸


ElasticNet是Lasso和Ridge回歸技術的混合體。它使用L1來訓練並且L2優先作為正則化矩陣。當有多個相關的特徵時,ElasticNet是很有用的。Lasso會隨機挑選他們其中的一個,而ElasticNet則會選擇兩個。Lasso和Ridge之間的實際的優點是,它允許ElasticNet繼承循環狀態下Ridge的一些穩定性。


通常在高度相關變數的情況下,它會產生群體效應;選擇變數的數目沒有限制;並且可以承受雙重收縮。


關於數據分析師必須掌握的7種回歸分析方法,青藤小編就和您分享到這里了,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的職業前景及就業內容,可以點擊本站的其他文章進行學習。

Ⅳ 回歸分析的內容和步驟是什麼

回歸分析(regression
analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。
步驟
1.確定變數
明確預測的具體目標,也就確定了因變數。如預測具體目標是下一年度的銷售量,那麼銷售量Y就是因變數。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變數,並從中選出主要的影響因素。
2.建立預測模型
依據自變數和因變數的歷史統計資料進行計算,在此基礎上建立回歸分析方程,即回歸分析預測模型。
3.進行相關分析
回歸分析是對具有因果關系的影響因素(自變數)和預測對象(因變數)所進行的數理統計分析處理。只有當變數與因變數確實存在某種關系時,建立的回歸方程才有意義。因此,作為自變數的因素與作為因變數的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關系,以相關系數的大小來判斷自變數和因變數的相關的程度。
4.計算預測誤差
回歸預測模型是否可用於實際預測,取決於對回歸預測模型的檢驗和對預測誤差的計算。回歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作為預測模型進行預測。
5.確定預測值
利用回歸預測模型計算預測值,並對預測值進行綜合分析,確定最後的預測值。

Ⅵ 回歸分析要進行哪些檢驗各檢驗的目的是什麼

問:回歸分析牽扯哪些檢驗?

答:

1.第一,需要檢驗關系是不是線性,我們使用F檢驗

2.第二,我們檢驗系數,使用t檢驗

問:一元和多元回歸F檢驗和t檢驗的含義是一樣的嗎?

答:

一元回歸:線性關系F檢驗和回歸系數t檢驗的結果是等價的,線性關系越強,回歸系數絕不會是0。

多元回歸:線性關系F檢驗和回歸系數t檢驗的結果是不等價的, why? 因為線性關系檢驗主要檢驗因變數同多個自變數的線性關系是否顯著,在很多自變數中,只要有一個自變數和因變數的線性關系顯著,F檢驗就能通過,但不一定每個自變數和因變數關系都顯著。

回歸系數檢驗則是對每一個回歸系數分別單獨進行的檢驗,主要用於檢驗每個自變數對因變數的影響是否都顯著。如果某個自變數不顯著,就從模型中刪除。

問:線性關系是如何做檢驗的?

答:

分三步走:

第一步:提出建設(沒有假設檢驗和點&區間估計,統計學和六西格瑪就沒得完了)

H0: β1=β2=β3…..=βk=0

H1: β1,β2,β3…..βk至少有一個不等於0

第二步:計算檢驗的統計量F

F= (SSR/k) / (SSE/(n-k-1))~ F(k,n-k-1)

第三步:作出統計決策,給定顯著性水平α,根據分子自由度=k,分母自由度=n-k-1 ,查F分布表 Fα。如F> Fα,則拒絕原假設,如F< Fα,則不拒絕原假設,

用電腦看結果的話,我們就看p value, p value <α,拒絕原假設;p-value > α,不拒絕原假設。

問:回歸關系是如何做檢驗的?

答:

還是分三步走:

第一步:提出建設,對任意參數βi(i=1,2…..k)

H0:βi=0

H1: βi不等於0

第二步:計算檢驗的統計量t, 實在打不出來了,截圖如下:

第三步:作出統計決策,給定顯著性水平α,根據分子自由度=n-k-1查t分布表,得到tα/2的值。

若|t|> tα/2則拒絕原假設,否則,不拒絕原假設。

用電腦看結果的話,我們就看p value, p value <α,通過t檢驗,此因子顯著;p-value > α,未通過t檢驗,則因子不顯著。

Ⅶ 回歸分析方法

§3.2 回歸分析方法
回歸分析方法,是研究要素之間具體的數量關系的一種強有力的工具,能夠建立反映地理要素之間具體的數量關系的數學模型,即回歸模型。
1. 一元線性回歸模型
1) 一元線性回歸模型的基本結構形式
假設有兩個地理要素(變數)x和y,x為自變數,y為因變數。則一元線性回歸模型的基本結構形式:

a和b為待定參數;α=1,2,…,n為各組觀測數據的下標; εa為隨機變數。如果記a^和b^ 分別為參數a與b的擬合值,則得到一元線性回歸模型

ÿ 是y 的估計值,亦稱回歸值。回歸直線——代表x與y之間相關關系的擬合直線

2) 參數a、b的最小二ÿ乘估計
參數a與b的擬合值:

,

建立一元線性回歸模型的過程,就是用變數 和 的實際觀測數據確定參數a和b的最小二乘估計值α^和β^ 的過程。
3) 一元線性回歸模型的顯著性檢驗
線性回歸方程的顯著性檢驗是藉助於F檢驗來完成的。
檢驗統計量F:

誤差平方和:

回歸平方和:

F≈F(1,n-2)。在顯著水平a下,若 ,則認為回歸方程效果在此水平下顯著;當 時,則認為方程效果不明顯。

[舉例說明]
例1:在表3.1.1中,將國內生產總值(x1)看作因變數y,將農業總產值(x2)看作自變數x,試建立它們之間的一元線性回歸模型並對其進行顯著性檢驗。
解:
(1) 回歸模型
將y和x的樣本數據代入參數a與b的擬合公式,計算得:

故,國內生產總值與農業總產值之間的回歸方程為

(2) 顯著性檢驗

在置信水平α=0.01下查F分布表得:F0.01(1,46)=7.22。由於F=4951.098 >> F0.01(1,46)=7.22,所以回歸方程(3.2.7)式在置信水平a=0.01下是顯著的。

2. 多元線性回歸模型
在多要素的地理系統中,多個(多於兩個)要素之間也存在著相關影響、相互關聯的情況。因此,多元地理回歸模型更帶有普遍性的意義。
1) 多元線性回歸模型的建立
(1) 多元線性回歸模型的結構形式
假設某一因變數y受k 個自變數 的影響,其n組觀測值為 。則多元線性回歸模型的結構形式:

為待定參數, 為隨機變數。如果 分別為 的擬合值,則回歸方程為

b0為常數, 稱為偏回歸系數。
偏回歸系數 ——當其它自變數都固定時,自變數 每變化一個單位而使因變數xi平均改變的數值。

(2) 求解偏回歸系數

,

2) 多元線性回歸模型的顯著性檢驗
用F檢驗法。
F統計量:

當統計量F計算出來之後,就可以查F分布表對模型進行顯著性檢驗。
[舉例說明]
例2:某地區各城市的公共交通營運總額(y)與城市人口總數(x1 )以及工農業總產值(x2)的年平均統計數據如表3.2.1(點擊展開顯示該表)所示。試建立y與x1及x2之間的線性回歸模型並對其進行顯著性檢驗。

表3.2.1 某地區城市公共交通營運額、人口數及工農業總產值的年平均數據

城市序號

公共交通營運額y/103人公里 人口數x1/103人 工農業總產值x2
/107元
1 6825.99 1298.00 437.26
2 512.00 119.80 1286.48
... ... ... ...
14 192.00 12.47 1072.27
註:本表數據詳見書本P54。
解:
(1) 計算線性回歸模型
由表3.2.1中的數據,有

計算可得:

故y與x1 及y2之間的線性回歸方程

(2) 顯著性檢驗

故:

在置信水平a=0.01下查F分布表知:F0.01(2,11)=7.21。由於F=38.722> F0.01(2,11)=7.21,所以在置信水平a=0.01下,回歸方程式是顯著的。

3. 非線性回歸模型的建立方法
1) 非線性關系的線性化
(1) 非線性關系模型的線性化
對於要素之間的非線性關系通過變數替換就可以將原來的非線性關系轉化為新變數下的線性關系。
[幾種非線性關系模型的線性化]

① 於指數曲線 ,令 , ,將其轉化為直線形式:
,其中, ;
② 對於對數曲線 ,令 , ,將其轉化為直線形式:

③ 對於冪函數曲線 ,令 , ,將其轉化為直線形式:
,其中,
④ 對於雙曲線 ,令 ,將其轉化為直線形式:

⑤ 對於S型曲線 ,將其轉化為直線形式:


⑥ 對於冪函數乘積:

令 將其轉化為直線形式:

其中, ;
⑦ 對於對數函數和:

令 ,將其化為線性形式:

(2) 建立非線性回歸模型的一般方法
① 通過適當的變數替換將非線性關系線性化;
② 用線性回歸分析方法建立新變數下的線性回歸模型:
③ 通過新變數之間的線性相關關系反映原來變數之間的非線性相關關系。
3) 非線性回歸模型建立的實例

非線性回歸模型建立的實例

景觀是地理學的重要研究內容之一。有關研究表明(Li,2000;徐建華等,2001),任何一種景觀類型的斑塊,其面積(Area)與周長(Perimeter)之間的數量關系可以用雙對數曲線來描述,即

例3:表3.2.2給出了某地區林地景觀斑塊面積(Area)與周長(Perimeter)的數據。試建立林地景觀斑塊面積A與周長P之間的雙對數相關關系模型。

表3.2.2某地區各個林地景觀斑塊面積(m2)與周長(m)

序號 面積A 周長P 序號 面積A 周長P
1 10447.370 625.392 42 232844.300 4282.043
2 15974.730 612.286 43 4054.660 289.307
... ... ... ... ... ...
41 1608.625 225.842 82 564370.800 12212.410

註:本表數據詳見書本57和58頁。

解:因為林地景觀斑塊面積(A)與周長(P)之間的數量關系是雙對數曲線形式,即

所以對表3.2.2中的原始數據進行對數變換,變換後得到的各新變數對應的觀測數據如表3.2.3所示。

Ⅷ 回歸系數的顯著性檢驗

回歸方程及回歸系數的顯著性檢驗

1、回歸方程的顯著性檢驗

(1) 回歸平方和與剩餘平方和

建立回歸方程以後, 回歸效果如何呢?因變數與自變數是否確實存在線性關系呢?這是需要進行統計檢驗才能加以肯定或否定, 為此, 我們要進一步研究因變數取值的變化規律。的每次取值是有波動的, 這種波動常稱為變差, 每次觀測值的變差大小, 常用該次觀側值與次觀測值的平均值的差(稱為離差)來表示, 而全部次觀測值的總變差可由總的離差平方和

,

其中:

稱為回歸平方和, 是回歸值與均值之差的平方和, 它反映了自變數的變化所引起的的波動, 其自由度(為自變數的個數)。

稱為剩餘平方和(或稱殘差平方和), 是實測值與回歸值之差的平方和, 它是由試驗誤差及其它因素引起的, 其自由度。總的離差平方和的自由度為。

如果觀測值給定, 則總的離差平方和是確定的, 即是確定的, 因此大則小, 反之, 小則大, 所以與都可用來衡量回歸效果, 且回歸平方和越大則線性回歸效果越顯著, 或者說剩餘平方和越小回歸效果越顯著, 如果=0, 則回歸超平面過所有觀測點; 如果大, 則線性回歸效果不好。

(2) 復相關系數

為檢驗總的回歸效果, 人們也常引用無量綱指標

, (3.1)



, (3.2)

稱為復相關系數。因為回歸平方和實際上是反映回歸方程中全部自變數的「方差貢獻」, 因此就是這種貢獻在總回歸平方和中所佔的比例, 因此表示全部自變數與因變數的相關程度。顯然。復相關系數越接近1, 回歸效果就越好, 因此它可以作為檢驗總的回歸效果的一個指標。但應注意, 與回歸方程中自變數的個數及觀測組數有關, 當相對於並不很大時, 常有較大的值, 因此實際計算中應注意與的適當比例, 一般認為應取至少為的5到10倍為宜。

(3) 檢驗

要檢驗與是否存在線性關系, 就是要檢驗假設

, (3.3)

當假設成立時, 則與無線性關系, 否則認為線性關系顯著。檢驗假設應用統計量, (3.4)

這是兩個方差之比, 它服從自由度為及的分布, 即

, (3.5)

用此統計量可檢驗回歸的總體效果。如果假設成立, 則當給定檢驗水平α下, 統計量應有

≤, (3.6)

對於給定的置信度α, 由分布表可查得的值, 如果根據統計量算得的值為, 則拒絕假設, 即不能認為全部為O, 即個自變數的總體回歸效果是顯著的, 否則認為回歸效果不顯著。

利用檢驗對回歸方程進行顯著性檢驗的方法稱為方差分析。上面對回歸效果的討論可歸結於一個方差分析表中, 如表3.1。

表3.1 方差分析表

來 源

平方和

自由度

方 差

方差比

回 歸

剩 余

總 計

根據與的定義, 可以導出與的以下關系:

,



利用這兩個關系式可以解決值多大時回歸效果才算是顯著的問題。因為對給定的檢驗水平α, 由分布表可查出的臨界值, 然後由即可求出的臨界值:

, (3.7)

當時, 則認為回歸效果顯著。
例3.1 利用方差分析對例2.1的回歸方程進行顯著性檢驗。

方差分析結果見表3.2。

表3.2

來 源

平方和

自由度

方 差

方差比

回 歸

剩 余

總 計

取檢驗水平α=0.05, 查分布表得, 而, 所以例2.1的回歸方程回歸效果是顯著的。

2、回歸系數的顯著性檢驗

前面討論了回歸方程中全部自變數的總體回歸效果, 但總體回歸效果顯著並不說明每個自變數對因變數都是重要的, 即可能有某個自變數對並不起作用或者能被其它的的作用所代替, 因此對這種自變數我們希望從回歸方程中剔除, 這樣可以建立更簡單的回歸方程。顯然某個自變數如果對作用不顯著, 則它的系數就應取值為0, 因此檢驗每個自變數是否顯著, 就要檢驗假設:, , (3.8)

(1) 檢驗:

在假設下, 可應用檢驗:

, , (3.9)

其中為矩陣的對角線上第個元素。

對給定的檢驗水平α, 從分布表中可查出與α對應的臨界值, 如果有, 則拒絕假設, 即認為與0有顯著差異, 這說明對有重要作用不應剔除; 如果有則接受假設, 即認為成立, 這說明對不起作用, 應予剔除。

(2) 檢驗:

檢驗假設, 亦可用服從自由度分別為1與的分布的統計量

, (3.10)

其中為矩陣的主對角線上第個元素。對於給定的檢驗水平α, 從分布表中可查得臨界, 如果有, 則拒絕假設, 認為對有重要作用。如果, 則接受假設, 即認為自變數對不起重要作用, 可以剔除。一般一次檢驗只剔除一個自變數, 且這個自變數是所有不顯著自變數中值最小者, 然後再建立回歸方程, 並繼續進行檢驗, 直到建立的回歸方程及各個自變數均顯著為止。

最後指出, 上述對各自變數進行顯著性檢驗採用的兩種統計量與實際上是等價的, 因為由(3.9)式及(3.10)式知, 有

(3.11)

例3.2 對例2.1的回歸方程各系數進行顯著性檢驗。

經計算:

,

於是

,

其中=0.002223, =0.004577。由(3.7)式知

,

,

查分布表得, , 因為, , 所以兩個自變數及都是顯著的。又由, 說明體長比胸圍對體重的影響更大。

如果應用檢驗, 查分布表有, 又由

,

,

因為, , 因此及都是顯著的, 均為重要變數, 應保留在回歸方程中。

(3) 偏回歸平方和

檢驗某一自變數是否顯著, 還可應用偏回歸平方和進行檢驗。

個自變數的回歸平方和為

,

如果自個自變數中去掉, 則剩下的個自變數的回歸平方和設為, 並設

,

則就表示變數在回歸平方和中的貢獻, 稱為的偏回歸平方和或貢獻。可以證明
偏回歸平方和越大, 說明在回歸方程中越重要, 對的作用和影響越大, 或者說對回歸方程的貢獻越大。因此偏回歸平方和也是用來衡量每個自變數在回歸方程中作用大小(貢獻大小)的一個指標。

例如在例2.1中, 和的偏回歸平方和分別為

,

,

, 說明在回歸方程中的作用比大。

又如在例2.2中及的偏回歸平方和分別為:

,

,

,

,

的值最小, 即在回歸方程中所起的作用最小, 最大, 說明在回歸方程中所起的作用最大。
, (3.12)

Ⅸ 如何驗證cox回歸模型預測效果

Cox回歸是生存分析中最重要的方法之一,它是一種半參數模型,與參數模型相比,該模型不能給出各時點的風險率,但對生存時間分布無要求,可估計出各研究因素對風險率的影響,因而應用范圍更加更廣。下面,由我簡單給大家聊聊如何使用spss做Cox的幾個步驟。
工具/原料

SPSS
數據文件
方法/步驟

打開spss,在菜單欄中依次選擇「分析」|「生存函數」|「Cox回歸」,彈出」Cox回歸「對話框。

「時間」列表框,選入一個時間變數。「狀態」列表框,選入一個狀態變數,此時,將激活「定義事件」按鈕,單擊此按鈕,彈出定義事件對話框。

「協變數」選項組,該選項組主要包括「協變數」列表框和「方法」下拉列表框。「分類」按鈕,當選入2個以上協變數活交互項且其中部分協變數是字元串變數活分類變數時,「分類」按鈕將呈現激活狀態,可以定義分成協變數。

「層」列表框 用於選入分層變數,「繪圖」按鈕 在主對話框中單擊「繪圖」按鈕,即可彈出對話框。「保存」按鈕 在主對話框中單擊「保存」,彈出保存對話框,選擇一個使用的函數,點擊「繼續」

單擊「確認」,輸出結果。

Ⅹ 多元線性回歸的顯著性檢驗包含哪些內容如何進行

多元線性回歸的顯著性檢驗包含所有自變數與因變數。

回歸方程的顯著性檢驗,即檢驗整個回歸方程的顯著性,或者說評價所有自變數與因變數的線性關系是否密切。能常採用F檢驗,F統計量的計算公式為:

(10)回歸分析的效果驗證方法擴展閱讀:

建立多元性回歸模型時,為了保證回歸模型具有優良的解釋能力和預測效果,應首先注意自變數的選擇,其准則是:

(1)自變數對因變數必須有顯著的影響,並呈密切的線性相關;

(2)自變數與因變數之間的線性相關必須是真實的,而不是形式上的;

(3)自變數之間應具有一定的互斥性,即自變數之間的相關程度不應高於自變數與因變數之因的相關程度;

(4)自變數應具有完整的統計數據,其預測值容易確定。

閱讀全文

與回歸分析的效果驗證方法相關的資料

熱點內容
剪星星的方法視頻 瀏覽:920
最簡單的破土方法 瀏覽:497
維e淡斑使用方法 瀏覽:358
淋巴細胞計數有哪些方法 瀏覽:461
用黏土做蛋糕的方法視頻 瀏覽:317
真假鹽的辨別方法視頻 瀏覽:80
淺談思想政治教學方法論文 瀏覽:405
幾種快速練出腹肌的方法 瀏覽:258
研究方法跟途徑一樣嗎 瀏覽:774
華為手機怎麼開機方法 瀏覽:833
列舉工業工程概念中所述的研究方法和工具 瀏覽:175
上課時想睡覺有什麼方法可以緩解 瀏覽:312
木床的安裝方法 瀏覽:989
早晨吃青菜的正確方法 瀏覽:637
變性澱粉的使用方法 瀏覽:681
異地警告違章怎麼處理方法 瀏覽:111
指導我們方法用英語怎麼說 瀏覽:722
葯物分析方法學驗證意義 瀏覽:896
妮維雅男士深黑控油保濕精華露如何使用方法 瀏覽:594
如何寫作文的方法和技巧四年級 瀏覽:878