⑴ 回歸分析法
回歸分析法,是在研究礦坑涌水量與其影響因素存在一定相關關系後,提出的一種數理統計方法。礦坑涌水量是在各種自然和人為因素綜合作用下有規律地變化著。影響礦坑涌水量變化的因素極其復雜繁多,甚至有些因素我們目前還沒有發現,有些因素雖被發現但也無力調控和測定。因此,大量事實告訴我們,礦坑涌水量(稱為因變數)與某些影響因素(稱為自變數)的關系也存在數學中稱之為相關的關系。回歸分析法就是利用數學統計的方法,找出礦坑涌水量與影響因素之間的相關關系的數學表達式——回歸方程,用求得的回歸方程來預測礦坑涌水量。
回歸分析法與水文地質比擬法的原理基本相同,都是尋求礦坑涌水量與其主要影響因素之間的關系表達式,並以這種尋找到的數學關系式來預測新的礦坑涌水量。所不同的是數學表達式的來源不同。水文地質比擬法,多數是根據經驗提出,用起來方便靈活,缺點是缺乏嚴密性;回歸分析法,是以已經有的實測數據為基礎,通過數理統計的方法建立回歸方程,其優點是可靠性較水文地質比擬法大一些,但計算較復雜。
應該注意的是,回歸方程是一種非確定性的變數關系,嚴格地講,它不允許外推。但具體工作中往往又需要外推,因此,回歸方程外推的范圍不宜過大。當回歸方程為直線時,外推深度一般不應超過試驗降深的1.5~1.75倍;當回歸方程為曲線相關時,雖可適當增大外推范圍,但一般也不宜超過2倍。同時,必須根據礦床具體的水文地質條件,檢驗外推結果是否合理。
幾種常用的回歸方程如下:
(一)二元直線相關
當礦坑涌水量與主要影響因素之間為直線相關關系時,其數學表達式為
Q=a+bs (4-5)
式中:Q為試驗時的涌水量;S為當抽水量為Q時相對應的水位降深;a為常數;b為回歸系數,它表示當S每增加1m時涌水量平均增加的水量數值。
a,b可根據試驗數據利用最小二乘法求得
雙層水位礦床地下水深層局部疏干方法的理論與實踐
式中:
根據求得的a,b系數值,便可寫出回歸方程。
(二)三元直線相關
如果礦坑涌水量與兩個影響因素存在直線相關時,其數學表達式便為三元直線相關(比如降深S和時間t):
Q=b0+b1S+b2t (4-8)
式中:b0為常數;b1,b2分別為水量Q對自變數S和t的回歸系數;S,t為當礦坑涌水量為Q時的兩個因素自變數;b0,b1,b2可用最小二乘法確定;
雙層水位礦床地下水深層局部疏干方法的理論與實踐
根據求得的b0,b1,b2可以寫出三元直線方程。
(三)涌水量-降深曲線法(Q-S曲線法)
涌水量-降深曲線法也稱涌水量曲線法,其實質就是利用抽(放)水的試驗資料,建立涌水量(Q)和降深(S)之間的關系曲線方程,根據試驗階段和未來開采階段水文地質條件的相似性,合理地把Q-S曲線外推,來預測礦坑涌水量。
大量試驗資料證明,涌水量曲線一般有4種類型(圖4-1)。
圖4-1 涌水量-降深曲線圖
(1)直線型
Q=bs
式中:
這種類型的曲線方程,一般表現為地下水流呈層流狀態,抽水時水位降深與含水層厚度相比很小。
(2)拋物線型
S=aQ+bQ2 (4-11)
雙層水位礦床地下水深層局部疏干方法的理論與實踐
(3)冪函數曲線型
雙層水位礦床地下水深層局部疏干方法的理論與實踐
(4)對數曲線型
Q=a+blgS (4-17)
式中:
雙層水位礦床地下水深層局部疏干方法的理論與實踐
上述各式中a,b均為待定系數,求出a,b後便可寫出涌水量曲線方程。
一般情況下,圖4-1中的2號曲線代表的是拋物線型曲線,它表示強富水性含水層在抽水強烈時,地下水抽水井附近出現三維流的情況下的曲線形態;第3,4兩種類型曲線一般表示含水層規模較小,補給條件比較差情況下出現的曲線類型。
涌水量曲線方程的形態不但與含水層的規模、性質以及補給徑流條件有關,而且與抽水強度的大小和抽水時間長短也有關系。因此,採用Q-S曲線方程法預測礦坑涌水量時,一般要求抽(放)水試驗的規模盡量大一些,常採取大口徑、大降深群孔抽(放)水試驗,以求盡量符合未來的開采狀態,充分揭露和顯示其盡量多的水文地質條件,盡量波及礦床的各種邊界,從而求取最大可能符合實際條件的礦坑涌水量。
⑵ 基於回歸分析的海洋地質調查研究及實例應用
梁廣1,2邵長高1,2
(1.廣州海洋地質調查局 廣州 510760;2.國土資源部海底礦產資源重點實驗室 廣州 510760)
第一作者簡介:梁廣(1972—),男,工程師,主要從事網路管理和數據管理工作,E-mail:[email protected]。
摘要 近年來資源勘探已經覆蓋大部分陸地區域,越來越多的國家把目光投向海洋。海洋作為一個巨大的能源和資源寶庫在國民經濟、軍事戰略等的重要性也日益顯現。各個國家競相制定海洋科技開發規劃、戰略計劃,優先發展海洋新技術[1]。如何有效的從海量海洋地質調查數據中獲取有用信息是海洋新技術研究中的重要研究內容。論文針對海洋地質調查數據研究技術應用需求,引入了回歸分析模型到海洋地質調查資料庫中,詳細介紹了回歸分析的技術方法和在海洋地質調查資料庫研究中的應用優勢,為海洋科學研究提供了技術支持。
關鍵詞 海洋地質 回歸分析 資料庫
1 前言
隨著陸地資源的消耗和人類對能源越來越強烈的需求,海洋作為一個尚待大規模開發的能源和資源寶庫引起各國越來越多的關注。我國作為世界上最大的發展中國家對能源的需求也在大幅增加,近年來我國石油進口數量急劇增長,據估計到2020年我國石油進口依存度將達到60%。黨和國家領導人多次提出「資源、能源、特別是油氣資源,已成為我國經濟和社會發展的重要因素,解決後備能源問題是保證國家經濟安全的大事」。隨著我國國土資源大調查和海洋地質專項調查的開展,大量的海洋地質數據被收集和積累,並建立了多個滿足各自業務需求的信息系統和數據源[2]。如何有效的從海量海洋地質調查數據中獲取有用信息是海洋新技術研究中的重要研究內容。論文針對海洋地質調查數據研究技術應用手段的需求,引入了回歸分析技術到海洋地質調查資料庫中,詳細介紹了回歸分析的技術方法和在海洋地質調查資料庫研究中的應用優勢,為海洋科學研究提供了技術支持。
2 回歸分析概述
2.1 概述
回歸分析是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。回歸分析按照涉及的自變數的多少,可分為一元回歸分析和多元回歸分析;按照自變數和因變數之間的關系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變數和一個因變數,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關系,則稱為多元線性回歸分析[3]。回歸分析預測法可以從各數據之間的相互關系出發,通過對與預測對象有聯系的現象變動趨勢的分析,推算預測對象未來狀態數量表現的一種預測方法,通過對與預測對象(y)有聯系的多個因素X1,X2,……,Xk建立回歸模型。求出的回歸模型是否合理,是否符合變數之間的客觀規律性,引入相關因素是否有效,變數之間是否存在線性相關關系,模型能否付諸應用,這要通過檢驗決定。本文給出了兩方面的檢驗:一方面為實際意義檢驗。即利用理論所擬定的期望值與實際結果相比較是否相符。另一方面為統計檢驗:分別為擬合優度檢驗(R平方檢驗)、方程顯著性檢驗(F檢驗)、變數顯著性檢驗(t檢驗)[4]。論文主要介紹一元線性回歸分析在海洋地質調查資料庫中的應用。
2.2 一元線形回歸分析模型
線性回歸分析可以描述兩個要素之間的回歸關系。線性回歸分析公式為:yi=a+bxi+εi.其中a和b為參數.εi是誤差.我們定義Q(a,b)a為總誤差。則:
南海地質研究(2014)
對公式兩邊的a和b求導得:
南海地質研究(2014)
南海地質研究(2014)
x表示x的平均值.y表示y的平均值.
關系系數R2求值方法為[5]:
南海地質研究(2014)
2.3 多元線形回歸分析模型
研究對象y受多個因素x1,x2,x3,…xn的影響,假定各個影響因素與y的關系是線性的,則可建立多元線性回歸模型:
y=β0+β1x1+β2x2+…+βkxk+ε
式中:x1,x2,……,xk代表影響因子;ε 為隨機誤差;y 代表所研究的對象,即預測目標[3]。
2.4 統計檢驗
統計檢驗是運用數理統計的方法,對方程進行檢驗、對模型參數估計值的可靠性進行檢驗。這主要包括擬合優度檢驗、方程顯著性檢驗、變數顯著性檢驗,即常用的R2檢驗、F檢驗和t檢驗。
2.4.1 擬合優度檢驗(檢驗):
擬合優度檢驗就是檢驗回歸方程對樣本觀測值的擬合程度。又稱為復相關系數檢驗法,它是通過對總變差(總離差)的分解得到。
南海地質研究(2014)
其中
南海地質研究(2014)
總變差平方和S總是各個觀察值與樣本均值之差的平方和,反映了全部數據之間的差異;殘差平方和S殘是總變差平方和中未被回歸方程解釋的部分,由解釋變數x1,x2……,xk中未包含的一切因素對被解釋變數y的影響而造成的;回歸平方和S回是總變差平方和中由回歸方程解釋的部分。對於一個好的回歸模型,它應該較好地擬合樣本觀測值,S總中S殘越小越好。於是可以用:
南海地質研究(2014)
求得[4]。
2.4.2 方程顯著性檢驗(F 檢驗):
對於多元線性回歸方程,方程顯著性檢驗就是對總體的線性關系是否顯著成立作出推斷,即檢驗被解釋變數y與所有解釋變數X1,X2,……,Xk之間的線性關系是否顯著,
南海地質研究(2014)
即F統計量服從以(k,n-k-1)為自由度的F分布。首先根據樣本觀測值及回歸值計算出統計量F,於是在給定的顯著性水平a下,若F>Fa(k,n-k-1),則拒絕H0,判定被解釋變數y與所有解釋變數x1,x2,……,xk之間的回歸效果顯著,即確實存在線性關系;反之,則不顯著[4]。
2.4.3 變數顯著性檢驗(t檢驗):
對於多元回歸模型,方程的顯著性並不意味每個解釋變數對被解釋變數y的影響都是重要的。如果某個解釋變數並不重要,則應該從方程中把它剔除,重新建立更為簡單的方程。所以必須對每個解釋變數進行顯著性檢驗。
在給定的顯著性水平a下,若|ti|>ta/2(n-k-1),則拒絕H0,說明解釋變數xi對被解釋變數y有顯著影響,即xi是影響y的主要因素;反之,接受H0,說明解釋變數xi對被解釋變數y無顯著影響,則應刪除該因素[4]。
3 應用實例
論文利用線形回歸分析模型對南海海域海洋沉積物溫度進行了分析,其中散點圖顯示如圖1所示,回歸分析結果見表1。
圖1 水深與沉積物溫度散點圖
Fig.1 Water depth vs.sediment temperature
表1 水深沉積物溫度回歸分析結果Tab.1 The regression analysis result for Water depth vs.sediment temperature
讀取回歸結果如下:
截距:a=17.56;斜率:b=-0.0014;相關系數:R=0.276;測定系數:R2=0.076;F值:F=89.54。
建立回歸模型,並對結果進行檢驗
模型為:
F值的計算公式和結果為:
南海地質研究(2014)
其中P<0.0001。回歸結果證明,沉積物溫度與海水深度有著密切的關系,但是通過散點圖顯示,並不是溫度越深沉積物溫度越低。而是受到其他例如海底熱流,海洋環流等因素的影響。
4 結語
本文介紹了回歸分析在海洋地質調查研究中的應用,同時提供了回歸分析的技術原理及實現方法,並通過對南海沉積物與海水深度關系模型進行了應用分析,回歸結果顯示了兩者具有密切但是存在不確定性的關系。實驗結果得到有效的應用。
參考文獻
[1]單寶強,毛永強.2005.GIS中的坐標系定義與轉換[J].黑龍江國土資源,11,38-39
[2]蘇國輝,孫記紅,等.2011.海洋地質數據集成中的關鍵問題和方案[J].海洋地質前沿,11(27):51
[3]網路.回歸分析.http://ke..com/view/145440.htm
[4]沈聰.2009.基於EXCEL的回歸分析在足跡分析上的應用[M].遼寧警官高等專科學校本科畢業論文
[5]Cottrell A.Regression Analysis:Basic Concepts.http://www.wfu.e/~cottrell/ecn215/regress.pdf
The Marine Geological Survey Based on Regression Analysis
Liang Guang1,2,Shao Changgao1,2
(1.Guangzhou Marine Geological Survey,Guangzhou,510760;2.Key Laboratory of Marine Mineral Reasources,MLR,Guangzhou,510760)
Abstract:The new resources survey had covered most of the continental area at present.So,the ocean resources have attracted more and more attention now as it is a huge resource and energy reservoir that had a profound meaning to national economy and military strategy.The energy competition made manly countries developed new technology project and put the new ocean technology as the primary study area.However,how to abstract useful information from marine geological survey data is one of the most important study technologies.This paper focuses on the study of the deficit of marine database technology and introces regression analysis model and the application advantage of it.The purpose of this paper is to provide the technology support for marine study.Key word:Marine geology;Regression analysis model;Database
⑶ 水文地質問題與數學模型
一般認為,研究自然或社會現象主要有機理分析和統計分析兩種方法。前者用經典的數學工具分析現象的因果關系;後者以隨機數學為工具,通過大量觀測數據尋求統計規律,最後以某種數學關系或數學模式來描述。其中,建立數學模型對現象進行模擬預測是非常重要的。在水文地質學中,從裘布依、泰斯建立的公式,直到目前模擬地下水量、水質的三維流模型,都說明了數學模型方法是水文地質學中非常重要的技術方法。特別是近年來數字計算機的高度發展和數值分析技術的不斷完善,數學模型已廣泛地應用於水文地質學(林學鈺等,1995年)。
一、數學模型
所謂數學模型,就是為了某個特定目的,對現實世界的某一特定對象作出一些必要的簡述和假設,而後運用適當的數學工具得到的一個數學結構。它或者能解釋特定現象的現實形態,或者能預測對象的未來狀況,或者能提供處理對象的最優決策或控制。地下水數學模型,就是運用數學的語言和工具,對水文地質條件和水資源的信息進行概化、翻譯和歸納的結果。數學模型經過演繹、推斷,給出數學上的分析、預報、決策或控制,再經過解釋,回到實際應用中去。最後經過實踐檢驗,如果結果正確或基本正確,則可以用來指導實際;否則要重新考慮概化、歸納過程,並修改數學模型,如圖15-1所示。
圖15-1 水文地質問題與數學模型的關系
從目前實際應用來看,地下水數學模型主要分為3大類,即解析模型、數值模型和多元統計模型。解析模型是由描述地下水流的微分方程的各種解析解組成,如泰斯公式、裘布依公式等。解析模型僅適用於含水層相對均質,幾何形狀簡單,范圍較小和源匯項簡單的地下水流問題。在建立地下水解析模型時,研究區的地下水條件通常由具有直線邊界、有效寬度、厚度和長度的「模型含水層」來模擬。模型的解是利用具有平均水力性質的理想含水層,根據鏡像理論和一定的地下水流方程式求得。
對於不適合解析模型的復雜條件,則可利用數值模型,通過建立相應的偏微分方程求得數值解。要建立數值模型,首先要把具有連續參數的含水層系統離散為若干個剖分單元,對時間變數也進行同樣離散。然後利用有限差分原理、有限單元原理或者邊界單元原理形成一組線性代數方程組。而後,藉助於數字計算機對這組線性代數方程組進行數值求解。根據建立方程的原理不同,可以產生有限差分法、有限單元法和邊界單元法等不同的數值模型。
由於地下水系統是一個多變數系統,因此,一些多元統計模型也可以用於解決地下水流問題。運用多元統計分析方法處理各種水文地質觀測數據,對地下水的某些特徵或規律進行評價、預測和探求地下水化學成分的分布和變化規律等,都可得到一定的定量信息。例如,多元回歸分析可以定量地建立地下水系統中一個變數和另一個變數或另幾個變數之間的數學關系表達式,從而研究各變數之間的制約和關聯關系,並進行評價和預測。再如,因子分析模型或對應分析模型則是把地下水系統中一些具有錯綜復雜關系的因子,通過某種內在聯系歸結為數量較少的幾個綜合因子,進而分析地下水樣品和變數之間的分布和成因關系,以獲得規律性的信息。隨著科學技術的發展,近來又出現了一些新的地下水多元分析模型,如時間序列模型、灰色系統模型等。它們在地下水管理過程中都起到了一定的積極作用。
二、地下水數學模型的建立與應用
數學模型的建立步驟並沒有一定的模式,但大體上具有以下過程。
首先,要了解和掌握野外水文地質條件及各種現象、信息和統計數據等,明確建立模型的目的和要解決的實際問題;然後,對具體的水文地質條件進行概化,建立水文地質概念模型。這一過程是建立模型的關鍵,不同的概化可導致不同的模型。如果概化不合理或過分簡單,會導致模型的失敗或部分失敗;如果概化得過分詳細,試圖把復雜的實際現象的各個因素都考慮進去,可能很難甚至無法繼續下一步的工作。因此,在這一階段,要求建模者有豐富的水文地質理論和實踐經驗,以辨別問題的主要因素和次要因素,盡量將問題均勻化、線性化。
水文地質概念模型建立後,利用適當的數學工具建立各個量(常量和變數)之間的關系,如利用偏微分方程描述地下水的運動等。這是建立模型的第二步。這項工作常常需要具有比較寬闊的數學知識,如微積分、微分方程、線性代數、概率統計及規劃論等。
第三步是模型求解和參數識別。在模型應用之前,要對所建立的模型進行驗證。這對於模型的成敗也是非常重要的。在水資源研究中,在應用地下水模型進行評價和預測之前,必須利用地下水歷史資料來模擬驗證地下水模型的可靠性和可信度。
由於地下水系統的響應是受系統外部的脈沖激發而產生的,對於地下水水量模型來說,響應即地下水水位,脈沖即地下水補給量或開采量。因此,歷史上系統對脈沖的響應狀況也就體現在系統的歷史水位資料上。如果地下水模型能夠較好地模擬地下水系統原型,那麼模型就應該能夠再現歷史上地下水位及其變化情況,這就是模型驗證思想的基本出發點。
對地下水模型驗證來說,就是根據野外和室內試驗結果及區域水文地質調查資料給出一系列水文地質參數的上下限范圍值,利用其中一組系統的最好參數初值來確定系統對外部脈沖隨時間的響應情況。這種響應結果就是系統狀態變數的計算值,它可以表達為地下水位或水中鹽分濃度的變化。然後,將計算值與系統的已知歷史資料作對比,如果資料整理和建模工作進行得較為准確完備,那麼模型初次運行就會得到較好的擬合結果。但一般所建模型與實體之間都會存在一定的差異,因此,都需要對模型系數(如貯水系數、導水系數、入滲率、彌散度和彌散系數等)作合理的調整,並通過計算機重新計算,再將計算值與歷史資料作對比。在參數限定范圍內,這種調整和擬合過程經常要重復進行,直到計算結果與歷史資料擬合得很好為止。這里的「擬合得很好」,一般具有兩層含義:一是指各個觀測孔之間擬合得很好;二是指系統總體流場擬合得很好。實踐證明,過分強調模型的最終「擬合」而忽視了水文地質概念模型失真度的檢查是不正確的。在這方面記住錢伯林(Chamberlin,1899)的告誡是很重要的。他說:「數學分析的嚴密性給人們以深刻印象,以及給人以精確而細致的感覺,但這不應蒙蔽我們,使我們看不到制約整個過程的前提的缺陷。建立在不可靠前提下苦心完成的細致的數學過程,恐怕比任何別的欺騙手段都更為隱蔽和更為危險。」
地下水模型一旦經過校正和驗證,就可以用於評價和預報。通過研究地下水系統對各種輸入的響應規律,它可以對不同的地下水管理方案進行合理、綜合的評價。將地下水模型與最優化模型耦合起來,就可以對各個地下水管理方案做全面的經濟、生態和環境的評價。因此,利用模型技術,不僅可以選擇技術經濟最優的管理方案,而且可以滿足系統的各種約束條件。
在水文地質學中,數學模型技術起著非常重要的作用,所應用的數學模型種類也很多,如本書前面提到的解析模型、數值模型等,此外還有利用隨機數學理論、優化理論等建立的模型。由於模型種類繁多,這里我們僅介紹幾種模型方法。
⑷ 請問多元回歸分析是怎麼回事怎麼分析
截圖就不做了,說下大概的操作,希望能幫助到你
1、在spss里variable view里,輸入5個變數名稱,可用中文。
2、然後在data view里分別錄入5個變數對應的數據
3、點擊analyze--regession--linear,在彈出框里,把因變數(抑鬱得分)選定在dependent里,其他4個變數選到independent里,method里建議選擇stepwise,然後直接點ok就可以了。
4、結果里,R值就是回歸的決定系數,代表各變數能解析因變數的程度。ANOVA里,sig小於0.05證明回歸方程有效。constant對應的B值是截距(常數項),其他變數對應B值就是變數的影響系數。變數對應的beta值就是他們的標准化影響系數,數值最高的就是影響力度最大的因素。最後的excluded variables是排除的變數,就是說在這個框里的因子就是對特定變數幾乎沒什麼影響的。
⑸ 多元統計有哪些常見的分析方法
多重回歸分析、判別分析、聚類分析、主成分分析、對應分析 、因子分析、典型相關分析
⑹ 數學地質法
數學地質是地質科學走向定量化研究與數學相結合而產生的。多變數統計分析(或稱多元分析)方法是數學地質的主研內容,它是運用數理統計方法研究和解決多指標問題的理論和方法。通常採用多元回歸分析、逐步回歸分析、趨勢面分析、聚類分析、判別分析、因子分析、對應分析、典型相關分析等。
運用這類分析方法,處理各類觀測數據,並相互驗證計算結果,可獲得和詮釋水文地質諸多方面的認識及結論。例如:通過水溶液中化學組分的運算,可得出樣品的分類、油氣田水與非油氣田水、不同成因類型水的區分、含水系統的劃分等;水溶液中化學組分之間的相關關系和化學組分的聚集共生規律;水岩相互作用引發的物質成分雙向轉移過程中哪些化學組分在液相中聚集和哪些組分沉析進入固相,以及評價水岩相互作用發生的化學平衡狀態;分析和詮釋地質、水文地質作用的屬性和進程階段;圈定找礦標志的水化學異常,預測礦體存在的部位和評價成礦規律等。
⑺ 多元線性回歸分析的優缺點
一、多元線性回歸分析的優點:
1、在回歸分析中,如果有兩個或兩個以上的自變數,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯系的,由多個自變數的最優組合共同來預測或估計因變數,比只用一個自變數進行預測或估計更有效,更符合實際。因此多元線性回歸比一元線性回歸的實用意義更大。
2、在多元線性回歸分析是多元回歸分析中最基礎、最簡單的一種。
3、運用回歸模型,只要採用的模型和數據相同,通過標準的統計方法可以計算出唯一的結果。
二、多元線性回歸分析的缺點
有時候在回歸分析中,選用何種因子和該因子採用何種表達 式只是一種推測,這影響了用電因子的多樣性和某些因子的不可測性,使得回歸分析在某些 情況下受到限制。
多元線性回歸的基本原理和基本計算過程與一元線性回歸相同,但由於自變數個數多,計算相當麻煩,一般在實際中應用時都要藉助統計軟體。這里只介紹多元線性回歸的一些基本問題。
(7)地質多元回歸分析方法擴展閱讀
社會經濟現象的變化往往受到多個因素的影響,因此,一般要進行多元回歸分析,我們把包括兩個或兩個以上自變數的回歸稱為多元線性回歸 。
多元線性回歸與一元線性回歸類似,可以用最小二乘法估計模型參數,也需對模型及模型參數進行統計檢驗 。
選擇合適的自變數是正確進行多元回歸預測的前提之一,多元回歸模型自變數的選擇可以利用變數之間的相關矩陣來解決。
Matlab、spss、SAS等軟體都是進行多元線性回歸的常用軟體。
⑻ 方法評述
1.計算方法的對比
在MRAGIS系統中,計算方法按評價目標分為兩個系列,一是空間位置的評價預測,二是資源量預測,分別對應了兩種計算方法。無論是空間位置預測還是資源量評估,都應當使用兩種方法進行計算,其原因是:
(1)「證據權」法依靠數據驅動,並無人為因素加入,但避免不了現實存在的假象;
(2)當進行資源空間位置評價預測時,「BP神經網路」法將知識(人為因素)放置於重要地位,主要體現在樣本數據的組織上。倘若地質觀點不同,勢必影響計算結果。
(3)「多元信息統計回歸」法的計算結果取決於地質條件對礦產資源量的貢獻,這也是由人為因素決定的。理論上講,地質條件對礦產資源量的貢獻大小應當按不同礦種、不同成因類型分別設置,但如果按成因類型計算,由於本次收集的已知儲量礦產地太少,根本無法滿足多元信息統計回歸法的使用條件。所以,將地質條件對成礦貢獻大小的分值作統一設置。「BP神經網路」法在考慮地質條件對資源量的影響程度上是不受人為影響,而且在組織樣本數據時,只要礦床已知儲量准確、客觀,就可避免人為因素干擾。
鑒於上述原因,應用MRAGIS系統進行礦產資源空間位置評價預測時.「證據權」法與「BP神經網路」法相結合,「多元信息統計回歸」法與「BP神經網路」法組合來進行資源量的評估,這樣才能使得計算結果更加准確、可靠。
2.計算結果評述
(1)空間位置評價預測。從「證據權」法和「BP神經網路」法計算的結果來看,前者一、二級的後驗概率比較集中,較好地反映了整個皖南地區的成礦概率;後者一、二級的成礦有利度分布大致與後驗概率相近,只是在部分一、二級區域中,兩者在局部范圍的分布位置有所區別,個別部位的級別相差一個檔次,但總的趨勢是一致的。
圖6-5-10 安徽東南地區鎢、金資源成礦遠景區分布示意圖
值得一提的是,在評價區中部(西區)兩者計算結果有所差異,「BP神經網路」法計算的成礦有利度,無論從范圍還是強度來看,都較「證據權」法的後驗概率大而高,尤其是鉛鋅銀礦。從地質角度來說,在皖贛交界安徽一側,呈近東西向排列的許多岩體、小岩珠,以此為界,兩側的地質環境(條件)非常相似。現已知江西一側出現金、銀、鎢等多處礦產,按類比法,安徽一側也應具備類似的礦產。因此,「BP神經網路」法計算的成礦有利度在評價區中部的這種分布情況更符合類比結論,預示著此區域存在鉛鋅、銀等多金屬礦產。
(2)資源量評估。使用「多元信息統計回歸」法和「BP神經網路」法計算獲得的資源量分布比較一致,且按成礦遠景區(Ⅳ級)統計結果來看,兩者相差不大。但是,就資源量數值的大小來看,兩者還是存在一定的差異。主要有以下幾個方面的原因:①計算方法不同。「多元信息統計回歸」法採用的是用某一種方程來代表地質條件與成礦的關系;而「BP神經網路」法則是模擬生物神經元,通過各神經元之間的連接權和閾值將輸入層(地質變數)與輸出層(礦產資源量)聯系起來,而不是用具體方程表徵它們的關系。②賦值的方式不同。「多元信息統計回歸」法是將地質條件對礦產資源量的貢獻採用固定的「分值」;「BP神經網路」法則是使用「樣本」數據的形式,各個地質條件對資源量數值的影響都包含在這些樣本數據中。③變數對資源量的貢獻方式不同。「多元信息統計回歸」法以固定分值決定地質變數對資源量的影響度,完全是專家系統的方式;「BP神經網路」法是依據參與計算的各圖層中含礦面積與該圖層總面積之比決定該變數的權值,沒有人為因素的影響。例如,在「多元信息統計回歸」中,地質構造的分值定為「2」。當某一區域其他地質條件缺失或較少時,構造對資源量的影響度就會較大,明顯地影響到資源量,使其呈線狀分布。
3.討論
從計算方法對比結論已看出,評價計算不能採用單一的方法,應兩種或兩種以上方法同時進行,便於對比、互補,提高評價預測的准確性和可靠性,這在以往資源評價中往往容易被忽視。
(1)「BP神經網路」法是模擬生物神經單元來解決自然界許多非簡單函數、方程所能解決問題(如成礦與地質條件之間的關系,不能用一個或一組方程來加以描述),它的應用前提必須滿足,即樣本數據的「代表性」和「合理性」,否則難以保證網路模擬出的結果符合實際情況。在礦產資源GIS評價預測中,網路的學習樣本應當由工作經驗豐富,對評價目標區地質礦產情況非常熟悉的地質礦產專家來組織,否則,輕者使網路訓練發散,重者造成計算結果無法使用。這一點須特別注意。
(2)對於礦產資源量的評估來說,無論採用何種數學方法,它都是一種「評估」,只能作為參考,而且,數學方法不同,計算的結果必定存在差異。本次資源量的預測採用了多元信息統計回歸法和BP神經網路法。前者是使用一種函數方程進行回歸擬合,當已知儲量與計算資源量之間的擬合誤差達到給定值後,則認為礦產資源量與成礦條件滿足回歸方程的關系;後者是通過給定學習樣本,經網路訓練來確定神經元之間的連接參數和閾值,進而對整個評價區進行資源量的評估計算。這兩種方法都需要已知礦床儲量的支持。一般來說,已知儲量的礦床越多,分布越均勻,則計算結果越可靠。從圖6-5-8、6-5-9中可看出,兩者的分布趨勢相近,但數值存在差異,一般是多元信息統計回歸法計算的值較BP神經網路為大。經分析認為,多元信息統計回歸法因採用回歸方程擬合,當參與計算的地質變數分值高於已知(最高)儲量的分值時,根據回歸方程的趨勢將會獲得高於已知最高儲量的數值。而BP神經網路則是模擬生物神經元對外界感知的原理來進行資源量計算,不存在上述情況,因此,其計算結果主要取決於樣本數據的組織。
一般說來,V級遠景區資源量的計算結果較Ⅳ級預測區更為精確,這是由於V級區面積范圍小,已知礦床(點)大部分集中於該區內,尤其是BP神經網路的樣本數據大都取自這一級遠景區,保證了這些區的資源量「擬合」精度更高。
(3)無論採用何種計算方法,其結果必須結合區域成礦規律和地質背景加以分析,尤其是在劃定成礦遠景區、找礦靶區時,不能一味的按照計算結果進行,這樣很可能被一些假象值所蒙蔽,造成錯誤的結論。
⑼ 多元統計分析的簡介
multivariate statistical analysis
研究客觀事物中多個變數(或多個因素)之間相互依賴的統計規律性。它的重要基礎之一是多元正態分析。又稱多元分析 。 如果每個個體有多個觀測數據,或者從數學上說, 如果個體的觀測數據能表為 P維歐幾里得空間的點,那麼這樣的數據叫做多元數據,而分析多元數據的統計方法就叫做多元統計分析 。 它是數理統計學中的一個重要的分支學科。20世紀30年代,R.A.費希爾,H.霍特林,許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到迅速發展。50年代中期,隨著電子計算機的發展和普及 ,多元統計分析在地質 、氣象、生物、醫學、圖像處理、經濟分析等許多領域得到了廣泛的應用 ,同時也促進了理論的發展。各種統計軟體包如SAS,SPSS等,使實際工作者利用多元統計分析方法解決實際問題更簡單方便。重要的多元統計分析方法有:多重回歸分析(簡稱回歸分析)、判別分析、聚類分析、主成分分析、對應分析、因子分析、典型相關分析、多元方差分析等。
早在19世紀就出現了處理二維正態總體(見正態分布)的一些方法,但系統地處理多維概率分布總體的統計分析問題,則開始於20世紀。人們常把1928年維夏特分布的導出作為多元分析成為一個獨立學科的標志。20世紀30年代,R.A.費希爾、H.霍特林、許寶祿以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到了迅速的進展。40年代,多元分析在心理、教育、生物等方面獲得了一些應用。由於應用時常需要大量的計算,加上第二次世界大戰的影響,使其發展停滯了相當長的時間。50年代中期,隨著電子計算機的發展和普及,它在地質、氣象、標准化、生物、圖像處理、經濟分析等許多領域得到了廣泛的應用,也促進了理論的發展。
多元分析發展的初期,主要討論如何把一元正態總體的統計理論和方法推廣到多元正態總體。多元正態總體的分布由兩組參數,即均值向量μ(見數學期望)和協方差矩陣(簡稱協差陣)∑ (見矩)所決定,記為Np(μ,∑)(p為分布的維數,故又稱p維正態分布或p 維正態總體)。設X1,X2,…,Xn為來自正態總體Np(μ,∑)的樣本,則μ和∑的無偏估計(見點估計)分別是
和
分別稱之為樣本均值向量和樣本協差陣,它們是在各種多元分析問題中常用的統計量。樣本相關陣R 也是一個重要的統計量,它的元素為
其中υij為樣本協差陣S的元素。S的分布是維夏特分布,它是一元統計中的Ⅹ2分布的推廣。
另一典型問題是:假定兩個多維正態分布協差陣相同,檢驗其均值向量是否相同。設樣本X1,X2,…,Xn抽自正態總體Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要檢驗假設H 0:μ1=μ2(見假設檢驗)。在一元統計中使用t統計量(見統計量)作檢驗;在多元分析中則用T2統計量,
,其中,
,
·
,T2的分布稱為T2分布。這是H.霍特林在1936年提出來的。
在上述問題中的多元與一元相應的統計量是類似的,但並非都是如此。例如,要檢驗k個正態總體的均值是否相等,在一元統計中是導致F統計量,但在多元分析中可導出許多統計量,最著名的有威爾克斯Λ統計量和最大相對特徵根統計量。研究這些統計量的精確分布和優良性是近幾十年來多元統計分析的重要理論課題。
多元統計分析有狹義與廣義之分,當假定總體分布是多元正態分布時,稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內容已被推廣到更廣的分布之中,特別是推廣到一種稱為橢球等高分布族之中。
按多元分析所處理的實際問題的性質分類,重要的有如下幾種。 簡稱回歸分析。其特點是同時處理多個因變數。回歸系數和常數的計算公式與通常的情況相仿,只是由於因變數不止一個,原來的每個回歸系數在此都成為一個向量。因此,關於回歸系數的檢驗要用T2統計量;對回歸方程的顯著性檢驗要用Λ統計量。
回歸分析在地質勘探的應用中發展了一種特殊的形式,稱為趨勢面分析,它以各種元素的含量作為因變數,把它們對地理坐標進行回歸(選用一次、二次或高次的多項式),回歸方程稱為趨勢面,反映了含量的趨勢。殘差分析是趨勢面分析的重點,找出正的殘差異常大的點,在這些點附近,元素的含量特別高,這就有可能形成可採的礦位。這一方法在其他領域也有應用。 由 k個不同總體的樣本來構造判別函數,利用它來決定新的未知類別的樣品屬於哪一類,這是判別分析所處理的問題。它在醫療診斷、天氣預報、圖像識別等方面有廣泛的應用。例如,為了判斷某人是否有心臟病,從健康的人和有心臟病的人這兩個總體中分別抽取樣本,對每人各測兩個指標X1和X2,點繪如圖 。可用直線A將平面分成g1和g2兩部分,落在g1的絕大部分為健康者,落在g2的絕大部分為心臟病人,利用A的垂線方向l=(l1,l2)來建立判別函數
y=l1X1+l2X2,可以求得一常數с,使 y<с 等價於(X1,X2)落在g1,y>с等價於(X1,X2)落在g2。由此得判別規則:若,l1X1+l2X2<c
判,即此人為健康者;若,l1X1+l2X2>C
判,
即此人為心臟病人;若,l1X1+l2X2=c則為待判。此例的判別函數是線性函數,它簡單方便,在實際問題中經常使用。但有時也用非線性判別函數,特別是二次判別函數。建立判別函數和判別規則有不少准則和方法,常用的有貝葉斯准則、費希爾准則、距離判別、回歸方法和非參數方法等。
無論用哪一種准則或方法所建立的判別函數和判別規則,都可能產生錯判,錯判所佔的比率用錯判概率來度量。當總體間區別明顯時,錯判概率較小;否則錯判概率較大。判別函數的選擇直接影響到錯判概率,故錯判概率可用來比較不同方法的優劣。
變數(如上例中的X1和X2)選擇的好壞是使用判別分析的最重要的問題,常用逐步判別的方法來篩選出一些確有判別作用的變數。利用序貫分析的思想又產生了序貫判別分析。例如醫生在診斷時,先確定是否有病,然後確定是哪個系統有病,再確定是什麼性質的病等等。 又稱數值分類。聚類分析和判別分析的區別在於,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝標准,對 N個成年人,測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、後背(x7)、腰圍(x8)、臀圍(x9)、下體長(x10)等部位,要將這N個人進行分類,每一類代表一個號型;為了使用和裁剪的方便,還要對這些變數(x1,x2,…,x10)進行分類。聚類分析就是解決上述兩種分類問題。
設已知N個觀測值X1,X2,…,Xn,每個觀測值是一個p維向量(如上例中人的身高、胸圍等)。聚類分析的思想是將每個觀測值Xi看成p維空間的一個點,在p維空間中引入「距離」的概念,則可按各點間距離的遠近將各點(觀測值)歸類。若要對 p個變數(即指標)進行分類,常定義一種「相似系數」來衡量變數之間的親密程度,按各變數之間相似系數的大小可將變數進行分類。根據實際問題的需要和變數的類型,對距離和相似系數有不同的定義方法。
按距離或相似系數分類,有下列方法。①凝聚法:它是先將每個觀察值{Xi}看成一類,逐步歸並,直至全部觀測值並成一類為止,然後將上述並類過程畫成一聚類圖(或稱譜系圖),利用這個圖可方便地得到分類。②分解法:它是先將全部觀測值看成一類,然後逐步將它們分解為2類、3類、…、N類,它是凝聚法的逆過程。③動態聚類法:它是將觀測值先粗糙地分類,然後按適當的目標函數和規定的程序逐步調整,直至不能再調為止。
若觀察值X1,X2,…,Xn之間的次序在分類時不允許打亂,則稱為有序分類。例如在地質學中將地層進行分類,只能將互相鄰接的地層分成一類,不能打亂上下的次序。用於這一類問題中的重要方法是費希爾於1958年提出的最優分割法。
聚類分析也能用於預報洪水、暴雨、地震等災害性問題,其效果比其他統計方法好。但它在理論上還很薄弱,因為它不象其他方法那樣有確切的數學模型。 又稱主分量分析,是將多個變數通過線性變換以選出較少個數重要變數的一種方法。設原來有p個變數x1,x2,…,xp,為了簡化問題,選一個新變數z,
,
要求z盡可能多地反映p個變數的信息,以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定後,稱z為x1,x2,…,xp的主成分(或主分量)。有時僅一個主成分不足以代表原來的p個變數,可用q(<p)個互不相關的呈上述形式的主成分來盡可能多地反映原p個變數的信息。用來決定諸系數的原則是,在
的約束下,選擇l1,l2,…,lp使z的方差達到最大。
在根據樣本進行主成分分析時又可分為R型分析與Q型分析。前者是用樣本協差陣(或相關陣)的特徵向量作為線性函數的系數來求主成分;後者是由樣品之間的內積組成的內積陣來進行類似的處理,其目的是尋找出有代表性的「典型」樣品,這種方法在地質結構的分析中常使用。 它是由樣本的資料將一組變數
y2,……yp)
分解為一些公共因子f與特殊因子s的線性組合,即有常數矩陣A使у=Af+s。公共因子f 的客觀內容有時是明確的,如在心理研究中,根據學生的測驗成績(指標)來分析他的反應快慢、理解深淺(公共因子);有時則是不明確的。為了尋求易於解釋的公共因子,往往對因子軸進行旋轉,旋轉的方法有正交旋轉,斜旋轉,極大變差旋轉等。
從樣本協差陣或相關陣求公共因子的方法有廣義最小二乘法、最大似然法與不加權的最小二乘法等。通常在應用中,最方便的是直接利用主成分分析所得的頭幾個主成分,它們往往是對各個指標影響都比較大的公共因子。 它是尋求兩組變數各自的線性函數中相關系數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。各對的相關系數稱為典型相關系數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯系。典型相關分析雖然30年代已經出現,但至今未能廣泛應用。
上述的各種方法可以看成廣義多元分析的內容,在有些方法中,如加上正態性的假定,就可以討論一些更深入的問題,例如線性模型中有關線性假設檢驗的問題,在正態的假定下,就有比較系統的結果。 多元分析也可按指標是離散的還是連續的來區分,離散值的多元分析實質上與列聯表分析有很大部分是類似的,甚至是一樣的。
非數量指標數量化的理論和方法也是廣義多元分析的一個重要的研究課題。