⑴ 聚類分析
化探工作中常常要研究元素和樣品分類問題。聚類分析則提供了一些數量化的衡量元素或樣品相似程度的指示,利用這些指標可將元素樣品按其相似程度的大小劃分為不同的類,從而揭示元素或樣品之間的本質聯系,這有助於研究元素共生組合關系和對岩體異常等的分類評價。
根據分類對象不同,聚類分析分為R型聚類分析(對元素進行分類),Q型聚類分析(對樣品進行分類)。聚類分析一般採用逐次聯結法,具體做法如下。
1.轉換對數
常將實測數據先轉換為對數,因為微量元素多屬對數正態分布,而且數據過於離散。
2.數據均勻化
數據均勻化化的目的是將大小懸殊的數據化為同一度量的水平上。均勻化的方法常用的有:
(1)標准化
用於R型聚類分析,計算公式:
地球化學找礦
式中:zij為標准化數據;xij為原始數據(對數值);xi為 i個變數的平均值(對數平均值),
(2)正規化
用於Q型聚類分析,計算公式:
地球化學找礦
式中:wij為正規化數據;xij為原始數據(對數值);xi(max)為i個變數的最大值(對數值);xi(min)為i個變數的最小值(對數值);i 為變數數(i =1,2,3,…,m);j 為樣品數(j=1,2,3,…,n)。
(3)計算相似性統計量
1)相關系數r
用於R型聚分析,計算公式(任何兩元素):
地球化學找礦
數據標准化後:
地球化學找礦
-1≤r≤1,|r|愈大,元素愈相似。
2)相似性系數
用於Q型聚類分析,計算公式(任何二樣品):
地球化學找礦
-1≤cosθ≤1,|cosθ|愈大,元素愈相似。
3)距離系數
用於Q型聚類分析,計算公式(對於任何兩樣品)
地球化學找礦
對於正規化數據0≤d≤1,d值越小樣品越相似。將計算出的相似性統計量排列成矩陣。
(4)根據相似性統計量進行分類
1)選出相似程度最大(即相關系數、相似性系數最大,距離系數最小)的一對元素或樣品聯結成一類,填入分類表(表6-4),聯結後的元素或樣品組成一個新變數(新樣品)替換序號較小的變數(樣品),去掉序號較大的變數(樣品)。
2)將聯結成一類的元素或樣品均勻化數據加權平均,替換序號較小的一行作為新變數(新樣品)的數據,去掉序號較大的一行數據,其餘各行不變。得到比原來少一個變數或樣品的均勻化數據表。
表6-4 分類統計表
加權平均計算公式:
如第一、二兩個元素聯結後新變數的標准化數據為,則:
地球化學找礦
N1和N2分別為權,未組合的數據權為1,組合一次權增加1。
3)根據新變數(新樣品)的數據,計算新變數(新樣品)與其餘變數(樣品)間的相似性統計量,其餘不變,列出新的矩陣。
4)重復上述1),2),3)各步驟,即挑選相似程度最大的變數(或樣品)聯結歸類;加權平均合並數據;計算新變數(新樣品)與其他變數(樣品)間的相似性統計量,刷新原矩陣,直至全部聯結完畢為止。
5)製作譜系圖,見圖6-3。
圖6-3 譜系圖(示意)
3.計算實例
某地一批超基性岩樣品,經分析 Ni,Co,Cu,Cr,S,As含量如表6-5。
表6-5 某地超基性樣品Ni,Co,Cu,Cr,S,As 含量
(1)用R型聚類分析對元素進行分類
1)將原始數據轉換為對數,並計算各元素對數值的平均值和標准離差,其結果見表6-6。
2)將各樣品中各元素含量對數值進行標准化。
3)按照數據標准化公式:
地球化學找礦
地球化學找礦
於是可得標准化數據表6-7。
表6-7 標准化數據
4)計算相關系數,列出相關系數矩陣R(0),按照相關系數計算公式:
地球化學找礦
於是得相關矩陣R(0):
地球化學找礦
5)將R(0)中相關系數最大的Co,Cu聯結成一類,記為Co′填入分類統計表中,並計算Co′的數據。
按照加權平均計算公式:
地球化學找礦
於是得表6-8。
表6-8 由R(0)得到的Co′值
6)計算新變數Co′與剩餘的變數的相關系數,列出新相關矩陣R(1)。
相關系數計算公式同前(以下同),於是得:
地球化學找礦
7)將R(1)中相關系數最大的Ni,Co′聯結成一類,記為Ni′填入分類統計表中,並計算Ni′的數據。
Ni′的數據仍按前加權平均的公式計算(以下同),於是得表6-9。
表6-9 由Co′重新計算的Ni′值
8)計算新變數Ni′與剩餘的變數的相關系數,列出新相關矩陣R(2)。
於是得:
地球化學找礦
9)將R(2)中相關系數最大的S,As聯結成一類,記為填入分類統計表中,並計算S′的數據(表6-10)。
表6-10 S′計算結果
10)計算新變數S′與剩餘變數的相關系數,列出刷新的相關矩陣R(3):
地球化學找礦
11)將R(3)中相關系數最大的 Ni′與 S′聯結成一類,記為 Ni″,填入分類統計表中(表6-11)。
表6-11 Ni″計算結果
12)計算新變數Ni″與剩餘變數的相關系數,列出刷新的相關矩R(4)。
13)最後將Ni″與Cr聯結起來,記入分類統計表6-12。
表6-12 分類統計表
14)製作譜系圖(圖6-4)。
圖6-4 譜系圖
從上述譜系圖可見,在相關系數0.2~0.5的相似水平上,可將述六個元素分為兩類:一類是 Cr(親氧元素);另一類是 Co,Cu,Ni,As(親硫元素)。在相關系數0.6 左右可將親硫元素分為兩組,一組是S,As(陰離子);一組是Co,Cu,Ni(陽離子),且Co,Cu相關關系更密切。這樣R型聚類分析清楚地顯示出這些元素在超基性岩石的相互關系。
(2)用Q型聚類分析對樣品進行分類
仍以上述超基岩樣品分析結果為例。
對樣品分類常用距離系數。由於距離系數是對直角坐標系而言,即要求變數要互不相關。故可先用R型聚類分析(式R型因子分析)選出互相獨立的變數(在用R型聚類分析時,通常取相關系數絕對值小的變數),然後以距離系數對樣品進行分類。
上例R型聚類分析結果,在R=0.6 水平左右可將變數分為三組,即Ni′(Ni,Co,Cu);S′(S,As);Cr,現以這三組為變數對樣品進行分類。
1)將變數數據(對數值)進行合並,得出新的數據表。合並的辦法是取該組變數的平均值,於是得表6-13。
表6-13 對變數數據合並後的新的數據
2)將數據正規化。按正規化的公式:
地球化學找礦
於是得表6-14。
表6-14 正規化後的數據表
3)計算距離系數djk,列出初始距離系數矩陣D(0)。
按距離系數公式:
地球化學找礦
於是得:
地球化學找礦
4)將D(0)中距離系數值最小的(5),(6)樣品聯結成一類,記為(5′)填入分類統計表中,並計算(5′)的數據。
按照加權平均計算公式:
地球化學找礦
於是得表6-15。
表6-15 (5′)的數據表
5)計算(5′)與樣品的距離系數,列出刷新距離系數矩陣D(1),於是得:
地球化學找礦
6)將D(1)中距離系數最大的(2),(5′)聯結成一類,記為(2′),填入分類統計表中,並計算(2′)的數據。於是得表6-16。
表6-16 (2′)的數據表
7)計算(2′)與剩餘樣品的距離系數,列出刷新的距離系數矩陣D(2),於是得:
地球化學找礦
8)將D(2)中距離系數最小的(1),(4)聯結成一類,記為(1′),填入分類統計表中,並計算(1′)的數據。於是得表6-17。
表6-17 (1′)的數據表
9)計算(1′)與剩餘樣品的距離系數,列出刷新的距離系數矩陣D(3),於是得:
地球化學找礦
10)將D(3)中距離系數最小的(1′),(2′),聯結成一類,記為(1″),填入分類統計表中,並計算(1″)的數據。於是得表6-18。
表6-18 (1″)的數據表
11)計算(1″)與剩餘樣品的距離系數,列出新的距離系數矩陣D(4),於是得:
地球化學找礦
12)最後將(1″),(3)聯結成一類,填入分類統計表6-19。
表6-19 分類統計表
13)製作譜系圖(圖6-5)。
圖6-5 譜系圖
從譜系圖上可得:在距離系數0.35~0.5水平上,可將數個樣品分成三類;一類是礦化的蛇紋岩(1)及(4);另一類是無礦化的蛇紋岩(2)及滑鎂岩(5),(6);樣品(3)為單獨一類,它是無礦化的蛇紋岩。因此,通過Q型聚類分析很好地將該地含礦岩體和不含礦岩體區分開來。至於樣品(3)單獨開,還可進一步研究它與其他無礦岩體的差異。
這里需要特別指出的是,運用回歸分析、判別分析、聚類分析都是在特定的地質條件下得出的統計規律,因此,在利用這些規律對未知進行判斷時,一定要注意地質條件的相似性,切不可把某一地質條件下導出的規律,生搬硬套地用於解決不同地質條件下的問題。
⑵ 聚類分析中常用哪些統計量進行樣本間親疏關系的度量
常用的統計量有 距離和相似系數兩大類。
聚類分析,是一種將隨機現象歸類的統計學分析方法,在不知道應分為多少類合適的情況下,試圖藉助數理統計的方法用已收集到的資料找出研究對象的適當歸類方法。在生物醫學之中,聚類分析已成為發掘海量信息(包括基因信息)的首選工具。聚類分析數據探索性統計分析方法,按照分類的目的可以分為R型聚類和Q型聚類。R型聚類又稱為指標聚類,是指將m個指標歸類的方法,其目的是將指標降維從而選擇有代表性的指標,是針對變數進行的聚類分析。Q型聚類又稱樣品聚類,是指將n個樣品歸類的方法,其目的是找出樣品間的共性,是針對樣本的聚類分析。 測量n個樣本的m個變數,可以進行指標聚類(R型聚類)和樣品聚類(Q型聚類)。計算類間的相似系數是進行聚類分析的關鍵。
⑶ 系統聚類分析方法 是什麼
二、系統聚類分析法
系統聚類分析法就是利用一定的數學方法將樣品或變數(所分析的項目)歸並為若干不同的類別(以分類樹形圖表示),使得每一類別內的所有個體之間具有較密切的關系,而各類別之間的相互關系相對地比較疏遠。系統聚類分析最後得到一個反映個體間親疏關系的自然譜系,它比較客觀地描述了分類對象的各個體之間的差異和聯系。根據分類目的不同,系統聚類分析可分為兩類:一類是對變數分類,稱為R型分析;另一類是對樣品分類,稱為Q型分析。系統聚類分析法基本步驟如下(許志友,1988)。
⑷ 試述主成分分析,因子分析和對應分析三者之間的區別與聯系
一、方式不同:
1、主成分分析:
通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。
2、因子分析:
通過從變數群中提取共性因子,因子分析可在許多變數中找出隱藏的具有代表性的因子。
3、對應分析:
通過分析由定性變數構成的交互匯總表來揭示變數。
二、作用體現不同:
1、主成分分析:
主成分分析作為基礎的數學分析方法,其實際應用十分廣泛,比如人口統計學、數量地理學、分子動力學模擬、數學建模、數理分析等學科中均有應用。
2、因子分析:
因子分析在市場調研中有著廣泛的應用,主要包括消費者習慣和態度研究、品牌形象和特性研究、服務質量調查、個性測試。
3、對應分析:
能把眾多的樣品和眾多的變數同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉等復雜的數學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,是一種直觀、簡單、方便的多元統計方法。
(4)r型分析和q型分析統計學方法擴展閱讀
主成分分析對於原先提出的所有變數,將重復的變數(關系緊密的變數)刪去多餘,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。
對應分析是由法國人Benzenci於1970年提出的,起初在法國和日本最為流行,然後引入到美國。對應分析法是在R型和Q型因子分析的基礎上發展起來的一種多元統計分析方法,因此對應分析又稱為R-Q型因子分析。
在因子分析中,如果研究的對象是樣品,則需採用Q型因子分析;如果研究的對象是變數,則需採用R型因子分析。但是,這兩種分析方法往往是相互對立的,必須分別對樣品和變數進行處理。
⑸ 統計學方法有哪些
一、描述統計
描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變數之間關系進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。
集中趨勢分析:集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少?是正偏分布還是負偏分布?
離中趨勢分析:離中趨勢分析主要靠全距、四分差、平均差、方差(協方差:用來度量兩個隨機變數關系的統計量)、標准差等統計指標來研究數據的離中趨勢。例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。
相關分析:相關分析探討數據之間是否具有統計學上的關聯性。這種關系既包括兩個數據之間的單一相關關系——如年齡與個人領域空間之間的關系,也包括多個數據之間的多重相關關系——如年齡、抑鬱症發生率、個人領域空間之間的關系;既包括A大B就大(小),A小B就小(大)的直線相關關系,也可以是復雜相關關系(A=Y-B*X);既可以是A、B變數同時增大這種正相關關系,也可以是A變數增大時B變數減小這種負相關,還包括兩變數共同變化的緊密程度——即相關系數。實際上,相關關系唯一不研究的數據關系,就是數據協同變化的內在根據——即因果關系。獲得相關系數有什麼用呢?簡而言之,有了相關系數,就可以根據回歸方程,進行A變數到B變數的估算,這就是所謂的回歸分析,因此,相關分析是一種完整的統計研究方法,它貫穿於提出假設,數據研究,數據分析,數據研究的始終。
例如,我們想知道對監獄情景進行什麼改造,可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調、囚舍綠化程度、囚室人口密度、放風時間、探視時間進行排列組合,然後讓每個囚室一種實驗處理,然後用因素分析法找出與囚徒暴力傾向的相關系數最高的因素。假定這一因素為囚室人口密度,我們又要將被試隨機分入不同人口密度的十幾個囚室中生活,繼而得到人口密度和暴力傾向兩組變數(即我們討論過的A、B兩列變數)。然後,我們將人口密度排入X軸,將暴力傾向分排入Y軸,獲得了一個很有價值的圖表,當某典獄長想知道,某囚舍擴建到N人/間囚室,暴力傾向能降低多少。我們可以當前人口密度和改建後人口密度帶入相應的回歸方程,算出擴建前的預期暴力傾向和擴建後的預期暴力傾向,兩數據之差即典獄長想知道的結果。
推論統計:
推論統計是統計學乃至於心理統計學中較為年輕的一部分內容。它以統計結果為依據,來證明或推翻某個命題。具體來說,就是通過分析樣本與樣本分布的差異,來估算樣本與總體、同一樣本的前後測成績差異,樣本與樣本的成績差距、總體與總體的成績差距是否具有顯著性差異。例如,我們想研究教育背景是否會影響人的智力測驗成績。可以找100名24歲大學畢業生和100名24歲初中畢業生。採集他們的一些智力測驗成績。用推論統計方法進行數據處理,最後會得出類似這樣兒的結論:「研究發現,大學畢業生組的成績顯著高於初中畢業生組的成績,二者在0.01水平上具有顯著性差異,說明大學畢業生的一些智力測驗成績優於中學畢業生組。」
其中,如果用EXCEL 來求描述統計。其方法是:工具-載入宏-勾選"分析工具庫",然後關閉Excel然後重新打開,工具菜單就會出現"數據分析"。描述統計是「數據分析」內一個子菜單,在做的時候,記得要把方格輸入正確。最好直接點選。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、假設檢驗
1、參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗。
1)U驗 :使用條件:當樣本含量n較大時,樣本值符合正態分布
2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布
A 單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;
B 配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;
C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
2、非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。
適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。
A 雖然是連續數據,但總體分布形態未知或者非正態;
B 體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
三、信度分析
介紹:信度(Reliability)即可靠性,它是指採用同樣的方法對同一對象重復測量時所得結果的一致性程度。信度指標多以相關系數表示,大致可分為三類:穩定系數(跨時間的一致性),等值系數(跨形式的一致性)和內在一致性系數(跨項目的一致性)。信度分析的方法主要有以下四種:重測信度法、復本信度法、折半信度法、α信度系數法。
方法:(1)重測信度法編輯:這一方法是用同樣的問卷對同一組被調查者間隔一定時間重復施測,計算兩次施測結果的相關系數。顯然,重測信度屬於穩定系數。重測信度法特別適用於事實式問卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變,這種方法也適用於態度、意見式問卷。由於重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動和他人的影響,而且間隔時間長短也有一定限制,因此在實施中有一定困難。
(2)復本信度法編輯:讓同一組被調查者一次填答兩份問卷復本,計算兩個復本的相關系數。復本信度屬於等值系數。復本信度法要求兩個復本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調查問卷達到這種要求,因此採用這種方法者較少。
(3)折半信度法編輯:折半信度法是將調查項目分為兩半,計算兩半得分的相關系數,進而估計整個量表的信度。折半信度屬於內在一致性系數,測量的是兩半題項得分間的一致性。這種方法一般不適用於事實式問卷(如年齡與性別無法相比),常用於態度、意見式問卷的信度分析。在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。)。進行折半信度分析時,如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然後將全部題項按奇偶或前後分為盡可能相等的兩半,計算二者的相關系數(rhh,即半個量表的信度系數),最後用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個量表的信度系數(ru)。
(4)α信度系數法編輯:Cronbach
α信度系數是目前最常用的信度系數,其公式為:
α=(k/(k-1))*(1-(∑Si^2)/ST^2)
其中,K為量表中題項的總數, Si^2為第i題得分的題內方差, ST^2為全部題項總得分的方差。從公式中可以看出,α系數評價的是量表中各題項得分間的一致性,屬於內在一致性系數。這種方法適用於態度、意見式問卷(量表)的信度分析。
總量表的信度系數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度系數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha系數如果在0.6以下就要考慮重新編問卷。
檢査測量的可信度,例如調查問卷的真實性。
分類:
1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
四、列聯表分析
列聯表是觀測數據按兩個或更多屬性(定性變數)分類時所列出的頻數表。
簡介:一般,若總體中的個體可按兩個屬性A、B分類,A有r個等級A1,A2,…,Ar,B有c個等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設其中有nij個個體的屬性屬於等級Ai和Bj,nij稱為頻數,將r×c個nij排列為一個r行c列的二維列聯表,簡稱r×c表。若所考慮的屬性多於兩個,也可按類似的方式作出列聯表,稱為多維列聯表。
列聯表又稱交互分類表,所謂交互分類,是指同時依據兩個變數的值,將所研究的個案分類。交互分類的目的是將兩變數分組,然後比較各組的分布狀況,以尋找變數間的關系。
用於分析離散變數或定型變數之間是否存在相關。
列聯表分析的基本問題是,判明所考察的各屬性之間有無關聯,即是否獨立。如在前例中,問題是:一個人是否色盲與其性別是否有關?在r×с表中,若以pi、pj和pij分別表示總體中的個體屬於等級Ai,屬於等級Bj和同時屬於Ai、Bj的概率(pi,pj稱邊緣概率,pij稱格概率),「A、B兩屬性無關聯」的假設可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數pij、pi、pj的最大似然估計(見點估計)分別為行和及列和(統稱邊緣和)
為樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗(見假設檢驗),當h0成立,且一切pi>0和pj>0時,統計量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱為期望頻數。當n足夠大,且表中各格的Eij都不太小時,可以據此對h0作檢驗:若Ⅹ值足夠大,就拒絕假設h0,即認為A與B有關聯。在前面的色覺問題中,曾按此檢驗,判定出性別與色覺之間存在某種關聯。
需要注意:
若樣本大小n不很大,則上述基於漸近分布的方法就不適用。對此,在四格表情形,R.A.費希爾(1935)提出了一種適用於所有n的精確檢驗法。其思想是在固定各邊緣和的條件下,根據超幾何分布(見概率分布),可以計算觀測頻數出現任意一種特定排列的條件概率。把實際出現的觀測頻數排列,以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來並相加,若所得結果小於給定的顯著性水平,則判定所考慮的兩個屬性存在關聯,從而拒絕h0。
對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。
列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。
五、相關分析
研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
1、單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;
2、復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;
3、偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。
六、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
分類
1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系
2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系
3、多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系
4、協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
七、回歸分析
分類:
1、一元線性回歸分析:只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布。
2、多元線性回歸分析
使用條件:分析多個自變數與因變數Y的關系,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布 。
1)變呈篩選方式:選擇最優回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向後剔除法
2)橫型診斷方法:
A 殘差檢驗: 觀測值與估計值的差值要艱從正態分布
B 強影響點判斷:尋找方式一般分為標准誤差法、Mahalanobis距離法
C 共線性診斷:
• 診斷方式:容忍度、方差擴大因子法(又稱膨脹系數VIF)、特徵根判定法、條件指針CI、方差比例
• 處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3、Logistic回歸分析
線性回歸模型要求因變數是連續的正態分布變里,且自變數和因變數呈線性關系,而Logistic回歸模型對因變數的分布沒有要求,一般用於因變數是離散時的情況
分類:
Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。
4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等
八、聚類分析
聚類與分類的不同在於,聚類所要求劃分的類是未知的。
聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標准,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他演算法(如分類和定性歸納演算法)的預處理步驟。
定義:
依據研究對象(樣品或指標)的特徵,對其進行分類的方法,減少研究對象的數目。
各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質相近事物歸入一類。
各指標之間具有一定的相關關系。
聚類分析(cluster
analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析區別於分類分析(classification
analysis) ,後者是有監督的學習。
變數類型:定類變數、定量(離散和連續)變數
樣本個體或指標變數按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。
1、性質分類:
Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等
R型聚類分析:對指標進行分類處理,又稱指標聚類分析使用相似系數作為統計量衡量相似度,相關系數、列聯系數等
2、方法分類:
1)系統聚類法:適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類
2)逐步聚類法:適用於大樣本的樣本聚類
3)其他聚類法:兩步聚類、K均值聚類等
九、判別分析
1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體
2、與聚類分析區別
1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本
2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類
3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類
3、進行分類 :
1)Fisher判別分析法 :
以距離為判別准則來分類,即樣本與哪個類的距離最短就分到哪一類,適用於兩類判別;
以概率為判別准則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於
適用於多類判別。
2)BAYES判別分析法 :
BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用;
十、主成分分析
介紹:主成分分析(Principal
Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。
在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。
主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變數,並用其中較少的幾個新指標變數就能綜合反應原多個指標變數中所包含的主要信息。
原理:在用統計分析方法研究多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,將重復的變數(關系緊密的變數)刪去多餘,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。
設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的綜合變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。
缺點: 1、在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變數降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。
2、主成分的解釋其含義一般多少帶有點模糊性,不像原始變數的含義那麼清楚、確切,這是變數降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變數個數p(除非p本身較小),否則維數降低的「利」可能抵不過主成分含義不如原始變數清楚的「弊」。
十一、因子分析
一種旨在尋找隱藏在多變數數據中、無法直接觀察到卻影響或支配可測變數的潛在因子、並估計潛在因子對可測變數的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
與主成分分析比較:
相同:都能夠起到治理多個原始變數內在結構關系的作用
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變數間的關系,是比主成分分析更深入的一種多元統計方法
用途:
1)減少分析變數個數
2)通過對變數間相關關系探測,將原始變數進行分類
十二、時間序列分析
動態數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。
主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
時間序列是指同一變數按事件發生的先後順序排列起來的一組觀察值或記錄值。構成時間序列的要素有兩個:其一是時間,其二是與時間相對應的變數水平。實際數據的時間序列能夠展示研究對象在一定時期內的發展變化趨勢與規律,因而可以從時間序列中找出變數變化的特徵、趨勢以及發展規律,從而對變數的未來變化進行有效地預測。
時間序列的變動形態一般分為四種:長期趨勢變動,季節變動,循環變動,不規則變動。
時間序列預測法的應用:
系統描述:根據對系統進行觀測得到的時間序列數據,用曲線擬合方法對系統進行客觀的描述;
系統分析:當觀測值取自兩個以上變數時,可用一個時間序列中的變化去說明另一個時間序列中的變化,從而深入了解給定時間序列產生的機理;
預測未來:一般用ARMA模型擬合時間序列,預測該時間序列未來值;
決策和控制:根據時間序列模型可調整輸入變數使系統發展過程保持在目標值上,即預測到過程要偏離目標時便可進行必要的控制。
特點:
假定事物的過去趨勢會延伸到未來;
預測所依據的數據具有不規則性;
撇開了市場發展之間的因果關系。
①時間序列分析預測法是根據市場過去的變化趨勢預測未來的發展,它的前提是假定事物的過去會同樣延續到未來。事物的現實是歷史發展的結果,而事物的未來又是現實的延伸,事物的過去和未來是有聯系的。市場預測的時間序列分析法,正是根據客觀事物發展的這種連續規律性,運用過去的歷史數據,通過統計分析,進一步推測市場未來的發展趨勢。市場預測中,事物的過去會同樣延續到未來,其意思是說,市場未來不會發生突然跳躍式變化,而是漸進變化的。
時間序列分析預測法的哲學依據,是唯物辯證法中的基本觀點,即認為一切事物都是發展變化的,事物的發展變化在時間上具有連續性,市場現象也是這樣。市場現象過去和現在的發展變化規律和發展水平,會影響到市場現象未來的發展變化規律和規模水平;市場現象未來的變化規律和水平,是市場現象過去和現在變化規律和發展水平的結果。
需要指出,由於事物的發展不僅有連續性的特點,而且又是復雜多樣的。因此,在應用時間序列分析法進行市場預測時應注意市場現象未來發展變化規律和發展水平,不一定與其歷史和現在的發展變化規律完全一致。隨著市場現象的發展,它還會出現一些新的特點。因此,在時間序列分析預測中,決不能機械地按市場現象過去和現在的規律向外延伸。必須要研究分析市場現象變化的新特點,新表現,並且將這些新特點和新表現充分考慮在預測值內。這樣才能對市場現象做出既延續其歷史變化規律,又符合其現實表現的可靠的預測結果。
②時間序列分析預測法突出了時間因素在預測中的作用,暫不考慮外界具體因素的影響。時間序列在時間序列分析預測法處於核心位置,沒有時間序列,就沒有這一方法的存在。雖然,預測對象的發展變化是受很多因素影響的。但是,運用時間序列分析進行量的預測,實際上將所有的影響因素歸結到時間這一因素上,只承認所有影響因素的綜合作用,並在未來對預測對象仍然起作用,並未去分析探討預測對象和影響因素之間的因果關系。因此,為了求得能反映市場未來發展變化的精確預測值,在運用時間序列分析法進行預測時,必須將量的分析方法和質的分析方法結合起來,從質的方面充分研究各種因素與市場的關系,在充分分析研究影響市場變化的各種因素的基礎上確定預測值。
需要指出的是,時間序列預測法因突出時間序列暫不考慮外界因素影響,因而存在著預測誤差的缺陷,當遇到外界發生較大變化,往往會有較大偏差,時間序列預測法對於中短期預測的效果要比長期預測的效果好。因為客觀事物,尤其是經濟現象,在一個較長時間內發生外界因素變化的可能性加大,它們對市場經濟現象必定要產生重大影響。如果出現這種情況,進行預測時,只考慮時間因素不考慮外界因素對預測對象的影響,其預測結果就會與實際狀況嚴重不符。
⑹ 常用的多元分析方法
多元分析方法包括3類:
多元方差分析、多元回歸分析和協方差分析,稱為線性模型方法,用以研究確定的自變數與因變數之間的關系;判別函數分析和聚類分析,用以研究對事物的分類;主成分分析、典型相關和因素分析,研究如何用較少的綜合因素代替為數較多的原始變數。
多元方差是把總變異按照其來源分為多個部分,從而檢驗各個因素對因變數的影響以及各因素間交互作用的統計方法。
判別函數是判定個體所屬類別的統計方法。其基本原理是:根據兩個或多個已知類別的樣本觀測資料確定一個或幾個線性判別函數和判別指標,然後用該判別函數依據判別指標來判定另一個個體屬於哪一類。
(6)r型分析和q型分析統計學方法擴展閱讀
多元分析方法的歷史:
首先涉足多元分析方法是F.高爾頓,他於1889年把雙變數的正態分布方法運用於傳統的統計學,創立了相關系數和線性回歸。
其後的幾十年中,斯皮爾曼提出因素分析法,費希爾提出方差分析和判別分析,威爾克斯發展了多元方差分析,霍特林確定了主成分分析和典型相關。到20世紀前半葉,多元分析理論大多已經確立。
60年代以後,隨著計算機科學的發展,多元分析方法在心理學以及其他許多學科的研究中得到了越來越廣泛的應用。
⑺ 根據研究對象的不同可分為q型聚類和r型聚類
1、聚類分析
又稱群分析、點群分析。根據研究對象特徵對研究對象進行分類的一種多元分析技術, 把性質相近的個體歸為一類, 使得同一類中的個體都具有高度的同質性, 不同類之間的個體具有高度的異質性。根據分類對象的不同分為樣品聚類和變數聚類。
2、判別分析
是一種進行統計判別和分組的技術手段。根據一定量案例的一個分組變數和相應的其他多元變數的已知信息, 確定分組與其他多元變數之間的數量關系, 建立判別函數, 然後便可以利用這一數量關系對其他未知分組類型所屬的案例進行判別分組。
判別分析中的因變數或判別准則是定類變數, 而自變數或預測變數基本上是定距變數。依據判別類型的多少與方法不同, 分為多類判別和逐級判別。判別分析的過程是通過建立自變數的線性組合(或其他非線性函數), 使之能最佳地區分因變數的各個類別。
二、聚類分析與判別分析的區別
1、基本思想不同
( 1) 聚類分析的基本思想
我們所研究的樣品或指標( 變數) 之間存在程度不同的相似性( 親疏關系) , 於是根據一批樣品的多個觀測指標, 具體找出一些能夠度量樣品或指標之間相似程度的統計量, 以這些統計量作為劃分類型的依據。把一些相似程度較大的樣品( 或指標) 聚合為一類, 把另外一些相似程度較大的樣品( 或指標) 又聚合為另一類; 關系密切的聚合到一個小的分類單位, 關系疏遠的聚合到一個大的分類單位, 直到把所有的樣品(或指標)聚合完畢。
( 2) 判別分析的基本思想
對已知分類的數據建立由數值指標構成的分類規則即判別函數, 然後把這樣的規則應用到未知分類的樣本去分類。由基本思想可知, 在聚類分析中, 所有樣品或個體所屬類別是未知的, 類別的個數一般也是未知的, 分析的依據就是原始數據, 沒有任何事先的有關類別的信息可參考。
⑻ 聚類分析可分為Q型聚類和R型聚類,請問Q和R這兩個字母的含義是什麼,為什麼叫Q和R而不叫其他的字母
在聚類分析中,通常將根據分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。
R型聚類分析是對變數進行分類處理,Q型聚類分析是對樣本進行分類處理。
R型聚類分析的主要作用是:
1、不但可以了解個別變數之間的關系的親疏程度,而且可以了解各個變數組合之間的親疏程度。
2、根據變數的分類結果以及它們之間的關系,可以選擇主要變數進行回歸分析或Q型聚類分析。
Q型聚類分析的優點是:
1、可以綜合利用多個變數的信息對樣本進行分類;
2、分類結果是直觀的,聚類譜系圖非常清楚地表現其數值分類結果;
3、聚類分析所得到的結果比傳統分類方法更細致、全面、合理。
(8)r型分析和q型分析統計學方法擴展閱讀:
Q型聚類把所有觀察對象按一定性質進行分類,使性質相近對象分在同一類,性質差異較大對象分到另一類。主要根據不同對象(如樣本)之間距離遠近(計算方法如歐幾里得距離等)進行區分,近者分為一類,遠者分成不同類。如把不同個體的人分成不同群體或類別,主要採用此聚類方法。
⑼ 對應分析法的對應分析歷史
對應分析是由法國人Benzenci於1970年提出的,起初在法國和日本最為流行,然後引入到美國。對應分析法是在R型和Q型因子分析的基礎上發展起來的一種多元統計分析方法,因此對應分析又稱為R-Q型因子分析。在因子分析中,如果研究的對象是樣品,則需採用Q型因子分析;如果研究的對象是變數,則需採用R型因子分析。但是,這兩種分析方法往往是相互對立的,必須分別對樣品和變數進行處理。因此,因子分析對於分析樣品的屬性和樣品之間的內在聯系,就比較困難,因為樣品的屬性是變值,而樣品卻是固定的。於是就產生了對應分析法。對應分析就克服了上述缺點,它綜合了R型和Q型因子分析的優點,並將它們統一起來使得由R型的分析結果很容易得到Q型的分析結果,這就克服了Q型分析計算量大的困難;更重要的是可以把變數和樣品的載荷反映在相同的公因子軸上,這樣就把變數和樣品聯系起來便於解釋和推斷。
⑽ 多因素.因素.聚類分析分法層次
摘要 聚類分析法是理想的多變數統計技術,主要有分層聚類法和迭代聚類法。 聚類分析也稱群分析、點群分析,是研究分類的一種多元統計方法