導航:首頁 > 研究方法 > 常用聚類分析方法及其分類

常用聚類分析方法及其分類

發布時間:2022-05-17 19:23:45

1. 聚類分析法

聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關系,並按親疏關系的程度對樣本進行聚類(徐建華,1994)。

聚類分析方法,應用在地下水中,是在各種指標和質量級別標准約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。

(一)系統聚類法

系統聚類法的主要步驟有:數據標准化、相似性統計量計算和聚類。

1.數據標准化

在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的准確性和可靠性。在地下水質量研究中,被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大,這會對分類結果產生影響。因此當分類要素的對象確定之後,在進行聚類分析之前,首先對聚類要素進行數據標准化處理。

假設把所考慮的水質分析點(G)作為聚類對象(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素數據可用表4-3給出。在聚類分析中,聚類要素的數據標准化的方法較多,一般採用標准差法和極差法。

表4-3 聚類對象與要素數據

對於第j個變數進行標准化,就是將xij變換為x′ij

(1)總和標准化

區域地下水功能可持續性評價理論與方法研究

這種標准化方法所得的新數據x′ij滿足

區域地下水功能可持續性評價理論與方法研究

(2)標准差標准化

區域地下水功能可持續性評價理論與方法研究

式中:

由這種標准化方法所得的新數據x′ij,各要素的平均值為0,標准差為1,即有

區域地下水功能可持續性評價理論與方法研究

(3)極差標准化

區域地下水功能可持續性評價理論與方法研究

經過這種標准化所得的新數據,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。

上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標准差。

2.相似性統計量

系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標,需要找到能量度相似關系的統計量,這是系統聚類法的關鍵。

相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點,用點間的距離來表示研究對象的緊密關系,距離越小,表明關系越密切。相似系數值表明樣本和變數間的相似程度。

(1)距離系數

常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij

區域地下水功能可持續性評價理論與方法研究

dij越小,表示i,j樣品越相似。

(2)相似系數

常見的相似系數有夾角餘弦和相關系數,計算公式為

1)夾角餘弦

區域地下水功能可持續性評價理論與方法研究

在式(4-20)中:-1≤cosθij≤1。

2)相關系數

區域地下水功能可持續性評價理論與方法研究

式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似系數;rij為i樣品與j樣品的相關系數;xik為i樣品第k個因子的實測值或標准化值;xjk為j樣品第k個因子的實測值或標准化值;

為i樣品第k個因子的均值,

為j樣品第k個因子的均值,

;n為樣品的數目;k為因子(變數)數。

3.聚類

在選定相似性統計量之後,根據計算結果構成距離或相似性系數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。

(1)直接聚類法

直接聚類法,是根據距離或相似系數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類,然後根據距離最小或相似系數最大的原則,依次選出一對分類對象,並成新類。如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類,最後根據歸並的先後順序作出聚類分析譜系圖。

(2)距離聚類法

距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示:

區域地下水功能可持續性評價理論與方法研究

當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。

最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類對象Gp和Gq歸並為一新類Gr,然後按計算公式:

dpq=min(dpk,dqk)(k≠ p,q) (4-23)

dpq=max(dpk,dqk)(k≠ p,q) (4-24)

計算原來各類與新類之間的距離,這樣就得到一個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把Gi和Gj歸並成新類;再計算各類與新類的距離,直至各分類對象被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。

圖4-1 地下水質量評價的聚類譜系圖

(二)模糊聚類法

模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括數據標准化、標定和聚類3個方面(付雁鵬等,1987)。

1.數據標准化

在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始數據進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將數據壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。

2.標定與聚類

所謂標定就是計算出被分類對象間的相似系數rij,從而確定論域集U上的模糊相似關系Rij。相似系數的求取,與系統聚類分析法相同。

聚類就是在已建立的模糊關系矩陣Rij上,給出不同的置信水平λ(λ∈[0,1])進行截取,進而得到不同的分類。

聚類方法較多,主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。

(1)模糊等價關系方法

所謂模糊等價關系,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(R·R⊆R)的模糊關系。

基於模糊等價關系的模糊聚類分析方法的基本思想是:由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集,因此可以對R進行分解,當用λ-水平對R作截集時,截得的U×U的普通子集Rλ就是U上的一個普通等價關系,也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸並,從而形成一個動態聚類譜系圖(徐建華,1994)。此類分析方法的具體步驟如下。

第一步:模糊相似關系的建立,即計算各分類對象之間相似性統計量。

第二步:將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘,即

R2=R·R

R4=R2·R2

這樣計算下去,直到:R2k=Rk·Rk=Rk,則R′=Rk便是一個模糊等價關系。

第三步:在不同的截集水平下進行聚類。

(2)最大樹聚類方法

基於最大樹的模糊聚類分析方法的基本思路是:最大樹是一個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行截取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。

圖4-2 最大聚類支撐樹圖

第一步:計算分類對象之間的模糊相似性統計量rij,構建最大樹。

以所有被分類的對象為頂點,當兩點間rij不等於0時,兩點間可以用樹干連接,這種連接是按rij從大到小的順序依次進行的,從而構成最大樹。

第二步:由最大樹進行聚類分析。

選擇某一λ值作截集,將樹中小於λ值的樹干砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類對象逐漸歸並,從而形成一個動態聚類譜系圖。

在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。

(三)灰色聚類法

灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類對象進行歸納,以判斷該聚類對象屬於哪一類。

灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類對象,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、三級3個灰類(羅定貴等,1995)。

灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函數fjk、求標定聚類權重ηjk、求聚類系數和按最大原則確定聚類對象分類。

1.確定聚類白化數

當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。

2.確定各灰色白化函數

建立滿足各指標、級別區間為最大白化函數值(等於1),偏離此區間愈遠,白化函數愈小(趨於0)的功效函數fij(x)。根據監測值Cki,可在圖上(圖4-3)解析出相應的白化函數值fjk(Cik),j=1,2,…,m;k=1,2,3。

3.求標定聚類權重

根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。

區域地下水功能可持續性評價理論與方法研究

式中:ηjk為第j個指標對第k個灰類的權重;λjk為白化函數的閾值(根據標准濃度而定)。

圖4-3 白化函數圖

註:圖4-3白化函數f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。這部分的值為最佳值,即系數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x),單調增,x∈(x1,x2],稱為白化的左支函數;右邊部分f(x)=R(x),單調減,x∈[x3,x4),稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數,為了簡便,一般是直線。⑤白化函數的起點和終點,一般來說是人為憑經驗確定。

4.求聚類系數

σik=∑fjk(dij)ηjk (4-26)

式中:σik為第i個聚類對象屬於第k個灰類的系數,i=1,2,…,n;k=1,2,3。

5.按最大原則確定聚類對象分類

由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。

用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。

聚類方法計算相對復雜,但是計算結果與地下水質量標准級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。

2. 聚類分析的演算法有哪幾類

聚類分析的演算法可以分為以下幾大類:分裂法、層次法、基於密度的方法、基於網格的方法和基於模型的方法等。

3. 什麼是聚類分析

類通過把目標數據放入少數相對同源的組或「類」(cluster)里。分析表達數據,(1)通過一系列的檢測將待測的一組基因的變異標准化,然後成對比較線性協方差。(2)通過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean 「距離」中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,通過重復再分配類成員來使「類」內分散度最小化的方法。
聚類方法有兩個顯著的局限:首先,要聚類結果要明確就需分離度很好(well-separated)的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度通過序列比較來指導聚類解釋。
第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較,大大減少發現表達類型關系的計算量,但忽視了生物系統多因素和非線性的特點。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言,聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。
聚類分析還可以作為其他數據挖掘任務(如分類、關聯規則)的預處理步驟。
數據挖掘領域主要研究面向大型資料庫、數據倉庫的高效實用的聚類分析演算法。
聚類分析是數據挖掘中的一個很活躍的研究領域,並提出了許多聚類演算法。
這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和
基於模型方法。
1 劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然後利用一個循環
定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 層次方法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上
而下(分解)和自下而上(合並)兩種操作方式。為彌補分解與合並的不足,層次合
並經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:
第一個是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利
用其它聚類方法對這些聚類進行優化。
第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定
量(向聚類中心)進行收縮。
第三個是ROCK方法,它利用聚類間的連接進行聚類合並。
最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。
3 基於密度方法,根據密度完成對象的聚類。它根據對象周圍的密度(如
DBSCAN)不斷增長聚類。典型的基於密度方法包括:
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密
度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義
為一組「密度連接」的點集。
OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一
個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。
4 基於網格方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利
用網格結構完成聚類。
STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基
於網格聚類的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方
法。
5 基於模型方法,它假設每個聚類的模型並發現適合相應模型的數據。典型的
基於模型方法包括:
統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建
一個層次聚類。
CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚
類。它為每個結點中的每個屬性保存相應的連續正態分布(均值與方差);並利
用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)
和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
因此它們都不適合對大資料庫進行聚類處理.

4. 模糊聚類分析的常用分類方法

數據分類中,常用的分類方法有多元統計中的系統聚類法、模糊聚類分析等.在模糊聚類分析中,首先要計算模糊相似矩陣,而不同的模糊相似矩陣會產生不同的分類結果;即使採用相同的模糊相似矩陣,不同的閾值也會產生不同的分類結果.「如何確定這些分類的有效性」便成為模糊聚類的要點。
識別研究中的一個重要問題.文獻,把有效性不滿意的原因歸結於數據集幾何結構的不理想.但筆者認為,不同的幾何結構是對實際需要的反映,我們不能排除實際需要而追求所謂的「理想幾何結構」,不理想的分類不應歸因於數據集的幾何結構.針對同一模糊相似矩陣,文獻建立了確定模糊聚類有效性的方法.用固定的顯著性水平,在不同分類的F一統計量和F檢驗臨界值的差中選最大者,即為有效分類.但是,當顯著性水平變化時,此方法的結果也會變化.文獻引進了一種模糊劃分嫡來評價模糊聚類的有效性,並人為規定當兩類的嫡大於一數時,此兩類可合並,通過逐次合並,最終得到有效分類.此方法人為干預較多,當這個規定數不同時,也會得到不同的結果.另外這兩種方法也未比較不同模糊相似矩陣的分類結果. 系統聚類法是基於模糊等價關系的模糊聚類分析法。在經典的聚類分析方法中可用經典等價關系對樣本集X進行聚類。設R是 X上的經典等價關系。對X中的兩個元素x和y,若xRy或(x,y)∈R,則將x和y並為一類,否則x和y不屬於同一類。
相應地,可用X上的模糊等價關系對樣本集X進行模糊聚類。設慒是X上的模糊等價關系,是慒 的隸屬函數。對於任何α∈【0,1】,定義慒 的α截關系 Sα是X上的經典等價關系。根據Sα得到X 的一種聚類,稱為在α水平上的聚類。
應用這種方法,分類的結果與α的取值大小有關。α取值越大,分的類數越多。α小到某一值時,X中的所有樣本歸並為一類。這種方法的優點在於可按實際需要選取α的值,以便得到恰當的分類。
系統聚類法的步驟如下:
①用數字描述樣本的特徵。設被聚類的樣本集為 X={x1,…,xn}。每個樣本均有p種特徵,記作xi=(xi1,…,xip);i=1,2,…,n;xip表示描述樣本xi的第p個特徵的數。 ②規定樣本之間的相似系數rij(0≤rij≤1;i,j=1,…,n)。rij描述樣本xi與xj之間的差異或相似的程度。rij 越接近於1,表明樣本xi與xj之間的差異越小;rij 越接近於0,表明xi與xj之間的差異越大。rij可用主觀評定或集體評分的方法規定,也可用公式計算,如採用夾角餘弦法、最小最大法、算術平均最小法等。
因為rii=1(xi與自身沒有差異),rij=rji(xi與xj之間的差異等同於xj與xi之間的差異),所以由rij(i,j=1,…,n)可得X上的模糊相似關系。
一般,R不具備可傳遞性,因而R不一定是 X上的模糊等價關系。
③運用合成運算R=R⋅R(或R=R⋅R等)求出最接近相似關系R的模糊等價關系S=R(或R等)。若R已是模糊等價關系,則取S=R。
④選取適當水平α(0≤α≤1),得到X 的一種聚類。 逐步聚類法是一種基於模糊劃分的模糊聚類分析法。它是預先確定好待分類的樣本應分成幾類,然後按最優化原則進行再分類,經多次迭代直到分類比較合理為止。
在分類過程中可認為某個樣本以某一隸屬度隸屬於某一類,又以另一隸屬度隸屬於另一類。這樣,樣本就不是明確地屬於或不屬於某一類。若樣本集有 n個樣本要分成c類,則它的模糊劃分矩陣為此c×n模糊劃分矩陣有下列特性:①uij∈【0,1】;i=1,…,c;j=1,…,n。②即每一樣本屬於各類的隸屬度之和為1。③即每一類模糊子集都不是空集。

5. 聚類分析

化探工作中常常要研究元素和樣品分類問題。聚類分析則提供了一些數量化的衡量元素或樣品相似程度的指示,利用這些指標可將元素樣品按其相似程度的大小劃分為不同的類,從而揭示元素或樣品之間的本質聯系,這有助於研究元素共生組合關系和對岩體異常等的分類評價。

根據分類對象不同,聚類分析分為R型聚類分析(對元素進行分類),Q型聚類分析(對樣品進行分類)。聚類分析一般採用逐次聯結法,具體做法如下。

1.轉換對數

常將實測數據先轉換為對數,因為微量元素多屬對數正態分布,而且數據過於離散。

2.數據均勻化

數據均勻化化的目的是將大小懸殊的數據化為同一度量的水平上。均勻化的方法常用的有:

(1)標准化

用於R型聚類分析,計算公式:

地球化學找礦

式中:zij為標准化數據;xij為原始數據(對數值);xi為 i個變數的平均值(對數平均值),

為i個變數的標准離差,σi

;i為變數數(i=1,2,3,…,m);j為樣品數(j=1,2,3,…,n)。

(2)正規化

用於Q型聚類分析,計算公式:

地球化學找礦

式中:wij為正規化數據;xij為原始數據(對數值);xi(max)為i個變數的最大值(對數值);xi(min)為i個變數的最小值(對數值);i 為變數數(i =1,2,3,…,m);j 為樣品數(j=1,2,3,…,n)。

(3)計算相似性統計量

1)相關系數r

用於R型聚分析,計算公式(任何兩元素):

地球化學找礦

數據標准化後:

地球化學找礦

-1≤r≤1,|r|愈大,元素愈相似。

2)相似性系數

用於Q型聚類分析,計算公式(任何二樣品):

地球化學找礦

-1≤cosθ≤1,|cosθ|愈大,元素愈相似。

3)距離系數

用於Q型聚類分析,計算公式(對於任何兩樣品)

地球化學找礦

對於正規化數據0≤d≤1,d值越小樣品越相似。將計算出的相似性統計量排列成矩陣。

(4)根據相似性統計量進行分類

1)選出相似程度最大(即相關系數、相似性系數最大,距離系數最小)的一對元素或樣品聯結成一類,填入分類表(表6-4),聯結後的元素或樣品組成一個新變數(新樣品)替換序號較小的變數(樣品),去掉序號較大的變數(樣品)。

2)將聯結成一類的元素或樣品均勻化數據加權平均,替換序號較小的一行作為新變數(新樣品)的數據,去掉序號較大的一行數據,其餘各行不變。得到比原來少一個變數或樣品的均勻化數據表。

表6-4 分類統計表

加權平均計算公式:

如第一、二兩個元素聯結後新變數的標准化數據為,則:

地球化學找礦

N1和N2分別為權,未組合的數據權為1,組合一次權增加1。

3)根據新變數(新樣品)的數據,計算新變數(新樣品)與其餘變數(樣品)間的相似性統計量,其餘不變,列出新的矩陣。

4)重復上述1),2),3)各步驟,即挑選相似程度最大的變數(或樣品)聯結歸類;加權平均合並數據;計算新變數(新樣品)與其他變數(樣品)間的相似性統計量,刷新原矩陣,直至全部聯結完畢為止。

5)製作譜系圖,見圖6-3。

圖6-3 譜系圖(示意)

3.計算實例

某地一批超基性岩樣品,經分析 Ni,Co,Cu,Cr,S,As含量如表6-5。

表6-5 某地超基性樣品Ni,Co,Cu,Cr,S,As 含量

(1)用R型聚類分析對元素進行分類

1)將原始數據轉換為對數,並計算各元素對數值的平均值和標准離差,其結果見表6-6。

2)將各樣品中各元素含量對數值進行標准化。

3)按照數據標准化公式:

地球化學找礦

地球化學找礦

於是可得標准化數據表6-7。

表6-7 標准化數據

4)計算相關系數,列出相關系數矩陣R(0),按照相關系數計算公式:

地球化學找礦

於是得相關矩陣R(0)

地球化學找礦

5)將R(0)中相關系數最大的Co,Cu聯結成一類,記為Co′填入分類統計表中,並計算Co′的數據。

按照加權平均計算公式:

地球化學找礦

於是得表6-8。

表6-8 由R(0)得到的Co′值

6)計算新變數Co′與剩餘的變數的相關系數,列出新相關矩陣R(1)

相關系數計算公式同前(以下同),於是得:

地球化學找礦

7)將R(1)中相關系數最大的Ni,Co′聯結成一類,記為Ni′填入分類統計表中,並計算Ni′的數據。

Ni′的數據仍按前加權平均的公式計算(以下同),於是得表6-9。

表6-9 由Co′重新計算的Ni′值

8)計算新變數Ni′與剩餘的變數的相關系數,列出新相關矩陣R(2)

於是得:

地球化學找礦

9)將R(2)中相關系數最大的S,As聯結成一類,記為填入分類統計表中,並計算S′的數據(表6-10)。

表6-10 S′計算結果

10)計算新變數S′與剩餘變數的相關系數,列出刷新的相關矩陣R(3)

地球化學找礦

11)將R(3)中相關系數最大的 Ni′與 S′聯結成一類,記為 Ni″,填入分類統計表中(表6-11)。

表6-11 Ni″計算結果

12)計算新變數Ni″與剩餘變數的相關系數,列出刷新的相關矩R(4)

13)最後將Ni″與Cr聯結起來,記入分類統計表6-12。

表6-12 分類統計表

14)製作譜系圖(圖6-4)。

圖6-4 譜系圖

從上述譜系圖可見,在相關系數0.2~0.5的相似水平上,可將述六個元素分為兩類:一類是 Cr(親氧元素);另一類是 Co,Cu,Ni,As(親硫元素)。在相關系數0.6 左右可將親硫元素分為兩組,一組是S,As(陰離子);一組是Co,Cu,Ni(陽離子),且Co,Cu相關關系更密切。這樣R型聚類分析清楚地顯示出這些元素在超基性岩石的相互關系。

(2)用Q型聚類分析對樣品進行分類

仍以上述超基岩樣品分析結果為例。

對樣品分類常用距離系數。由於距離系數是對直角坐標系而言,即要求變數要互不相關。故可先用R型聚類分析(式R型因子分析)選出互相獨立的變數(在用R型聚類分析時,通常取相關系數絕對值小的變數),然後以距離系數對樣品進行分類。

上例R型聚類分析結果,在R=0.6 水平左右可將變數分為三組,即Ni′(Ni,Co,Cu);S′(S,As);Cr,現以這三組為變數對樣品進行分類。

1)將變數數據(對數值)進行合並,得出新的數據表。合並的辦法是取該組變數的平均值,於是得表6-13。

表6-13 對變數數據合並後的新的數據

2)將數據正規化。按正規化的公式:

地球化學找礦

於是得表6-14。

表6-14 正規化後的數據表

3)計算距離系數djk,列出初始距離系數矩陣D(0)

按距離系數公式:

地球化學找礦

於是得:

地球化學找礦

4)將D(0)中距離系數值最小的(5),(6)樣品聯結成一類,記為(5′)填入分類統計表中,並計算(5′)的數據。

按照加權平均計算公式:

地球化學找礦

於是得表6-15。

表6-15 (5′)的數據表

5)計算(5′)與樣品的距離系數,列出刷新距離系數矩陣D(1),於是得:

地球化學找礦

6)將D(1)中距離系數最大的(2),(5′)聯結成一類,記為(2′),填入分類統計表中,並計算(2′)的數據。於是得表6-16。

表6-16 (2′)的數據表

7)計算(2′)與剩餘樣品的距離系數,列出刷新的距離系數矩陣D(2),於是得:

地球化學找礦

8)將D(2)中距離系數最小的(1),(4)聯結成一類,記為(1′),填入分類統計表中,並計算(1′)的數據。於是得表6-17。

表6-17 (1′)的數據表

9)計算(1′)與剩餘樣品的距離系數,列出刷新的距離系數矩陣D(3),於是得:

地球化學找礦

10)將D(3)中距離系數最小的(1′),(2′),聯結成一類,記為(1″),填入分類統計表中,並計算(1″)的數據。於是得表6-18。

表6-18 (1″)的數據表

11)計算(1″)與剩餘樣品的距離系數,列出新的距離系數矩陣D(4),於是得:

地球化學找礦

12)最後將(1″),(3)聯結成一類,填入分類統計表6-19。

表6-19 分類統計表

13)製作譜系圖(圖6-5)。

圖6-5 譜系圖

從譜系圖上可得:在距離系數0.35~0.5水平上,可將數個樣品分成三類;一類是礦化的蛇紋岩(1)及(4);另一類是無礦化的蛇紋岩(2)及滑鎂岩(5),(6);樣品(3)為單獨一類,它是無礦化的蛇紋岩。因此,通過Q型聚類分析很好地將該地含礦岩體和不含礦岩體區分開來。至於樣品(3)單獨開,還可進一步研究它與其他無礦岩體的差異。

這里需要特別指出的是,運用回歸分析、判別分析、聚類分析都是在特定的地質條件下得出的統計規律,因此,在利用這些規律對未知進行判斷時,一定要注意地質條件的相似性,切不可把某一地質條件下導出的規律,生搬硬套地用於解決不同地質條件下的問題。

6. 聚類分析方法有什麼好處

聚類分析:將個體(樣品)或者對象(變數)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。其主要依據是聚到同一個數據集中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。
常用聚類方法:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。
注意事項:
1. 系統聚類法可對變數或者記錄進行分類,K-均值法只能對記錄進行分類;
2. K-均值法要求分析人員事先知道樣品分為多少類;
3. 對變數的多元正態性,方差齊性等要求較高。
應用領域:細分市場,消費行為劃分,設計抽樣方案等
優點:聚類分析模型的優點就是直觀,結論形式簡明。
缺點:在樣本量較大時,要獲得聚類結論有一定困難。由於相似系數是根據被試的反映來建立反映被試間內在聯系的指標,而實踐中有時盡管從被試反映所得出的數據中發現他們之間有緊密的關系,但事物之間卻無任何內在聯系,此時,如果根據距離或相似系數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。

7. 有哪些常用的聚類演算法

【聚類】聚類分析是直接比較各對象之間的性質,根據在對象屬性中發現的描述對象及其關系的信息,將數據對象分組。其目標是,組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內的相似性(同質性)越大,組間差別越大,聚類就越好。

聚類的目標是通過對無標記訓練樣本的學習來揭示數據的內在性質及規律,是無監督學習過程。在無監督學習中,訓練樣本標記信息是未知的。聚類試圖將數據集中的樣本劃分為若干個通常不相交的子集,每個子集稱為一個「簇」,每個簇可能對應於一些潛在的類別,這些類別概念對聚類演算法而言事先是未知的,聚類過程僅能自動形成簇結構,簇所對應的概念語義需要由使用者來把握和命名。

8. 四種聚類方法之比較

四種聚類方法之比較
介紹了較為常見的k-means、層次聚類、SOM、FCM等四種聚類演算法,闡述了各自的原理和使用步驟,利用國際通用測試數據集IRIS對這些演算法進行了驗證和比較。結果顯示對該測試類型數據,FCM和k-means都具有較高的准確度,層次聚類准確度最差,而SOM則耗時最長。
關鍵詞:聚類演算法;k-means;層次聚類;SOM;FCM
聚類分析是一種重要的人類行為,早在孩提時代,一個人就通過不斷改進下意識中的聚類模式來學會如何區分貓狗、動物植物。目前在許多領域都得到了廣泛的研究和成功的應用,如用於模式識別、數據分析、圖像處理、市場研究、客戶分割、Web文檔分類等[1]。
聚類就是按照某個特定標准(如距離准則)把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能地大。即聚類後同一類的數據盡可能聚集到一起,不同數據盡量分離。
聚類技術[2]正在蓬勃發展,對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進,而不同的方法適合於不同類型的數據,因此對各種聚類方法、聚類效果的比較成為值得研究的課題。
1 聚類演算法的分類
目前,有大量的聚類演算法[3]。而對於具體應用,聚類演算法的選擇取決於數據的類型、聚類的目的。如果聚類分析被用作描述或探查的工具,可以對同樣的數據嘗試多種演算法,以發現數據可能揭示的結果。
主要的聚類演算法可以劃分為如下幾類:劃分方法、層次方法、基於密度的方法、基於網格的方法以及基於模型的方法[4-6]。
每一類中都存在著得到廣泛應用的演算法,例如:劃分方法中的k-means[7]聚類演算法、層次方法中的凝聚型層次聚類演算法[8]、基於模型方法中的神經網路[9]聚類演算法等。
目前,聚類問題的研究不僅僅局限於上述的硬聚類,即每一個數據只能被歸為一類,模糊聚類[10]也是聚類分析中研究較為廣泛的一個分支。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度,而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出,如著名的FCM演算法等。
本文主要對k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法通過通用測試數據集進行聚類效果的比較和分析。
2 四種常用聚類演算法研究
2.1 k-means聚類演算法
k-means是劃分方法中較經典的聚類演算法之一。由於該演算法的效率高,所以在對大規模數據進行聚類時被廣泛應用。目前,許多演算法均圍繞著該演算法進行擴展和改進。
k-means演算法以k為參數,把n個對象分成k個簇,使簇內具有較高的相似度,而簇間的相似度較低。k-means演算法的處理過程如下:首先,隨機地選擇k個對象,每個對象初始地代表了一個簇的平均值或中心;對剩餘的每個對象,根據其與各簇中心的距離,將它賦給最近的簇;然後重新計算每個簇的平均值。這個過程不斷重復,直到准則函數收斂。通常,採用平方誤差准則,其定義如下:

這里E是資料庫中所有對象的平方誤差的總和,p是空間中的點,mi是簇Ci的平均值[9]。該目標函數使生成的簇盡可能緊湊獨立,使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下:
輸入:包含n個對象的資料庫和簇的數目k;
輸出:k個簇,使平方誤差准則最小。
步驟:
(1) 任意選擇k個對象作為初始的簇中心;
(2) repeat;
(3) 根據簇中對象的平均值,將每個對象(重新)賦予最類似的簇;
(4) 更新簇的平均值,即計算每個簇中對象的平均值;
(5) until不再發生變化。
2.2 層次聚類演算法
根據層次分解的順序是自底向上的還是自上向下的,層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。
凝聚型層次聚類的策略是先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到所有對象都在一個簇中,或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類,它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下:

這里給出採用最小距離的凝聚層次聚類演算法流程:
(1) 將每個對象看作一類,計算兩兩之間的最小距離;
(2) 將距離最小的兩個類合並成一個新類;
(3) 重新計算新類與所有類之間的距離;
(4) 重復(2)、(3),直到所有類最後合並成一類。
2.3 SOM聚類演算法
SOM神經網路[11]是由芬蘭神經網路專家Kohonen教授提出的,該演算法假設在輸入對象中存在一些拓撲結構或順序,可以實現從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。
SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在2維網格上的有序節點構成,輸入節點與輸出節點通過權重向量連接。學習過程中,找到與之距離最短的輸出層單元,即獲勝單元,對其更新。同時,將鄰近區域的權值更新,使輸出節點保持輸入向量的拓撲特徵。
演算法流程:
(1) 網路初始化,對輸出層每個節點權重賦初值;
(2) 將輸入樣本中隨機選取輸入向量,找到與輸入向量距離最小的權重向量;
(3) 定義獲勝單元,在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏;
(4) 提供新樣本、進行訓練;
(5) 收縮鄰域半徑、減小學習率、重復,直到小於允許值,輸出聚類結果。
2.4 FCM聚類演算法
1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展,模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點,出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析,就是模糊聚類分析[12]。
FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。

演算法流程:
(1) 標准化數據矩陣;
(2) 建立模糊相似矩陣,初始化隸屬矩陣;
(3) 演算法開始迭代,直到目標函數收斂到極小值;
(4) 根據迭代結果,由最後的隸屬矩陣確定數據所屬的類,顯示最後的聚類結果。
3 四種聚類演算法試驗
3.1 試驗數據
實驗中,選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS[13]數據集,IRIS數據集包含150個樣本數據,分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本,每個數據含有4個屬性,即萼片長度、萼片寬度、花瓣長度,單位為cm。在數據集上執行不同的聚類演算法,可以得到不同精度的聚類結果。
3.2 試驗結果說明
文中基於前面所述各演算法原理及演算法流程,用matlab進行編程運算,得到表1所示聚類結果。

如表1所示,對於四種聚類演算法,按三方面進行比較:(1)聚錯樣本數:總的聚錯的樣本數,即各類中聚錯的樣本數的和;(2)運行時間:即聚類整個過程所耗費的時間,單位為s;(3)平均准確度:設原數據集有k個類,用ci表示第i類,ni為ci中樣本的個數,mi為聚類正確的個數,則mi/ni為第i類中的精度,則平均精度為:

3.3 試驗結果分析
四種聚類演算法中,在運行時間及准確度方面綜合考慮,k-means和FCM相對優於其他。但是,各個演算法還是存在固定缺點:k-means聚類演算法的初始點選擇不穩定,是隨機選取的,這就引起聚類結果的不穩定,本實驗中雖是經過多次實驗取的平均值,但是具體初始點的選擇方法還需進一步研究;層次聚類雖然不需要確定分類數,但是一旦一個分裂或者合並被執行,就不能修正,聚類質量受限制;FCM對初始聚類中心敏感,需要人為確定聚類數,容易陷入局部最優解;SOM與實際大腦處理有很強的理論聯系。但是處理時間較長,需要進一步研究使其適應大型資料庫。
聚類分析因其在許多領域的成功應用而展現出誘人的應用前景,除經典聚類演算法外,各種新的聚類方法正被不斷被提出。

9. 什麼是聚類分析聚類演算法有哪幾種

聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源於

分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行

定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識

難以確切地進行分類,於是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之後又

將多元分析的技術引入到數值分類學形成了聚類分析。

聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論

聚類法、聚類預報法等。

聚類分析計算方法主要有如下幾種:分裂法(partitioning methods):層次法(hierarchical

methods):基於密度的方法(density-based methods): 基於網格的方法(grid-based

methods): 基於模型的方法(model-based methods)。

10. 幾種常用聚類方法的比較

1.k-mean聚類分析 適用於樣本聚類;
2.分層聚類 適用於對變數聚類;
3.兩步聚類 適用於分類變數和連續變數聚類;
4.基於密度的聚類演算法;
5.基於網路的聚類;
6.機器學習中的聚類演算法;
前3種,可用spss簡單操作實現;

閱讀全文

與常用聚類分析方法及其分類相關的資料

熱點內容
分析化學中數理統計方法 瀏覽:498
安卓手機自動切換wifi設置方法 瀏覽:320
腿部拉伸方法簡單 瀏覽:468
快速急剎車的正確方法 瀏覽:249
銅板與銅板連接方法 瀏覽:122
絲瓜種植方法的圖片 瀏覽:340
超市各種率的計算方法 瀏覽:722
小米手機亮度設置方法 瀏覽:331
魔方快速恢復原樣方法 瀏覽:528
上油泵安裝接頭安裝方法 瀏覽:874
用彩泥捏凳子的簡便方法 瀏覽:354
教具使用情況研究方法 瀏覽:595
手機淘寶猜你喜歡推廣方法介紹 瀏覽:995
胡夫金字塔用作比較的方法怎麼寫 瀏覽:22
蘇州牛皮癬中葯治療方法 瀏覽:714
正確的供奉方法圖片 瀏覽:393
練微笑的方法視頻教程 瀏覽:154
茅台vip用酒查真偽鑒別方法 瀏覽:144
手臂刮汗毛用什麼方法 瀏覽:738
調理肌酐最好的方法如何降 瀏覽:936