導航:首頁 > 研究方法 > 各種聚類分析方法的特點

各種聚類分析方法的特點

發布時間:2023-02-13 03:23:16

① (21)聚類分析基礎知識

所謂聚類分析,就是按照個體的特徵將他們分類,並且在於讓同一個類別內的個體之間具有較高的相似度,讓不同類別之間具有較大的差異性。這樣,研究人員就能根據不同類別的特徵有針對性的進行分析,並制定出適用於不同類別的解決方案。

聚類分析主要應用在市場細、用戶細分等領域。

如何將個體劃分成不同的類別?

為了合理的進行聚類,需要採用適當的指標來衡量研究對象之間的聯系緊密程度,常用的指標有「距離」和「相似系數」。假設將研究對象採用點表示,聚類分析時,將「距離」小的點或者「相關系數」較大的點歸為一類,將「距離」大的點或「相關系數」小的點歸為一類。

聚類分析的特點?

1)聚類結果是未知的。不同的聚類方法可能得到不同的分類結果,相同的聚類方法但是所分析的變數不同,也會得到不同的聚類結果。

2)對於聚類結果的合理性判斷比較主觀。只要類別內的相似性和類別間的差異性都能得到合理的解釋和判斷,就認識聚類結果是可行的。

常見應用場景?

零售研究中,刻畫不同的用戶或消費者生活形態以及特徵;互聯網中,通過用戶瀏覽、消費行為來總結用戶特徵;金融研究中,根據用戶金融行為和資產狀況對用戶進行分類;城市規劃中,根據區域特徵對城市分類......

聚類分析的步驟:

1)確定需要參加聚類分析的變數。即使用那些變數來進行分類。

2)對數據進行標准化處理。單位、數量級等

3)選擇聚類方法和類別數目。即用什麼聚類方法,分成幾類。

4)分析聚類結果。

為什麼要對數據進行標准化處理?

因為有事各個變數之間的變數值的數量級別差異較大,或者單位也不一樣。例如一個是元,一個是萬元,再或者數量級別差距太大都無法進行比較或者計算「距離」和「相似系數」等指標。只有通過標准化處理,消除變數間的量綱關系的影響,在統一標准下才能夠進行比較或者計算「距離」和「相似系數」等指標。

聚類方法的分類

聚類方法主要有三種:

1)快速聚類:也稱K均值聚類,他是按照一定的方法,選取一批聚類中心點,讓個案向最近的聚類中心點聚集形成初始分類,然後按照最近距離原則調整不合理的分類,直到分類合理為止。

2)系統聚類:也稱層次聚類,首先將參與聚類的個案(或變數)各視為一類,然後根據兩個類別之間的距離或者相似性逐步合並,直到所有個案(或變數)合並為一個大類為止。

3)二階聚類:也稱兩步聚類,這是隨著人工智慧的發展而發展起來的一種智能聚類方法。分成兩個步驟:第一步驟是預聚類,就是根據定義的最大類別數對個案進行初步歸類;第二步驟是正式聚類,就是對第一步驟得到的初步聚類進行在聚類並確定最終聚類結果,並且在這一步中,會根據一定的統計標准確定聚類的類別數。

② 聚類分析方法有什麼好處

聚類分析:將個體(樣品)或者對象(變數)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。其主要依據是聚到同一個數據集中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。
常用聚類方法:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。
注意事項:
1. 系統聚類法可對變數或者記錄進行分類,K-均值法只能對記錄進行分類;
2. K-均值法要求分析人員事先知道樣品分為多少類;
3. 對變數的多元正態性,方差齊性等要求較高。
應用領域:細分市場,消費行為劃分,設計抽樣方案等
優點:聚類分析模型的優點就是直觀,結論形式簡明。
缺點:在樣本量較大時,要獲得聚類結論有一定困難。由於相似系數是根據被試的反映來建立反映被試間內在聯系的指標,而實踐中有時盡管從被試反映所得出的數據中發現他們之間有緊密的關系,但事物之間卻無任何內在聯系,此時,如果根據距離或相似系數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。

③ 關於聚類分析

1。聚類分析的特點
聚類分析(cluster analysis)是根據事物本身的特性研究個體的一種方法,目的在於將相似的事物歸類。它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大。這種方法有三個特徵:適用於沒有先驗知識的分類。如果沒有這些事先的經驗或一些國際、國內、行業標准,分類便會顯得隨意和主觀。這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別;可以處理多個變數決定的分類。例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較復雜,而聚類分析法可以解決這類問題;聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術。
這種較成熟的統計學方法如果在市場分析中得到恰當的應用,必將改善市場營銷的效果,為企業決策提供有益的參考。其應用的步驟為:將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟體(如SPSS、SAS等)求得結果,由專家解讀結果,並轉換為實際操作措施,從而提高企業利潤,降低企業成本。
2.應用范圍
聚類分析在客戶細分中的應用

消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩餘,這就是客戶細分的主要目的。常用的客戶分類方法主要有三類:經驗描述法,由決策者根據經驗對客戶進行類別劃分;傳統統計法,根據客戶屬性特徵的簡單統計來劃分客戶類別;非傳統統計方法,即基於人工智慧技術的非數值方法。聚類分析法兼有後兩類方法的特點,能夠有效完成客戶細分的過程。
例如,客戶的購買動機一般由需要、認知、學習等內因和文化、社會、家庭、小群體、參考群體等外因共同決定。要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變數,並將所有目標客戶每一個分析變數的指標值量化出來,再運用聚類分析法進行分類。在指標值量化時如果遇到一些定性的指標值,可以用一些定性數據定量化的方法加以轉化,如模糊評價法等。除此之外,可以將客戶滿意度水平和重復購買機會大小作為屬性進行分類;還可以在區分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變數劃分為五類:產品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據這些分析變數聚類得到的歸類,可以為企業制定營銷決策提供有益參考。
以上分析的共同點在於都是依據多個變數進行分類,這正好符合聚類分析法解決問題的特點;不同點在於從不同的角度尋求分析變數,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用范圍廣的體現。

聚類分析在實驗市場選擇中的應用

實驗調查法是市場調查中一種有效的一手資料收集方法,主要用於市場銷售實驗,即所謂的市場測試。通過小規模的實驗性改變,以觀察客戶對產品或服務的反應,從而分析該改變是否值得在大范圍內推廣。
實驗調查法最常用的領域有:市場飽和度測試。市場飽和度反映市場的潛在購買力,是市場營銷戰略和策略決策的重要參考指標。企業通常通過將消費者購買產品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度。或者在出現滯銷時,企業投放類似的新產品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力。前述兩種措施由於利益和風險的原因,不可能在企業覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產品的價格實驗。這種實驗往往將新定價的產品投放市場,對顧客的態度和反應進行測試,了解顧客對這種價格的是否接受或接受程度;新產品上市實驗。波士頓矩陣研究的企業產品生命周期圖表明,企業為了生存和發展往往要不斷開發新產品,並使之向明星產品和金牛產品順利過渡。然而新產品投放市場後的失敗率卻很高,大致為66%到90%。因而為了降低新產品的失敗率,在產品大規模上市前,運用實驗調查法對新產品的各方面(外觀設計、性能、廣告和推廣營銷組合等)進行實驗是非常有必要的。
在實驗調查方法中,最常用的是前後單組對比實驗、對照組對比實驗和前後對照組對比實驗。這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同。
通過聚類分析,可將待選的實驗市場(商場、居民區、城市等)分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性。聚類時,商店的規模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變數。 轉

④ 四種聚類方法之比較

四種聚類方法之比較
介紹了較為常見的k-means、層次聚類、SOM、FCM等四種聚類演算法,闡述了各自的原理和使用步驟,利用國際通用測試數據集IRIS對這些演算法進行了驗證和比較。結果顯示對該測試類型數據,FCM和k-means都具有較高的准確度,層次聚類准確度最差,而SOM則耗時最長。
關鍵詞:聚類演算法;k-means;層次聚類;SOM;FCM
聚類分析是一種重要的人類行為,早在孩提時代,一個人就通過不斷改進下意識中的聚類模式來學會如何區分貓狗、動物植物。目前在許多領域都得到了廣泛的研究和成功的應用,如用於模式識別、數據分析、圖像處理、市場研究、客戶分割、Web文檔分類等[1]。
聚類就是按照某個特定標准(如距離准則)把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能地大。即聚類後同一類的數據盡可能聚集到一起,不同數據盡量分離。
聚類技術[2]正在蓬勃發展,對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進,而不同的方法適合於不同類型的數據,因此對各種聚類方法、聚類效果的比較成為值得研究的課題。
1 聚類演算法的分類
目前,有大量的聚類演算法[3]。而對於具體應用,聚類演算法的選擇取決於數據的類型、聚類的目的。如果聚類分析被用作描述或探查的工具,可以對同樣的數據嘗試多種演算法,以發現數據可能揭示的結果。
主要的聚類演算法可以劃分為如下幾類:劃分方法、層次方法、基於密度的方法、基於網格的方法以及基於模型的方法[4-6]。
每一類中都存在著得到廣泛應用的演算法,例如:劃分方法中的k-means[7]聚類演算法、層次方法中的凝聚型層次聚類演算法[8]、基於模型方法中的神經網路[9]聚類演算法等。
目前,聚類問題的研究不僅僅局限於上述的硬聚類,即每一個數據只能被歸為一類,模糊聚類[10]也是聚類分析中研究較為廣泛的一個分支。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度,而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出,如著名的FCM演算法等。
本文主要對k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法通過通用測試數據集進行聚類效果的比較和分析。
2 四種常用聚類演算法研究
2.1 k-means聚類演算法
k-means是劃分方法中較經典的聚類演算法之一。由於該演算法的效率高,所以在對大規模數據進行聚類時被廣泛應用。目前,許多演算法均圍繞著該演算法進行擴展和改進。
k-means演算法以k為參數,把n個對象分成k個簇,使簇內具有較高的相似度,而簇間的相似度較低。k-means演算法的處理過程如下:首先,隨機地選擇k個對象,每個對象初始地代表了一個簇的平均值或中心;對剩餘的每個對象,根據其與各簇中心的距離,將它賦給最近的簇;然後重新計算每個簇的平均值。這個過程不斷重復,直到准則函數收斂。通常,採用平方誤差准則,其定義如下:

這里E是資料庫中所有對象的平方誤差的總和,p是空間中的點,mi是簇Ci的平均值[9]。該目標函數使生成的簇盡可能緊湊獨立,使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下:
輸入:包含n個對象的資料庫和簇的數目k;
輸出:k個簇,使平方誤差准則最小。
步驟:
(1) 任意選擇k個對象作為初始的簇中心;
(2) repeat;
(3) 根據簇中對象的平均值,將每個對象(重新)賦予最類似的簇;
(4) 更新簇的平均值,即計算每個簇中對象的平均值;
(5) until不再發生變化。
2.2 層次聚類演算法
根據層次分解的順序是自底向上的還是自上向下的,層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。
凝聚型層次聚類的策略是先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到所有對象都在一個簇中,或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類,它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下:

這里給出採用最小距離的凝聚層次聚類演算法流程:
(1) 將每個對象看作一類,計算兩兩之間的最小距離;
(2) 將距離最小的兩個類合並成一個新類;
(3) 重新計算新類與所有類之間的距離;
(4) 重復(2)、(3),直到所有類最後合並成一類。
2.3 SOM聚類演算法
SOM神經網路[11]是由芬蘭神經網路專家Kohonen教授提出的,該演算法假設在輸入對象中存在一些拓撲結構或順序,可以實現從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。
SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在2維網格上的有序節點構成,輸入節點與輸出節點通過權重向量連接。學習過程中,找到與之距離最短的輸出層單元,即獲勝單元,對其更新。同時,將鄰近區域的權值更新,使輸出節點保持輸入向量的拓撲特徵。
演算法流程:
(1) 網路初始化,對輸出層每個節點權重賦初值;
(2) 將輸入樣本中隨機選取輸入向量,找到與輸入向量距離最小的權重向量;
(3) 定義獲勝單元,在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏;
(4) 提供新樣本、進行訓練;
(5) 收縮鄰域半徑、減小學習率、重復,直到小於允許值,輸出聚類結果。
2.4 FCM聚類演算法
1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展,模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點,出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析,就是模糊聚類分析[12]。
FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。

演算法流程:
(1) 標准化數據矩陣;
(2) 建立模糊相似矩陣,初始化隸屬矩陣;
(3) 演算法開始迭代,直到目標函數收斂到極小值;
(4) 根據迭代結果,由最後的隸屬矩陣確定數據所屬的類,顯示最後的聚類結果。
3 四種聚類演算法試驗
3.1 試驗數據
實驗中,選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS[13]數據集,IRIS數據集包含150個樣本數據,分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本,每個數據含有4個屬性,即萼片長度、萼片寬度、花瓣長度,單位為cm。在數據集上執行不同的聚類演算法,可以得到不同精度的聚類結果。
3.2 試驗結果說明
文中基於前面所述各演算法原理及演算法流程,用matlab進行編程運算,得到表1所示聚類結果。

如表1所示,對於四種聚類演算法,按三方面進行比較:(1)聚錯樣本數:總的聚錯的樣本數,即各類中聚錯的樣本數的和;(2)運行時間:即聚類整個過程所耗費的時間,單位為s;(3)平均准確度:設原數據集有k個類,用ci表示第i類,ni為ci中樣本的個數,mi為聚類正確的個數,則mi/ni為第i類中的精度,則平均精度為:

3.3 試驗結果分析
四種聚類演算法中,在運行時間及准確度方面綜合考慮,k-means和FCM相對優於其他。但是,各個演算法還是存在固定缺點:k-means聚類演算法的初始點選擇不穩定,是隨機選取的,這就引起聚類結果的不穩定,本實驗中雖是經過多次實驗取的平均值,但是具體初始點的選擇方法還需進一步研究;層次聚類雖然不需要確定分類數,但是一旦一個分裂或者合並被執行,就不能修正,聚類質量受限制;FCM對初始聚類中心敏感,需要人為確定聚類數,容易陷入局部最優解;SOM與實際大腦處理有很強的理論聯系。但是處理時間較長,需要進一步研究使其適應大型資料庫。
聚類分析因其在許多領域的成功應用而展現出誘人的應用前景,除經典聚類演算法外,各種新的聚類方法正被不斷被提出。

⑤ 聚類分析法

聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關系,並按親疏關系的程度對樣本進行聚類(徐建華,1994)。

聚類分析方法,應用在地下水中,是在各種指標和質量級別標准約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。

(一)系統聚類法

系統聚類法的主要步驟有:數據標准化、相似性統計量計算和聚類。

1.數據標准化

在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的准確性和可靠性。在地下水質量研究中,被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大,這會對分類結果產生影響。因此當分類要素的對象確定之後,在進行聚類分析之前,首先對聚類要素進行數據標准化處理。

假設把所考慮的水質分析點(G)作為聚類對象(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素數據可用表4-3給出。在聚類分析中,聚類要素的數據標准化的方法較多,一般採用標准差法和極差法。

表4-3 聚類對象與要素數據

對於第j個變數進行標准化,就是將xij變換為x′ij

(1)總和標准化

區域地下水功能可持續性評價理論與方法研究

這種標准化方法所得的新數據x′ij滿足

區域地下水功能可持續性評價理論與方法研究

(2)標准差標准化

區域地下水功能可持續性評價理論與方法研究

式中:

由這種標准化方法所得的新數據x′ij,各要素的平均值為0,標准差為1,即有

區域地下水功能可持續性評價理論與方法研究

(3)極差標准化

區域地下水功能可持續性評價理論與方法研究

經過這種標准化所得的新數據,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。

上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標准差。

2.相似性統計量

系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標,需要找到能量度相似關系的統計量,這是系統聚類法的關鍵。

相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點,用點間的距離來表示研究對象的緊密關系,距離越小,表明關系越密切。相似系數值表明樣本和變數間的相似程度。

(1)距離系數

常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij

區域地下水功能可持續性評價理論與方法研究

dij越小,表示i,j樣品越相似。

(2)相似系數

常見的相似系數有夾角餘弦和相關系數,計算公式為

1)夾角餘弦

區域地下水功能可持續性評價理論與方法研究

在式(4-20)中:-1≤cosθij≤1。

2)相關系數

區域地下水功能可持續性評價理論與方法研究

式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似系數;rij為i樣品與j樣品的相關系數;xik為i樣品第k個因子的實測值或標准化值;xjk為j樣品第k個因子的實測值或標准化值;

為i樣品第k個因子的均值,

為j樣品第k個因子的均值,

;n為樣品的數目;k為因子(變數)數。

3.聚類

在選定相似性統計量之後,根據計算結果構成距離或相似性系數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。

(1)直接聚類法

直接聚類法,是根據距離或相似系數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類,然後根據距離最小或相似系數最大的原則,依次選出一對分類對象,並成新類。如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類,最後根據歸並的先後順序作出聚類分析譜系圖。

(2)距離聚類法

距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示:

區域地下水功能可持續性評價理論與方法研究

當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。

最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類對象Gp和Gq歸並為一新類Gr,然後按計算公式:

dpq=min(dpk,dqk)(k≠ p,q) (4-23)

dpq=max(dpk,dqk)(k≠ p,q) (4-24)

計算原來各類與新類之間的距離,這樣就得到一個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把Gi和Gj歸並成新類;再計算各類與新類的距離,直至各分類對象被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。

圖4-1 地下水質量評價的聚類譜系圖

(二)模糊聚類法

模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括數據標准化、標定和聚類3個方面(付雁鵬等,1987)。

1.數據標准化

在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始數據進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將數據壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。

2.標定與聚類

所謂標定就是計算出被分類對象間的相似系數rij,從而確定論域集U上的模糊相似關系Rij。相似系數的求取,與系統聚類分析法相同。

聚類就是在已建立的模糊關系矩陣Rij上,給出不同的置信水平λ(λ∈[0,1])進行截取,進而得到不同的分類。

聚類方法較多,主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。

(1)模糊等價關系方法

所謂模糊等價關系,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(R·R⊆R)的模糊關系。

基於模糊等價關系的模糊聚類分析方法的基本思想是:由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集,因此可以對R進行分解,當用λ-水平對R作截集時,截得的U×U的普通子集Rλ就是U上的一個普通等價關系,也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸並,從而形成一個動態聚類譜系圖(徐建華,1994)。此類分析方法的具體步驟如下。

第一步:模糊相似關系的建立,即計算各分類對象之間相似性統計量。

第二步:將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘,即

R2=R·R

R4=R2·R2

這樣計算下去,直到:R2k=Rk·Rk=Rk,則R′=Rk便是一個模糊等價關系。

第三步:在不同的截集水平下進行聚類。

(2)最大樹聚類方法

基於最大樹的模糊聚類分析方法的基本思路是:最大樹是一個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行截取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。

圖4-2 最大聚類支撐樹圖

第一步:計算分類對象之間的模糊相似性統計量rij,構建最大樹。

以所有被分類的對象為頂點,當兩點間rij不等於0時,兩點間可以用樹干連接,這種連接是按rij從大到小的順序依次進行的,從而構成最大樹。

第二步:由最大樹進行聚類分析。

選擇某一λ值作截集,將樹中小於λ值的樹干砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類對象逐漸歸並,從而形成一個動態聚類譜系圖。

在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。

(三)灰色聚類法

灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類對象進行歸納,以判斷該聚類對象屬於哪一類。

灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類對象,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、三級3個灰類(羅定貴等,1995)。

灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函數fjk、求標定聚類權重ηjk、求聚類系數和按最大原則確定聚類對象分類。

1.確定聚類白化數

當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。

2.確定各灰色白化函數

建立滿足各指標、級別區間為最大白化函數值(等於1),偏離此區間愈遠,白化函數愈小(趨於0)的功效函數fij(x)。根據監測值Cki,可在圖上(圖4-3)解析出相應的白化函數值fjk(Cik),j=1,2,…,m;k=1,2,3。

3.求標定聚類權重

根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。

區域地下水功能可持續性評價理論與方法研究

式中:ηjk為第j個指標對第k個灰類的權重;λjk為白化函數的閾值(根據標准濃度而定)。

圖4-3 白化函數圖

註:圖4-3白化函數f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。這部分的值為最佳值,即系數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x),單調增,x∈(x1,x2],稱為白化的左支函數;右邊部分f(x)=R(x),單調減,x∈[x3,x4),稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數,為了簡便,一般是直線。⑤白化函數的起點和終點,一般來說是人為憑經驗確定。

4.求聚類系數

σik=∑fjk(dij)ηjk (4-26)

式中:σik為第i個聚類對象屬於第k個灰類的系數,i=1,2,…,n;k=1,2,3。

5.按最大原則確定聚類對象分類

由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。

用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。

聚類方法計算相對復雜,但是計算結果與地下水質量標准級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。

⑥ 數據分析之聚類分析

RFM分析只能對客戶的行為進行分析,包含的信息量有點少。一般來說,對人群進行分類,要綜合考慮其行為、態度、模式以及相關背景屬性,通過使用特定的方法,發現隱藏在這些信息背後的特徵,將其分成幾個類別,每一類具有一定的共性,進而做出進一步的探索研究。這個分類的過程就是聚類分析。

聚類分析,就是按照個體的特徵將它們分類,目的在於讓同一個類別內的個體之間具有較高的相似度,而不同類別之間具有較大的差異性。這樣,就能夠根據不同類別的特徵有的放矢地進行分析,並制定出適用於不同類別的解決方案。

聚類可以對變數進行聚類,但是更常見的還是對個體進行聚類,也就是樣本聚類。例如對用戶、渠道、商品、員工等方面的聚類,聚類分析主要應用在市場細分、用戶細分等領域。

為了合理的聚類,需要採用適當的指標來衡量研究對象之間的聯系緊密程度,常用的指標有「距離」和「相似系數」,相似系數一般指的是相關系數。假設將研究對象採用點表示,聚類分析時,將「距離」較小的點或「相似系數」較大的點歸為同一類,將「距離」較大的點或「相似系數」較小的點歸為不同的類。

聚類分析具有如下特點:

1.對於聚類結果是未知的,不同的聚類分析方法可能得到不同的分類結果,或者相同的聚類分析方法但是所分析的變數不同,也會得到不同的聚類結果;

2.對於聚類結果的合理性判斷比較主觀,只要類別內相似性和類別間差異性都能得到合理的解釋和判斷,就認為聚類結果是可行的。

聚類分析可以應用於以下場景:

聚類分析的步驟:

(1)確定需要參與聚類分析的變數;

(2)對數據進行標准化處理;

因為各個變數間的變數值的數量級別差異較大或者單位不一致,例如一個變數的單位是元,另一個變數的單位是百分比,數量級別差異較大,而且單位也不一致,無法直接進行比較或者計算「距離」和「相似系數」等指標。

(3)選擇聚類方法和類別個數;

(4)聚類分析結果解讀;

常用的聚類方法包括:

1.快速聚類:也稱K均值聚類,它是按照一定的方法選取一批聚類中心點,讓個案向最近的聚類中心點聚集形成初始分類,然後按照最近距離原則調整不合理的分類,直到分類合理為止。

2.系統聚類:也稱層次聚類,首先將參與聚類的個案(或變數)各視為一類,然後根據兩個類別之間的聚類或者相似性逐步合並,直到所有個案(或變數)合並為一個大類為止。實際上,系統聚類分析結果展現了每個個案的聚類過程和分類結果。系統聚類之後,要製作交叉表通過每一個類別的均值來了解每一類別的特徵。

3.二階聚類:也稱兩步聚類,它是隨著人工智慧的發展起來的一種智能聚類方法。整個聚類方法分為兩個步驟,第一個步驟是預聚類,就是根據定義的最大類別數對個案進行初步歸類;第二個步驟是正式聚類,就是對第一步得到的初步歸類進行再聚類並確定最終聚類結果,並且在這一步中,會根據一定的統計標准確定聚類的類別數。

(1)系統聚類分析不僅支持輸入單個分類數量,還支持輸入分類數量的范圍。這對於暫時無法確定類別數,或者想進行多類別數的結果比較時,非常方便。

(2)系統聚類分析支持生成聚類結果圖,從而更加直觀地查看聚類過程。系統聚類分析支持兩種圖形:

譜系圖(樹狀圖):它以樹狀的形式展現個案被分類的過程;

冰柱圖:它以「X」的形式顯示全部類別或指定類別數的分類過程。

(3)系統聚類分析提供多種聚類方法和適用於不同數據類型的測量方法

其中,測量方法(度量標准):

(i)區間:適用於連續變數,雖然SPSS提供了8種測量方法,但是通常選用默認的【平方歐式距離】即可。

(ii)計數:適用於連續或分類變數,SPSS提供了2種測量方法,通常選用【卡式測量】即可。

(iii)二元:適用於0/1分類變數,SPSS提供多達27種測量方法,通常選用【平方歐式距離】即可。

通過方法里的轉換值項來進行標准化處理。由於參與聚類分析的變數是連續變數,所以,【測量】應選擇【區間】項,方法為默認的【平方歐式距離】,標准化可以選擇【Z得分】,選擇按【變數項】,用以每個變數單獨進行標准化。

二階聚類分析能夠對連續變數和分類變數同時進行處理,無需提前指定聚類的數目,二階聚類會自動分析並輸出最優聚類數。二階聚類的自動聚類結果藉由統計指標施瓦茲貝葉斯准則(BIC)幫助判斷最佳分類數量。判斷一個聚類方案的依據是BIC的數值越小,同時,「BIC變化量」的絕對值和「距離測量比率」數值越大,則說明聚類效果越好。

聚類分析屬於探索性數據分析方法,它沒有一個所謂的標准流程和答案,不同的數據有不同的適用方法,即使相同的數據,應用不同的方法也可能會得到不同的結果。只要能有效解決實際業務問題即可。

⑦ 16.聚類分析

一。簡單介紹

按照特徵來分;

目的在於人士能夠同一個類別內的個體之間具有較高的相似度,而不同的相似度,而不同類別 之間具有較大的差異性,

對變數進行聚類分析

並定製出使用與不同的類別的解決方案

我們為了合理的進行聚類,需要次用適當的額指標來衡量研究對象之間的練習緊密程度

常用的指標有距離和相似系數

相似系數--相關系數

托尼蓋的聚類分析方法可能得到不同的分類結果,或者聚類分析方法但是所分析的便令不同,

對於聚類結果的合理性判斷比較主觀,只要類別內相似性類別建差異性都能得到合理的解釋和判斷,就認為聚類結果是可行的。但是這樣可能會忽略掉一些小眾的群體的存在

的道具類結果後,還必須結合行業特點和實際業務發展情況,對結果進行綜合Fenix和有前瞻性的解讀

------------

二。分析步驟

1.確定需要參數與聚類分析的變數

2.對數據進行標准化處理

3.選擇聚類方法和類別的個數

4.聚類分析個數解讀

2.1聚類方法

快速聚類(k-means cluster):也稱k均值聚類,他是按照一定的方法選取一批聚類中心點,讓個案向最近的聚類中心點聚集形成初始分類,然後按照最近距離原則調整不合理的分類,直到分類合理為止

系統聚類(HIerarchical Cluster):也稱層次聚類,首先將參與聚類的個案(或變數)各視為一類,然後根據倆個類別之間的距離或相似性逐步合並,知道所有個案(或變數)合並為一個大類為止

二階聚類:也稱倆步聚類,一種智能聚類方法,分為倆個步驟1.預聚類,根據定義的最大了別數歲個案進行初步歸類2.正式聚類:根據第一步中得到的初步歸類進行在聚類並確定最終聚類的結果,並且在這一部中,會根據一定的統計標准確定聚類的類別數

-----------

三。案例分析

1.快速聚類分析

分析--分類--k-均值分類

將溝通的分,業務得分,領導能力得分變數移置變數中--員工ID移置個案標注依據

聚類樹種可輸入期望值,預計將員工分為3組,因此輸入3

保存--勾選聚類成員--繼續--k均值聚類分析對話框--繼續--確定

1.2快速聚類分析解讀:

01 初始聚類分析

3個數據作為快速聚類的初始位置

本例中分別選擇了員工ID為1001 1012 1003三人作為初始聚類的初始位置

第二個輸出結果是「迭代歷史記錄」該結果顯示了本次快速聚類分析的一共迭代的次數。迭代的過程可以理解為每個類別與初始位置之間單位距離改變情況,當這個距離變動非常小的時候,迭代就完成了、本例中一共迭代了4次,初始位子最小是82.158

第三個輸出結果:「最終聚類中心」,該最終聚類中心和初始聚類中心相比;在數值上發生了變化,說明通過迭代的計算過程,每個類別的位置都發生了偏移

第四個輸出結果「每個聚類中心得個案項目」,如圖10-9所示,該結果顯示了每個類別中所包含的數據量,本例中類別1 

本案例中聚類1 包含了4 個員工

類別2 中包含了6個員工

類別三種包含了21個員工

數據文件中也新城了一個名為Qcl_1的變數,如下圖所示,其中變數值表示每個案例所屬的類別

應該講這個分類結果和參與聚類分析的變數製作交叉表,計算元工各類別員工在溝通過,業務,領導三方面的各自的平均值,一遍了解每一類別員工的特徵

3.計算交叉表

分析--表--定製表--將QCL_1拖動到右側的列區域上,將溝通能力和也無能李得分領導得分這三個變數拖動大右側(行)區域上,摘要統計中的匯總方式採用默認的平均值--確定

----------

二.交叉表

從交叉表中可以看出:

1.類別1的員工在各績效評估指標的平均得分都比較低,可以認為是「工作表表現較弱」的組別

2.類別2 的員工在各級評估指標的平均分得分處於中間水平,則認為是「工作表現較強」的組別

3.類別3的員工在各績效評估指標的平均分處於中間水平,則認為是「工作保險中等」的組別

-----------

三.系統聚類分析操作

分析--分類--系統聚類--系統聚類分析

將溝通能力,業務能力,領導能力得分移入變數--統計--

將解的范圍調整到3-4--繼續--圖--勾譜系圖--在冰柱圖下方選擇【無】--繼續

系統聚類分析和快速聚類分析的第二個不同之處

1.譜系圖:也稱樹狀圖,以樹狀的形式展現個案被分類的過程

2.冰柱圖:以「X"的形式顯示全部類別或指定類別的數的分類過程

在實際應用中,倆種圖形選擇其一種輸出即可,但是從應用范圍和可讀性來看,譜系圖更加直觀

----

方法--(聚類分析:方法)--組件聯結--瓦爾德法--組間聯結--測量--平方歐氏距離--計數--卡方測量--平方歐式距離--轉換值--一般用z得分--測量應選擇區間想--平方歐式距離--z得分--按變數(每個變數進行標准化)-繼續

----------

3.2 系統聚類分析結果解讀

1.「個案處理摘要」:該結果主要提供了數據量,缺失值信息和測量方法,本例中,該表顯示了21個,無確實個案,採用的測量方法為「平方歐式距離」

2.「集中計劃」--聚類過程

第一步聚類是編號8 和21 的個案合並

第二步聚類是編號8和18的個案合並

3.」聚類成員「將所有個案對應的分類結果集中展示。實際上以結果已經心啊是在數據文件中,用clu3_1,clu4_1倆個變數表示(clu是系統局了我i的分類結果變數的前綴,後面的數字為類別數,下劃線後免得數字為系統聚類分析結果保存的次數

4."譜系圖「該圖形能直觀地表示出整個聚類的全過程,另外分類姐果用一個相對距離25 的刻度來表示,如果要看某一類別所包含的數據,只要從上面王下切,劃過幾條橫線,對應的個案就分了幾類

如果要看2個類別的分組結果,只需要藏刻度為20的地方往下切,第一組編號:8-12,第二組:5-16

------

3.3繼續將分類結構和參與聚類分析的變數製作交叉表,計算各個類別元共公共在溝通,業務,領導三方面呢能李的平均值,一邊了解每一類別員工的特徵,此外,還要顯示出一類別所包含的個案數

分析--描述統計--頻率-將clu3_1clu4_1 拖到右側的變數區域上

顯示分類結果和三個變數的交叉表,單機分析--表--定製表--將clu3_1和clu4_1 移入列變數中,將溝通能力,業務能力得分,領導能力得分移入行中--生成交叉表

從頻率表可知clu3的類別2和clu4的類別2,clu3的類別3,clu3的類別4的人數一致

clu3與clu4的區別在於,clu4的類別1和類別4 合起來就是clu3的類別1

從交叉表結合頻率表可知

1)clu3的類別2和clu4的類別2為同一批員工,業務能李得分是最高的,也就是說,這一類的員工也無能力很強,但是另外倆個能力較為薄弱

2)clu3的類別2分值整體較高,屬於表現良好的員工,此類個指標分支均較低,可以認為這一類的員工整體能力較差

3)clu3的類別2分支整體較高,屬於表現良好的一批員工,而clu4將其細分為呢能力優秀的類別2 和能力一般的類別3

----------

二階聚類分析

分析--分類--二階聚類--二階聚類分析--將學歷/性別變數一致【分類變數框中】--將溝通能力得分,業務能力得分,領導能力得分三個變數移至連續變數中--輸出--二階聚類:輸出--勾選輸出下面的透視表,工作數據文件下的【創建聚類了成員變數】--繼續--確定

二階聚類會自動分析並輸出最有聚類數

⑧ 常用的聚類方法有哪幾種

聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。

1、劃分法,給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。

2、層次法,這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。

3、基於密度的方法,基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。

4、圖論聚類方法解決的第一步是建立與問題相適應的圖,圖的節點對應於被分析數據的最小單元,圖的邊(或弧)對應於最小處理單元數據之間的相似性度量。

5、基於網格的方法,這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。

6、基於模型的方法,基於模型的方法給每一個聚類假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。

(8)各種聚類分析方法的特點擴展閱讀:

在商業上,聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來,並且概括出每一類消費者的消費模式或者說習慣。

它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息,並且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;並且,聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。

許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好;但是,一個大規模資料庫可能包含幾百萬個對象,在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。

許多聚類演算法在聚類分析中要求用戶輸入一定的參數,例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定,特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔,也使得聚類的質量難以控制。

⑨ 聚類演算法有哪幾種

聚類分析計算方法主要有: 層次的方法(hierarchical method)、劃分方法(partitioning method)、基於密度的方法(density-based method)、基於網格的方法(grid-based method)、基於模型的方法(model-based method)等。其中,前兩種演算法是利用統計學定義的距離進行度量。
k-means 演算法的工作過程說明如下:首先從n個數據對象任意選擇 k 個對象作為初始聚類中心;而對於所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然 後再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標准測度函數開始收斂為止。一般都採用均方差作為標准測度函數. k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
其流程如下:
(1)從 n個數據對象任意選擇 k 個對象作為初始聚類中心;
(2)根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;並根據最小距離重新對相應對象進行劃分;
(3)重新計算每個(有變化)聚類的均值(中心對象);
(4)循環(2)、(3)直到每個聚類不再發生變化為止(標准測量函數收斂)。
優點: 本演算法確定的K個劃分到達平方誤差最小。當聚類是密集的,且類與類之間區別明顯時,效果較好。對於處理大數據集,這個演算法是相對可伸縮和高效的,計算的復雜度為 O(NKt),其中N是數據對象的數目,t是迭代的次數。
缺點:
1. K 是事先給定的,但非常難以選定;
2. 初始聚類中心的選擇對聚類結果有較大的影響。

閱讀全文

與各種聚類分析方法的特點相關的資料

熱點內容
香碗製作方法視頻 瀏覽:92
北京蛋白質組學分析方法 瀏覽:783
有哪些方法稀釋油漆 瀏覽:184
可以替代焊錫的sma頭連接方法 瀏覽:467
剪輯視頻的方法 瀏覽:592
如何用化學方法鑒別環己烷和苯胺 瀏覽:539
浙江菜烹飪方法有哪些 瀏覽:382
星戰模擬器怎麼找到自己的家正確方法 瀏覽:766
2020洪災原因和解決方法 瀏覽:828
長期失眠睡不著怎麼辦最好的方法 瀏覽:109
哪些激勵方法可以激勵員工 瀏覽:336
達爾文作用什麼方法得出進化論 瀏覽:632
鼓樓區干貨離心機操作方法有哪些 瀏覽:393
30公分最佳找點方法視頻 瀏覽:285
球圓度的測量方法 瀏覽:910
機動車牌正確安裝方法 瀏覽:418
防盜門的安裝方法 瀏覽:508
剪映的學習方法在剪映哪裡 瀏覽:724
快速製作葡萄酒的方法步驟 瀏覽:438
ipad連接pencil方法 瀏覽:903