導航:首頁 > 安裝方法 > 聚類分析方法的一般步驟

聚類分析方法的一般步驟

發布時間:2022-05-18 02:34:26

㈠ spss軟體聚類分析怎麼用,從輸入數據到結果,樹狀圖結果。整個操作怎麼進行。需要基本思路。

1、【分析】-【分類】-【k-平均值聚類】,進行相關參數的設置。

如何對混合型數據做聚類分析

如何對混合型數據做聚類分析
利用聚類分析,我們可以很容易地看清數據集中樣本的分布情況。以往介紹聚類分析的文章中通常只介紹如何處理連續型變數,這些文字並沒有過多地介紹如何處理混合型數據(如同時包含連續型變數、名義型變數和順序型變數的數據)。本文將利用 Gower 距離、PAM(partitioning around medoids)演算法和輪廓系數來介紹如何對混合型數據做聚類分析。
R語言
本文主要分為三個部分:
距離計算
聚類演算法的選擇
聚類個數的選擇
為了介紹方便,本文直接使用 ISLR 包中的 College 數據集。該數據集包含了自 1995 年以來美國大學的 777 條數據,其中主要有以下幾個變數:
連續型變數
錄取率
學費
新生數量
分類型變數
公立或私立院校
是否為高水平院校,即所有新生中畢業於排名前 10% 高中的新生數量佔比是否大於 50%
本文中涉及到的R包有:
In [3]:
set.seed(1680) # 設置隨機種子,使得本文結果具有可重現性
library(dplyr)
library(ISLR)
library(cluster)
library(Rtsne)
library(ggplot2)

Attaching package: 『dplyr』

The following objects are masked from 『package:stats』:

filter, lag

The following objects are masked from 『package:base』:

intersect, setdiff, setequal, union

構建聚類模型之前,我們需要做一些數據清洗工作:
錄取率等於錄取人數除以總申請人數
判斷某個學校是否為高水平院校,需要根據該學校的所有新生中畢業於排名前 10% 高中的新生數量佔比是否大於 50% 來決定

In [5]:

college_clean <- College %>%
mutate(name = row.names(.),
accept_rate = Accept/Apps,
isElite = cut(Top10perc,
breaks = c(0, 50, 100),
labels = c("Not Elite", "Elite"),
include.lowest = TRUE)) %>%
mutate(isElite = factor(isElite)) %>%
select(name, accept_rate, Outstate, Enroll,
Grad.Rate, Private, isElite)

glimpse(college_clean)

Observations: 777
Variables: 7
$ name (chr) "Abilene Christian University", "Adelphi University", "...
$ accept_rate (dbl) 0.7421687, 0.8801464, 0.7682073, 0.8369305, 0.7564767, ...
$ Outstate (dbl) 7440, 12280, 11250, 12960, 7560, 13500, 13290, 13868, 1...
$ Enroll (dbl) 721, 512, 336, 137, 55, 158, 103, 489, 227, 172, 472, 4...
$ Grad.Rate (dbl) 60, 56, 54, 59, 15, 55, 63, 73, 80, 52, 73, 76, 74, 68,...
$ Private (fctr) Yes, Yes, Yes, Yes, Yes, Yes, Yes, Yes, Yes, Yes, Yes,...
$ isElite (fctr) Not Elite, Not Elite, Not Elite, Elite, Not Elite, Not...
距離計算
聚類分析的第一步是定義樣本之間距離的度量方法,最常用的距離度量方法是歐式距離。然而歐氏距離只適用於連續型變數,所以本文將採用另外一種距離度量方法—— Gower 距離。
Gower 距離
Gower 距離的定義非常簡單。首先每個類型的變數都有特殊的距離度量方法,而且該方法會將變數標准化到[0,1]之間。接下來,利用加權線性組合的方法來計算最終的距離矩陣。不同類型變數的計算方法如下所示:
連續型變數:利用歸一化的曼哈頓距離
順序型變數:首先將變數按順序排列,然後利用經過特殊調整的曼哈頓距離
名義型變數:首先將包含 k 個類別的變數轉換成 k 個 0-1 變數,然後利用 Dice 系數做進一步的計算
優點:通俗易懂且計算方便
缺點:非常容易受無標准化的連續型變數異常值影響,所以數據轉換過程必不可少;該方法需要耗費較大的內存
利用 daisy 函數,我們只需要一行代碼就可以計算出 Gower 距離。需要注意的是,由於新生入學人數是右偏變數,我們需要對其做對數轉換。daisy 函數內置了對數轉換的功能,你可以調用幫助文檔來獲取更多的參數說明。

In [6]:

# Remove college name before clustering

gower_dist <- daisy(college_clean[, -1],
metric = "gower",
type = list(logratio = 3))

# Check attributes to ensure the correct methods are being used
# (I = interval, N = nominal)
# Note that despite logratio being called,
# the type remains coded as "I"

summary(gower_dist)

Out[6]:

301476 dissimilarities, summarized :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0018601 0.1034400 0.2358700 0.2314500 0.3271400 0.7773500
Metric : mixed ; Types = I, I, I, I, N, N
Number of objects : 777

此外,我們可以通過觀察最相似和最不相似的樣本來判斷該度量方法的合理性。本案例中,聖托馬斯大學和約翰卡羅爾大學最相似,而俄克拉荷馬科技和藝術大學和哈佛大學差異最大。

In [7]:

gower_mat <- as.matrix(gower_dist)

# Output most similar pair

college_clean[
which(gower_mat == min(gower_mat[gower_mat != min(gower_mat)]),
arr.ind = TRUE)[1, ], ]

Out[7]:

In [8]:

# Output most dissimilar pair

college_clean[
which(gower_mat == max(gower_mat[gower_mat != max(gower_mat)]),
arr.ind = TRUE)[1, ], ]

Out[8]:

聚類演算法的選擇

現在我們已經計算好樣本間的距離矩陣,接下來需要選擇一個合適的聚類演算法,本文採用 PAM(partioniong around medoids)演算法來構建模型:

PAM 演算法的主要步驟:

隨機選擇 k 個數據點,並將其設為簇中心點
遍歷所有樣本點,並將樣本點歸入最近的簇中
對每個簇而言,找出與簇內其他點距離之和最小的點,並將其設為新的簇中心點
重復第2步,直到收斂

該演算法和 K-means 演算法非常相似。事實上,除了中心點的計算方法不同外,其他步驟都完全一致 。

優點:簡單易懂且不易受異常值所影響
缺點:演算法時間復雜度為 O(n2)O(n2)

聚類個數的選擇

我們將利用輪廓系數來確定最佳的聚類個數,輪廓系數是一個用於衡量聚類離散度的內部指標,該指標的取值范圍是[-1,1],其數值越大越好。通過比較不同聚類個數下輪廓系數的大小,我們可以看出當聚類個數為 3 時,聚類效果最好。

In [9]:

# Calculate silhouette width for many k using PAM

sil_width <- c(NA)

for(i in 2:10){

pam_fit <- pam(gower_dist,
diss = TRUE,
k = i)

sil_width[i] <- pam_fit$silinfo$avg.width

}

# Plot sihouette width (higher is better)

plot(1:10, sil_width,
xlab = "Number of clusters",
ylab = "Silhouette Width")
lines(1:10, sil_width)

聚類結果解釋
描述統計量

聚類完畢後,我們可以調用 summary 函數來查看每個簇的匯總信息。從這些匯總信息中我們可以看出:簇1主要是中等學費且學生規模較小的私立非頂尖院校,簇2主要是高收費、低錄取率且高畢業率的私立頂尖院校,而簇3則是低學費、低畢業率且學生規模較大的公立非頂尖院校。

In [18]:

pam_fit <- pam(gower_dist, diss = TRUE, k = 3)

pam_results <- college_clean %>%
dplyr::select(-name) %>%
mutate(cluster = pam_fit$clustering) %>%
group_by(cluster) %>%
do(the_summary = summary(.))

print(pam_results$the_summary)

[[1]]
accept_rate Outstate Enroll Grad.Rate Private
Min. :0.3283 Min. : 2340 Min. : 35.0 Min. : 15.00 No : 0
1st Qu.:0.7225 1st Qu.: 8842 1st Qu.: 194.8 1st Qu.: 56.00 Yes:500
Median :0.8004 Median :10905 Median : 308.0 Median : 67.50
Mean :0.7820 Mean :11200 Mean : 418.6 Mean : 66.97
3rd Qu.:0.8581 3rd Qu.:13240 3rd Qu.: 484.8 3rd Qu.: 78.25
Max. :1.0000 Max. :21700 Max. :4615.0 Max. :118.00
isElite cluster
Not Elite:500 Min. :1
Elite : 0 1st Qu.:1
Median :1
Mean :1
3rd Qu.:1
Max. :1

[[2]]
accept_rate Outstate Enroll Grad.Rate Private
Min. :0.1545 Min. : 5224 Min. : 137.0 Min. : 54.00 No : 4
1st Qu.:0.4135 1st Qu.:13850 1st Qu.: 391.0 1st Qu.: 77.00 Yes:65
Median :0.5329 Median :17238 Median : 601.0 Median : 89.00
Mean :0.5392 Mean :16225 Mean : 882.5 Mean : 84.78
3rd Qu.:0.6988 3rd Qu.:18590 3rd Qu.:1191.0 3rd Qu.: 94.00
Max. :0.9605 Max. :20100 Max. :4893.0 Max. :100.00
isElite cluster
Not Elite: 0 Min. :2
Elite :69 1st Qu.:2
Median :2
Mean :2
3rd Qu.:2
Max. :2

[[3]]
accept_rate Outstate Enroll Grad.Rate Private
Min. :0.3746 Min. : 2580 Min. : 153 Min. : 10.00 No :208
1st Qu.:0.6423 1st Qu.: 5295 1st Qu.: 694 1st Qu.: 46.00 Yes: 0
Median :0.7458 Median : 6598 Median :1302 Median : 54.50
Mean :0.7315 Mean : 6698 Mean :1615 Mean : 55.42
3rd Qu.:0.8368 3rd Qu.: 7748 3rd Qu.:2184 3rd Qu.: 65.00
Max. :1.0000 Max. :15516 Max. :6392 Max. :100.00
isElite cluster
Not Elite:199 Min. :3
Elite : 9 1st Qu.:3
Median :3
Mean :3
3rd Qu.:3
Max. :3

PAM 演算法的另一個優點是各個簇的中心點是實際的樣本點。從聚類結果中我們可以看出,聖弗朗西斯大學是簇1 的中心點,巴朗德學院是簇2 的中心點,而密歇根州州立大學河谷大學是簇3 的中心點。

In [19]:

college_clean[pam_fit$medoids, ]

Out[19]:

可視化方法

t-SNE 是一種降維方法,它可以在保留聚類結構的前提下,將多維信息壓縮到二維或三維空間中。藉助t-SNE我們可以將 PAM 演算法的聚類結果繪制出來,有趣的是私立頂尖院校和公立非頂尖院校這兩個簇中間存在一個小聚類簇。

In [22]:

tsne_obj <- Rtsne(gower_dist, is_distance = TRUE)

tsne_data <- tsne_obj$Y %>%
data.frame() %>%
setNames(c("X", "Y")) %>%
mutate(cluster = factor(pam_fit$clustering),
name = college_clean$name)

ggplot(aes(x = X, y = Y), data = tsne_data) +
geom_point(aes(color = cluster))

進一步探究可以發現,這一小簇主要包含一些競爭力較強的公立院校,比如弗吉尼亞大學和加州大學伯克利分校。雖然無法通過輪廓系數指標來證明多分一類是合理的,但是這 13 所院校的確顯著不同於其他三個簇的院校。

In [25]:

tsne_data %>%
filter(X > 15 & X < 25,
Y > -15 & Y < -10) %>%
left_join(college_clean, by = "name") %>%
collect %>%
.[["name"]]

Out[25]:

『Kansas State University』
『North Carolina State University at Raleigh』
『Pennsylvania State Univ. Main Campus』
『SUNY at Buffalo』
『Texas A&M Univ. at College Station』
『University of Georgia』
『University of Kansas』
『University of Maryland at College Park』
『University of Minnesota Twin Cities』
『University of Missouri at Columbia』
『University of Tennessee at Knoxville』
『University of Texas at Austin』

㈢ 聚類分析

化探工作中常常要研究元素和樣品分類問題。聚類分析則提供了一些數量化的衡量元素或樣品相似程度的指示,利用這些指標可將元素樣品按其相似程度的大小劃分為不同的類,從而揭示元素或樣品之間的本質聯系,這有助於研究元素共生組合關系和對岩體異常等的分類評價。

根據分類對象不同,聚類分析分為R型聚類分析(對元素進行分類),Q型聚類分析(對樣品進行分類)。聚類分析一般採用逐次聯結法,具體做法如下。

1.轉換對數

常將實測數據先轉換為對數,因為微量元素多屬對數正態分布,而且數據過於離散。

2.數據均勻化

數據均勻化化的目的是將大小懸殊的數據化為同一度量的水平上。均勻化的方法常用的有:

(1)標准化

用於R型聚類分析,計算公式:

地球化學找礦

式中:zij為標准化數據;xij為原始數據(對數值);xi為 i個變數的平均值(對數平均值),

為i個變數的標准離差,σi

;i為變數數(i=1,2,3,…,m);j為樣品數(j=1,2,3,…,n)。

(2)正規化

用於Q型聚類分析,計算公式:

地球化學找礦

式中:wij為正規化數據;xij為原始數據(對數值);xi(max)為i個變數的最大值(對數值);xi(min)為i個變數的最小值(對數值);i 為變數數(i =1,2,3,…,m);j 為樣品數(j=1,2,3,…,n)。

(3)計算相似性統計量

1)相關系數r

用於R型聚分析,計算公式(任何兩元素):

地球化學找礦

數據標准化後:

地球化學找礦

-1≤r≤1,|r|愈大,元素愈相似。

2)相似性系數

用於Q型聚類分析,計算公式(任何二樣品):

地球化學找礦

-1≤cosθ≤1,|cosθ|愈大,元素愈相似。

3)距離系數

用於Q型聚類分析,計算公式(對於任何兩樣品)

地球化學找礦

對於正規化數據0≤d≤1,d值越小樣品越相似。將計算出的相似性統計量排列成矩陣。

(4)根據相似性統計量進行分類

1)選出相似程度最大(即相關系數、相似性系數最大,距離系數最小)的一對元素或樣品聯結成一類,填入分類表(表6-4),聯結後的元素或樣品組成一個新變數(新樣品)替換序號較小的變數(樣品),去掉序號較大的變數(樣品)。

2)將聯結成一類的元素或樣品均勻化數據加權平均,替換序號較小的一行作為新變數(新樣品)的數據,去掉序號較大的一行數據,其餘各行不變。得到比原來少一個變數或樣品的均勻化數據表。

表6-4 分類統計表

加權平均計算公式:

如第一、二兩個元素聯結後新變數的標准化數據為,則:

地球化學找礦

N1和N2分別為權,未組合的數據權為1,組合一次權增加1。

3)根據新變數(新樣品)的數據,計算新變數(新樣品)與其餘變數(樣品)間的相似性統計量,其餘不變,列出新的矩陣。

4)重復上述1),2),3)各步驟,即挑選相似程度最大的變數(或樣品)聯結歸類;加權平均合並數據;計算新變數(新樣品)與其他變數(樣品)間的相似性統計量,刷新原矩陣,直至全部聯結完畢為止。

5)製作譜系圖,見圖6-3。

圖6-3 譜系圖(示意)

3.計算實例

某地一批超基性岩樣品,經分析 Ni,Co,Cu,Cr,S,As含量如表6-5。

表6-5 某地超基性樣品Ni,Co,Cu,Cr,S,As 含量

(1)用R型聚類分析對元素進行分類

1)將原始數據轉換為對數,並計算各元素對數值的平均值和標准離差,其結果見表6-6。

2)將各樣品中各元素含量對數值進行標准化。

3)按照數據標准化公式:

地球化學找礦

地球化學找礦

於是可得標准化數據表6-7。

表6-7 標准化數據

4)計算相關系數,列出相關系數矩陣R(0),按照相關系數計算公式:

地球化學找礦

於是得相關矩陣R(0)

地球化學找礦

5)將R(0)中相關系數最大的Co,Cu聯結成一類,記為Co′填入分類統計表中,並計算Co′的數據。

按照加權平均計算公式:

地球化學找礦

於是得表6-8。

表6-8 由R(0)得到的Co′值

6)計算新變數Co′與剩餘的變數的相關系數,列出新相關矩陣R(1)

相關系數計算公式同前(以下同),於是得:

地球化學找礦

7)將R(1)中相關系數最大的Ni,Co′聯結成一類,記為Ni′填入分類統計表中,並計算Ni′的數據。

Ni′的數據仍按前加權平均的公式計算(以下同),於是得表6-9。

表6-9 由Co′重新計算的Ni′值

8)計算新變數Ni′與剩餘的變數的相關系數,列出新相關矩陣R(2)

於是得:

地球化學找礦

9)將R(2)中相關系數最大的S,As聯結成一類,記為填入分類統計表中,並計算S′的數據(表6-10)。

表6-10 S′計算結果

10)計算新變數S′與剩餘變數的相關系數,列出刷新的相關矩陣R(3)

地球化學找礦

11)將R(3)中相關系數最大的 Ni′與 S′聯結成一類,記為 Ni″,填入分類統計表中(表6-11)。

表6-11 Ni″計算結果

12)計算新變數Ni″與剩餘變數的相關系數,列出刷新的相關矩R(4)

13)最後將Ni″與Cr聯結起來,記入分類統計表6-12。

表6-12 分類統計表

14)製作譜系圖(圖6-4)。

圖6-4 譜系圖

從上述譜系圖可見,在相關系數0.2~0.5的相似水平上,可將述六個元素分為兩類:一類是 Cr(親氧元素);另一類是 Co,Cu,Ni,As(親硫元素)。在相關系數0.6 左右可將親硫元素分為兩組,一組是S,As(陰離子);一組是Co,Cu,Ni(陽離子),且Co,Cu相關關系更密切。這樣R型聚類分析清楚地顯示出這些元素在超基性岩石的相互關系。

(2)用Q型聚類分析對樣品進行分類

仍以上述超基岩樣品分析結果為例。

對樣品分類常用距離系數。由於距離系數是對直角坐標系而言,即要求變數要互不相關。故可先用R型聚類分析(式R型因子分析)選出互相獨立的變數(在用R型聚類分析時,通常取相關系數絕對值小的變數),然後以距離系數對樣品進行分類。

上例R型聚類分析結果,在R=0.6 水平左右可將變數分為三組,即Ni′(Ni,Co,Cu);S′(S,As);Cr,現以這三組為變數對樣品進行分類。

1)將變數數據(對數值)進行合並,得出新的數據表。合並的辦法是取該組變數的平均值,於是得表6-13。

表6-13 對變數數據合並後的新的數據

2)將數據正規化。按正規化的公式:

地球化學找礦

於是得表6-14。

表6-14 正規化後的數據表

3)計算距離系數djk,列出初始距離系數矩陣D(0)

按距離系數公式:

地球化學找礦

於是得:

地球化學找礦

4)將D(0)中距離系數值最小的(5),(6)樣品聯結成一類,記為(5′)填入分類統計表中,並計算(5′)的數據。

按照加權平均計算公式:

地球化學找礦

於是得表6-15。

表6-15 (5′)的數據表

5)計算(5′)與樣品的距離系數,列出刷新距離系數矩陣D(1),於是得:

地球化學找礦

6)將D(1)中距離系數最大的(2),(5′)聯結成一類,記為(2′),填入分類統計表中,並計算(2′)的數據。於是得表6-16。

表6-16 (2′)的數據表

7)計算(2′)與剩餘樣品的距離系數,列出刷新的距離系數矩陣D(2),於是得:

地球化學找礦

8)將D(2)中距離系數最小的(1),(4)聯結成一類,記為(1′),填入分類統計表中,並計算(1′)的數據。於是得表6-17。

表6-17 (1′)的數據表

9)計算(1′)與剩餘樣品的距離系數,列出刷新的距離系數矩陣D(3),於是得:

地球化學找礦

10)將D(3)中距離系數最小的(1′),(2′),聯結成一類,記為(1″),填入分類統計表中,並計算(1″)的數據。於是得表6-18。

表6-18 (1″)的數據表

11)計算(1″)與剩餘樣品的距離系數,列出新的距離系數矩陣D(4),於是得:

地球化學找礦

12)最後將(1″),(3)聯結成一類,填入分類統計表6-19。

表6-19 分類統計表

13)製作譜系圖(圖6-5)。

圖6-5 譜系圖

從譜系圖上可得:在距離系數0.35~0.5水平上,可將數個樣品分成三類;一類是礦化的蛇紋岩(1)及(4);另一類是無礦化的蛇紋岩(2)及滑鎂岩(5),(6);樣品(3)為單獨一類,它是無礦化的蛇紋岩。因此,通過Q型聚類分析很好地將該地含礦岩體和不含礦岩體區分開來。至於樣品(3)單獨開,還可進一步研究它與其他無礦岩體的差異。

這里需要特別指出的是,運用回歸分析、判別分析、聚類分析都是在特定的地質條件下得出的統計規律,因此,在利用這些規律對未知進行判斷時,一定要注意地質條件的相似性,切不可把某一地質條件下導出的規律,生搬硬套地用於解決不同地質條件下的問題。

㈣ SPSS怎麼聚類分析

聚類分析一般是將樣本進行分類,得到幾類,然後對幾個類別進行命名,以及得到的類別數據一般需要用於後續進一步分析使用等。所以聚類分析後一般需要使用方差分析,這個步驟還比較多,建議你使用在線版本的SPSS軟體SPSSAU進行分析,這是個智能化的軟體,裡面全部把過程都幫你整理好,以及表格也全部進行了智能化規范。

㈤ 聚類分析法

聚類分析,亦稱群分析或點分析,是研究多要素事物分類問題的數量方法。其基本原理是,根據樣本自身的屬性,用數學方法按照某些相似性或差異性指標,定量地確定樣本之間的親疏關系,並按親疏關系的程度對樣本進行聚類(徐建華,1994)。

聚類分析方法,應用在地下水中,是在各種指標和質量級別標准約束條件下,通過樣品的各項指標監測值綜合聚類,以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。

(一)系統聚類法

系統聚類法的主要步驟有:數據標准化、相似性統計量計算和聚類。

1.數據標准化

在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的准確性和可靠性。在地下水質量研究中,被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大,這會對分類結果產生影響。因此當分類要素的對象確定之後,在進行聚類分析之前,首先對聚類要素進行數據標准化處理。

假設把所考慮的水質分析點(G)作為聚類對象(有m個),用i表示(i=1,2,…,m);把影響水質的主要因素作為聚類指標(有n個),用j表示(j=1,2,…,n),它們所對應的要素數據可用表4-3給出。在聚類分析中,聚類要素的數據標准化的方法較多,一般採用標准差法和極差法。

表4-3 聚類對象與要素數據

對於第j個變數進行標准化,就是將xij變換為x′ij

(1)總和標准化

區域地下水功能可持續性評價理論與方法研究

這種標准化方法所得的新數據x′ij滿足

區域地下水功能可持續性評價理論與方法研究

(2)標准差標准化

區域地下水功能可持續性評價理論與方法研究

式中:

由這種標准化方法所得的新數據x′ij,各要素的平均值為0,標准差為1,即有

區域地下水功能可持續性評價理論與方法研究

(3)極差標准化

區域地下水功能可持續性評價理論與方法研究

經過這種標准化所得的新數據,各要素的極大值為1,極小值為0,其餘的數值均在[0,1]閉區間內。

上述式中:xij為j變數實測值;xj為j變數的樣本平均值;sj為樣本標准差。

2.相似性統計量

系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標,需要找到能量度相似關系的統計量,這是系統聚類法的關鍵。

相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點,用點間的距離來表示研究對象的緊密關系,距離越小,表明關系越密切。相似系數值表明樣本和變數間的相似程度。

(1)距離系數

常採用歐幾里得絕對距離,其中i樣品與j樣品距離dij

區域地下水功能可持續性評價理論與方法研究

dij越小,表示i,j樣品越相似。

(2)相似系數

常見的相似系數有夾角餘弦和相關系數,計算公式為

1)夾角餘弦

區域地下水功能可持續性評價理論與方法研究

在式(4-20)中:-1≤cosθij≤1。

2)相關系數

區域地下水功能可持續性評價理論與方法研究

式中:dij為i樣品與j樣品的歐幾里得距離;cosθij為i樣品與j樣品的相似系數;rij為i樣品與j樣品的相關系數;xik為i樣品第k個因子的實測值或標准化值;xjk為j樣品第k個因子的實測值或標准化值;

為i樣品第k個因子的均值,

為j樣品第k個因子的均值,

;n為樣品的數目;k為因子(變數)數。

3.聚類

在選定相似性統計量之後,根據計算結果構成距離或相似性系數矩陣(n×n),然後通過一定的方法把n個樣品組合成不同等級的分類單位,對類進行並類,即將最相似的樣品歸為一組,然後,把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法(最短距離聚類法、最遠距離聚類法)。

(1)直接聚類法

直接聚類法,是根據距離或相似系數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類,然後根據距離最小或相似系數最大的原則,依次選出一對分類對象,並成新類。如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類,最後根據歸並的先後順序作出聚類分析譜系圖。

(2)距離聚類法

距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示:

區域地下水功能可持續性評價理論與方法研究

當γ=-0.5時,式(4-22)計算類之間的距離最短;當γ=0.5時,式(4-22)計算類之間的距離最遠。

最短、最遠距離法,是在原來的n×n距離矩陣的非對角元素中找出dpq=min(dij)或dpq=max(dij),把分類對象Gp和Gq歸並為一新類Gr,然後按計算公式:

dpq=min(dpk,dqk)(k≠ p,q) (4-23)

dpq=max(dpk,dqk)(k≠ p,q) (4-24)

計算原來各類與新類之間的距離,這樣就得到一個新的(n-1)階的距離矩陣;再從新的距離矩陣中選出最小或最大的dij,把Gi和Gj歸並成新類;再計算各類與新類的距離,直至各分類對象被歸為一類為止。最後綜合整個聚類過程,作出最短距離或最遠距離聚類譜系圖(圖4-1)。

圖4-1 地下水質量評價的聚類譜系圖

(二)模糊聚類法

模糊聚類法是普通聚類方法的一種拓展,它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟,包括數據標准化、標定和聚類3個方面(付雁鵬等,1987)。

1.數據標准化

在進行聚類過程中,由於所研究的各個變數絕對值不一樣,所以直接使用原始數據進行計算就會突出絕對值大的變數,而降低絕對值小的變數作用,特別是在進行模糊聚類分析中,模糊運算要求必須將數據壓縮在[0,1]之間。因此,模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。

2.標定與聚類

所謂標定就是計算出被分類對象間的相似系數rij,從而確定論域集U上的模糊相似關系Rij。相似系數的求取,與系統聚類分析法相同。

聚類就是在已建立的模糊關系矩陣Rij上,給出不同的置信水平λ(λ∈[0,1])進行截取,進而得到不同的分類。

聚類方法較多,主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。

(1)模糊等價關系方法

所謂模糊等價關系,是指具有自反性(rii=1)、對稱性(rij=rji)與傳遞性(R·R⊆R)的模糊關系。

基於模糊等價關系的模糊聚類分析方法的基本思想是:由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集,因此可以對R進行分解,當用λ-水平對R作截集時,截得的U×U的普通子集Rλ就是U上的一個普通等價關系,也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時,所得的分類由細變粗,逐漸歸並,從而形成一個動態聚類譜系圖(徐建華,1994)。此類分析方法的具體步驟如下。

第一步:模糊相似關系的建立,即計算各分類對象之間相似性統計量。

第二步:將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言,模糊相似關系滿足自反性和對稱性,但不滿足傳遞性。因此,需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘,即

R2=R·R

R4=R2·R2

這樣計算下去,直到:R2k=Rk·Rk=Rk,則R′=Rk便是一個模糊等價關系。

第三步:在不同的截集水平下進行聚類。

(2)最大樹聚類方法

基於最大樹的模糊聚類分析方法的基本思路是:最大樹是一個不包含迴路的連通圖(圖4-2);選取λ水平對樹枝進行截取,砍去權重低於λ 的枝,形成幾個孤立的子樹,每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。

圖4-2 最大聚類支撐樹圖

第一步:計算分類對象之間的模糊相似性統計量rij,構建最大樹。

以所有被分類的對象為頂點,當兩點間rij不等於0時,兩點間可以用樹干連接,這種連接是按rij從大到小的順序依次進行的,從而構成最大樹。

第二步:由最大樹進行聚類分析。

選擇某一λ值作截集,將樹中小於λ值的樹干砍斷,使相連的結點構成一類,即子樹,當λ由1到0時,所得到的分類由細變粗,各結點所代表的分類對象逐漸歸並,從而形成一個動態聚類譜系圖。

在聚類方法中,模糊聚類法比普通聚類法有較大的突破,簡化了運算過程,使聚類法更易於掌握。

(三)灰色聚類法

灰色聚類是根據不同聚類指標所擁有的白化數,按幾個灰類將聚類對象進行歸納,以判斷該聚類對象屬於哪一類。

灰色聚類應用於地下水水質評價中,是把所考慮的水質分析點作為聚類對象,用i表示(i=1,2,…,n);把影響水質的主要因素作為聚類指標,用j表示(j=1,2,…,m),把水質級別作為聚類灰數(灰類),用k表示(k=1,2,3)即一級、二級、三級3個灰類(羅定貴等,1995)。

灰色聚類的主要步驟:確定聚類白化數、確定各灰色白化函數fjk、求標定聚類權重ηjk、求聚類系數和按最大原則確定聚類對象分類。

1.確定聚類白化數

當各灰類白化數在數量上相差懸殊時,為保證各指標間的可比性與等效性,必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數,i=1,2,…,n;j=1,2,…,m。

2.確定各灰色白化函數

建立滿足各指標、級別區間為最大白化函數值(等於1),偏離此區間愈遠,白化函數愈小(趨於0)的功效函數fij(x)。根據監測值Cki,可在圖上(圖4-3)解析出相應的白化函數值fjk(Cik),j=1,2,…,m;k=1,2,3。

3.求標定聚類權重

根據式(4-25),計算得出聚類權重ηjk的矩陣(n×m)。

區域地下水功能可持續性評價理論與方法研究

式中:ηjk為第j個指標對第k個灰類的權重;λjk為白化函數的閾值(根據標准濃度而定)。

圖4-3 白化函數圖

註:圖4-3白化函數f(x)∈[0,1],具有下述特點:①平頂部分,表示該量的最佳程度。這部分的值為最佳值,即系數(權)為1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函數是單調變化的,左邊部分f(x)=L(x),單調增,x∈(x1,x2],稱為白化的左支函數;右邊部分f(x)=R(x),單調減,x∈[x3,x4),稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數,為了簡便,一般是直線。⑤白化函數的起點和終點,一般來說是人為憑經驗確定。

4.求聚類系數

σik=∑fjk(dij)ηjk (4-26)

式中:σik為第i個聚類對象屬於第k個灰類的系數,i=1,2,…,n;k=1,2,3。

5.按最大原則確定聚類對象分類

由σik構造聚類向量矩陣,行向量最大者,確定k樣品屬於j級對應的級別。

用灰色聚類方法進行地下水水質評價,能最大限度地避免因人為因素而造成的「失真、失效」現象。

聚類方法計算相對復雜,但是計算結果與地下水質量標准級別對應性明顯,能夠較全面反映地下水質量狀況,也是較高層次定量研究地下水質量的重要方法。

㈥ spss做聚類分析的具體步驟是什麼

excel表:整理一份excel數據表,第一列為材料或數據的名稱,後幾列為各項數值
導入數據:打開SPSS,點擊File——Open——DATA, 選擇已經編輯好的excel表
點擊analyze——Classify——Hierarchical cluster analysis——數據導入variables,表頭項導入label case by;
選擇Method 項,根據需要選擇方法,點擊Plots選擇dendrogram(打對勾),其餘各項根據自己需要選擇要計算的統計量,點擊ok即可。

㈦ 如何對用戶進行聚類分析

需要搜集用戶的哪些特徵?

聚類分析變數選擇的原則是:在哪些變數組合的前提,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低,並且變數之間不能存在高度相關。

常用的用戶特徵變數有:


人口學變數:如年齡、性別、婚姻、教育程度、職業、收入等。通過人口學變數進行分類,了解每類人口的需求有何差異。


用戶目標:如用戶為什麼使用這個產品?為什麼選擇線上購買?了解不同使用目的的用戶的各自特徵,從而查看各類目標用戶的需求。


用戶使用場景:用戶在什麼時候,什麼情況下使用這個產品?了解用戶在各類場景下的偏好/行為差異。


用戶行為數據:如使用頻率,使用時長,客單價等。劃分用戶活躍等級,用戶價值等級等。


態度傾向量表:如消費偏好,價值觀等,看不同價值觀、不同生活方式的群體在消費取向或行為上的差異。

需要多少樣本量?

沒有限制,通常情況下與實際應用有關,如果非要加一個理論的限制,通常認為,樣本的個數要大於聚類個數的平方。

①如果需要聚類的數據量較少(<100),那麼三種方法(層次聚類法,K-均值聚類法,兩步聚類法)都可以考慮使用。優先考慮層次聚類法,因為層次聚類法產生的樹狀圖更加直觀形象,易於解釋,並且,層次聚類法提供方法、距離計算方式、標准化方式的豐富程度也是其他兩種方法所無法比擬的。

②如果需要聚類的數據量較大(>1000),應該考慮選擇快速聚類別法或者兩步聚類法進行。

③如果數據量在100~1000之間,理論上現在的計算條件是可能滿足任何聚類方法的要求的,但是結果的展示會比較困難,例如不可能再去直接觀察樹狀圖了。

應用定量方法還是定性方法?

聚類分析是一種定量分析方法,但對聚類分析結果的解釋還需要結合定性資料討論。

1.聚類分析的定義與用途

聚類分析(Cluster Analysis)是一種探索性的數據分析方法,根據指標/變數的數據結構特徵,對數據進行分類,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低。

2.聚類分析的方法

①層次聚類法(Hierarchical),也叫系統聚類法。既可處理分類變數,也可處理連續變數,但不能同時處理兩種變數類型,不需要指定類別數。聚類結果間存在著嵌套,或者說層次的關系。

②K-均值聚類法(K-Means Cluster),也叫快速聚類法。針對連續變數,也可處理有序分類變數,運算很快,但需要指定類別數。K-均值聚類法不會自動對數據進行標准化處理,需要先自己手動進行標准化分析。

③兩步聚類法(Two-Step Cluster):可以同時處理分類變數和連續變數,能自動識別最佳的類別數,結果比較穩定。如果只對連續變數進行聚類,描述記錄之間的距離性時可以使用歐氏(Euclidean)距離,也可以使用對數似然值(Log-likelihood),如果使用前者,則該方法和傳統的聚類方法並無太大區別;但是若進行聚類的還有離散變數,那麼就只能使用對數似然值來表述記錄間的差異性。當聚類指標為有序類別變數時,Two-Step Cluster出來的分類結果沒有K-means cluster的明晰,這是因為K-means演算法假定聚類指標變數為連續變數。

3.聚類分析的步驟

①確定研究目的:研究問題關注點有哪些、是否有先驗分類數…

②問卷編制:態度語句李克特項目、有序類別…

③確定分析變數:問卷變數的類型,連續or分類,有序類別or無序類別、是否納入後台數據,變數間相關性低…

④聚類分析:聚類分析方法選擇、數據標准化方法、聚類類別數確定…

⑤結果檢驗:類別間差異分析、是否符合常理…

⑥聚類結果解釋:類別的命名、類別間的差異、結合定性資料解釋…

㈧ 聚類分析的基本步驟,相對於層次聚類,它有怎樣

聚類分析一般要計算ICC值(intra class coefficients),或者用one way anova 做方差分析,確定數據之間的方差是否符合聚類分析的標准。層次聚類(multilevel data analysis)比聚類分析更進一步,它要求數據必須是嵌套數據(nested data),並且ICC值和Rwcg值要符合具體的經驗值(不同學科貌似這個cutoff值不一樣)。聚類分析和層次聚類可以使用MLwiN,stata,Mplus軟體實現,R貌似也可以,但我不會用,不確定。

㈨ 聚類分析法(CA)

3.2.3.1 技術原理

聚類分析又稱群分析(CA),它是研究(對樣品或指標)分類問題的一種多元統計方法。首先認為所研究的樣品或指標(變數)之間存在著程度不同的相似性(親疏關系),根據一批樣品的多個觀測指標具體找出一些能夠度量樣品或指標之間相似程度的統計量,以這些統計量為劃分類型的依據,把一些相似程度較大的樣品(或指標)聚合為一類,把另一些彼此之間相似程度較大的樣品(或指標)聚合為另一類,根據分類對象不同,可分為對樣品分類的Q型聚類分析和對指標分類的R型聚類分析兩種類型。聚類分析可用SPSS軟體直接實現,在水質時空變異、水化學類型分區中得到廣泛的應用。聚類分析的功能是建立一種分類方法,它將一批樣品或變數,按照它們在性質上的親疏、相似程度進行分類,聚類分析的內容十分豐富,按其聚類的方法可分為以下幾種:系統聚類法、調優法、最優分割法、模糊聚類法等。

聚類分析根據分類對象的不同又分為R型和Q型兩大類,R型是對變數(指標)進行分類,Q型是對樣品進行分類。為了對樣品(或變數)進行分類,就必須研究它們之間的關系,描述樣品間親疏相似程度的統計量很多,目前用得最多的是距離和相似系數。距離方法主要有:閔科夫斯基(Minkowski)距離、絕對值距離、歐氏距離等。

樣品間的親疏程度除了用距離描述外,也可用相似系數來表示,相似系數的構造主要有以下兩種方法:對於定量變數,我們通常採用的相似系數有xi和xj之間的夾角餘弦和相關系數。

3.2.3.2 方法流程

目前使用最多的聚類方法是系統聚類法,其基本思想是:先將n個樣品各自看成一類,共有n個類,然後計算類與類間的距離,選擇距離最小的兩類合並成一個新類,使總類數減少為n-1,接著再計算這n-1類兩兩間的距離,從中找出距離最近的兩類合並,總類數又減少一個,剩下n-2個類,照此下去,每合並一次,減少一類,直至所有樣品都合並成一類為止。在並類的過程當中,可以根據聚類的先後以及並類時兩類間的距離,畫出能直觀反映各樣品間相近和疏遠程度的聚類圖(也稱譜系圖),根據這張聚類圖有可能找到最合適的分類方案。系統聚類法的聚類原則決定於樣品間的距離(或相似系數)及類間距離的定義,類間距離的不同定義就產生了不同的系統聚類分析方法,類間距離的定義方法主要有最短距離法、最長距離法、中間距離法、重心法、類平均法。在合理地選定(或定義)樣品間的距離以後,再適當定義類間的距離,就確定了一種聚類規則,之後按照系統聚類法的一般步驟加以聚類(圖3.4)。

圖3.4 聚類分析技術流程圖

3.2.3.3 適用范圍

聚類分析能夠將變數及樣本按照相應的規則進行分類,在大樣本多參數數據降維方面具有相對的優勢,尤其是對於在時間、空間上具有復雜變化的數據,聚類分析能夠根據變數和樣本的相關性和相似性,將數據有效地劃分為不同的類別,並通過樹狀圖反映出樣品隨距離或變數間相似性變化的情況,為查清變數和樣品之間關系提供了依據,也為查明污染來源奠定了基礎。

㈩ spss聚類分析步驟是什麼

步驟如下:

操作設備:戴爾電腦

操作系統:win10

1、首先通過快捷方式打開SPSS分析工具,默認顯示數據視圖。

閱讀全文

與聚類分析方法的一般步驟相關的資料

熱點內容
釋放電腦空間的方法 瀏覽:727
門窗洞的繪制方法有哪些 瀏覽:259
工筆生宣的方法和技巧 瀏覽:760
全身皮膚過敏治療方法 瀏覽:276
28歲腦梗塞的最佳治療方法 瀏覽:639
控制性規劃計算方法 瀏覽:272
簡單不脫妝的方法 瀏覽:775
紅豆杉果實的正確食用方法 瀏覽:558
血管堵塞治療新方法 瀏覽:278
手機除甲醛方法 瀏覽:14
空地種菜方法視頻 瀏覽:449
什麼方法能改變肩寬 瀏覽:313
青少年腰兩側酸的最快治療方法 瀏覽:422
vivo主屏幕時間怎麼設置在哪裡設置方法 瀏覽:945
干鍋娃娃菜的製作方法和視頻 瀏覽:646
問題的直接表示方法有哪些 瀏覽:757
桂平酸竹筍的腌制方法視頻 瀏覽:783
手工綉製作方法圖片 瀏覽:622
電箱三相負載計算方法 瀏覽:744
關於堅持的方法簡單 瀏覽:686