1. 判斷聚類結果取捨的原則有
摘要 聚類分析變數選擇的原則是:在哪些變數組合的前提,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低,並且變數之間不能存在高度相關
2. 快速聚類方法只適用於離散型變數嗎
數值型也沒問題啊
這個問題其實沒有具體問到點,因為聚類演算法非常多,能用於什麼數據類型,多半取決於距離計算公式,聚類演算法只是用了距離來判斷數據點劃分。
希望幫到你
3. 如何對用戶進行聚類分析
需要搜集用戶的哪些特徵?
聚類分析變數選擇的原則是:在哪些變數組合的前提,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低,並且變數之間不能存在高度相關。
常用的用戶特徵變數有:
①
人口學變數:如年齡、性別、婚姻、教育程度、職業、收入等。通過人口學變數進行分類,了解每類人口的需求有何差異。
②
用戶目標:如用戶為什麼使用這個產品?為什麼選擇線上購買?了解不同使用目的的用戶的各自特徵,從而查看各類目標用戶的需求。
③
用戶使用場景:用戶在什麼時候,什麼情況下使用這個產品?了解用戶在各類場景下的偏好/行為差異。
④
用戶行為數據:如使用頻率,使用時長,客單價等。劃分用戶活躍等級,用戶價值等級等。
⑤
態度傾向量表:如消費偏好,價值觀等,看不同價值觀、不同生活方式的群體在消費取向或行為上的差異。
需要多少樣本量?
沒有限制,通常情況下與實際應用有關,如果非要加一個理論的限制,通常認為,樣本的個數要大於聚類個數的平方。
①如果需要聚類的數據量較少(<100),那麼三種方法(層次聚類法,K-均值聚類法,兩步聚類法)都可以考慮使用。優先考慮層次聚類法,因為層次聚類法產生的樹狀圖更加直觀形象,易於解釋,並且,層次聚類法提供方法、距離計算方式、標准化方式的豐富程度也是其他兩種方法所無法比擬的。
②如果需要聚類的數據量較大(>1000),應該考慮選擇快速聚類別法或者兩步聚類法進行。
③如果數據量在100~1000之間,理論上現在的計算條件是可能滿足任何聚類方法的要求的,但是結果的展示會比較困難,例如不可能再去直接觀察樹狀圖了。
應用定量方法還是定性方法?
聚類分析是一種定量分析方法,但對聚類分析結果的解釋還需要結合定性資料討論。
1.聚類分析的定義與用途
聚類分析(Cluster Analysis)是一種探索性的數據分析方法,根據指標/變數的數據結構特徵,對數據進行分類,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低。
2.聚類分析的方法
①層次聚類法(Hierarchical),也叫系統聚類法。既可處理分類變數,也可處理連續變數,但不能同時處理兩種變數類型,不需要指定類別數。聚類結果間存在著嵌套,或者說層次的關系。
②K-均值聚類法(K-Means Cluster),也叫快速聚類法。針對連續變數,也可處理有序分類變數,運算很快,但需要指定類別數。K-均值聚類法不會自動對數據進行標准化處理,需要先自己手動進行標准化分析。
③兩步聚類法(Two-Step Cluster):可以同時處理分類變數和連續變數,能自動識別最佳的類別數,結果比較穩定。如果只對連續變數進行聚類,描述記錄之間的距離性時可以使用歐氏(Euclidean)距離,也可以使用對數似然值(Log-likelihood),如果使用前者,則該方法和傳統的聚類方法並無太大區別;但是若進行聚類的還有離散變數,那麼就只能使用對數似然值來表述記錄間的差異性。當聚類指標為有序類別變數時,Two-Step Cluster出來的分類結果沒有K-means cluster的明晰,這是因為K-means演算法假定聚類指標變數為連續變數。
3.聚類分析的步驟
①確定研究目的:研究問題關注點有哪些、是否有先驗分類數…
②問卷編制:態度語句李克特項目、有序類別…
③確定分析變數:問卷變數的類型,連續or分類,有序類別or無序類別、是否納入後台數據,變數間相關性低…
④聚類分析:聚類分析方法選擇、數據標准化方法、聚類類別數確定…
⑤結果檢驗:類別間差異分析、是否符合常理…
⑥聚類結果解釋:類別的命名、類別間的差異、結合定性資料解釋…
4. 常用的聚類方法有哪幾種
聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。
1、劃分法,給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。
2、層次法,這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。
3、基於密度的方法,基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。
4、圖論聚類方法解決的第一步是建立與問題相適應的圖,圖的節點對應於被分析數據的最小單元,圖的邊(或弧)對應於最小處理單元數據之間的相似性度量。
5、基於網格的方法,這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。
6、基於模型的方法,基於模型的方法給每一個聚類假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。
(4)快速聚類方法只適用離散型變數擴展閱讀:
在商業上,聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來,並且概括出每一類消費者的消費模式或者說習慣。
它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息,並且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;並且,聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。
許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好;但是,一個大規模資料庫可能包含幾百萬個對象,在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。
許多聚類演算法在聚類分析中要求用戶輸入一定的參數,例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定,特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔,也使得聚類的質量難以控制。
5. 能不能用一個變數進行聚類分析
可以,採用two
step
兩階段聚類
這個聚類方法
可以用於混合多種變數類型的聚類
或者如果是全部都是0,1變數的
還可以採用系統聚類,該種方法
是用於一種類型的變數聚類,可以全是分類變數,可以全部是連續變數
kmean法
只能用於連續數據變數聚類
6. 聚類方法選擇
聚類結果的好壞取決於該聚類方法採用的相似性比較方法,選擇的聚類方法應能再現內在的分類組,且對一個數據組內的錯誤或異常值比較敏感。
系統聚類的相似性(類與類之間的距離)比較方法有許多種,例如最長距離法(兩類之間的距離用兩類間最遠樣本的距離來表示,它是空間擴張的)、最短距離法(兩類之間的距離以兩類間的最近樣本的距離來表示,它是空間壓縮的)、重心距離法(兩類間的距離以重心之間的距離表示,具有非單調性)、類平均法(兩類間的距離以各類元素兩兩之間的平均平方距離來表示,具有空間保持及單調性)和離差平方和法(兩類之間的平方距離用兩類歸類後所增加的離差平方和表示,聚類過程中使類內各指標的方差最小,類間的方差盡可能大,也具有單調性)等。
據研究,類平均法和離差平方和法能充分利用個樣本的信息,是類型合並和區劃中較好的方法,因而作為分區的主要方法。通過比較分析,本研究中採用離差平方和法。
7. 聚類分析需要連續數據離散化么
不需要的
聚類分析有不同方法,可以適應不同變數。如果你的聚類依據變數全部是連續性數據,可以採用系統聚類或k-mean 聚類就可以
如果既有分類又有連續變數,就用系統聚類或兩步聚類
8. 為什麼傾向得分匹配方法只適用於離散型變數模型
頻率直方圖和累積頻率直方圖 組頻率是組頻數除以觀察數據的個數(總頻數 )所得的比值。頻率直方圖與頻數直方圖有完全相同的圖形。只不過把相應頻數直方圖中縱坐標的單位縮小為原單位長的 。累積頻率是將相應一些組頻率累加起來的和。
9. 快速聚類方法只適用於離散型變數嗎
摘要 因為聚類演算法非常多,能用於什麼數據類型,多半取決於距離計算公式,聚類演算法只是用了距離來判斷數據點劃分。