导航:首页 > 研究方法 > 常用聚类分析方法及其分类

常用聚类分析方法及其分类

发布时间:2022-05-17 19:23:45

1. 聚类分析法

聚类分析,亦称群分析或点分析,是研究多要素事物分类问题的数量方法。其基本原理是,根据样本自身的属性,用数学方法按照某些相似性或差异性指标,定量地确定样本之间的亲疏关系,并按亲疏关系的程度对样本进行聚类(徐建华,1994)。

聚类分析方法,应用在地下水中,是在各种指标和质量级别标准约束条件下,通过样品的各项指标监测值综合聚类,以判别地下水质量的级别。常见的聚类分析方法有系统聚类法、模糊聚类法和灰色聚类法等。

(一)系统聚类法

系统聚类法的主要步骤有:数据标准化、相似性统计量计算和聚类。

1.数据标准化

在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在地下水质量研究中,被聚类的对象常常是多个要素构成的。不同要素的数据差异可能很大,这会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先对聚类要素进行数据标准化处理。

假设把所考虑的水质分析点(G)作为聚类对象(有m个),用i表示(i=1,2,…,m);把影响水质的主要因素作为聚类指标(有n个),用j表示(j=1,2,…,n),它们所对应的要素数据可用表4-3给出。在聚类分析中,聚类要素的数据标准化的方法较多,一般采用标准差法和极差法。

表4-3 聚类对象与要素数据

对于第j个变量进行标准化,就是将xij变换为x′ij

(1)总和标准化

区域地下水功能可持续性评价理论与方法研究

这种标准化方法所得的新数据x′ij满足

区域地下水功能可持续性评价理论与方法研究

(2)标准差标准化

区域地下水功能可持续性评价理论与方法研究

式中:

由这种标准化方法所得的新数据x′ij,各要素的平均值为0,标准差为1,即有

区域地下水功能可持续性评价理论与方法研究

(3)极差标准化

区域地下水功能可持续性评价理论与方法研究

经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在[0,1]闭区间内。

上述式中:xij为j变量实测值;xj为j变量的样本平均值;sj为样本标准差。

2.相似性统计量

系统聚类法要求给出一个能反映样品间相似程度的一个数字指标,需要找到能量度相似关系的统计量,这是系统聚类法的关键。

相似性统计量一般使用距离系数和相似系数进行计算。距离系数是把样品看成多维空间的点,用点间的距离来表示研究对象的紧密关系,距离越小,表明关系越密切。相似系数值表明样本和变量间的相似程度。

(1)距离系数

常采用欧几里得绝对距离,其中i样品与j样品距离dij

区域地下水功能可持续性评价理论与方法研究

dij越小,表示i,j样品越相似。

(2)相似系数

常见的相似系数有夹角余弦和相关系数,计算公式为

1)夹角余弦

区域地下水功能可持续性评价理论与方法研究

在式(4-20)中:-1≤cosθij≤1。

2)相关系数

区域地下水功能可持续性评价理论与方法研究

式中:dij为i样品与j样品的欧几里得距离;cosθij为i样品与j样品的相似系数;rij为i样品与j样品的相关系数;xik为i样品第k个因子的实测值或标准化值;xjk为j样品第k个因子的实测值或标准化值;

为i样品第k个因子的均值,

为j样品第k个因子的均值,

;n为样品的数目;k为因子(变量)数。

3.聚类

在选定相似性统计量之后,根据计算结果构成距离或相似性系数矩阵(n×n),然后通过一定的方法把n个样品组合成不同等级的分类单位,对类进行并类,即将最相似的样品归为一组,然后,把次相似的样品归为分类级别较高的组。聚类主要有直接聚类法、距离聚类法(最短距离聚类法、最远距离聚类法)。

(1)直接聚类法

直接聚类法,是根据距离或相似系数矩阵的结构一次并类得到结果,是一种简便的聚类方法。它首先把各个分类对象单独视为一类,然后根据距离最小或相似系数最大的原则,依次选出一对分类对象,并成新类。如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过n-1次把全部分类对象归为一类,最后根据归并的先后顺序作出聚类分析谱系图。

(2)距离聚类法

距离聚类法包括最短距离聚类法和最远距离聚类法。最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性。这两种聚类方法关于类之间的距离计算可以用一个统一的公式表示:

区域地下水功能可持续性评价理论与方法研究

当γ=-0.5时,式(4-22)计算类之间的距离最短;当γ=0.5时,式(4-22)计算类之间的距离最远。

最短、最远距离法,是在原来的n×n距离矩阵的非对角元素中找出dpq=min(dij)或dpq=max(dij),把分类对象Gp和Gq归并为一新类Gr,然后按计算公式:

dpq=min(dpk,dqk)(k≠ p,q) (4-23)

dpq=max(dpk,dqk)(k≠ p,q) (4-24)

计算原来各类与新类之间的距离,这样就得到一个新的(n-1)阶的距离矩阵;再从新的距离矩阵中选出最小或最大的dij,把Gi和Gj归并成新类;再计算各类与新类的距离,直至各分类对象被归为一类为止。最后综合整个聚类过程,作出最短距离或最远距离聚类谱系图(图4-1)。

图4-1 地下水质量评价的聚类谱系图

(二)模糊聚类法

模糊聚类法是普通聚类方法的一种拓展,它是在聚类方法中引入模糊概念形成的。该方法评价地下水质量的主要步骤,包括数据标准化、标定和聚类3个方面(付雁鹏等,1987)。

1.数据标准化

在进行聚类过程中,由于所研究的各个变量绝对值不一样,所以直接使用原始数据进行计算就会突出绝对值大的变量,而降低绝对值小的变量作用,特别是在进行模糊聚类分析中,模糊运算要求必须将数据压缩在[0,1]之间。因此,模糊聚类计算的首要工作是解决数据标准化问题。数据标准化的方法见系统聚类分析法。

2.标定与聚类

所谓标定就是计算出被分类对象间的相似系数rij,从而确定论域集U上的模糊相似关系Rij。相似系数的求取,与系统聚类分析法相同。

聚类就是在已建立的模糊关系矩阵Rij上,给出不同的置信水平λ(λ∈[0,1])进行截取,进而得到不同的分类。

聚类方法较多,主要有基于模糊等价关系基础上的聚类与基于最大树的聚类。

(1)模糊等价关系方法

所谓模糊等价关系,是指具有自反性(rii=1)、对称性(rij=rji)与传递性(R·R⊆R)的模糊关系。

基于模糊等价关系的模糊聚类分析方法的基本思想是:由于模糊等价关系R是论域集U与自己的直积U×U上的一个模糊子集,因此可以对R进行分解,当用λ-水平对R作截集时,截得的U×U的普通子集Rλ就是U上的一个普通等价关系,也就是得到了关于U中被分类对象元素的一种。当λ由1下降到0时,所得的分类由细变粗,逐渐归并,从而形成一个动态聚类谱系图(徐建华,1994)。此类分析方法的具体步骤如下。

第一步:模糊相似关系的建立,即计算各分类对象之间相似性统计量。

第二步:将模糊相似关系R改造为模糊等价关系R′。模糊等价关系要求满足自反性、对称性与传递性。一般而言,模糊相似关系满足自反性和对称性,但不满足传递性。因此,需要采用传递闭合的性质将模糊相似关系改造为模糊等价关系。改造的方法是将相似关系R自乘,即

R2=R·R

R4=R2·R2

这样计算下去,直到:R2k=Rk·Rk=Rk,则R′=Rk便是一个模糊等价关系。

第三步:在不同的截集水平下进行聚类。

(2)最大树聚类方法

基于最大树的模糊聚类分析方法的基本思路是:最大树是一个不包含回路的连通图(图4-2);选取λ水平对树枝进行截取,砍去权重低于λ 的枝,形成几个孤立的子树,每一棵子树就是一个类的集合。此类分析方法的具体步骤如下。

图4-2 最大聚类支撑树图

第一步:计算分类对象之间的模糊相似性统计量rij,构建最大树。

以所有被分类的对象为顶点,当两点间rij不等于0时,两点间可以用树干连接,这种连接是按rij从大到小的顺序依次进行的,从而构成最大树。

第二步:由最大树进行聚类分析。

选择某一λ值作截集,将树中小于λ值的树干砍断,使相连的结点构成一类,即子树,当λ由1到0时,所得到的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系图。

在聚类方法中,模糊聚类法比普通聚类法有较大的突破,简化了运算过程,使聚类法更易于掌握。

(三)灰色聚类法

灰色聚类是根据不同聚类指标所拥有的白化数,按几个灰类将聚类对象进行归纳,以判断该聚类对象属于哪一类。

灰色聚类应用于地下水水质评价中,是把所考虑的水质分析点作为聚类对象,用i表示(i=1,2,…,n);把影响水质的主要因素作为聚类指标,用j表示(j=1,2,…,m),把水质级别作为聚类灰数(灰类),用k表示(k=1,2,3)即一级、二级、三级3个灰类(罗定贵等,1995)。

灰色聚类的主要步骤:确定聚类白化数、确定各灰色白化函数fjk、求标定聚类权重ηjk、求聚类系数和按最大原则确定聚类对象分类。

1.确定聚类白化数

当各灰类白化数在数量上相差悬殊时,为保证各指标间的可比性与等效性,必须进行白化数的无量纲化处理。即给出第i个聚类对象中第j个聚类指标所拥有的白化数,i=1,2,…,n;j=1,2,…,m。

2.确定各灰色白化函数

建立满足各指标、级别区间为最大白化函数值(等于1),偏离此区间愈远,白化函数愈小(趋于0)的功效函数fij(x)。根据监测值Cki,可在图上(图4-3)解析出相应的白化函数值fjk(Cik),j=1,2,…,m;k=1,2,3。

3.求标定聚类权重

根据式(4-25),计算得出聚类权重ηjk的矩阵(n×m)。

区域地下水功能可持续性评价理论与方法研究

式中:ηjk为第j个指标对第k个灰类的权重;λjk为白化函数的阈值(根据标准浓度而定)。

图4-3 白化函数图

注:图4-3白化函数f(x)∈[0,1],具有下述特点:①平顶部分,表示该量的最佳程度。这部分的值为最佳值,即系数(权)为1,f(x)=max=1(峰值),x∈[x2,x3]。②白化函数是单调变化的,左边部分f(x)=L(x),单调增,x∈(x1,x2],称为白化的左支函数;右边部分f(x)=R(x),单调减,x∈[x3,x4),称为白化的右支函数。③白化函数左右支函数对称。④白化函数,为了简便,一般是直线。⑤白化函数的起点和终点,一般来说是人为凭经验确定。

4.求聚类系数

σik=∑fjk(dij)ηjk (4-26)

式中:σik为第i个聚类对象属于第k个灰类的系数,i=1,2,…,n;k=1,2,3。

5.按最大原则确定聚类对象分类

由σik构造聚类向量矩阵,行向量最大者,确定k样品属于j级对应的级别。

用灰色聚类方法进行地下水水质评价,能最大限度地避免因人为因素而造成的“失真、失效”现象。

聚类方法计算相对复杂,但是计算结果与地下水质量标准级别对应性明显,能够较全面反映地下水质量状况,也是较高层次定量研究地下水质量的重要方法。

2. 聚类分析的算法有哪几类

聚类分析的算法可以分为以下几大类:分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。

3. 什么是聚类分析

类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法。
聚类方法有两个显着的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终,将需要经验可信度通过序列比较来指导聚类解释。
第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多着名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。
数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。
聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。
这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和
基于模型方法。
1 划分方法(PAM:PArtitioning method) 首先创建k个划分,k为要创建的划分个数;然后利用一个循环
定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上
而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合
并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括:
第一个是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法,它首先利用树的结构对对象集进行划分;然后再利
用其它聚类方法对这些聚类进行优化。
第二个是CURE(Clustering Using REprisentatives) 方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定
量(向聚类中心)进行收缩。
第三个是ROCK方法,它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN,它则是在层次聚类时构造动态模型。
3 基于密度方法,根据密度完成对象的聚类。它根据对象周围的密度(如
DBSCAN)不断增长聚类。典型的基于密度方法包括:
DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密
度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义
为一组“密度连接”的点集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一
个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。。
4 基于网格方法,首先将对象空间划分为有限个单元以构成网格结构;然后利
用网格结构完成聚类。
STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基
于网格聚类的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方
法。
5 基于模型方法,它假设每个聚类的模型并发现适合相应模型的数据。典型的
基于模型方法包括:
统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采
用符号量(属性-值)对来加以描述的。采用分类树的形式来创建
一个层次聚类。
CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚
类。它为每个结点中的每个属性保存相应的连续正态分布(均值与方差);并利
用一个改进的分类能力描述方法,即不象COBWEB那样计算离散属性(取值)
和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。
因此它们都不适合对大数据库进行聚类处理.

4. 模糊聚类分析的常用分类方法

数据分类中,常用的分类方法有多元统计中的系统聚类法、模糊聚类分析等.在模糊聚类分析中,首先要计算模糊相似矩阵,而不同的模糊相似矩阵会产生不同的分类结果;即使采用相同的模糊相似矩阵,不同的阈值也会产生不同的分类结果.“如何确定这些分类的有效性”便成为模糊聚类的要点。
识别研究中的一个重要问题.文献,把有效性不满意的原因归结于数据集几何结构的不理想.但笔者认为,不同的几何结构是对实际需要的反映,我们不能排除实际需要而追求所谓的“理想几何结构”,不理想的分类不应归因于数据集的几何结构.针对同一模糊相似矩阵,文献建立了确定模糊聚类有效性的方法.用固定的显着性水平,在不同分类的F一统计量和F检验临界值的差中选最大者,即为有效分类.但是,当显着性水平变化时,此方法的结果也会变化.文献引进了一种模糊划分嫡来评价模糊聚类的有效性,并人为规定当两类的嫡大于一数时,此两类可合并,通过逐次合并,最终得到有效分类.此方法人为干预较多,当这个规定数不同时,也会得到不同的结果.另外这两种方法也未比较不同模糊相似矩阵的分类结果. 系统聚类法是基于模糊等价关系的模糊聚类分析法。在经典的聚类分析方法中可用经典等价关系对样本集X进行聚类。设R是 X上的经典等价关系。对X中的两个元素x和y,若xRy或(x,y)∈R,则将x和y并为一类,否则x和y不属于同一类。
相应地,可用X上的模糊等价关系对样本集X进行模糊聚类。设慒是X上的模糊等价关系,是慒 的隶属函数。对于任何α∈【0,1】,定义慒 的α截关系 Sα是X上的经典等价关系。根据Sα得到X 的一种聚类,称为在α水平上的聚类。
应用这种方法,分类的结果与α的取值大小有关。α取值越大,分的类数越多。α小到某一值时,X中的所有样本归并为一类。这种方法的优点在于可按实际需要选取α的值,以便得到恰当的分类。
系统聚类法的步骤如下:
①用数字描述样本的特征。设被聚类的样本集为 X={x1,…,xn}。每个样本均有p种特征,记作xi=(xi1,…,xip);i=1,2,…,n;xip表示描述样本xi的第p个特征的数。 ②规定样本之间的相似系数rij(0≤rij≤1;i,j=1,…,n)。rij描述样本xi与xj之间的差异或相似的程度。rij 越接近于1,表明样本xi与xj之间的差异越小;rij 越接近于0,表明xi与xj之间的差异越大。rij可用主观评定或集体评分的方法规定,也可用公式计算,如采用夹角余弦法、最小最大法、算术平均最小法等。
因为rii=1(xi与自身没有差异),rij=rji(xi与xj之间的差异等同于xj与xi之间的差异),所以由rij(i,j=1,…,n)可得X上的模糊相似关系。
一般,R不具备可传递性,因而R不一定是 X上的模糊等价关系。
③运用合成运算R=R⋅R(或R=R⋅R等)求出最接近相似关系R的模糊等价关系S=R(或R等)。若R已是模糊等价关系,则取S=R。
④选取适当水平α(0≤α≤1),得到X 的一种聚类。 逐步聚类法是一种基于模糊划分的模糊聚类分析法。它是预先确定好待分类的样本应分成几类,然后按最优化原则进行再分类,经多次迭代直到分类比较合理为止。
在分类过程中可认为某个样本以某一隶属度隶属于某一类,又以另一隶属度隶属于另一类。这样,样本就不是明确地属于或不属于某一类。若样本集有 n个样本要分成c类,则它的模糊划分矩阵为此c×n模糊划分矩阵有下列特性:①uij∈【0,1】;i=1,…,c;j=1,…,n。②即每一样本属于各类的隶属度之和为1。③即每一类模糊子集都不是空集。

5. 聚类分析

化探工作中常常要研究元素和样品分类问题。聚类分析则提供了一些数量化的衡量元素或样品相似程度的指示,利用这些指标可将元素样品按其相似程度的大小划分为不同的类,从而揭示元素或样品之间的本质联系,这有助于研究元素共生组合关系和对岩体异常等的分类评价。

根据分类对象不同,聚类分析分为R型聚类分析(对元素进行分类),Q型聚类分析(对样品进行分类)。聚类分析一般采用逐次联结法,具体做法如下。

1.转换对数

常将实测数据先转换为对数,因为微量元素多属对数正态分布,而且数据过于离散。

2.数据均匀化

数据均匀化化的目的是将大小悬殊的数据化为同一度量的水平上。均匀化的方法常用的有:

(1)标准化

用于R型聚类分析,计算公式:

地球化学找矿

式中:zij为标准化数据;xij为原始数据(对数值);xi为 i个变量的平均值(对数平均值),

为i个变量的标准离差,σi

;i为变量数(i=1,2,3,…,m);j为样品数(j=1,2,3,…,n)。

(2)正规化

用于Q型聚类分析,计算公式:

地球化学找矿

式中:wij为正规化数据;xij为原始数据(对数值);xi(max)为i个变量的最大值(对数值);xi(min)为i个变量的最小值(对数值);i 为变量数(i =1,2,3,…,m);j 为样品数(j=1,2,3,…,n)。

(3)计算相似性统计量

1)相关系数r

用于R型聚分析,计算公式(任何两元素):

地球化学找矿

数据标准化后:

地球化学找矿

-1≤r≤1,|r|愈大,元素愈相似。

2)相似性系数

用于Q型聚类分析,计算公式(任何二样品):

地球化学找矿

-1≤cosθ≤1,|cosθ|愈大,元素愈相似。

3)距离系数

用于Q型聚类分析,计算公式(对于任何两样品)

地球化学找矿

对于正规化数据0≤d≤1,d值越小样品越相似。将计算出的相似性统计量排列成矩阵。

(4)根据相似性统计量进行分类

1)选出相似程度最大(即相关系数、相似性系数最大,距离系数最小)的一对元素或样品联结成一类,填入分类表(表6-4),联结后的元素或样品组成一个新变量(新样品)替换序号较小的变量(样品),去掉序号较大的变量(样品)。

2)将联结成一类的元素或样品均匀化数据加权平均,替换序号较小的一行作为新变量(新样品)的数据,去掉序号较大的一行数据,其余各行不变。得到比原来少一个变量或样品的均匀化数据表。

表6-4 分类统计表

加权平均计算公式:

如第一、二两个元素联结后新变量的标准化数据为,则:

地球化学找矿

N1和N2分别为权,未组合的数据权为1,组合一次权增加1。

3)根据新变量(新样品)的数据,计算新变量(新样品)与其余变量(样品)间的相似性统计量,其余不变,列出新的矩阵。

4)重复上述1),2),3)各步骤,即挑选相似程度最大的变量(或样品)联结归类;加权平均合并数据;计算新变量(新样品)与其他变量(样品)间的相似性统计量,刷新原矩阵,直至全部联结完毕为止。

5)制作谱系图,见图6-3。

图6-3 谱系图(示意)

3.计算实例

某地一批超基性岩样品,经分析 Ni,Co,Cu,Cr,S,As含量如表6-5。

表6-5 某地超基性样品Ni,Co,Cu,Cr,S,As 含量

(1)用R型聚类分析对元素进行分类

1)将原始数据转换为对数,并计算各元素对数值的平均值和标准离差,其结果见表6-6。

2)将各样品中各元素含量对数值进行标准化。

3)按照数据标准化公式:

地球化学找矿

地球化学找矿

于是可得标准化数据表6-7。

表6-7 标准化数据

4)计算相关系数,列出相关系数矩阵R(0),按照相关系数计算公式:

地球化学找矿

于是得相关矩阵R(0)

地球化学找矿

5)将R(0)中相关系数最大的Co,Cu联结成一类,记为Co′填入分类统计表中,并计算Co′的数据。

按照加权平均计算公式:

地球化学找矿

于是得表6-8。

表6-8 由R(0)得到的Co′值

6)计算新变量Co′与剩余的变量的相关系数,列出新相关矩阵R(1)

相关系数计算公式同前(以下同),于是得:

地球化学找矿

7)将R(1)中相关系数最大的Ni,Co′联结成一类,记为Ni′填入分类统计表中,并计算Ni′的数据。

Ni′的数据仍按前加权平均的公式计算(以下同),于是得表6-9。

表6-9 由Co′重新计算的Ni′值

8)计算新变量Ni′与剩余的变量的相关系数,列出新相关矩阵R(2)

于是得:

地球化学找矿

9)将R(2)中相关系数最大的S,As联结成一类,记为填入分类统计表中,并计算S′的数据(表6-10)。

表6-10 S′计算结果

10)计算新变量S′与剩余变量的相关系数,列出刷新的相关矩阵R(3)

地球化学找矿

11)将R(3)中相关系数最大的 Ni′与 S′联结成一类,记为 Ni″,填入分类统计表中(表6-11)。

表6-11 Ni″计算结果

12)计算新变量Ni″与剩余变量的相关系数,列出刷新的相关矩R(4)

13)最后将Ni″与Cr联结起来,记入分类统计表6-12。

表6-12 分类统计表

14)制作谱系图(图6-4)。

图6-4 谱系图

从上述谱系图可见,在相关系数0.2~0.5的相似水平上,可将述六个元素分为两类:一类是 Cr(亲氧元素);另一类是 Co,Cu,Ni,As(亲硫元素)。在相关系数0.6 左右可将亲硫元素分为两组,一组是S,As(阴离子);一组是Co,Cu,Ni(阳离子),且Co,Cu相关关系更密切。这样R型聚类分析清楚地显示出这些元素在超基性岩石的相互关系。

(2)用Q型聚类分析对样品进行分类

仍以上述超基岩样品分析结果为例。

对样品分类常用距离系数。由于距离系数是对直角坐标系而言,即要求变量要互不相关。故可先用R型聚类分析(式R型因子分析)选出互相独立的变量(在用R型聚类分析时,通常取相关系数绝对值小的变量),然后以距离系数对样品进行分类。

上例R型聚类分析结果,在R=0.6 水平左右可将变量分为三组,即Ni′(Ni,Co,Cu);S′(S,As);Cr,现以这三组为变量对样品进行分类。

1)将变量数据(对数值)进行合并,得出新的数据表。合并的办法是取该组变量的平均值,于是得表6-13。

表6-13 对变量数据合并后的新的数据

2)将数据正规化。按正规化的公式:

地球化学找矿

于是得表6-14。

表6-14 正规化后的数据表

3)计算距离系数djk,列出初始距离系数矩阵D(0)

按距离系数公式:

地球化学找矿

于是得:

地球化学找矿

4)将D(0)中距离系数值最小的(5),(6)样品联结成一类,记为(5′)填入分类统计表中,并计算(5′)的数据。

按照加权平均计算公式:

地球化学找矿

于是得表6-15。

表6-15 (5′)的数据表

5)计算(5′)与样品的距离系数,列出刷新距离系数矩阵D(1),于是得:

地球化学找矿

6)将D(1)中距离系数最大的(2),(5′)联结成一类,记为(2′),填入分类统计表中,并计算(2′)的数据。于是得表6-16。

表6-16 (2′)的数据表

7)计算(2′)与剩余样品的距离系数,列出刷新的距离系数矩阵D(2),于是得:

地球化学找矿

8)将D(2)中距离系数最小的(1),(4)联结成一类,记为(1′),填入分类统计表中,并计算(1′)的数据。于是得表6-17。

表6-17 (1′)的数据表

9)计算(1′)与剩余样品的距离系数,列出刷新的距离系数矩阵D(3),于是得:

地球化学找矿

10)将D(3)中距离系数最小的(1′),(2′),联结成一类,记为(1″),填入分类统计表中,并计算(1″)的数据。于是得表6-18。

表6-18 (1″)的数据表

11)计算(1″)与剩余样品的距离系数,列出新的距离系数矩阵D(4),于是得:

地球化学找矿

12)最后将(1″),(3)联结成一类,填入分类统计表6-19。

表6-19 分类统计表

13)制作谱系图(图6-5)。

图6-5 谱系图

从谱系图上可得:在距离系数0.35~0.5水平上,可将数个样品分成三类;一类是矿化的蛇纹岩(1)及(4);另一类是无矿化的蛇纹岩(2)及滑镁岩(5),(6);样品(3)为单独一类,它是无矿化的蛇纹岩。因此,通过Q型聚类分析很好地将该地含矿岩体和不含矿岩体区分开来。至于样品(3)单独开,还可进一步研究它与其他无矿岩体的差异。

这里需要特别指出的是,运用回归分析、判别分析、聚类分析都是在特定的地质条件下得出的统计规律,因此,在利用这些规律对未知进行判断时,一定要注意地质条件的相似性,切不可把某一地质条件下导出的规律,生搬硬套地用于解决不同地质条件下的问题。

6. 聚类分析方法有什么好处

聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
注意事项:
1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;
2. K-均值法要求分析人员事先知道样品分为多少类;
3. 对变量的多元正态性,方差齐性等要求较高。
应用领域:细分市场,消费行为划分,设计抽样方案等
优点:聚类分析模型的优点就是直观,结论形式简明。
缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

7. 有哪些常用的聚类算法

【聚类】聚类分析是直接比较各对象之间的性质,根据在对象属性中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类就越好。

聚类的目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,是无监督学习过程。在无监督学习中,训练样本标记信息是未知的。聚类试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”,每个簇可能对应于一些潜在的类别,这些类别概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需要由使用者来把握和命名。

8. 四种聚类方法之比较

四种聚类方法之比较
介绍了较为常见的k-means、层次聚类、SOM、FCM等四种聚类算法,阐述了各自的原理和使用步骤,利用国际通用测试数据集IRIS对这些算法进行了验证和比较。结果显示对该测试类型数据,FCM和k-means都具有较高的准确度,层次聚类准确度最差,而SOM则耗时最长。
关键词:聚类算法;k-means;层次聚类;SOM;FCM
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。
聚类技术[2]正在蓬勃发展,对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进,而不同的方法适合于不同类型的数据,因此对各种聚类方法、聚类效果的比较成为值得研究的课题。
1 聚类算法的分类
目前,有大量的聚类算法[3]。而对于具体应用,聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。
主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法[4-6]。
每一类中都存在着得到广泛应用的算法,例如:划分方法中的k-means[7]聚类算法、层次方法中的凝聚型层次聚类算法[8]、基于模型方法中的神经网络[9]聚类算法等。
目前,聚类问题的研究不仅仅局限于上述的硬聚类,即每一个数据只能被归为一类,模糊聚类[10]也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据隶属于各个簇的程度,而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出,如着名的FCM算法等。
本文主要对k-means聚类算法、凝聚型层次聚类算法、神经网络聚类算法之SOM,以及模糊聚类的FCM算法通过通用测试数据集进行聚类效果的比较和分析。
2 四种常用聚类算法研究
2.1 k-means聚类算法
k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。
k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:

这里E是数据库中所有对象的平方误差的总和,p是空间中的点,mi是簇Ci的平均值[9]。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。k-means聚类算法的算法流程如下:
输入:包含n个对象的数据库和簇的数目k;
输出:k个簇,使平方误差准则最小。
步骤:
(1) 任意选择k个对象作为初始的簇中心;
(2) repeat;
(3) 根据簇中对象的平均值,将每个对象(重新)赋予最类似的簇;
(4) 更新簇的平均值,即计算每个簇中对象的平均值;
(5) until不再发生变化。
2.2 层次聚类算法
根据层次分解的顺序是自底向上的还是自上向下的,层次聚类算法分为凝聚的层次聚类算法和分裂的层次聚类算法。
凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同。四种广泛采用的簇间距离度量方法如下:

这里给出采用最小距离的凝聚层次聚类算法流程:
(1) 将每个对象看作一类,计算两两之间的最小距离;
(2) 将距离最小的两个类合并成一个新类;
(3) 重新计算新类与所有类之间的距离;
(4) 重复(2)、(3),直到所有类最后合并成一类。
2.3 SOM聚类算法
SOM神经网络[11]是由芬兰神经网络专家Kohonen教授提出的,该算法假设在输入对象中存在一些拓扑结构或顺序,可以实现从输入空间(n维)到输出平面(2维)的降维映射,其映射具有拓扑特征保持性质,与实际的大脑处理有很强的理论联系。
SOM网络包含输入层和输出层。输入层对应一个高维的输入向量,输出层由一系列组织在2维网格上的有序节点构成,输入节点与输出节点通过权重向量连接。学习过程中,找到与之距离最短的输出层单元,即获胜单元,对其更新。同时,将邻近区域的权值更新,使输出节点保持输入向量的拓扑特征。
算法流程:
(1) 网络初始化,对输出层每个节点权重赋初值;
(2) 将输入样本中随机选取输入向量,找到与输入向量距离最小的权重向量;
(3) 定义获胜单元,在获胜单元的邻近区域调整权重使其向输入向量靠拢;
(4) 提供新样本、进行训练;
(5) 收缩邻域半径、减小学习率、重复,直到小于允许值,输出聚类结果。
2.4 FCM聚类算法
1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展,模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点,出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析,就是模糊聚类分析[12]。
FCM算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。该聚类算法是传统硬聚类算法的一种改进。

算法流程:
(1) 标准化数据矩阵;
(2) 建立模糊相似矩阵,初始化隶属矩阵;
(3) 算法开始迭代,直到目标函数收敛到极小值;
(4) 根据迭代结果,由最后的隶属矩阵确定数据所属的类,显示最后的聚类结果。
3 四种聚类算法试验
3.1 试验数据
实验中,选取专门用于测试分类、聚类算法的国际通用的UCI数据库中的IRIS[13]数据集,IRIS数据集包含150个样本数据,分别取自三种不同的莺尾属植物setosa、versicolor和virginica的花朵样本,每个数据含有4个属性,即萼片长度、萼片宽度、花瓣长度,单位为cm。在数据集上执行不同的聚类算法,可以得到不同精度的聚类结果。
3.2 试验结果说明
文中基于前面所述各算法原理及算法流程,用matlab进行编程运算,得到表1所示聚类结果。

如表1所示,对于四种聚类算法,按三方面进行比较:(1)聚错样本数:总的聚错的样本数,即各类中聚错的样本数的和;(2)运行时间:即聚类整个过程所耗费的时间,单位为s;(3)平均准确度:设原数据集有k个类,用ci表示第i类,ni为ci中样本的个数,mi为聚类正确的个数,则mi/ni为第i类中的精度,则平均精度为:

3.3 试验结果分析
四种聚类算法中,在运行时间及准确度方面综合考虑,k-means和FCM相对优于其他。但是,各个算法还是存在固定缺点:k-means聚类算法的初始点选择不稳定,是随机选取的,这就引起聚类结果的不稳定,本实验中虽是经过多次实验取的平均值,但是具体初始点的选择方法还需进一步研究;层次聚类虽然不需要确定分类数,但是一旦一个分裂或者合并被执行,就不能修正,聚类质量受限制;FCM对初始聚类中心敏感,需要人为确定聚类数,容易陷入局部最优解;SOM与实际大脑处理有很强的理论联系。但是处理时间较长,需要进一步研究使其适应大型数据库。
聚类分析因其在许多领域的成功应用而展现出诱人的应用前景,除经典聚类算法外,各种新的聚类方法正被不断被提出。

9. 什么是聚类分析聚类算法有哪几种

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于

分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行

定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识

难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又

将多元分析的技术引入到数值分类学形成了聚类分析。

聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论

聚类法、聚类预报法等。

聚类分析计算方法主要有如下几种:分裂法(partitioning methods):层次法(hierarchical

methods):基于密度的方法(density-based methods): 基于网格的方法(grid-based

methods): 基于模型的方法(model-based methods)。

10. 几种常用聚类方法的比较

1.k-mean聚类分析 适用于样本聚类;
2.分层聚类 适用于对变量聚类;
3.两步聚类 适用于分类变量和连续变量聚类;
4.基于密度的聚类算法;
5.基于网络的聚类;
6.机器学习中的聚类算法;
前3种,可用spss简单操作实现;

阅读全文

与常用聚类分析方法及其分类相关的资料

热点内容
有什么方法杀蛐蛐 浏览:832
异步电机轻载震荡抑制方法研究 浏览:476
学习技能计算方法 浏览:503
触点插座开关安装方法 浏览:118
植物接种方法一般分为什么和什么 浏览:111
大众车钥匙使用方法 浏览:910
平衡核心力的训练方法 浏览:380
底盘悬挂检查的方法和步骤 浏览:917
如何记叙自己的方法 浏览:257
手机扁平化解锁方法 浏览:716
常用细胞克隆化方法 浏览:892
检测毛囊需要用哪些检查方法 浏览:301
如何学习好日语的方法 浏览:86
食盐除了食用还有什么方法 浏览:182
二苯胺鉴定最简单方法 浏览:65
win10系统界面大小设置在哪里设置方法 浏览:820
边缘区b细胞淋巴瘤有效治疗方法 浏览:868
福建金刚板安装方法 浏览:333
被强力胶粘住要用什么方法 浏览:290
内部钢筋测量方法 浏览:943