1. 判断聚类结果取舍的原则有
摘要 聚类分析变量选择的原则是:在哪些变量组合的前提,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低,并且变量之间不能存在高度相关
2. 快速聚类方法只适用于离散型变量吗
数值型也没问题啊
这个问题其实没有具体问到点,因为聚类算法非常多,能用于什么数据类型,多半取决于距离计算公式,聚类算法只是用了距离来判断数据点划分。
希望帮到你
3. 如何对用户进行聚类分析
需要搜集用户的哪些特征?
聚类分析变量选择的原则是:在哪些变量组合的前提,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低,并且变量之间不能存在高度相关。
常用的用户特征变量有:
①
人口学变量:如年龄、性别、婚姻、教育程度、职业、收入等。通过人口学变量进行分类,了解每类人口的需求有何差异。
②
用户目标:如用户为什么使用这个产品?为什么选择线上购买?了解不同使用目的的用户的各自特征,从而查看各类目标用户的需求。
③
用户使用场景:用户在什么时候,什么情况下使用这个产品?了解用户在各类场景下的偏好/行为差异。
④
用户行为数据:如使用频率,使用时长,客单价等。划分用户活跃等级,用户价值等级等。
⑤
态度倾向量表:如消费偏好,价值观等,看不同价值观、不同生活方式的群体在消费取向或行为上的差异。
需要多少样本量?
没有限制,通常情况下与实际应用有关,如果非要加一个理论的限制,通常认为,样本的个数要大于聚类个数的平方。
①如果需要聚类的数据量较少(<100),那么三种方法(层次聚类法,K-均值聚类法,两步聚类法)都可以考虑使用。优先考虑层次聚类法,因为层次聚类法产生的树状图更加直观形象,易于解释,并且,层次聚类法提供方法、距离计算方式、标准化方式的丰富程度也是其他两种方法所无法比拟的。
②如果需要聚类的数据量较大(>1000),应该考虑选择快速聚类别法或者两步聚类法进行。
③如果数据量在100~1000之间,理论上现在的计算条件是可能满足任何聚类方法的要求的,但是结果的展示会比较困难,例如不可能再去直接观察树状图了。
应用定量方法还是定性方法?
聚类分析是一种定量分析方法,但对聚类分析结果的解释还需要结合定性资料讨论。
1.聚类分析的定义与用途
聚类分析(Cluster Analysis)是一种探索性的数据分析方法,根据指标/变量的数据结构特征,对数据进行分类,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低。
2.聚类分析的方法
①层次聚类法(Hierarchical),也叫系统聚类法。既可处理分类变量,也可处理连续变量,但不能同时处理两种变量类型,不需要指定类别数。聚类结果间存在着嵌套,或者说层次的关系。
②K-均值聚类法(K-Means Cluster),也叫快速聚类法。针对连续变量,也可处理有序分类变量,运算很快,但需要指定类别数。K-均值聚类法不会自动对数据进行标准化处理,需要先自己手动进行标准化分析。
③两步聚类法(Two-Step Cluster):可以同时处理分类变量和连续变量,能自动识别最佳的类别数,结果比较稳定。如果只对连续变量进行聚类,描述记录之间的距离性时可以使用欧氏(Euclidean)距离,也可以使用对数似然值(Log-likelihood),如果使用前者,则该方法和传统的聚类方法并无太大区别;但是若进行聚类的还有离散变量,那么就只能使用对数似然值来表述记录间的差异性。当聚类指标为有序类别变量时,Two-Step Cluster出来的分类结果没有K-means cluster的明晰,这是因为K-means算法假定聚类指标变量为连续变量。
3.聚类分析的步骤
①确定研究目的:研究问题关注点有哪些、是否有先验分类数…
②问卷编制:态度语句李克特项目、有序类别…
③确定分析变量:问卷变量的类型,连续or分类,有序类别or无序类别、是否纳入后台数据,变量间相关性低…
④聚类分析:聚类分析方法选择、数据标准化方法、聚类类别数确定…
⑤结果检验:类别间差异分析、是否符合常理…
⑥聚类结果解释:类别的命名、类别间的差异、结合定性资料解释…
4. 常用的聚类方法有哪几种
聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。
1、划分法,给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。
2、层次法,这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。
3、基于密度的方法,基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。
4、图论聚类方法解决的第一步是建立与问题相适应的图,图的节点对应于被分析数据的最小单元,图的边(或弧)对应于最小处理单元数据之间的相似性度量。
5、基于网格的方法,这种方法首先将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的。
6、基于模型的方法,基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。
(4)快速聚类方法只适用离散型变量扩展阅读:
在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。
它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。
许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有偏的结果。
许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担,也使得聚类的质量难以控制。
5. 能不能用一个变量进行聚类分析
可以,采用two
step
两阶段聚类
这个聚类方法
可以用于混合多种变量类型的聚类
或者如果是全部都是0,1变量的
还可以采用系统聚类,该种方法
是用于一种类型的变量聚类,可以全是分类变量,可以全部是连续变量
kmean法
只能用于连续数据变量聚类
6. 聚类方法选择
聚类结果的好坏取决于该聚类方法采用的相似性比较方法,选择的聚类方法应能再现内在的分类组,且对一个数据组内的错误或异常值比较敏感。
系统聚类的相似性(类与类之间的距离)比较方法有许多种,例如最长距离法(两类之间的距离用两类间最远样本的距离来表示,它是空间扩张的)、最短距离法(两类之间的距离以两类间的最近样本的距离来表示,它是空间压缩的)、重心距离法(两类间的距离以重心之间的距离表示,具有非单调性)、类平均法(两类间的距离以各类元素两两之间的平均平方距离来表示,具有空间保持及单调性)和离差平方和法(两类之间的平方距离用两类归类后所增加的离差平方和表示,聚类过程中使类内各指标的方差最小,类间的方差尽可能大,也具有单调性)等。
据研究,类平均法和离差平方和法能充分利用个样本的信息,是类型合并和区划中较好的方法,因而作为分区的主要方法。通过比较分析,本研究中采用离差平方和法。
7. 聚类分析需要连续数据离散化么
不需要的
聚类分析有不同方法,可以适应不同变量。如果你的聚类依据变量全部是连续性数据,可以采用系统聚类或k-mean 聚类就可以
如果既有分类又有连续变量,就用系统聚类或两步聚类
8. 为什么倾向得分匹配方法只适用于离散型变量模型
频率直方图和累积频率直方图 组频率是组频数除以观察数据的个数(总频数 )所得的比值。频率直方图与频数直方图有完全相同的图形。只不过把相应频数直方图中纵坐标的单位缩小为原单位长的 。累积频率是将相应一些组频率累加起来的和。
9. 快速聚类方法只适用于离散型变量吗
摘要 因为聚类算法非常多,能用于什么数据类型,多半取决于距离计算公式,聚类算法只是用了距离来判断数据点划分。