1.聚类分析的特点
聚类分析(cluster analysis)是根据事物本身的特性研究个体的一种方法,目的在于将相似的事物归类.它的原则是同一类中的个体有较大的相似性,不同类的个体差异性很大.这种方法有三个特征:适用于没有先验知识的分类.如果没有这些事先的经验或一些国际、国内、行业标准,分类便会显得随意和主观.这时只要设定比较完善的分类变量,就可以通过聚类分析法得到较为科学合理的类别;可以处理多个变量决定的分类.例如,要根据消费者购买量的大小进行分类比较容易,但如果在进行数据挖掘时,要求根据消费者的购买量、家庭收入、家庭支出、年龄等多个指标进行分类通常比较复杂,而聚类分析法可以解决这类问题;聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术.
这种较成熟的统计学方法如果在市场分析中得到恰当的应用,必将改善市场营销的效果,为企业决策提供有益的参考.其应用的步骤为:将市场分析中的问题转化为聚类分析可以解决的问题,利用相关软件(如SPSS、SAS等)求得结果,由专家解读结果,并转换为实际操作措施,从而提高企业利润,降低企业成本.
2.应用范围
聚类分析在客户细分中的应用
消费同一种类的商品或服务时,不同的客户有不同的消费特点,通过研究这些特点,企业可以制定出不同的营销组合,从而获取最大的消费者剩余,这就是客户细分的主要目的.常用的客户分类方法主要有三类:经验描述法,由决策者根据经验对客户进行类别划分;传统统计法,根据客户属性特征的简单统计来划分客户类别;非传统统计方法,即基于人工智能技术的非数值方法.聚类分析法兼有后两类方法的特点,能够有效完成客户细分的过程.
例如,客户的购买动机一般由需要、认知、学习等内因和文化、社会、家庭、小群体、参考群体等外因共同决定.要按购买动机的不同来划分客户时,可以把前述因素作为分析变量,并将所有目标客户每一个分析变量的指标值量化出来,再运用聚类分析法进行分类.在指标值量化时如果遇到一些定性的指标值,可以用一些定性数据定量化的方法加以转化,如模糊评价法等.除此之外,可以将客户满意度水平和重复购买机会大小作为属性进行分类;还可以在区分客户之间差异性的问题上纳入一套新的分类法,将客户的差异性变量划分为五类:产品利益、客户之间的相互作用力、选择障碍、议价能力和收益率,依据这些分析变量聚类得到的归类,可以为企业制定营销决策提供有益参考.
以上分析的共同点在于都是依据多个变量进行分类,这正好符合聚类分析法解决问题的特点;不同点在于从不同的角度寻求分析变量,为某一方面的决策提供参考,这正是聚类分析法在客户细分问题中运用范围广的体现.
聚类分析在实验市场选择中的应用
实验调查法是市场调查中一种有效的一手资料收集方法,主要用于市场销售实验,即所谓的市场测试.通过小规模的实验性改变,以观察客户对产品或服务的反应,从而分析该改变是否值得在大范围内推广.
实验调查法最常用的领域有:市场饱和度测试.市场饱和度反映市场的潜在购买力,是市场营销战略和策略决策的重要参考指标.企业通常通过将消费者购买产品或服务的各种决定因素(如价格等)降到最低限度的方法来测试市场饱和度.或者在出现滞销时,企业投放类似的新产品或服务到特定的市场,以测试市场是否真正达到饱和,是否具有潜在的购买力.前述两种措施由于利益和风险的原因,不可能在企业覆盖的所有市场中实施,只能选择合适的实验市场和对照市场加以测试,得到近似的市场饱和度;产品的价格实验.这种实验往往将新定价的产品投放市场,对顾客的态度和反应进行测试,了解顾客对这种价格的是否接受或接受程度;新产品上市实验.波士顿矩阵研究的企业产品生命周期图表明,企业为了生存和发展往往要不断开发新产品,并使之向明星产品和金牛产品顺利过渡.然而新产品投放市场后的失败率却很高,大致为66%到90%.因而为了降低新产品的失败率,在产品大规模上市前,运用实验调查法对新产品的各方面(外观设计、性能、广告和推广营销组合等)进行实验是非常有必要的.
在实验调查方法中,最常用的是前后单组对比实验、对照组对比实验和前后对照组对比实验.这些方法要求科学的选择实验和非实验单位,即随机选择出的实验单位和非实验单位之间必须具备一定的可比性,两类单位的主客观条件应基本相同.
通过聚类分析,可将待选的实验市场(商场、居民区、城市等)分成同质的几类小组,在同一组内选择实验单位和非实验单位,这样便保证了这两个单位之间具有了一定的可比性.聚类时,商店的规模、类型、设备状况、所处的地段、管理水平等就是聚类的分析变量
‘贰’ 如何使用聚类分析对一个图中的点进行识别分群呐,还是用别的办法
直接题目进行聚类,在理论上不好解释,但的确要更合理些,现在仍流行用因子进行聚类
‘叁’ 如何判断聚类分析结构的优劣
需要搜集用户的哪些特征?聚类分析变量选择的原则是:在哪些变量组合的前提,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低,并且变量之间不能存在高度相关。常用的用户特征变量有:①
人口学变量:如年龄、性别、婚姻、教育程度、职业、收入等。通过人口学变量进行分类,了解每类人口的需求有何差异。②
用户目标:如用户为什么使用这个产品?为什么选择线上购买?了解不同使用目的的用户的各自特征,从而查看各类目标用户的需求。③
用户使用场景:用户在什么时候,什么情况下使用这个产品?了解用户在各类场景下的偏好/行为差异。④
用户行为数据:如使用频率,使用时长,客单价等。划分用户活跃等级,用户价值等级等。⑤
态度倾向量表:如消费偏好,价值观等,看不同价值观、不同生活方式的群体在消费取向或行为上的差异。需要多少样本量?没有限制,通常情况下与实际应用有关,如果非要加一个理论的限制,通常认为,样本的个数要大于聚类个数的平方。①如果需要聚类的数据量较少(lt;100),那么三种方法(层次聚类法,K-均值聚类法,两步聚类法)都可以考虑使用。优先考虑层次聚类法,因为层次聚类法产生的树状图更加直观形象,易于解释,并且,层次聚类法提供方法、距离计算方式、标准化方式的丰富程度也是其他两种方法所无法比拟的。②如果需要聚类的数据量较大(;1000),应该考虑选择快速聚类别法或者两步聚类法进行。③如果数据量在100~1000之间,理论上现在的计算条件是可能满足任何聚类方法的要求的,但是结果的展示会比较困难,例如不可能再去直接观察树状图了。应用定量方法还是定性方法?聚类分析是一种定量分析方法,但对聚类分析结果的解释还需要结合定性资料讨论。1.聚类分析的定义与用途聚类分析(Cluster Analysis)是一种探索性的数据分析方法,根据指标/变量的数据结构特征,对数据进行分类,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低。2.聚类分析的方法①层次聚类法(Hierarchical),也叫系统聚类法。既可处理分类变量,也可处理连续变量,但不能同时处理两种变量类型,不需要指定类别数。聚类结果间存在着嵌套,或者说层次的关系。②K-均值聚类法(K-Means Cluster),也叫快速聚类法。针对连续变量,也可处理有序分类变量,运算很快,但需要指定类别数。K-均值聚类法不会自动对数据进行标准化处理,需要先自己手动进行标准化分析。③两步聚类法(Two-Step Cluster):可以同时处理分类变量和连续变量,能自动识别最佳的类别数,结果比较稳定。如果只对连续变量进行聚类,描述记录之间的距离性时可以使用欧氏(Euclidean)距离,也可以使用对数似然值(Log-likelihood),如果使用前者,则该方法和传统的聚类方法并无太大区别;但是若进行聚类的还有离散变量,那么就只能使用对数似然值来表述记录间的差异性。当聚类指标为有序类别变量时,Two-Step Cluster出来的分类结果没有K-means cluster的明晰,这是因为K-means算法假定聚类指标变量为连续变量。3.聚类分析的步骤①确定研究目的:研究问题关注点有哪些、是否有先验分类数…②问卷编制:态度语句李克特项目、有序类别…③确定分析变量:问卷变量的类型,连续or分类,有序类别or无序类别、是否纳入后台数据,变量间相关性低…④聚类分析:聚类分析方法选择、数据标准化方法、聚类类别数确定…⑤结果检验:类别间差异分析、是否符合常理…⑥聚类结果解释:类别的命名、类别间的差异、结合定性资料解释…
‘肆’ 用spss做聚类分析,出现这样的状况怎么办
破解版本的问题,也可能是你下载的这个程序的问题,或者是安装时跟电脑系统出现冲突的问题。 这种问题通常在某些分析程序时会出现的 你可以重装一下看看,如果不行的话 只有重新换个版本再试一
‘伍’ 问一个统计学的问题
1. 对于这个问题,最好的方法莫过于:聚类分析。
聚类分析是根据样本间的距离进行分类,分类的标准很多:有的按照阀值,有的按照已经规定好的分的类数;可以说该问题就是一个聚类分析的典型应用;在统
计教材中介绍聚类分析的例题就是这种问题。
2. 除此之外,还可以将这个问题堪称寻找“异常点”的问题。统计学是有系统的理论来研究个体“变异”。这种点即为“离群点”,对它需要判断是否是“异常点”,这里有几种常用的判别方法(但要注意,对它的判定往往要结合实际问题的需要进行的,统计学上对异常点的态度非常谨慎,不能随便去掉它):看标准化残存、学生化残存;影响函数;Cook距离;WK统计量。
3. 提问中的解决方法本质上是考虑观察值跟数学期望的比值,如果过大那就说明这个点可能存在问题(这里设置了一个“阀值”作为挑选标准)。从线性回归的角度来看,数学期望就是最小二乘法下最好的常数估计,因此是线性回归的最简单情况。△X就是“残差”,△X/X类似于将它中心化,因为△X/X的数学期望是0,并且不受单位量纲的影响。此外,还有2中提到的方法。具体参见线性回归理论中回归诊断部分。
然而,最正统的方法同时也是目前最好的方法还是:聚类分析。
‘陆’ 什么是基于聚类的离群点监测方法
本论文提出来一个聚类方法用以检测离群点。通过使用k均值聚类算法来从数据集中划分聚类。离聚类中心比较近的点不太可能是离群点,同时我们可以从聚类中去除掉这些点。接下来计算剩下的点和离群点的距离。需要计算的离群点度的降低可能是由于一些点的去除。我们声明离群度最高的点作为离群点。实验数据使用真实数据集,并论证得知,即使所计算的数据比较少,但所提出的方法比现存的方法优越。