❶ 可疑值如何处理
可疑值也叫离群值,处理方法有:
一、剔除离群值,不追加观测值;
二、剔除离群值,追加观测值;或剔除离群值,适宜地插补替代;
三、找到实际原因修正离群值,否则予以保留的。
简介:
离群值(outlier)是指在数据中有一个或几个数值与其他数值相比差异较大。
特征:
发现离群值也可以通过观察值的频数表或直方图来初步判断,也可通过统计软件作观察值的箱式图来判断,如果观测值距箱式图底线Q1(第25百分位数)或顶线Q3(第75百分位数)过远,如超出箱体高度(四分位数间距)的两倍以上,则可视该观测值为离群值。当数据近似正态分布时,有一种较为简单的方法,可用均数加减2.5s来判断,如观测值在此范围以外,可视为离群值。在统计学上也可用线性回归的方法来对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该例观测值可予以保留。
❷ 研究设计中无关变量的控制方法有哪些
针对无关变量,可采取的控制方法主要有:
1、控制研究者的影响
针对研究者的行为和特点可能对自变量效果造成的混淆,可采用两种办法:一是选择合适的研究者;一是使研究者保持恒定。合适的研究者可通过在研究进行前对其进行培训达到;而使研究者保持恒定就是说尽量由相同的研究者对不同的群体进行研究。
2、恒定法
有些无关变量,如机体变量无法予以消除,那么可采用恒定法使其保持不变。这一方法常用在实验组和控制组设计中。
3、平衡法
平平衡法却可在无关变量的二个或更多水平上保持不变。当一个研究中的被试变量的水平不同,其个体的数目也不同的情况下,可用平衡法来控制。
无关变量的辨别
由于无关变量可能混杂在自变量中影响因变量的变化,因而可能会对研究结果的内部效度构成威胁。因此,必须要对无关变量的影响加以控制或消除,否则就无法确定因变量变化的根本原因。
一般而言,研究中的无关变量可能包括环境变量、程序变量和机体变量。环境变量和程序变量,主要包括物理环境的特点和由研究者的行为和特点引起的变量。
例如,在关于两种不同教学方法的效果的对比研究中,农村和城市由于在社会环境、学校教学设施水平上的差异,对教学效果将产生影响,倘若对此不加以控制,就很难确定教学效果是由教学方法的差异引起的,还是教学环境的不同造成的。
此外研究者的动机、个性、期望和社会交往技能等也可能构成研究的无关变量。例如在对中小学生进行有关师生关系的问卷调查时常常委托不同班级的教师协助发放问卷,而教师对师生关系问题的敏感程度,或顾及班级、学校的声誉,可能会对学生回答问题加以某种暗示,从而产生无关变量。
还有一种无关变量是机体变量,即被试固有的一些机体特征,如年龄、性别、智力水平等。也可能作为无关变量同自变量的影响发生混淆。
❸ 常用数据分析处理方法有哪些
1、漏斗分析法
漏斗分析法能够科学反映用户行为状态,以及从起点到终点各阶段用户转化率情况,是一种重要的分析模型。漏斗分析模型已经广泛应用于网站和APP的用户行为分析中,例如流量监控、CRM系统、SEO优化、产品营销和销售等日常数据运营与数据分析工作中。
2、留存分析法
留存分析法是一种用来分析用户参与情况和活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。从用户的角度来说,留存率越高就说明这个产品对用户的核心需求也把握的越好,转化成产品的活跃用户也会更多,最终能帮助公司更好的盈利。
3、分组分析法
分组分析法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。
4、矩阵分析法
矩阵分析法是指根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。
❹ 常用数据分析处理方法有哪些
常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。
1、聚类分析:聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
2、因子分析:因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。
3、相关分析:相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系。
4、对应分析:对应分析也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
5、回归分析:回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析。
6、方差分析:又称“变异数分析”或“F检验”,方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显着影响的变量。
想要了解更多关于数据分析的相关信息,推荐选择十方融海。十方融海作为技术创新型企业,坚持源头核心技术创新,为用户提供听得懂、学得会、用得上的产品。该机构的解决方案和社会价值获得了主流媒体报道,与厦门大学、深圳大学、华南理工大学等高校达成校企合作,探索产教融合、成人教育新模式。用科技推动教育改革,让教育创造美好生活。
❺ spss分析方法-因子分析(转载)
因子分析就是将大量的彼此可能存在相关关系的变量,转换成较少的彼此不相关的综合指标的多元统计方法。。 下面我们主要从下面四个方面来解说:
[if !supportLineBreakNewLine]
[endif]
实际应用
理论思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析结果
[if !supportLineBreakNewLine]
[endif]
一、实际应用
在市场调研中,研究人员关心的是一些研究指标的集成或者组合,这些概念通常是通过等级评分问题来测量的,如利用李克特量表取得的变量。每一个指标的集合(或一组相关联的指标)就是一个因子,指标概念等级得分就是因子得分。因子分析在市场调研中有着广泛的应用,主要包括:(1)消费者习惯和态度研究(U&A)(2) 品牌形象和特性研究(3)服务质量调查(4) 个性测试(5)形象调查(6) 市场划分识别(7)顾客、产品和行为分类在实际应用中,通过因子得分可以得出不同因子的重要性指标,而管理者则可根据这些指标的重要性来决定首先要解决的市场问题或产品问题。
[if !supportLineBreakNewLine]
[endif]
二、理论思想
因子分析(Factor Analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个独立的不可观测变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显式变量,而假想变量是不可观测的潜在变量,称为因子。主成分分析利用的是“降维”的思想,利用原始变量的线性组合组成主成分。在信息损失较小的前提下,把多个指标转化为几个互补相关的综合指标。因子分析是主成分分析的扩展和推广,通过对原始变量的相关系数矩阵内部结构的研究,导出能控制所有变量的少数几个不可观测的综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。。
[if !supportLineBreakNewLine]
[endif]
因子分析的数学模型可以表示为Xp×1=Ap×m·Fm×1+ep×1,其中X为可实测的p维随机向量,它的每个分量代表一个指标或变量。
F=(F1, F2,...,Fm)T为不可观测的m维随机向量,它的各个分量将出现在每个变量之中,所以称它们为公共因子。矩阵A称为因子载荷矩阵,矩阵中的每一个元素称为因子载荷,表示第i个变量在第j个公共因子上的载荷,它们需要由多次观测X所得到的样本来估计。
向量e称为特殊因子,其中包括随机误差,它们满足条件:
(1)Cov(F,e)=0,即F与e不相关。
(2)Cov(Fi,Fj)=0,i≠j ,Var(Fi)=Cov(Fi, Fj)=I ,即向量F的协方差矩阵为m阶单位阵。(
3)Cov(ei,ej)=0,i≠j ,Var(ei)=σi2,即向量e的协方差矩阵为p阶对角阵。因子分析的基本思想是通过变量的相关系数矩阵内部结构的分析,从中找出少数几个能控制原始变量的随机变量Fi(i=1,2,...,m),选取公共因子的原则是使尽可能多地包含原始变量中的信息,建立模型X=A· F+e ,忽略e,以F代替X,用它再现原始变量X的众多分量之间的相关关系,达到简化变量降低维数的目的。
[if !supportLineBreakNewLine]
[endif]
三、建立模型
[if !supportLineBreakNewLine]
[endif]
因子分析的基本步骤如下。
对数据进行标准化处理,
估计因子载荷矩阵,
因子旋转,建立因子分析数学模型的目的不仅要找出公共因子并对变量进行分组,更重要的是要知道每个公共因子的意义,以便对实际问题作出科学分析。当因子载荷矩阵A的结构不便对主因子进行解释时,可用一个正交阵右乘A(即对A实施一个正交变换)。由线性代数知识,对A施行一个正交变换,对应坐标系就有一次旋转,便于对因子的意义进行解释。
估计因子得分以公共因子表示原因变量的线性组合,而得到因子得分函数。我们可以通过因子得分函数计算观测记录在各个公共因子上的得分,从而解决公共因子不可观测的问题。
[if !supportLineBreakNewLine]
[endif]
因子分析案例:
[if !supportLineBreakNewLine]
[endif]
题目:以下给出了中国历年国民经济主要指标统计(1992~2000)数据。试用因子分析对这些指标提取公因子并写出提取的公因子与这些指标之间的表达式。
一、数据输入
二、操作步骤 1、进入SPSS,打开相关数据文件,选择“分析”|“降维”|“因子”命令。2、选择进行因子分析的变量。在对话框的左侧列表框中,依次选择“工业总产值”“国内生产总值”“货物周转量”“原煤”“发电量”“原油”进入“变量”列表框。
3、选择输出系数相关矩阵。
单击“因子分析”对话框中的“描述”按钮,弹出“因子分析:描述”对话框。在“相关性矩阵”选项组中选中“KMO和巴特利特的球形度检验”复选框,单击“继续”按钮返回“因子分析”对话框。
4、设置对提取公因子的要求及相关输出内容。
单击“因子分析”对话框中的“提取”按钮,在“输出”选项组中选中“碎石图”复选框。
5、设置因子旋转方法。单击“因子分析”对话框中的“旋转”按钮,在“方法”选项组中选中“最大方差法”单选按钮。
6、设置有关因子得分的选项。单击“得分”按钮,选中“显示因子得分系数矩阵”复选框。
7、其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。
[if !supportLineBreakNewLine]
[endif]
四、结果分析
1、KMO检验和巴特利特检验结果KMO检验是为了看数据是否适合进行因子分析,其取值范围是0~1。其中0.9~1表示极好,0.8~0.9表示可奖励的,0.7~0.8表示还好,0.6~0.7表示中等,0.5~0.6表示糟糕,0~0.5表示不可接受。如下表所示,本例中KMO的取值为0.657,表明可以进行因子分析。巴特利特检验是为了看数据是否来自于服从多元正态分布的总体。本例中显着性值为0.000,说明数据来自正态分布总体,适合进一步分析。
2、变量共同度变量共同度表示的是各变量中所含原始信息能被提取的公因子所解释的程度。如下表所示,因为本例中所有变量共同度都在85%以上,所以提取的这几个公因子对各变量的解释能力很强。
3
4、碎石图有两个成分的特征值超过了1,只考虑这两个成分即可。
5、旋转成分矩阵第一个因子在工业总产值、国内生产总值、货物周转量、发电量及原油上有较大的载荷,所以其反映的是除原煤以外的其他变量的信息,第二个因子在原煤这一变量上有较大的载荷,反映的是原煤这一变量的信息。
6、成分得分系数矩阵给出了成分得分系数矩阵,据此可以直接写出各公因子的表达式。值得一提的是,在表达式中各个变量已经不是原始变量而是标准化变量。表达式如下:F1=0.194*工业总产值+0.216*国内生产总值+0.206*货物周转量+0.003*原煤+0.211*发电量+0.212*原油F2=0.311*工业总产值-0.002*国内生产总值-0.154*货物周转量+0.853*原煤-0.124*发电量+0.036*原油
分析结论:
[if !supportLineBreakNewLine]
[endif]
通过分析,我们可以知道:
由结果分析1、知,本例很适合使用因子分析。
由结果分析2、3、4可知,本例适合选前两个公因子进行分析,因为这已足够替代原来的变量,它们几乎涵盖了原变量的全部信息。
结果分析5给出了本例中的两个公因子及其所反映的变量。
结果分析6给出了公因子与标准化形式的变量之间的表达式。
[if !supportLineBreakNewLine]
[endif]
参考案例数据:
[if !supportLineBreakNewLine]
[endif]
[if !supportLists]【1】 [endif]spss统计分析与行业应用案例详解(第四版) 杨维忠,张甜,王国平 清华大学出版社
[if !supportLists]【2】 [endif](获取更多知识,前往gz号程式解说)
原文来自 https://mp.weixin.qq.com/s/5b-rkSherOn-tHyzBZPsTw
❻ 模型中变量可以是不可测的
模型中变量可以是不可测的如下:
对有偏差 (biased) 的控制变量系数的边际效应解释是存在问题的,研究人员可能会发现错误的结论,除非可以确定在回归分析中考虑了结果变量的所有相关影响因素 (all-causes regression),否则不建议在实证研究中讨论控制变量的系数。
同时,我们也建议仅将控制变量视为识别因果关系的干扰项,并不要在报告结果中展示 (Liang 和 Zeger,1995)。因此,研究人员应考虑在解释其分析结果时完全忽略它们。
简而言之,我们不需要过多的担心“控制变量的系数变化并没有预期的迹象”。因为在实际操作中控制变量的估计总是可能会产生偏差。相反,研究人员应该更加专注于解释主要变量的边际效应。
相比之下,控制变量几乎没有实质性意义,我们可以放心地省略或只在附录中讨论。这样不仅会有效阻止研究人员从控制变量中得出错误的因果结论,而且还简化实证研究论文的讨论部分,并节省宝贵的资源用来讨论主要变量的经济效果。
❼ 在线监测仪器缺失数据的处理方法
删除观察样本
2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除
3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析
4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差
查补法:均值插补、回归插补、抽样填补等
成对删除与改变权重为一类
估算与查补法为一类
2、常用的处理方法有:估算,整例删除,变量删除和成对删除。
由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。
估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。
整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。
变量删除(variable deletion)。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。
成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。
采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性。
❽ 心理学实验中排除无关变量的方法有哪些
(1)消除法:消除法就是通过采取一定措施,将影响研究结果的各种无关变量消除掉。它是控制无关变量的最主要、最理想、最基本的方法。
(2)恒定法:恒定法就是采取一定的措施,使某些无关变量在整个研究过程中保持恒定不变。在心理学研究中,有许多无关变量是无法消除的,如被试的年龄、性别、身高等,在这种情况下就需要采用恒定法,使研究环境、测量的仪器与工具、指导语、主试等对不同的被试或研究安排保持恒定,通过固定其效果来达到控制它们的影响的目的。
(3)平衡法就是对某些不能被消除、又不能或不便被恒定的无关变量,通过采取某些综合平衡的方式使其效果平衡而对它们进行控制的方法。平衡的方法很多,主要有对比组法和循环法。
(4)统计控制法:当无关变量的影响无法消除或未能加以控制,而其影响已经预测和已知时,可以统计的校正或调整将这些影响从研究结果中排除。
❾ 多元统计!!!急求!
1. 因子分析模型
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
因子分析的基本思想:
把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子
因子分析模型描述如下:
(1)X = (x1,x2,…,xp)¢是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。
(2)F = (F1,F2,…,Fm)¢ (m<p)是不可测的向量,其均值向量E(F)=0,协方差矩阵Cov(F) =I,即向量的各分量是相互独立的。
(3)e = (e1,e2,…,ep)¢与F相互独立,且E(e)=0, e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:
x1 = a11F1+ a12F2 +…+a1mFm + e1
x2 = a21F1+a22F2 +…+a2mFm + e2
………
xp = ap1F1+ ap2F2 +…+apmFm + ep
称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。
其矩阵形式为: x =AF + e .
其中:
x=,A=,F=,e=
这里,
(1)m £ p;
(2)Cov(F,e)=0,即F和e是不相关的;
(3)D(F) = Im ,即F1,F2,…,Fm不相关且方差均为1;
D(e)=,即e1,e2,…,ep不相关,且方差不同。
我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e 称为X的特殊因子。
A = (aij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。
2. 模型的统计意义
模型中F1,F2,…,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中载荷矩阵A中的元素(aij)是为因子载荷。因子载荷aij是xi与Fj的协方差,也是xi与Fj的相关系数,它表示xi依赖Fj的程度。可将aij看作第i个变量在第j公共因子上的权,aij的绝对值越大(|aij|£1),表明xi与Fj的相依程度越大,或称公共因子Fj对于xi的载荷量越大。为了得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子的方差贡献。
因子载荷矩阵A中第i行元素之平方和记为hi2,称为变量xi的共同度。它是全部公共因子对xi的方差所做出的贡献,反映了全部公共因子对变量xi的影响。hi2大表明x的第i个分量xi对于F的每一分量F1,F2,…,Fm的共同依赖程度大。
将因子载荷矩阵A的第j列( j =1,2,…,m)的各元素的平方和记为gj2,称为公共因子Fj对x的方差贡献。gj2就表示第j个公共因子Fj对于x的每一分量xi(i= 1,2,…,p)所提供方差的总和,它是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj对x的贡献越大,或者说对x的影响和作用就越大。如果将因子载荷矩阵A的所有gj2 ( j =1,2,…,m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力的公共因子。
3. 因子旋转
建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,通过适当的旋转得到比较满意的主因子。
旋转的方法有很多,正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法(Varimax)。进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化,使大的载荷更大,小的载荷更小。因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有Promax法等。
4.因子得分
因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。例如地区经济发展的因子分析模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。这时需要将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。
设公共因子F由变量x表示的线性组合为:
Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m
该式称为因子得分函数,由它来计算每个样品的公共因子得分。若取m=2,则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2,并将其在平面上做因子得分散点图,进而对样品进行分类或对原始数据进行更深入的研究。
但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计。估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thomson估计法。
(1)回归估计法
F = X b = X (X ¢X)-1A¢ = XR-1A¢ (这里R为相关阵,且R = X ¢X )。
(2)Bartlett估计法
Bartlett估计因子得分可由最小二乘法或极大似然法导出。
F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X = (A¢W-1A)-1A¢W-1X
(3)Thomson估计法
在回归估计法中,实际上是忽略特殊因子的作用,取R = X ¢X,若考虑特殊因子的作用,此时R = X ¢X+W,于是有:
F = XR-1A¢ = X (X ¢X+W)-1A¢
这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:
F = XR-1A¢ = X (I+A¢W-1A)-1W-1A¢
5. 因子分析的步骤
因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。
(i)因子分析常常有以下四个基本步骤:
(1)确认待分析的原变量是否适合作因子分析。
(2)构造因子变量。
(3)利用旋转方法使因子变量更具有可解释性。
(4)计算因子变量得分。
(ii)因子分析的计算过程:
(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同。
(2)求标准化数据的相关矩阵;
(3)求相关矩阵的特征值和特征向量;
(4)计算方差贡献率与累积方差贡献率;
(5)确定因子:
设F1,F2,…, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;
(6)因子旋转:
若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。
(7)用原指标的线性组合来求各因子得分:
采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。
(8)综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此处wi为旋转前或旋转后因子的方差贡献率。
(9)得分排序:利用综合得分可以得到得分名次。
在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:
· 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。
· 构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。
· 进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。
如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。
Rotated Component Matrix,就是经转轴后的因子负荷矩阵,
当你设置了因子转轴后,便会产生这结果。
转轴的是要得到清晰的负荷形式,以便研究者进行因子解释及命名。
SPSS的Factor Analysis对话框中,有个Rotation钮,点击便会弹出Rotation对话框,
其中有5种因子旋转方法可选择:
1.最大变异法(Varimax):使负荷量的变异数在因子内最大,亦即,使每个因子上具有最高载荷的变量数最少。
2.四次方最大值法(Quartimax):使负荷量的变异数在变项内最大,亦即,使每个变量中需要解释的因子数最少。
3.相等最大值法(Equamax):综合前两者,使负荷量的变异数在因素内与变项内同时最大。
4.直接斜交转轴法(Direct Oblimin):使因素负荷量的差积(cross-procts)最小化。
5.Promax 转轴法:将直交转轴(varimax)的结果再进行有相关的斜交转轴。因子负荷量取2,4,6次方以产生接近0但不为0的值,借以找出因子间的相关,但仍保有最简化因素的特性。
上述前三者属于“直交(正交)转轴法”(Orthogonal Rotations),在直交转轴法中,因子与因子之间没有相关,因子轴之间的夹角等于90 度。后两者属于“斜交转轴”(oblique rotations),表示因子与因子之间彼此有某种程度的相关,因素轴之间的夹角不是90度。
直交转轴法的优点是因子之间提供的讯息不会重叠,受访者在某一个因子的分數与在其他因子的分數,彼此独立互不相关;缺点是研究迫使因素之间不相关,但这种情况在实际的情境中往往并不常存在。至于使用何种转轴方式,须视乎研究题材、研究目的及相关理论,由研究者自行设定。
在根据结果解释因子时,除了要看因子负荷矩阵中,因子对哪些变量呈高负荷,对哪些变量呈低负荷,还须留意之前所用的转轴法代表的意义。
2,主成分分析(principal component analysis)
将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
(1)主成分分析的原理及基本思想。
原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。
基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
(2)步骤
Fp=a1mZX1+a2mZX2+……+apmZXp
其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵∑的特征值多对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。
进行主成分分析主要步骤如下:
1. 指标数据标准化(SPSS软件自动执行);
2. 指标之间的相关性判定;
3. 确定主成分个数m;
4. 主成分Fi表达式;
5. 主成分Fi命名;
选用以上两种方法时的注意事项如下:
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。
总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(rece dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。
(1)了解如何通过SPSS因子分析得出主成分分析结果。首先,选择SPSS中Analyze-Data Rection-Factor…,在Extraction…对话框中选择主成分方法提取因子,选择好因子提取个数标准后点确定完成因子分析。打开输出结果窗口后找到Total Variance Explained表和Component Matrix表。将Component Matrix表中第一列数据分别除以Total Variance Explained表中第一特征根值的开方得到第一主成分表达式系数,用类似方法得到其它主成分表达式。打开数据窗口,点击菜单项的Analyze-Descriptive Statistics-Descriptives…,在打开的新窗口下方构选Save standardized values as variables,选定左边要分析的变量。点击Options,只构选Means,点确定后既得待分析变量的标准化新变量。
选择菜单项Transform-Compute…,在Target Variable中输入:Z1(主成分变量名,可以自己定义),在Numeric Expression中输入例如:0.412(刚才主成分表达式中的系数)*Z人口数(标准化过的新变量名)+0.212*Z第一产业产值+…,点确定即得到主成分得分。通过对主成分得分的排序即可进行各个个案的综合评价。很显然,这里的过程分为四个步骤:
Ⅰ.选主成分方法提取因子进行因子分析。
Ⅱ.计算主成分表达式系数。
Ⅲ.标准化数据。
Ⅳ.计算主成分得分。
我们的程序也将依该思路展开开发。
(2)对为何要将Component Matrix表数据除以特征根开方的解释
我们学过主成分分析和因子分析后不难发现,原来因子分析时的因子载荷矩阵就是主成分分析特征向量矩阵乘以对应特征根开方值的对角阵。而Component Matrix表输出的恰是因子载荷矩阵,所以求主成分特征向量自然是上面描述的逆运算。
成功启动程序后选定分析变量和主成分提取方法即可在数据窗口输出得分和在OUTPUT窗口输出主成分表达式。
3,聚类分析(Cluster Analysis)
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术 。
在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作。
4.判别分析(Discriminatory Analysis)
判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。
5.对应分析(Correspondence Analysis)
对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。
运用这种研究技术,我们可以获取有关消费者对产品品牌定位方面的图形,从而帮助您及时调整营销策略,以便使产品品牌在消费者中能树立起正确的形象。
这种研究技术还可以用于检验广告或市场推广活动的效果,我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。