1. 统计学统计学的多因素分析
链接: https://pan..com/s/1ZYcJDBpEYnMhJcL6X9YCNA
2. 统计学多因素生存分析中B,SE,Wald是什么意思
生存分析(Survival analysis)是研究影响因素与生存时间和结局关系的方法。简单的说就是要分析影响因素是否与结局相关,还要分析影响因素与结局出现时间关系。
生存分析中的最主要有以下几个概念:
生存时间(Survival time)是指从某起点事件开始到被观测对象出现终点事件所经历的时间,如从疾病确诊到进展/死亡的时间;生存时间有两种类型:
第一种是完全数据(Complete data),指被观测对象从观察起点到出现终点事件所经历的时间;
第二种是截尾数据(Consored data),截尾数据的产生主要有三个原因,失访(Loss offollow-up)、退出和终止。失访和退出都是在试验还没有结束时,研究者就已经追踪不到数据了,而终止是研究已经结束仍未观察到患者结局。截尾数据过多会影响生存分析的效果。
死亡概率(Mortality probability)是指某段时间开始时生存的个体在该段时间内死亡的可能性大小;
生存概率(Survival probability)是指某段时间开始时存活的个人至该时间结束时仍然存活的可能性大小;
以下我们简单展示两个生存分析常用的方法:Kaplan-Meier曲线和Cox比例风险模型。本次用到的数据和上期logistic用到的数据一样,都是虚构。
一、各变量的含义
二、单因素生存分析
以GeneB单因素分析结果为例:
GeneB突变与未突变两条生存曲线比较的假设检验结果显示,两条曲线差异有统计学意义,表明突变与未突变人群的PFS差异有统计学意义。生存曲线也直观的展示了结果。
所有变量的单因素生存分析结果如下,其中GeneA、GeneB、GeneC均有统计学意义。
三、Cox比例风险回归多因素分析
首先,我们将单因素分析中有意义的三个gene全部放到多因素模型中,并且用年龄和性别做分层。
程序和结果如下:
proc phreg data=survival_cox;
model PFS*Outcome1(0)=GeneA GeneB GeneC/risklimits;
strata age gender;
run;
似然比检验结果显示,加入三个基因后的模型与不加入基因相比,似然比有改善,P值为0.0006,表明模型有统计学意义。但是,在参数估计中我们发现原先在单因素分析中有统计学意义的GeneA和GeneB在多因素分析中不再有统计学意义,且HR接近于1,对PFS的影响很小。
是不是基因之间的交互作用导致了这个结果?我们用加入交互项的方式来分析下。
程序和结果如下:
data survival_cox;
set survival_analysis;
GeneAB=GeneA*GeneB;
GeneAC=GeneA*GeneC;
GeneBC=GeneB*GeneC;
proc phreg data=survival_cox;
model PFS*Outcome1(0)=GeneA GeneC GeneAC/risklimits;
strata age gender;
run;
加入交互项以后,我们看到GeneC有统计学意义,是一个保护性因素,GeneC突变患者发生进展的风险是未突变患者的0.177倍,即未突变患者发生进展的风险是发生进展患者的5.650倍。
GeneA和交互项GeneAC无统计学意义,我们看到交互项的参数估计值为负值,表明GeneA和GeneC有拮抗作用。由于相互作用,单因素分析中GeneA和GeneB掺杂了GeneC的作用,显得有统计学意义,但是多因素分析校正后,变得无统计学意义。
结论:GeneC是疾病进展的一个独立保护性因素,未突变患者进展风险高于突变患者。而GeneA和GeneB对疾病进展的影响均无统计学意义。
3. 常用统计分析方法
数据分析师针对不同业务问题可以制作各种具体的数据模型去分析问题,运用各种分析方法去探索数据,这里介绍最常用的三种分析方法,希望可以对您的工作有一定的的帮助
文中可视化图表均使用DataFocus数据分析工具制作。
1.相关分析
相关分析显示变量如何与另一个变量相关。例如,它显示了计件工资是否会带来更高的生产率。
2.回归分析
回归分析是对一个变量值与另一个变量值之间差异的定量预测。回归模拟依赖变量和解释变量之间的关系,这些变量通常绘制在散点图上。您还可以使用回归线来显示这些关系是强还是弱。
另请注意,散点图上的异常值非常重要。例如,外围数据点可能代表公司最关键供应商或畅销产品的输入。但是,回归线的性质通常会让您忽略这些异常值。
3.假设检验
假设检验是基于某些假设并从样本到人口的数理统计中的统计分析方法。主要是为了解决问题的需要,对整体研究提出一些假设。通常,比较两个统计数据集,或者将通过采样获得的数据集与来自理想化模型的合成数据集进行比较。提出了两个数据集之间统计关系的假设,并将其用作理想化零假设的替代方案。建议两个数据集之间没有关系。
在掌握了数据分析的基本图形和分析方法之后,数据分析师认为有一点需要注意:“在没有确认如何表达你想要解决的问题之前,不要开始进行数据分析。”简而言之,如果您无法解释您试图用数据分析解决的业务问题,那么没有数据分析可以解决问题。
4. 医学统计中spss如何进行多因素LOGISTIC回归分析和选择T检验
可以使用SPSSAU[进阶方法]--[二元logistic回归]。
二元Logit回归分析时,首先分析p值,如果此值小于0.05,说明具有影响关系,接着再具体研究影响关系情况即可,比如是正向影响还是负向影响关系等;除此之外,还可以写出二元Logit回归分析的模型构建公式,以及模型的预测准确率情况等。
5. 统计学方法有哪些
一、描述统计
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
集中趋势分析:集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?
离中趋势分析:离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。
相关分析:相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系;既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度——即相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——即因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。
例如,我们想知道对监狱情景进行什么改造,可以降低囚徒的暴力倾向。我们就需要将不同的囚舍颜色基调、囚舍绿化程度、囚室人口密度、放风时间、探视时间进行排列组合,然后让每个囚室一种实验处理,然后用因素分析法找出与囚徒暴力倾向的相关系数最高的因素。假定这一因素为囚室人口密度,我们又要将被试随机分入不同人口密度的十几个囚室中生活,继而得到人口密度和暴力倾向两组变量(即我们讨论过的A、B两列变量)。然后,我们将人口密度排入X轴,将暴力倾向分排入Y轴,获得了一个很有价值的图表,当某典狱长想知道,某囚舍扩建到N人/间囚室,暴力倾向能降低多少。我们可以当前人口密度和改建后人口密度带入相应的回归方程,算出扩建前的预期暴力倾向和扩建后的预期暴力倾向,两数据之差即典狱长想知道的结果。
推论统计:
推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据,来证明或推翻某个命题。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显着性差异。例如,我们想研究教育背景是否会影响人的智力测验成绩。可以找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验成绩。用推论统计方法进行数据处理,最后会得出类似这样儿的结论:“研究发现,大学毕业生组的成绩显着高于初中毕业生组的成绩,二者在0.01水平上具有显着性差异,说明大学毕业生的一些智力测验成绩优于中学毕业生组。”
其中,如果用EXCEL 来求描述统计。其方法是:工具-加载宏-勾选"分析工具库",然后关闭Excel然后重新打开,工具菜单就会出现"数据分析"。描述统计是“数据分析”内一个子菜单,在做的时候,记得要把方格输入正确。最好直接点选。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、假设检验
1、参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。
1)U验 :使用条件:当样本含量n较大时,样本值符合正态分布
2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布
A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;
B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;
C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
2、非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
A 虽然是连续数据,但总体分布形态未知或者非正态;
B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
三、信度分析
介绍:信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。
方法:(1)重测信度法编辑:这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。
(2)复本信度法编辑:让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。
(3)折半信度法编辑:折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表(李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态。)。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:求出整个量表的信度系数(ru)。
(4)α信度系数法编辑:Cronbach
α信度系数是目前最常用的信度系数,其公式为:
α=(k/(k-1))*(1-(∑Si^2)/ST^2)
其中,K为量表中题项的总数, Si^2为第i题得分的题内方差, ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。
总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。
检査测量的可信度,例如调查问卷的真实性。
分类:
1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度
2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。
四、列联表分析
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。
简介:一般,若总体中的个体可按两个属性A、B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。
列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
用于分析离散变量或定型变量之间是否存在相关。
列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)
为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。
需要注意:
若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显着性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。
对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。
列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。
五、相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;
2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;
3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
六、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
分类
1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,
七、回归分析
分类:
1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。
2、多元线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。
1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法
2)横型诊断方法:
A 残差检验: 观测值与估计值的差值要艰从正态分布
B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法
C 共线性诊断:
• 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
• 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等
3、Logistic回归分析
线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况
分类:
Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。
4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等
八、聚类分析
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多着名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
定义:
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。
各指标之间具有一定的相关关系。
聚类分析(cluster
analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析区别于分类分析(classification
analysis) ,后者是有监督的学习。
变量类型:定类变量、定量(离散和连续)变量
样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。
1、性质分类:
Q型聚类分析:对样本进行分类处理,又称样本聚类分祈使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等
R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等
2、方法分类:
1)系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类
2)逐步聚类法:适用于大样本的样本聚类
3)其他聚类法:两步聚类、K均值聚类等
九、判别分析
1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体
2、与聚类分析区别
1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本
2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类
3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类
3、进行分类 :
1)Fisher判别分析法 :
以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别;
以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于
适用于多类判别。
2)BAYES判别分析法 :
BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;
十、主成分分析
介绍:主成分分析(Principal
Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息。
原理:在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
缺点: 1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
十一、因子分析
一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法
与主成分分析比较:
相同:都能够起到治理多个原始变量内在结构关系的作用
不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法
用途:
1)减少分析变量个数
2)通过对变量间相关关系探测,将原始变量进行分类
十二、时间序列分析
动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型
时间序列是指同一变量按事件发生的先后顺序排列起来的一组观察值或记录值。构成时间序列的要素有两个:其一是时间,其二是与时间相对应的变量水平。实际数据的时间序列能够展示研究对象在一定时期内的发展变化趋势与规律,因而可以从时间序列中找出变量变化的特征、趋势以及发展规律,从而对变量的未来变化进行有效地预测。
时间序列的变动形态一般分为四种:长期趋势变动,季节变动,循环变动,不规则变动。
时间序列预测法的应用:
系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述;
系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理;
预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值;
决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
特点:
假定事物的过去趋势会延伸到未来;
预测所依据的数据具有不规则性;
撇开了市场发展之间的因果关系。
①时间序列分析预测法是根据市场过去的变化趋势预测未来的发展,它的前提是假定事物的过去会同样延续到未来。事物的现实是历史发展的结果,而事物的未来又是现实的延伸,事物的过去和未来是有联系的。市场预测的时间序列分析法,正是根据客观事物发展的这种连续规律性,运用过去的历史数据,通过统计分析,进一步推测市场未来的发展趋势。市场预测中,事物的过去会同样延续到未来,其意思是说,市场未来不会发生突然跳跃式变化,而是渐进变化的。
时间序列分析预测法的哲学依据,是唯物辩证法中的基本观点,即认为一切事物都是发展变化的,事物的发展变化在时间上具有连续性,市场现象也是这样。市场现象过去和现在的发展变化规律和发展水平,会影响到市场现象未来的发展变化规律和规模水平;市场现象未来的变化规律和水平,是市场现象过去和现在变化规律和发展水平的结果。
需要指出,由于事物的发展不仅有连续性的特点,而且又是复杂多样的。因此,在应用时间序列分析法进行市场预测时应注意市场现象未来发展变化规律和发展水平,不一定与其历史和现在的发展变化规律完全一致。随着市场现象的发展,它还会出现一些新的特点。因此,在时间序列分析预测中,决不能机械地按市场现象过去和现在的规律向外延伸。必须要研究分析市场现象变化的新特点,新表现,并且将这些新特点和新表现充分考虑在预测值内。这样才能对市场现象做出既延续其历史变化规律,又符合其现实表现的可靠的预测结果。
②时间序列分析预测法突出了时间因素在预测中的作用,暂不考虑外界具体因素的影响。时间序列在时间序列分析预测法处于核心位置,没有时间序列,就没有这一方法的存在。虽然,预测对象的发展变化是受很多因素影响的。但是,运用时间序列分析进行量的预测,实际上将所有的影响因素归结到时间这一因素上,只承认所有影响因素的综合作用,并在未来对预测对象仍然起作用,并未去分析探讨预测对象和影响因素之间的因果关系。因此,为了求得能反映市场未来发展变化的精确预测值,在运用时间序列分析法进行预测时,必须将量的分析方法和质的分析方法结合起来,从质的方面充分研究各种因素与市场的关系,在充分分析研究影响市场变化的各种因素的基础上确定预测值。
需要指出的是,时间序列预测法因突出时间序列暂不考虑外界因素影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化,往往会有较大偏差,时间序列预测法对于中短期预测的效果要比长期预测的效果好。因为客观事物,尤其是经济现象,在一个较长时间内发生外界因素变化的可能性加大,它们对市场经济现象必定要产生重大影响。如果出现这种情况,进行预测时,只考虑时间因素不考虑外界因素对预测对象的影响,其预测结果就会与实际状况严重不符。
6. 因素分析法及其特点
因素分析法
方法功用
应用范围
使用方法
运用程序
评价
注意事项
目录
1摘要
2基本信息
3方法功用
4应用范围
因素
经济
5使用方法
连环替代
差额分析
指标分解
定基替代
6运用程序
一般程序
使用原理
7评价
8注意事项
9参考资料
因素分析法。又称经验分析法,是一种定性分析方法。该方法主要指根据价值工程对象选择应考虑的各种因素,凭借分析人员的知识和经验集体研究确定选择对象。该方法简单易行,要求价值工程人员对产品熟悉,经验丰富,在研究对象彼此相差较大或时间紧迫的情况下比较适用,缺点是无定量分析、主观影响大。
因素分析法是利用统计指数体系分析现象总变动中各个因素影响程度的一种统计分析方法,包括连环替代法、差额分析法、指标分解法等。 因素分析法是现代统计学中一种重要而实用的方法,它是多元统计分析的一个分支。使用这种方法能够使研究者把一组反映事物性质、状态、特点等的变量简化为少数几个能够反映出事物内在联系的、固有的、决定事物本质特征的因素。
基本信息
中文名
因素分析法
别名
指数因素分析法
分类
连环替代法、差额分析法等
方法功用
因素分析法的最大功用,就是运用数学方法对可观测的事物在发展中所表现出的外部特征和联系进行由表及里、由此及彼、去粗取精、去伪存真的处理,从而得出客观事物普遍本质的概括。其次,使用因素分析法可以使复杂的研究课题大为简化,并保持其基本的信息量。
应用范围
因素
通过分析期货商品的供求状况及其影响因素,来解释和预测期货价格变化趋势的方法。期货交易是以现货交易为基础的。期货价格与现货价格之间有着十分紧密的联系。商品供求状况及影响其供求的众多因素对现货市场商品价格产生重要影响,因而也必然会对 期货价格重要影响。所以,通过分析商品供求状况及其影响因素的变化,可以帮助期货交易者预测和把握商品期货价格变化的基本趋势。在现实市场中,期货价格不仅受商品供求状况的影响,而且还受其他许多非供求因素的影响。这些非供求因素包括:金融货币因素,政治因素、政策因素、投机因素、心理预期等。因此,期货价格走势基本因素分析需要综合地考虑这些因素的影响。[1]
经济
商品供求状况对商品期货价格具有重要的影响。基本因素分析法主要分析的就是供求关系。商品供求状况的变化与价格的变动是互相影响、互相制约的。商品价格与供给成反比,供给增加,价格下降;供给减少,价格上升。商品价格与需求成正比,需求增加,价格上升;需求减少,价格下降。在其他因素不变的条件下,供给和需求的任何变化,都可能影响商品价格变化,一方面,商品价格的变化受供给和需求变动的影响;另一方面,商品价格的变化又反过来对供给和需求产生影响:价格上升,供给增加,需求减少;价格下降,供给减少,需求增加。这种供求与价格互相影响、互为因果的关系,使商品供求分析更加复杂化,即不仅要考虑供求变动对价格的影响,还要考虑价格变化对供求的反作用。
使用方法
连环替代
它是将分析指标分解为各个可以计量的因素,并根据各个因素之间的依存关系,顺次用各因素的比较值(通常即实际值)替代基准值(通常为标准值或计划值),据以测定各因素对分析指标的影响。
例如,设某一分析指标M是由相互联系的A、B、C三个因素相乘得到,报告期(实际)指标和基期(计划)指标为:
报告期(实际)指标M1=A1 * B1 * C1
基 期(计划)指标 M0=A0 * B0 * C0
在测定各因素变动指标对指标R影响程度时可按顺序进行:
基 期(计划)指标M0=A0 * B0 * C0……(1)
第一次替代 A1 * B0 * C0……(2)
第二次替代 A1 * B1 * C0……(3)
第三次替代 A1 * B1 * C1……(4)
分析如下:
(2)-(1)→A变动对M的影响。
(3)-(2)→B变动对M的影响。
(4)-(3)→C变动对M的影响。
把各因素变动综合起来,总影响:△M = M1 - M0 =(4)-(3)+(3)-(2)+(2)-(1)
差额分析
它是连环替代法的一种简化形式,是利用各个因素的比较值与基准值之间的差额,来计算各因素对分析指标的影响。
例如,某一个财务指标及有关因素的关系由如下式子构成:实际指标:Po=Ao×Bo×Co;标准指标:Ps=As×Bs×Cs;实际与标准的总差异为Po-Ps,Po-Ps 这一总差异同时受到A、B、C三个因素的影响,它们各自的影响程度可分别由以下式子计算求得:
A因素变动的影响:(Ao-As)×Bs×Cs;
B因素变动的影响;Ao×(Bo-Bs)×Cs;
C因素变动的影响:Ao×Bo×(Co-Cs)。
最后,可以将以上三大因素各自的影响数相加就应该等于总差异Po-Ps。
指标分解
例如资产利润率,可分解为资产周转率和销售利润率的乘积。
定基替代
分别用分析值替代标准值,测定各因素对财务指标的影响,例如标准成本的差异分析。
运用程序
一般程序
1、确定需要分析的指标;
2、确定影响该指标的各因素及与该指标的关系;
3、计算确定各个因素影响的程度数额。
使用原理
人的心理现象是复杂的,由许多因素有机结合而成,而每种心理因素又同时受到各种条件的制约,它如同一个庞大的多维系统,调节、控制着人的行为。传统的单变量和双变量分析往往在信息的处理上要么失去有用的信息,要么引入无用的信息,使研究者分不出现象的主次或得出不恰当的甚至是错误的结论。因素分析法则可在多变量观测分析的基础上较全面地反映出事物的各个不同侧面。在心理学研究中,研究者用因素分析从众多的变量中提取几种具有决定性意义的因素,建立理论假设,然后又用因素分析法反复验证假设,直至成功。因此,因素分析法是用来形成科学概念,进而建构思想模型和理论体系的强有力的认识手段和辅助工具。
因素分析法的数学运算主要是建立在矩阵运算的基础之上。它的基本运算过程如下:
首先是收集一定的测量资料,将资料数据标准化。在心理测量中,常需将测验分数转化成标准分数,并排列成数据矩阵。
其次,通过相关运算求出每个因素和其它因素的相关矩阵。
第三,用特定的运算方法,如主成分分析、影像分析、α因素分析、最小残余因素分析、最大可能解、重心法等求出因素载荷矩阵。
第四,为了使载荷矩阵的意义比较清晰,易于分析,要用直角旋转法和斜角旋转法等对载荷矩阵进行转轴处理,使每个变量只在少数几个因素上有较大的载荷,而使一些变量载荷接近零。这就有可能使每个变量在总方差中的因素更集中,从而表现出变量中最具有意义的特征主因素。
第五,对主因素进行定义并加以解释。主因素定义是否准确,解释是否恰当,不但取决于因素分析是否做得成功,而且在很大程度上取决于主观判断过程。在因素分析结果不明确的情况下更是如此。
因素分析法在智力测验中的应用
因素分析法的应用始自对智力的研究。1904年斯皮尔曼发表了《客观测定的智力》一文,开了用因素分析法研究智力的先河。斯皮尔曼在对学生考试成绩的分析过程中,注意到分数之间的相关矩阵存在一定的系统影响。其相关矩阵如下:??表中的课程是按照相关系数从左到右递减排列的,在每一行中,数值大体上均按照同一程度减少。斯皮尔曼经过分析指出,每一门课程的考试成绩都可以看作是由一个一般因子(与一般智力相一致)与一个特殊因子(与特殊智力相一致)之和组成的。他对多种多样的测验进行反复计算,大都得出类似的结果。因此,他认为任何智力因素都是由一般因素G和特殊因素S组合而成的,这就是着名的智力二因素理论。
此后,瑟斯顿等人通过对60多种不同类型智力测验的因素分析,将60多种因素进行因素提取,找出7种较为稳定的因素:计算、词的流畅性、言语意义、记忆、推理、空间知觉和知觉速度,称之为“基本的心理能力”,这就是瑟期顿的智力群因素理论。瑟斯顿及其同事对每种稳定的能力因素都做了测验,并预计这些能力应有负相关。然而,每种能力都和其它能力有正相关。看来,各种能力之间仍存在一般因素。他们编制了PMAT测验,对PMAT测验所得数据进行因素分析发现还存在二级群因素,即语言教育能力、空间机械能力和实际活动能力。弗农在1950年通过因素分析研究使各种因素形成了不同层次的分支,最高层是一般因素G,其次是语言教育能力、空间机械能力和实际活动能力群,然后是较小的PMAT次级群因素,最后是特殊因素S。他们通过对测量结果的因素分析,将智力分成了层级结构。
吉尔福特的智力结构理论也得益于因素分析法。他提出了三维智力结构模式,认为智力是由操作、内容和结果3个变项构成,这3个变项又分别包括5个、4个和6个方面,共120种智力因素。后来,他又把120种智力因素增加为150种。为了证明这150种智力因素存在,他设计了智力测验,并用因素分析加以验证。他声称已找到100种以上的智力因素,要进行如此众多独立变量的提取,离开因素分析几乎不可能。
卡特尔(Cattel)和霍恩(Horn)通过对测验的因素分析,提出了自己的智力结构理论,认为一般智力因素是流体型智力GF和晶体型智力GC。GF负载于数能力、空间能力、推理能力中,GC负载于语言能力、推理能力、记忆能力、词的流畅性中。他的这一理论支持了斯皮尔曼的智力二因素说。
韦克斯勒智力测验的理论基础直接来源于斯皮尔曼的智力二因素论及瑟斯顿的群因素论。韦氏认为,人的一般智力是多种能力的综合,因此他的智力测验受益于因素分析。库恩(Cohen)对韦氏成人智力量表的前身W—B、韦氏成人智力量表(WAIS)和韦氏学龄儿童智力量表(WISC)作了因素分析,发现韦氏智力量表包含5个共同因素:言语理解Ⅰ因素、知觉组织因素、记忆或集中注意因素、言语
7. 单因素统计和多因素回归分析有什么区别
一、概念不同
1、单因素统计:单因素分析(monofactor analysis)是指在一个时间点上对某一变量的分析。
2、多因素回归分析:指在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法。
二、方法不同
1、单因素统计:试验单元编号、随机分组。
2、多因素回归分析:引进虚拟变量的回归分析、曲线回归、多元回归模型。
三、应用方向不同
1、单因素统计:单因素的盆栽试验;温室内、实验室内的实验等,应用该设计,若实验中获得的数据各处理重复数相等,采用重复数相等的单因素资料方差分析法分析,若实验中获得的数据各处理重复数不相等,则采用重复数不等的单因素资料方差分析法分析。
2、多因素回归分析:影响因变量的因素有多个,这种多个自变量影响一个因变量的问题可以通过多元回归分析来解决。
例如,经济学知识告诉我们,商品需求量Q除了与商品价格P有关外,还受到替代品的价格、互补品的价格,和消费者收入等因素,甚至还包括商品品牌Brand这一品质变量(品质变量不能用数字来衡量,需要在模型中引入虚拟变量)的影响。
8. 多因素方差分析与回归分析有什么异同啊
1、分析对象不同
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。多因素方差分析,当有两个或者两个以上的因素对因变量产生影响时,可以用多因素方差分析的方法来进行分析。
2、应用不同
多因素方差分析不仅能够分析多个控制变量对观测变量的独立影响,更能够分析多个控制变量的交互作用能否对观测变量产生显着影响,最终找到利于观测变量的最优组合。
而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
3、分析方法不同
回归分析方法有Linear Regression线性回归、Logistic Regression逻辑回归、Polynomial Regression多项式回归、Stepwise Regression逐步回归、Lasso Regression套索回归等。
多因素方差分析往往选用一般化线性模型(General Iinear Model)进行参数估计。
相同点
回归分析和多因素方差分析都属于统计学的分析方法。
分析几种因素对因变量的影响显着性的时候,选用方差分析,二者不能通用。
9. 5种常用的统计学方法是什么
1、大量观察法
(9)多因素分析的统计学方法扩展阅读:
(一)大量观察法
这是统计活动过程中搜集数据资料阶段(即统计调查阶段)的基本方法:即要对所研究现象总体中的足够多数的个体进行观察和研究,以期认识具有规律性的总体数量特征。大量观察法的数理依据是大数定律,大数定律是指虽然每个个体受偶然因素的影响作用不同而在数量上几存有差异。
但对总体而言可以相互抵消而呈现出稳定的规律性,因此只有对足够多数的个体进行观察,观察值的综合结果才会趋向稳定,建立在大量观察法基础上的数据资料才会给出一般的结论。统计学的各种调查方法都属于大量观察法。
(二)、统计分组法
由于所研究现象本身的复杂性、差异性及多层次性,需要我们对所研究现象进行分组或分类研究,以期在同质的基础上探求不同组或类之间的差异性。统计分组在整个统计活动过程中都占有重要地位,在统计调查阶段可通过统计分组法来搜集不同类的资料,并可使抽样调查的样本代表性得以提高(即分层抽样方式);
在统计整理阶段可以通过统计分组法使各种数据资料得到分门别类的加工处理和储存,并为编制分布数列提供基础;在统计分析阶段则可以通过统计分组法来划分现象类型、研究总体内在结构、比较不同类或组之间的差异(显着性检验)和分析不同变量之间的相关关系。统计学中的统计分组法有传统分组法、判别分析法和聚类分析法等。
(三)、综合指标法
统计研究现象的数量方面的特征是通过统计综合指标来反映的。所谓综合指标,是指用来从总体上反映所研究现象数量特征和数量关系的范畴及其数值,常见的有总量指标、相对指标,平均指标和标志变异指标等。
综合指标法在统计学、尤其是社会经济统计学中占有十分重要的地位,是描述统计学的核心内容。如何最真实客观地记录、描述和反映所研究现象的数量特征和数量关系,是统计指标理论研究的一大课题。