Ⅰ 多重共线性问题的几种解决方法
多重共线性问题的几种解决方法
在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:
1、保留重要解释变量,去掉次要或可替代解释变量
2、用相对数变量替代绝对数变量
3、差分法
4、逐步回归分析
5、主成份分析
6、偏最小二乘回归
7、岭回归
8、增加样本容量
这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。
逐步回归分析方法的基本思想是通过相关系数r 、拟合优度R2 和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步:
第一步,先将被解释变量y对每个解释变量作简单回归:
对每一个回归方程进行统计检验分析(相关系数r 、拟合优度R2 和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:
1.如果新引进的解释变量使R2 得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对R2 改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2 ,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。
下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。
具体实例
例1 设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1,请建立需求函数模型。
表1 服装消费及相关变量调查数据
年份
服装开支
C
(百万元)
可支配收入
Y
(百万元)
流动资产
L
(百万元)
服装类物价指数Pc
1992年=100
总物价指数
P0
1992年=100
1988
8.4
82.9
17.1
92
94
1989
9.6
88.0
21.3
93
96
1990
10.4
99.9
25.1
96
97
1991
11.4
105.3
29.0
94
97
1992
12.2
117.7
34.0
100
100
1993
14.2
131.0
40.0
101
101
1994
15.8
148.2
44.0
105
104
1995
17.9
161.8
49.0
112
109
1996
19.3
174.2
51.0
112
111
1997
20.8
184.7
53.0
112
111
(1)设对服装的需求函数为
用最小二乘法估计得估计模型:
模型的检验量得分,R2=0.998,D·W=3.383,F=626.4634
R2接近1,说明该回归模型与原始数据拟合得很好。由得出拒绝零假设,认为服装支出与解释变量间存在显着关系。
(2)求各解释变量的基本相关系数
上述基本相关系数表明解释变量间高度相关,也就是存在较严重的多重共线性。
(3)为检验多重共线性的影响,作如下简单回归:
各方程下边括号内的数字分别表示的是对应解释变量系数的t检验值。
观察以上四个方程,根据经济理论和统计检验(t检验值=41.937最大,拟合优度也最高),收入Y是最重要的解释变量,从而得出最优简单回归方程。
(4)将其余变量逐个引入,计算结果如下表2:
表2服装消费模型的估计
结果分析:
①在最优简单回归方程中引入变量Pc,使R2由0.9955提高到0.9957;根据经济理论分析,正号,负号是合理的。然而t检验不显着(),而从经济理论分析,Pc应该是重要因素。虽然Y与Pc高度相关,但并不影响收入Y回归系数的显着性和稳定性。依照第1条判别标准,Pc可能是“有利变量”,暂时给予保留。
②模型中引入变量L ,R2 由0.9957提高到0.9959, 值略有提高。一方面,虽然Y 与L ,Pc与L 均高度相关,但是L 的引入对回归系数、的影响不大(其中的值由0.1257变为0.1387,值由-0.0361变为-0.0345,变化很小);另一方面,根据经济理论的分析,L与服装支出C之间应该是正相关关系,即的符号应该为正号而非负号,依照第2条判别标准,解释变量L不必保留在模型中。
③舍去变量L ,加入变量P0 ,使R2 由0.9957提高到0.9980,R2 值改进较大。、、均显着(这三个回归系数的t检验值绝对值均大于),从经济意义上看也是合理的(服装支出C与Y,P0之间呈正相关,而与服装价格Pc之间呈负相关关系)。根据判别标准第1条,可以认为Pc、P0皆为“有利变量”,给予保留。
④最后再引入变量L ,此时R2 =0.9980没有增加(或几乎没有增加),新引入变量对其他三个解释变量的参数系数也没有产生多大影响,可以确定L 是多余变量,根据判别标准第2条,解释变量L 不必保留在模型中。
因此我们得到如下结论:回归模型为最优模型。
通过以上案例的分析,我们从理论和实际问题两方面具体了解了逐步回归分析是如何对多重共线性问题进行处理的。事实上,一般统计软件如SPSS,在回归模型的窗口中都会提供变量逐步进入的选项,勾选后实际上就是选择了运用逐步回归的思想来构建回归模型。运用SPSS软件不需要我们懂得其背后的运行规律,然而作为分析师,了解并理解模型背后的理论知识,将更有助于我们理解模型、解释结论背后的内在含义,从而达到更好地分析问题的目的。
Ⅱ 多重共线性的典型表现是什么判断是否存在多重共线性的方法有哪些
多重共线性的典型表现是,线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。主要产生原因是经济变量相关的共同趋势,滞后变量的引入,样本资料的限制。判断是否存在多重共线性的方法有特征值,存在维度为3和4的值约等于0,说明存在比较严重的共线性。条件索引列第3第4列大于10,可以说明存在比较严重的共线性。比例方差内存在接近1的数,可以说明存在较严重的共线性。判断是否存在多重共线性的方法:1.方差膨胀因子:共线性主要考察的是自变量之间是否存在线性关系。所以很自然地,我们会考虑[公式]对[公式](除[公式]以外的其他自变量)的线性回归拟合以及由此得到的可决系数[公式]。如果自变量之间存在很强的线性关系,则[公式]会很大,甚至会接近1。[公式]即为方差膨胀因子。其值若大于10,则认为存在较强的共线性问题。2.常用的评价指标有两个:(1)容许度和膨胀因子(VIF)。容许度=1-Rj^2。其中的R是第j个自变量与其余变量进行回归时的判定系数。容许度越接近1,表示多重共线性越弱。膨胀因子:膨胀因子是容许度的倒数。膨胀因子越接近1(膨胀因子理论最小值是1),表示解释变量之间的多重共线性越弱,通常膨胀因子<10是弱多重共线性。若膨胀因子>=10,说明膨胀因子存在严重多重共线性。 在SPSS中可以通过在回归分析时勾选“统计”选项卡的“共线性诊断”自动计算容许度和膨胀因子,来判断自变量是否高度相关,是否存在多重共线性问题。 多重共线性的处理方法 若自变量之间存在多重共线性就需要对自变量进行处理后才能进行回归分析,处理方法为主成分分析(Principal Component Analysis,PCA)。 (2) PCA 主成分分析法是运用降维的思想将一组高度相关的自变量转换为一组相互独立的、不存在线性关系的变量,转换后的变量称为主成分,主成分可反映原始数据的大部分信息。一般在自变量个数太多或者存在严重相关关系时使用主成分分析对自变量进行处理,主成分分析一般作为研究中的一个中间环节。 3.常用统计量 主成分分析中的几个统计量: ⑴特征根。主成分特征根的大小可反映该主成分的影响力度,表示该主成分可以解释平均多少个原始变量的信息。例如若特征根λi=3.998,表示该主成分可以解释平均3.998个原始变量。若特征根λi<1表示该主成分的解释力度还不如一个原始变量的解释力度大,因此常将特征根大于1作为引入某个主成分的标准。 ⑵主成分Zi的方差贡献率。主成分的方差反映该主成分含原变量总信息量的百分。 ⑶累积贡献率。将k个主成分的方差贡献率按照从大到小的顺序排列,累计贡献率指前k个主成分的方差贡献率之和,反映前k个主成分可提取百分之多少的原始变量的信息。在确定主成分个数时,一般选择累积贡献率达到70%-85%的前k个主成分。
Ⅲ 多重共线性的解决方法
(1)排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。
(2)差分法
时间序列数据、线性模型:将原模型变换为差分模型。
(3)减小参数估计量的方差:岭回归法(Ridge Regression)。
Ⅳ 怎么判断一个函数模型是否存在多重共线性
用eviews计算,看各参数的T检验及F检验是否通过,如果F检验通过,但是有两个以上T检验不通过,就有很大的可能是多重共线性了。
还有就是看模型中所用的变量之间会不会明显相关,就像,货币供应量和工资之类的。
可以尝试直接联立两个变量的方差,看变量间的R平方是不是很接近1,越接近1,说明多重共线性越明显。
由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,出现的是在一定程度上的共线性,即近似共线性。
(4)估计多重共线性的方法有哪些扩展阅读:
如果线性回归模型存在完全共线性,则回归系数的 LS 估计不存在,因此,在线性回归分析中所谈的共线性主要是非完全共线性。
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子如果方差膨胀因子值越大,说明共线性越强。相反因为,容许度是方差膨胀因子的倒数,所以,容许度越小,共线性越强。
可以这样记忆:容许度代表容许,也就是许可,如果,值越小,代表在数值上越不容许,就是越小,越不要。
而共线性是一个负面指标,在分析中都是不希望它出现,将共线性和容许度联系在一起,容许度越小,越不要,实际情况越不好,共线性这个“坏蛋”越强。进一步,方差膨胀因子因为是容许度倒数,所以反过来。
Ⅳ 计量经济学中多重共线性的检验方法有哪些
作出各解释变量的相关系数矩阵,利用相关系数矩阵可以很容易看出自变量之间的共线性。你也可以使用辅助回归方法,即把多个解释变量中的一个作为因变量其余的作为自变量做回归分析看显着性。还可以更具OLS估计量的性质,得到估计参数的“方差膨胀因子”进行判断。
Ⅵ 计量经济学中多重共线性的检验方法有哪些
1、简单相关系数矩阵法(辅助手段)
此法简单易行;但要注意两变量的简单相关系数包含了其他变量的影响,并非它们真实的线性相关程度的反映,一般在0.8以上可初步判定它俩之间有线性相关。
2、变量显着性与方程显着性综合判断
(修正)可决系数大,F值显着大于临界值,而值不显着;那么可认为存在多重共线性。
3、辅助回归
将每个解释变量对其余变量回归,若某个回归方程显着成立,则该解释变量和其余变量有多重共线性。
(4)方差扩大(膨胀)因子法
(5)直观判断法
增加或者减少一个解释变量,或者改变一个观测值时,回归参数发生较大变化。重要解释变量没有通过t检验。有些解释变量的回归系数符号与定性分析的相反。
(6)估计多重共线性的方法有哪些扩展阅读:
解决方法
(1)、排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。
(2)、差分法
时间序列数据、线性模型:将原模型变换为差分模型。
(3)、减小参数估计量的方差:岭回归法(Ridge Regression)。
Ⅶ 如何用SPSS检验多重共线性
在进行线性回归分析时,容易出现自变量(解释变量)之间彼此相关,这种情况被称作多重共线性问题。在SPSS 22中检验多重共线性的方法如下。
1、首先导入数据,如下所示:
Ⅷ 多重共线性的检验方法
,出现了相关系数与回归方程系数符号相反的问题,经过研究,确认是多重共线性问题并探索了解决方法。
在此将多重共线性的相关知识整理如下。
解释变量理论上的高度相关与观测值高度相关没有必然关系,有可能两个解释变量理论上高度相关,但观测值未必高度相关,反之亦然。所以多重共线性本质上是数据问题。
造成多重共线性的原因有一下几种:
1、解释变量都享有共同的时间趋势;
2、一个解释变量是另一个的滞后,二者往往遵循一个趋势;
3、由于数据收集的基础不够宽,某些解释变量可能会一起变动;
4、某些解释变量间存在某种近似的线性关系;
判别:
1、发现系数估计值的符号不对;
2、某些重要的解释变量t值低,而R方不低
3、当一不太重要的解释变量被删除后,回归结果显着变化;
检验;
1、相关性分析,相关系数高于0.8,表明存在多重共线性;但相关系数低,并不能表示不存在多重共线性;
2、vif检验;
3、条件系数检验;
解决方法:
1、增加数据;
2、对模型施加某些约束条件;
3、删除一个或几个共线变量;
4、将模型适当变形;
5、主成分回归
处理多重共线性的原则:
1、 多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;
2、 严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。
3、 如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果;