‘壹’ 自变量存在异常值
自变量存在异常值有以下方法处理:
(1)手动移除出共线性的自变量
先做下相关分析,如果发现某两个自变量X(解释变量)的相关系数值大于0.7,则移除掉一个自变量(解释变量),然后再做回归分析。但此种办法有一个小问题,即有的时候根本就不希望把某个自变量从模型中剔除,如果有此类情况,可考虑使用逐步回归让软件自动剔除,同时更优的办法可能是使用岭回归进行分析。
(2)逐步回归法
让软件自动进行自变量的选择剔除,逐步回归会将共线性的自变量自动剔除出去。此种解决办法有个问题是,可能算法会剔除掉本不想剔除的自变量,如果有此类情况产生,此时最好是使用岭回归进行分析。
(3)增加样本容量
增加样本容量是解释共线性问题的一种办法,但在实际操作中可能并不太适合,原因是样本量的收集需要成本时间等。
(4)岭回归
上述第1和第2种解决办法在实际研究中使用较多,但问题在于,如果实际研究中并不想剔除掉某些自变量,某些自变量很重要,不能剔除。此时可能只有岭回归最为适合了。岭回归是当前解决共线性问题最有效的解释办法,但是岭回归的分析相对较为复杂,后面会提供具体例子,当然也可以参考SPSSAU官网岭回归说明。
链接:https://www.hu.com/question/34587423/answer/660652731
来源:知乎
着作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
‘贰’ 数据分析师必须掌握的7种回归分析方法
1、线性回归
线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中,由于变量是连续的,因此自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
2、逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 /0,真/假,是/否)变量时,我们就应该使用逻辑回归.
逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。
为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
3、多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。下面是一个图例,可以帮助理解:
明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。
4、逐步回归
在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。
5、岭回归
岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
除常数项以外,这种回归的假设与最小二乘回归类似;它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。
6、套索回归
它类似于岭回归。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),确实有助于特征选择;这是一个正则化方法,使用的是L1正则化;如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。
7、回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
通常在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。
关于数据分析师必须掌握的7种回归分析方法,青藤小编就和您分享到这里了,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容,可以点击本站的其他文章进行学习。
‘叁’ 如何用统计方法去除一组数中的异常值
可以选择以下方法。用线性回归的办法求得某一点到直线最远,去除这一点即可。异常值也称离群值,具体地说,判断标准依据实际情况,根据业务知识及实际需要而定。
要是一般地说,可以用公式计算:
upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。
lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。
(3)回归分析解决异常值方法扩展阅读:
计算统计量:
μ=(X1+X2+…+Xn)/n。
s=(∑(Xi-μ)/(n-1))½(i=1,2…n)。
Gn=(X(n)-μ)/s。
式中μ——样本平均值;
s——样本标准差;
Gn——格拉布斯检验统计量。
确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。
‘肆’ 用spss做回归分析中怎样删除异常值
spss没有办法做 要用stata做,用winsor命令,擅长离群值。
SPSS(Statistical Proct and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。
‘伍’ 每个数据科学人都应该知道的7种回归技术
介绍 线性回归和逻辑回归通常是人们在数据科学中学习的第一种算法。由于它们的受欢迎程度,许多分析师甚至认为它们是唯一的回归形式。哪儿些稍微有工作经验的人也会认为它们是所有回归分析形式的中最重要的。
事实是,有无数种形式的回归可以使用。每种形式的回归都有其自身的重要性和最适合应用的特定场景。在本文中,我会以简单的方式解释了数据科学中最常用的7种回归形式。通过这篇文章,我也希望人们能够对回归的广度有一个概念,而不是仅仅对他们遇到的每个问题应都用线性/逻辑回归,并希望他们能够使用这么多的回归技术!
如果您是数据科学的新手,并且正在寻找一个开始学习的地方,那么“ 数据科学 ”课程是一个很好的起点!它涵盖了Python,统计和预测建模的核心主题,它是你进入数据科学的第一步的完美方法。
什么是回归分析?
回归分析是预测建模技术的一种技术,它研究依赖(目标)和自变量(预测变量)之间的关系。该技术用于预测,时间序列建模和查找变量之间的因果关系。例如,通过回归可以最好地研究鲁莽驾驶与驾驶员发生道路交通事故数量之间的关系。
回归分析是建模和分析数据的重要工具。在这里,我们将曲线/直线线拟合到数据点,使得数据点距曲线或直线的距离之间的差异最小化。我将在接下来的章节中详细解释这一点。
为什么我们使用回归分析?
如上所述,回归分析是估计两个或更多变量之间的关系。让我们通过一个简单的例子来理解这一点:
比方说,你想根据当前的经济状况估算公司的销售增长率。您有最近的公司数据表明销售增长约为经济增长的2.5倍。利用这种洞察力,我们可以根据当前和过去的信息预测公司的未来销售情况。
使用回归分析有许多好处。如下:
它表明因变量和自变量之间的显着关系。 它表示多个自变量对一个因变量的影响强度。
回归分析还允许我们比较不同尺度上测量的变量的影响,例如价格变化的影响和促销活动的数量。这些优势有助于市场研究人员/数据分析师/数据科学家消除和评估用于构建预测模型的最佳变量集。
我们有多少种回归技术?
我们有各种各样的回归技术可用用于预测。这些技术主要由三个指标(自变量的数量,因变量的类型和回归线的形状)驱动。我们将在以下部分详细讨论它们。
对于创造性的,如果您觉得需要使用上述参数的组合,您甚至可以制作新的回归,以前人们没有使用过。但在开始之前,让我们了解最常用的回归:
1.线性回归
它是最广为人知的建模技术之一。线性回归通常是人们在学习预测建模时最先选择的几个方法之一。在该方法中,因变量是连续的,自变量可以是连续的或离散的,并且回归线的性质是线性的。
线性回归使用最佳拟合直线(也称为回归线)在因变量(Y)和一个或多个自变量(X)之间建立关系。
它由方程Y = a + b * X + e表示,其中a是截距,b是直线的斜率,e是误差项。该等式可以根据给定的预测变量预测目标变量的值。
简单线性回归和多元线性回归之间的区别在于,多元线性回归具有(> 1)个独立变量,而简单线性回归只有1个独立变量。现在的问题是“我们如何获得最佳拟合线?”。
如何获得最佳拟合线(a和b的值)?
这项任务可以通过最小二乘法轻松完成。它是用于拟合回归线的最常用方法。它通过最小化每个数据点到直线的垂直偏差的平方和来计算观测数据的最佳拟合线。因为偏差首先要平方,所以当相加时,正值和负值之间不会抵消。
我们可以使用度量的R平方来评估模型性能 。
重点: 自变量和因变量之间必须存在线性关系 多元回归存在多重共线性,自相关,异方差等问题。 线性回归对异常值非常敏感。它可以极大地影响回归线并最终影响预测值。 多重共线性可以增加系数估计的方差,并使估计对模型中的微小变化非常敏感。结果是系数估计不稳定 在多个独立变量的情况下,我们可以选择正向选择,逆向淘汰和逐步方法来选择最重要的自变量。 2. 逻辑回归
逻辑回归方法用于查找事件成功的概率和失败的概率。当因变量本质上是二进制(0/1,真/假,是/否)时,我们应该使用逻辑回归。这里Y值的范围从0到1,它可以用下面的等式表示。
odds = p /(1-p)=事件发生概率/非事件发生概率 ln(赔率)= ln(p /(1-p)) logit(p)= ln(p /(1-p))= b0 + b1X1 + b2X2 + b3X3 .... + bkXk
以上,p是存在感兴趣特征的概率。这时候你应该要问一个问题就是“为什么我们要在等式中使用对数log?”。
由于我们在这里使用的是二项分布(因变量),我们需要选择最适合此分布的链接函数。而且,它是logit函数。在上面的等式中,选择此参数是为了以最大化观察样本值的可能性,而不是最小化平方误差的总和(如在普通回归中一样)。
重点: 它被广泛用于分类问题 逻辑回归不需要依赖因变量和自变量之间的线性关系。它可以处理各种类型的关系,因为它将非线性对数变换应用于预测的优势比 为避免过度拟合和欠拟合,我们应该包括所有重要的变量。确保这种做法的一个好方法是使用逐步方法来估计逻辑回归 它需要较大样本量,因为在样本量较小时,最大似然估计的效率低于普通的最小二乘法 自变量不应相互关联,即不具有多重共线性。但是,我们可以选择在分析和模型中包含分类变量的交互作用。 如果因变量的值是序数,那么它被称为序数逻辑回归 如果因变量是多类的,那么它被称为多元逻辑回归。 3.多项式回归
如果自变量的幂大于1,则回归方程是多项式回归方程。下面的等式表示多项式方程:
Y = A + B * X ^ 2
在这种回归技术中,最佳拟合线不是直线。它是一条与数据点吻合的曲线。
重点: 虽然可能存在拟合更高次多项式以获得更低误差的诱惑,但这可能会导致过度拟合。始终绘制关系图以查看是否匹配,并专注于确保曲线符合问题的本质。以下是绘图如何帮助的示例: 特别注意的是末端的曲线,看看这些形状和趋势是否有意义。较高的多项式最终会产生奇怪的结果。 4.逐步回归
当我们处理多个自变量时,会使用这种形式的回归。在这种技术中,自变量的选择是在自动过程的帮助下完成的,这个过程是不需要人为的去进行干预的。
通过观察R方、t检验和AIC指标等统计值来识别重要变量,可以实现这一壮举。逐步回归基本上适合回归模型,通过基于指定的标准一次一个地添加/删除协变量。下面列出了一些最常用的逐步回归方法:
标准逐步回归做两件事。它根据每个步骤的需要添加和删除预测变量。 正向选择从模型中最重要的预测变量开始,并为每个步骤添加变量。 向后消除从模型中的所有预测变量开始,并删除每个步骤的最不重要的变量。
该建模技术的目的是以最少的预测变量来最大化预测能力。它是处理数据集更高维度的方法之一。
5.岭回归
岭回归是一种在数据存在多重共线性(自变量高度相关)时使用的技术。在多重共线性中,即使最小二乘估计(OLS)是无偏的,但它们的方差也很大,这使得观测值偏离真实值。通过在回归估计中增加一定程度的偏差,岭回归可以减少标准误差。
上面,我们看到了线性回归的方程。还记得嘛?它可以表示为:
y = a + b * x
这个方程也有一个误差项。完整的等式变为:
y = a + b * x + e(误差项),[误差项是校正观测值和预测值之间预测误差所需的值] 表示多个自变量,=> y = a + y = a + b1x1 + b2x2 + .... + e。
在线性方程中,预测误差可以分解为两个子分量。首先是由于偏差,第二是由于方差。由于这两个或两个组件中的任何一个,都可能发生预测错误。在这里,我们将讨论由于方差引起的错误。
岭回归通过收缩参数 λ(lambda)解决了多重共线性问题 。看下面的方程。
在这个方程中,我们有两个组成部分。第一个是最小二乘项,另一个是β2 (β平方)总和的λ,其中β是系数。这被添加到最小二乘项,以便缩小参数以具有非常低的方差。
重点: 该回归的假设与最小二乘回归相同,但不假设正态性 它会缩小系数的值,但不会达到零,这表明没有特征选择功能 这是一种正则化方法,并使用l2正则化。 6.Lasso回归
类似于岭回归,Lasso(最小绝对收缩和选择算子)也会对回归系数的绝对大小进行限制。此外,它还能够降低线性回归模型的可变性并提高其准确性。请看下面的方程:
Lasso回归与岭回归的不同之处在于,它在惩罚函数中使用绝对值而不是平方。这导致惩罚(或等效地约束估计值的绝对值的总和)值,从而导致一些参数估计值恰好为零。应用的惩罚越大,估计值就会缩小到绝对零值。这导致从给定的n个变量中进行变量选择。
重点: 该回归的假设与最小二乘回归相同,但不假设正态性 它将系数缩小到零(恰好为零),这肯定有助于特征选择 这是一种正则化方法并使用l1正则化 如果预测变量高度相关,则Lasso仅选取其中一个并将其他预测缩减为零 7.弹性网络回归
弹性网络回归是Lasso回归和岭回归技术的混合体。它使用L1和L2先验作为正则化器进行训练。当存在多个相关的特征时,弹性网络是很有用的。Lasso可能随机选择其中一种,而弹性网很可能同时选择两个。
在Lasso回归和岭回归之间进行权衡的一个实际优势是,它允许弹性网络在旋转下继承岭回归的一些稳定性。
重点: 在变量高度相关的情况下,它鼓励群体效应 所选变量的数量没有限制 它会受到双重收缩的影响 如何选择正确的回归模型?
当你只知道一两种技术时,生活通常是很简单的。我所知道的其中一个培训机构告诉他们的学生 - 如果结果是连续的 - 那就用线性回归。如果是二进制的 - 那就用逻辑回归!但是,我们可以使用的选项数量越多,选择正确的选项就越困难。回归模型也会发生类似的情况。
在多种类型的回归模型中,基于自变量和因变量的类型,数据中的维度以及数据的其他基本特征来选择最适合的回归方法是很重要的。以下是应该选择正确的回归模型的关键因素:
数据挖掘是构建预测模型的必然部分。在选择正确的模型之前,应该首先确定变量之间的相关系数和影响 为了比较不同模型的拟合优度,我们可以分析不同的指标,如参数的统计显着性,R方,调整后的R方,AIC指标,BIC指标和误差项。另一个是Mallow的Cp标准。这基本上通过将模型与所有可能的子模型(仔细选择它们)进行比较,来检查模型中可能存在的偏差。 交叉验证是评估用于预测的模型的最佳方式。在这里,可以将数据集分为两组(训练和验证)。观测值和预测值之间的简单均方差可以衡量预测的准确性。 如果你的数据集有多个混淆变量,则不应选择自动模型选择方法,因为你不会希望同时将它们放在模型中。 这也取决于你的目标。与具有高度统计意义的模型相比,功能较弱的模型更容易实现。 回归正则化方法(Lasso回归,岭回归和弹性网络回归)在数据集中各变量之间具有高维度和多重共线性的情况下运行良好。 结束语
到现在为止,我希望你已经对回归有所了解。考虑数据条件来应用这些回归技术。找出使用哪种技术的最佳技巧之一就是检查变量族,即离散变量还是连续变量。
在本文中,我讨论了7种类型的回归以及与每种技术相关的一些关键事实。作为这个行业的新人,我建议你学习这些技术,然后在你的模型中实现它们。
-以上就是作者推荐的七种数据科学人必知必会的七种回归模型,如果大家对这七种模型感兴趣,那就自己动手去实验一下吧,只知道理论是不够的,要多动手实验,才能真正的掌握这些模型。
7 Types of Regression Techniques you should know!
‘陆’ 异常值处理
异常值处理的常用方法:直接将该条观测删除在SPSS软件里有2种不同的删除方法,整条删除和成对删除。
Gn——格拉布斯检验统计量:
确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。
当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。
给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。
测区混凝土强度标准差:
取检出水平α为5%,剔除水平α’为1%,按双侧情形检验,从附表中查得检出水平α对应格拉布斯检验临界值G0.975,剔除水平α’对应格拉布斯检验临界值G0.995。
若Gn>Gn’,且Gn>G0.975,则判断fn为异常值,否则,判断无异常值;
若Gn>Gn’,且Gn>G0.995,则判断fn为高度异常值,可考虑剔除;
若Gn’>Gn,且Gn’>G0.975,则判断f1为异常值,否则,判断无异常值;
若Gn’>Gn,且Gn’>G0.995,则判断f1为高度异常值,可考虑剔除。
以上内容参考:网络-异常值
‘柒’ spss回归前如何批量删除异常值
spss没有办法做 要用stata做,用winsor命令,擅长离群值。
SPSS(Statistical
Proct and Service
Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical
Package for the Social
Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。
‘捌’ spss进行线性回归分析时,相关系数都符合,但是显着性不符合,如何调整
线性回归时候,相关系数只是表明了各个系数之间的相关程度。但是自变量对因变量不显着的话,可能存在多重共线性、数据存在异常值、异方差的问题。
1、自变量存在共线性问题
在进行线性回归分析时,很容易出现自变量共线性问题,通常情况下VIF值大于10说明严重共线,VIF大于5则说明有共线性问题。当出现共线性问题时,可能导致回归系数的符号与实际情况完全相反,本应该显着的自变量不显着,本不显着的自变量却呈现出显着性。
解决方法:手动移除出共线性的自变量,先做下相关分析,如果发现某两个自变量X(解释变量)的相关系数值大于0.7,则移除掉一个自变量(解释变量),然后再做回归分析。逐步回归法,让软件自动进行自变量的选择剔除,逐步回归会将共线性的自变量自动剔除出去。
2、数据存在异常值,如果数据中存在极端异常值,会导致数据偏移对分析结果产生严重影响。如果回归分析出现各类异常,可通过比如描述分析、箱线图、散点图等方法,找出并处理掉异常值后再做分析。
解决方法:查看数据中是否有异常值,可通过箱线图、散点图查看,剔除异常值可通过SPSSAU“异常值”功能进行剔除。
3、异方差,如果模型存在明显的异方差性,会影响回归系数的显着情况,得到的回归模型是低效并且不稳定的。
解决方法:保存残差项,将残差项分别与模型的自变量X或者因变量Y,作散点图,查看散点是否有明显的规律性。如果有明显的异方差性,建议重新构建模型,比如对Y取对数后再次构建模型等。
如果排除了这些原因还是不显着,那么基本说明该变量对被解释变量无显着影响。
(8)回归分析解决异常值方法扩展阅读
在做实证就是做回归等等方法的时候,一般就看中三点,一是相关系数,看因变量和自变量是否相关。二是拟合优度(R平方),看回归方程拟合的好不好,一般0.8以上就算拟合的比较好了。
三是自变量的系数对于因变量是否显着啦,P值小于0.05就说明自变量对于因变量是显着的。如果自变量的P值都比0.05大,那就说明自变量对于因变量是不显着的,这个自变量就没什么意义,所以如果变量比较多的情况下,还是做一下逐步回归。
如果变量比较少,做逐步回归就会导致最后有可能只剩下一个变量。逐步回归就是一个模型优化的过程,更加能解释自变量和因变量之间的关系,一般回归之后效果不好都要逐步回归来优化线性模型的。
‘玖’ SPSS回归分析与数据预处理体会
SPSS回归分析与数据预处理体会
关于SPSS数据预处理
拿到一份数据,或者在看到国内外某个学者的文章有想法而自己手里的数据刚好符合这个想法可以做时,在整理好数据后不要急于建模。一定要对数据做缺失值处理、异常值处理。在数据预处理的基础上再进一步建模,否则可能得到错误的结果。以上是小编为大家分享的关于SPSS回归分析与数据预处理体会的相关内容,更多信息可以关注环球青藤分享更多干货