【量化研究】回归分析方法那么多，我却知道的10+

查看原文

其他

【量化研究】回归分析方法那么多，我却知道的10+

2016-06-20 计量经济学服务中心

计量经济学服务中心 ID: jingjixue100

计量经济学服务中心，专注于人文社科和经济管理，关注论文指导、软件操作、研究方法、建模分析、数据服务！关注知识，发现价值！

社会经济定量研究方法中用到的一些统计步骤分解到一定水平，就将是中心日后定量研究相关定量研究主题文章推送的目标；

这方面主要包括了相关关系研究、影响因素研究、综合评价研究、效率及有效性研究、预测、竞争力研究、产业结构优化、发展战略研究等方面的内容。

应用的方法，主要有相关分析、回归分析、因子分析、主成分分析、偏离份额分析、方差分析、灰色关联、层次分析、聚类分析、SWOT分析、DEA分析、产业关联分析等等，如何掌握这些分析方法，下面和中心一起学习吧!

所谓回归分析法，是在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（称回归方程式）。

回归分析中，根据变量多少，可以分为一元+多元回归分析；当研究的因果关系只涉及因变量和一个自变量时，叫做一元回归分析；当研究的因果关系涉及因变量和两个或两个以上自变量时，叫做多元回归分析。

此外，回归分析中，又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的，分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法，遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

回归分析法是定量预测方法之一。它依据事物内部因素变化的因果关系来预测事物未来的发展趋势。由于它依据的是事物内部的发展规律，因此这种方法比较精确。测报工作中常用的是一元线性回归和多元线性回归模型。

回归分析方法：

1、Linear Regression线性回归

它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中，因变量是连续的，自变量可以是连续的也可以是离散的，回归线的性质是线性的。

线性回归使用最佳的拟合直线（也就是回归线）在因变量（Y）和一个或多个自变量（X）之间建立一种关系。

用一个方程式来表示它，即Y=a+b*X + e，其中a表示截距，b表示直线的斜率，e是误差项。这个方程可以根据给定的预测变量（s）来预测目标变量的值。

回归分析
（1）直线回归：

如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，则直线回归（单个自变量的线性回归，称为简单回归），否则应作适当的变换，使其满足上述条件。
（2）多重线性回归：

应变量（Y）为连续型变量（即计量资料），自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，可以作多重线性回归。

观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素

实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用

2、Logistic Regression逻辑回归

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元（1 / 0，真/假，是/否）变量时，我们就应该使用逻辑回归。这里，Y的值从0到1，它可以用下方程表示。

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence

ln(odds) = ln(p/(1-p))

logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk

上述式子中，p表述具有某个特征的概率。你应该会问这样一个问题：“我们为什么要在公式中使用对数log呢？”。

因为在这里我们使用的是的二项分布（因变量），我们需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中，通过观测样本的极大似然估计值来选择参数，而不是最小化平方和误差（如在普通回归使用的）。

要点：它广泛的用于分类问题。

逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系，因为它对预测的相对风险指数OR使用了一个非线性的log转换。

为了避免过拟合和欠拟合，我们应该包括所有重要的变量。有一个很好的方法来确保这种情况，就是使用逐步筛选方法来估计逻辑回归。

它需要大的样本量，因为在样本数量较少的情况下，极大似然估计的效果比普通的最小二乘法差。

自变量不应该相互关联的，即不具有多重共线性。然而，在分析和建模中，我们可以选择包含分类变量相互作用的影响。

如果因变量的值是定序变量，则称它为序逻辑回归。

如果因变量是多类的话，则称它为多元逻辑回归。

3、Stepwise Regression逐步回归

在处理多个自变量时，我们可以使用这种形式的回归。在这种技术中，自变量的选择是在一个自动的过程中完成的，其中包括非人为操作。

这一壮举是通过观察统计的值，如R-square，t-stats和AIC指标，来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法：

标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。

向前选择法从模型中最显著的预测开始，然后为每一步添加变量。

向后剔除法与模型的所有预测同时开始，然后在每一步消除最小显着性的变量。

这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。

4、 岭回归

岭回归分析是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的耐受性远远强于最小二乘法。

要点：

除常数项以外，这种回归的假设与最小二乘回归类似；

它收缩了相关系数的值，但没有达到零，这表明它没有特征选择功能

这是一个正则化方法，并且使用的是L2正则化。

更多分析方法，推荐阅读【定量研究】数学中11个回归分析方法测度原理

热门图文TOP5

1、【原创·大秦学术·第二期】学术论文写作方法——基于实证研究的视角

2、Stata ：论文中数据分析的一把利剑

3、本科硕博科研论文常去的网站

4、盘点史上最牛的博士论文

5、中心已经正确的打开，等你来阅读

·END·

计量经济学服务中心

计量经济学服务中心

学术问题，一对一专家解决

打造中国最大的人文社科+经管类学术交流学习平台

论文指导、软件操作、学术技能、数据分析等，一起见证学术力量

见证学术力量

让知识更有价值

让学术更有价值

学术小组QQ群：219246913（500人大群）

打造中国最好的Eviews/SPSS/STATA/SAS/R咨询群，做最好的学术交流群！

点击图片进一步了解中心

点击左下角阅读原文可以了解更多中心专题

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻