查看原文
其他

特别推荐丨老姚专栏:“读书无用论”有道理吗?从比较的视角看“识别”问题

姚耀军 数据Seminar 2021-06-03




推荐语:这篇推文最让我印象深刻的是两点:其一,OLS和散点图是计量的入门知识,所有人都会认为自己很清楚。但姚老师告诉我,他在学生时代就特别想不通一点——x取值固定的时候,从散点图上来看,拟合线应该是垂线。但垂线的斜率不是不存在,而是无穷大。这岂不是说,xy的影响是无穷大?本文告诉我们,其实不是,因为当x取值固定的时候,实际上是不能得到一条OLS拟合线的,这对应于OLS估计值没有解。对应到识别问题,就是无从比较x不同的两个群体y的差异,从而无法识别其对y的影响。其二,作为专业从事微观计量的人来说,识别二字,可谓是日日夜夜、心心念念,怎么可能犯错?然而,当你在日常生活中,甚至是在提出政策建议的时候,是否注意到了自己的推断其实很不严谨?本文不厌其烦地提醒我们,找好、找对比较对象,是我们时刻要注意的事情。


——杨奇明



 一、案例:“读书无用论”之错误论证 


比较,是一种基本的科学思维方法,马克思将其称为“理解现象的钥匙”。无论是认识日常生活现象,还是从事专业的学术研究,认识到比较方法的重要性,并且针对具体研究问题,厘清究竟要把谁和谁放在一起进行比较分析,是十分重要的。在此,我们利用一个简单例子加以说明。

日常生活中,很多人试图论证“读书无用论”,而通常的做法是收集有关“读书人”(高学历者)的失败案例。如,张三大学毕业后“混得很差”,李四研究生毕业后工作不如意,等等。只要去收集,这样的案例还真不少。然而,由于存在样本选择偏差——大量受过高等教育并且人生一帆风顺的人被故意忽视,这些案例其实是缺乏说服力的。


现在假设论证者变得更加“严谨”,真的拿到了一份某大学毕业生名单并进行了一番跟踪调查,这个论证就一下子变得严肃了,因为那些受过高等教育并且人生一帆风顺的人,即所谓的成功者也被纳入了样本。假设根据跟踪调查的统计结果,我们发现,在受过高等教育的人群中,成功者所占的比例确实要比失败者低。那么请问,这是否说明了“读书无用论”这个判断是正确的呢?答案依然是否定的,因为这仅表明,受过高等教育不代表会成功,甚至也不是成功的主要决定因素。
当然,在受过高等教育的人群中,若成功者所占的比例要比失败者高,则也未构成对“读书无用论”的有力反驳。这是因为,即使受过高等教育的人全部成为了成功者,由此也不能推断出,接受高等教育就是成功的原因。进行一个不太恰当的类比——

“吸烟者最后都死了”并不意味着“吸烟就是死亡的原因”。


那么,在论证“读书无用论”时,究竟哪些证据才构成有效证据呢?其实,若存在“虽然在受过高等教育的人群中成功者占比较高,但在未受过高等教育的人群中,成功者占比更高”这样的证据,就有一定的说服力了。不过我们要注意到,就此证据的说服力而言,在受过高等教育的人群中,成功者所占的比例是高还是低,其实并非关键。关键在于,该比例是否低于成功者在未受过高等教育的人群中所占的比例。这就要求我们不仅要调查大学毕业生,还要找到与这些毕业生同龄的未受过高等教育的人群来做比较分析。
概而言之,通常论证“读书无用论”的论据都不能有力支持其观点,原因是未对受过高等教育与未受过高等教育两类人群的情况进行比较。当缺乏这种比较时,高等教育的影响用计量经济学术语来讲就是“无法识别”的。需要指出的是,文末将提及,高等教育的影响还存在更为深入的“识别”问题。




 二、“无法识别”的数学含义 


我们可以用 OLS 估计公式来说明什么是“无法识别”。用自变量 代表受教育程度,其中表示未接受高等教育,表示受过高等教育;代表收入水平,以衡量一个人在事业上的成功度。接下来建立简单线性回归模型并进行OLS估计,结果为:
可以证明,截距等于未受高等教育者的平均收入;斜率等于受过高等教育者与未受过高等教育者的平均收入的差异,表示接受高等教育对收入的影响效应。现在我们来考察关于斜率估计系数的公式:

其中,代表变量的样本协方差,代表变量的样本方差。
如果我们获得了估计值,就相当于识别了接受高等教育对收入的影响。应该注意到,上述公式中分母不能为零,也就是说,上述公式的成立隐含了一个假定:不能为常数,该假定属于高斯马尔科夫系列假定之一。就本文案例而言,就是 不能恒为 0 或者 1。如果我们仅拥有受过高等教育者的样本信息,那么,该假定被违背。此时,,在数学上属于不定型,意味着的取值无法确定,而这正是高等教育对收入的影响“无法识别”的数学含义。




 三、“无法识别”的几何含义 


通常,我们会利用样本数据构建两个变量之间关系的散点图,以此来初步判断变量之间的关系。如果我们仅拥有受过高等教育者的样本信息,那么以是否受高等教育为横轴,收入水平为纵轴,关于样本数据的散点图就是一条垂线:
问题来了——垂线的斜率等于无穷大。那么,这是否意味着的影响效应是可以识别的,只不过影响为无穷大?当然不是!问题出在哪里?原来,虽然垂线“完美拟合”了样本数据,但其并不是根据OLS原理所获得的OLS拟合直线,故其斜率也就不能解释为变量的影响效应。
那么,何谓 OLS 拟合直线呢?实际上,若样本数据包括未受过高等教育与受过高等教育两类人群的信息,则 OLS 拟合直线必将穿过如下两个点:
第一个点:未受高等教育者的平均收入)
第二个点:受过高等教育者的平均收入)
换言之,OLS 拟合直线就是通过连接这两条垂线各自的中心位置而形成的。然而,当样本数据仅包括受过高等教育者的信息时,由于仅存在这一条垂线,相应地就只能确定 OLS 拟合直线上的一个点。我们通过两个点才能确定一条直线,因此 OLS 拟合直线是无法确定的。我们也可以说,OLS 拟合直线此时是穿过(受过高等教育者的平均收入)这一点的直线簇,其斜率不具有唯一性,而这正是高等教育对收入的影响“无法识别”的几何含义。




 四、结语 


认识到比较作为一种科学思维方法的重要性,并进一步厘清“与谁比较?”“如何进行公平比较?”这些问题,能让我们的思考变得更清晰。对于专业读者,本文的案例分析或许显得颇为简单。然而,很多专业人士一旦离开学术进入日常生活,甚至是在担任政策顾问的时候,就经常放弃了科学思维,以致得到事后自己看了都会大吃一惊的“荒谬”结论。
与“读书无用论”相似的例子在日常生活中比比皆是。比如下面这个例子——

我有一些亲戚长期吸烟,但都很长寿。因此,吸烟害处不大。

那么在那些不吸烟的亲戚中,长寿者是否更多呢?

对于本文的案例分析,为避免引起误解,我们还需简单地澄清一下。尽管根据本文的表述,若发现与受过高等教育的人群相比,在未受过高等教育的人群中,成功者所占比例更高,则“读书无用论”就获得了一定程度上的证据支持。但专业读者一定会注意到这种证据的重大瑕疵——在个人特征上,受过高等教育者与未受过高等教育者除了在受教育水平上存在差异,一般来说在其他方面也存在重要的差异。如果某些差异,比如家庭背景差异,既会影响个人是否接受高等教育,又会影响个人是否能够取得成功,那么为了正确识别出高等教育的影响,我们必须要对这些差异进行控制。从本质上看,这属于“如何进行公平比较”的问题。





企研学术顾问 · 耀军

姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。



►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

特别推荐丨老姚专栏:漫谈小样本问题

数据呈现丨轻松用 Seaborn 进行数据可视化

学术前沿丨大数据在劳动力市场研究中的应用与展望

学术前沿丨当计量经济学遭遇机器学习(四):高维回归之LASSO

数据呈现丨中文文本可视化:用 Python 轻松制作词云



数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:姚耀军推荐:杨奇明编辑:青酱




    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存