其他

【原创】对王小鲁灰色收入估算的质疑

2018-04-18 罗楚亮岳希明李实 中国经济学人

罗楚亮   

(北京师范大学经济管理学院)

岳希明  

 (中国人民大学财金学院)

李实

(北京师范大学经济管理学院)

 

[内容提要]本文从认为王小鲁对灰色收入的推算过程存在着较为严重的缺陷,主要表现在以下几个方面:(1)利用恩格尔系数匹配推算收入的做法缺乏稳健的方法论基础;(2)所采用的数据搜集方式并不能解决他所指出的统计局数据失真问题;(3)根据其推算的分组收入所得到的收入差距以及两个年份的收入差距变动缺乏合理的解释。(4)对灰色收入的推算缺乏合理的逻辑基础。

JEL分类号:O150;C803;C890



1. 究竟要解决什么问题?


在经济转型过程中,我国居民收入差距不断上升,从而引发了人们对于收入差距走势的关注,也使得人们更为关注真实的收入分配特征。而对居民收入分配特征的描述基本上都是建立在住户抽样调查基础上。在这方面,国家统计局开展的较大规模的全国居民收支调查及其获取的数据为我们了解我国居民收入水平,收入增长及其收入分配基本情况提供了必要的基础信息。然而,这项调查面临着越来越多的挑战,其中一个很重要的挑战是调查的居民收入出现了一定程度的低估问题,在城镇调查样本中这一问题尤为明显。出现这个问题的原因一是调查样本中高收入样本比例严重偏低,这是由于这个人群不愿参加调查导致的;二是样本中高收入样本户低报自己的收入,造成了调查收入低于真实收入。这两个问题不仅受到了学术界的关注, 也得到了国家统计局调查部门的认同(王有捐,2010;施发启,2010)。应该说,这并不是中国所特有的问题,而在大多数国家的住户调查中都不同程度地存在着这个问题,如Banerjee and Piketty(2003)专门讨论印度住户调查中高收入人群收入低估的问题;Mistiaen and Ravallion(2003)对美国住户调查中高收入人群不愿意配合调查带来的收入和收入差距的低估问题进行讨论。


在看到问题的同时,在如何解决这个问题上,不同的学者提出了不同的方法。如世界银行专家Martin Ravallion(2010)提出了通过获取不愿意参与调查的人员比例来对样本偏差进行修正的方法;李实、罗楚亮提出了利用媒体公布的富人榜和其它途径收集到的高收入人群的收入信息对高收入人群收入低估问题加以修正。而在社会上引起强烈反应的则是王小鲁的两篇文章(王小鲁,2007,2010)。在这两篇文章中,他利用了自己收集的两次住户调查数据,使用匹配恩格尔系数的办法,将自己收集的抽样数据与国家统计局公布的不同收入组的收入水平进行比较,进而认为国家统计局公布的人均收入水平和收入差距都存在非常严重的低估,并将低估的收入称之为“灰色收入”或“隐性收入”。根据他的估计,这部分收入规模相当庞大,2005年为4.8万亿,2008年为9.3万亿(相对于城乡住户收入统计)或5.4万亿(相对于经济普查结果)。如果按照王小鲁对不同收入组收入水平的修正结果,城镇收入分配的不均等也更为严重。


从王小鲁使用的数据和采取的方法来看,他只是试图解决国家统计局住户样本中高收入人群收入低报问题,而对调查样本中高收入人群样本代表性不足问题并没有涉及。也就是说,如果考虑到后一种情况带来的收入低估问题,那么所谓的“灰色收入”或“隐性收入”就会更大,也许大到了让人难以置信的程度(1)。面对这些超出人们常识的估计结果,让人不得不理性地对待这些结果的合理性。(2)我们不得不问:我们在多大程度上能够相信这些估计结果?这些结果是建立在可靠的调查数据、坚实的方法论基础之上吗?王小鲁的推算方式是否可行?推算结果是否可靠?


带着上述问题,我们对王小鲁所发表的两篇论文进行了细致研究和分析。经过多次讨论和论证,我们既发现了其推算过程中的一些缺陷,也产生了一些需要验证的质疑。我们认为王小鲁的推算过程存在着较为严重的缺陷,主要表现在以下几个方面:(1)利用恩格尔系数匹配推算收入的做法缺乏稳健的方法论基础(3);(2)所采用的数据搜集方式并不能解决他所指出的统计局数据失真问题;(3)根据其推算的分组收入所得到的收入差距以及两个年份的收入差距变动缺乏合理的解释。(4)对灰色收入的推算缺乏合理的逻辑基础(4)。下面我们对将这四个问题加以细致说明,同时也提出许多有待进一步验证的疑问。

 

2. 从恩格尔系数可以反推收入吗?


在王小鲁的推算中,恩格尔定律是其重要的方法论基础。所谓恩格尔定律,指的是随着人们收入水平的上升,食品支出在总消费支出比重不断下降的趋势。王小鲁把恩格尔定律表示成一种函数关系e=f(y),并且根据e (如恩格尔系数) 的大小来预测y(如收入)的取值。对于这种做法,一般说来,应当在估计结果显示 y对e具有较高的解释程度,并假定其他因素保持不变才是可行的。在通常情形下,基于微观数据的回归分析所得到的R2是比较低的,也就是说所选用的解释变量通常只具有非常低的解释力度,而在这种情形下,人们并不追求特定解释变量所具有的预测能力,所强调的是特定解释变量对被解释变量的偏效应,即在假定其他条件不变时,某个解释变量的变化会对被解释变量造成多大的影响。而在王小鲁模型法的估计结果中可以看到,所选择变量对于恩格尔系数的解释力度通常都是非常低的。



即便撇开模型化的解释力度,王小鲁利用恩格尔系数来推断收入的做法还是不恰当的。我们根据收入分配课题组收集的2007年城镇住户调查数据,分别计算了按照人均收入划分不同收入组的恩格尔系数和人均收入水平(见表1)。在匹配推算结果中,我们采用了王小鲁的估计方法,将全部样本人群按照收入水平从低到高排序,然后计算累计人群的恩格尔系数,选择最先接近对应收入组的恩格尔系数对应的个人收入作为新的分组切断点,再计算对应的人均收入水平。如果王小鲁的推算方法是可行的,那么在同一数据中,按照这种匹配推算方式得到的人均收入应该与原始数据中所得各组人均收入是基本相同的。但表1的结果并不支持这一结论。匹配推算得到的人均收入与原始数据直接分组得到的人均收入之间可能存在比较大的差异性,差异率最高达到16%;并且偏差的方向、偏差的程度也没有规律性的特征。


尽管在高收入组中收入低报的问题可能会更严重,然而如果撇开样本中收入最高的20%人群,在中低收入组中,根据恩格尔系数匹配所产生的人均收入与原始数据中的人均收入偏差依然存在,并且在中上收入组中达到12.6%。值得指出的是,在通过累计恩格尔系数匹配推算最高收入组的人均收入水平时,通常会造成该组收入的低估。因为很可能不需要使用最高收入人群即可使得最高收入组中的恩格尔系数实现匹配。如在表1中,未使用收入最高的1667个样本即已经使得恩格尔系数实现匹配,这会降低最高收入组的人均收入水平。


如果利用两组不同的数据,采取王小鲁的方法又会出现什么结果呢?对此,我们使用了收入分配课题组收集的2007年城镇住户调查的两个省份(江苏和甘肃)住户数据,分别计算了他们各自的十等分组中每组的恩格尔系数和人均收入,从中可以比较两个省城镇居民的收入与恩格尔系数之间的关系。如表2所示,除了最低收入组合最高收入组外,其他8个收入组中,江苏城镇居民的恩格尔系数都要高于甘肃,而前者的人均收入比后者高出近一倍。如果按照恩格尔系数匹配的方法,从估算的结果得出的结论则是荒谬的:如果假定江苏的收入信息是可信的,那么甘肃城镇居民收入会被认为低估一倍;而如果认为甘肃的收入信息是可靠,那么江苏城镇居民收入会被认为高估一倍。



从方法论来说,王小鲁的推算方法从一开始就陷入了一种悖论。他不相信国家统计局住户调查数据的真实性,但是又要与这类数据进行比较,那么与一种不真实的数据进行比较又有何意义?为了回避这个悖论,他不得不假设国家统计局的住户调查数据只是收入被低报了,而消费及消费分项指标是准确的。即使这些消费指标有低报的问题,他又假设至少总消费支出与食品消费支出的低报幅度是等比例的。对于这类假设又有多大的合理性呢?这意味着,王小鲁实际上是在假设被调查户按照他的研究需要在低报收入和消费支出,而不是去考虑这些调查户在接受调查时真实行为方式。

 

1. 王小鲁的调查方法更可取吗?


为了克服国家统计局收入调查中所存在的两类偏差,王小鲁采取了选择专业调查人员调查具有信任关系的调查对象,并对被调查户做出保密承诺的方式。在所发表的研究报告中,他还指出采取了“若干辅助措施保障调查数据的真实性”,然而对具体哪些“辅助措施”、如何剔除“信息真实性值得怀疑的问卷”缺乏详细的说明。从中可以看出,王小鲁似乎采用的是使用一套与国家统计局不同的住户调查数据的方式来检验国家统计局收入数据的真实性。如果这种检验是成立的,必须要求王小鲁的调查方法能够解决国家统计局收入调查数据失真的两个原因。


尽管在王小鲁的数据中,我们可以看到存在某些收入水平非常高的样本,但王小鲁并没有给出这些高收入样本所对应的就业特征和家庭特征,也就不能利用被调查者的就业和家庭特征对家庭收入进行反向验证,这至少会对结果的可靠性带来某些风险。


从调查方法来看,王小鲁的数据搜集方式与国家统计局并没有实质性的差异,特别是其保障数据真实性的手段与国家统计局的调查方法并无二致,在实践中也不能避免国家统计局住户调查中所存在的问题。


首先看调查人员。王小鲁声称其调查人员是专业的。这里存在如何理解“专业”的问题。从生活经验来看,“专业”通常有两个构成要素,一是从业之前接受过系统的专门训练;二是长期从事特定的工作。据笔者所知,王小鲁的调查是由调查公司来组织的。从形式上看,调查公司是专门从事调查业务的,然而在目前的调查公司行业中,调查公司所保有的通常只是管理人员和市场督导,总体上并没有形成稳定的调查员队伍。调查公司通常都根据承接的项目任务,向社会招聘调查员,大多为学生兼职,也有部分常年从事调查的社会人士。尽管招聘过程中通常会对学历等做出相应的规定,但这并不意味着能保证接受过与调查相关的系统、专门训练。事实上,从现有教育体系的专业设置而言,目前并没有类似的专门训练,而调查前的培训通常只针对调查问卷本身的理解而言的。从这个意义上说,调查人员的专业性并不能保障。在从业经历方面,调查公司的调查员通常也是不稳定的。所以从这两方面来看,并没有充分的证据表明王小鲁所依赖的调查员就一定会更加专业,至少不能说比国家统计局的调查员更专业。


调查数据是否真实可信,不仅取决于调查员是否专业,还取决于调查员的职业道德和对调查员的约束。尽管人们常常怀疑统计部门中可能存在造假行为,但值得注意的是,这种可能性并不仅仅存在于统计部门之中,也存在于其他调查机构。并且,调查公司通常只需要满足客户的特定要求。例如在王小鲁本次研究中,如果调查公司明确了其研究目的在于研究高收入人群的遗漏问题,那么调查组织以及调查员通常会为有意识地采取某些特殊手段以实现这一目标。

其次关于调查员与调查对象之间的信任关系。在王小鲁的研究中,调查户的选择是通过调查员找亲戚朋友等方式获得的,因此调查员与被调查对象之间非常熟悉。对此,我们有两点评论。第一,国家统计局住户调查的组织实施在很大程度上是依赖于基层统计机构和辅助调查员来实现的,他们通常与小区中的住户有较为密切的联系。相比而言,我们还看不出王小鲁利用信任关系获取调查资料的做法有多么的先进。第二,调查员与被调查对象之间的信任关系并不能够保证数据的真实性。已有评论文章对王小鲁的调查方法提出质疑,认为调查员与被调查对象非常熟悉并不利于灰色收入信息的搜集。虽然对这种质疑的声音,我们无法给予充分的认同,但是从我们所看到的研究文献来说,也无法肯定王小鲁的调查方法是更可取的。从中国人的生活经验来说,在收入调查中假定在朋友面前会如实地填报其真实收入,特别是其灰色收入,似乎并不恰当。

第三关于保密承诺。相对于国家统计局的住户调查,王小鲁的数据保密承诺也没有特别之处。原则上说,国家统计局住户调查的保密性要求是以法令的形式明确的,调查过程中,相关人员也会向被调查者告知法律上对双方的约束。我们并不知道王小鲁通过何种方式可以降低被调查对象的保密性顾虑。而另一方面,我们也可以认为,商业调查公司也更可能因为利润动机而泄露被调查者的个人信息。


据说王小鲁的住户调查采取了无记名的方式。这在增强保密性的同时也带来了如何有效地监督调查员的问题。调查问卷采取无记名的方式,意味着对于所搜集得到的信息无法通过回访等方式进行查核验证。这或许能够增加被调查者说真话的可能性,但同时也增加了调查员造假的可能性。


第四,王小鲁在说明其数据的真实性时,还强调了调查问卷设计方面的考虑,即先问支出再问收入、询问收入的大类。而国家统计局的住户调查采取的是记账方式,即要求被调查户以流水账的形式记录每天所发生的收入和支出。对于这两种数据搜集方式,各有优缺点,但并不能据此证明哪种方式所得到的数据更为准确。在笔者所参加的住户调查项目中,2007年9省份城镇住户调查由于没有记帐数据,对住户收入采取了现场询问的方式,这与王小鲁的收入调查方式相同,不同分位点上的收入水平如图1中RUMIC曲线所示;此外,我们还获得了这9个省份5000份城镇住户调查的记帐收入数据,不同分位点上的收入水平入图1中的NBS曲线所示。可以看到,两条曲线是非常接近的。这就是说,这两种收入调查方式并不一定导致收入水平的巨大差异,其本身也并不足以哪种方式所得到的收入数据更为准确。



从对收入的分类构成来看,王小鲁的调查与国家统计局所公布的收入构成也没有明显的不同。值得注意的是,王小鲁在给出总收入的分布特征的同时,并没有给出各分项收入的结构特征。我们也就无从得知王小鲁所得到的统计局收入低估的问题究竟发生在哪些收入分项上。


最后一个问题是,典型调查的方式是否恰当?王小鲁在文中提到了费孝通的社会学研究方式,以此来回应调查不具有代表性和调查样本量过小的问题。这里牵涉到一个方法论上的问题。在研究中,确实存在利用典型调查或者解剖麻雀的方式来考察总体特征。但这种以个案代替总体的研究方式之所以是合适的,必须满足一个前提条件:所有的个体都是相同的。因为所有的麻雀具有相同的生理结构,所以解剖一只即可。但如果这种条件不满足,如果麻雀长得都不一样,采取解剖麻雀的方式就未必合适。在“灰色收入”问题中也是如此,我们不能假定所有人都具有相同的灰色收入、或相同的获取灰色收入的机会。面对灰色收入,人与人是不一样的。在这种意义上,通过个案研究,人们只能够推断某种现象是存在的,但不能将此简单地推广到所有的人群。例如医生在某个人身上发现某种癌细胞,但并不能据此推断所有的人身上必然存在这种毒瘤,所能下的结论只能是,人类可能受到了这种毒瘤的威胁。

 

1. 如何看待王小鲁的推算结果对收入差距测算结果的影响?


王小鲁推算灰色收入的重要目的之一在于推算收入分布的不均等程度。在两个年份的研究报告中,他都按照恩格尔系数推算了相应收入组的收入水平,如表3所示。根据表3的结果,他讨论了最高与最低收入组人群收入相差的倍数。然而,对于收入分配,基尼系数是更为常用的测量指标。在表3的最后一行,我们根据收入组对应的权重以及所给出的各组收入均值,推算了不同年份、不同收入数据来源的基尼系数。由于这种推算方式事实上只考虑了收入组之间的差距,而忽略了收入组内部的不均等,因此推算的收入差距会有低估的问题。如利用这一推算方法,根据统计局收入得到的2005年和2008年的基尼系数分别为0.3280和0.3284,国家统计局公布的2005年城镇居民收入基尼系数为0.34,我们根据分组收入加权得到的基尼系数要低1个百分点左右。然而,根据王小鲁推算的不同收入组的人均收入水平,2005年和2008年的基尼系数分别为0.539和0.516。这一估计结果有两点值得注意,一是在两个年份中,按照王小鲁推算收入得到的城镇基尼系数下降了2.3个百分点;二是不均等的程度要大大高于按照统计局收入计算的结果。



对于第一点,我们应当注意,根据国家统计局收入得到的基尼系数略有上升,按照基尼系数根据收入来源分解的基本原则,这意味着低报的灰色收入分布是有利于低收入人群,从而产生了非常强烈的均等化效应,以至于使得总体基尼系数下降了2.3个百分点。对于这一变化特征,王小鲁的报告中没有给出合理的解释。当然,从行文来看,他也没有注意到推断的基尼系数的如此变化特征。


两个年份中基尼系数的这种变化特征显然是由于王小鲁推算收入与国家统计局收入之间的差额造成的,按照王小鲁原报告中的理解,这部分收入即为所谓的“灰色收入”。各收入组中灰色收入的分布特征改变导致了收入差距的下降,这意味着低收入人群中的灰色收入增长将高于高收入人群。图2计算了各收入组“灰色收入”的增长率(7),有意思的是,最低收入组中的“灰色收入”增长率是最高的(6),从2005年的242元上升到了2008年的931元,增长了2.8倍。而在中上收入组、中下收入组以及低收入组中,“灰色收入”甚至为负。我们认为,两个年份数据所显示的这种“灰色收入”增长特征难以从现实世界的实际状况中获得合理的解释。



1. 何谓“灰色收入”?


即使假定王小鲁的推算方法没有问题(当然仅仅是假定),我们也无法理解他将收入低估的部分转换为“灰色收入”所依据的逻辑基础。众所周知,收入调查中被调查人低报自己的收入的原因是多种多样的。处于怕露富的心理,由于记忆的误差,考虑到保护隐私的需要,被调查人都会在不同程度上低报自己的收入。当然也不排除一些灰色收入或非法收入获得者会有意地瞒报自己的收入。在王小鲁的调查中并没有对合法和非法或灰色收入作为不同收入来源向被调查人提问,也没有相关的信息来确定一个被调查人获得了多少所谓的灰色收入,而是按照自己的逻辑加以推断灰色收入的规模。他的逻辑是把所有低报的收入都算作为“灰色收入”。(5)不难看出,这样一个逻辑是过于简单化了。

 

2. 总结性评论


应当承认,王小鲁对灰色收入的研究触及了我国收入分配格局中一些隐蔽的、而又具有强烈社会反应的问题。但本文认为王小鲁对灰色收入的推算方法及其得出的一些推算结果仍存有比较严重的缺陷。除了前文所讨论的问题以外,还存在一些其它本文未提及的但可能影响到结论可靠性的因素,例如在王小鲁利用恩格尔系数匹配法推算收入的前提是消费支出或者至少是食品消费在总消费支出中所占份额比收入数据更具有可信度,而他也未曾给出消费数据的相关信息,也未给出消费支出与收入之间的相关信息。这些交待不周也会影响到人们对其数据质量以及研究结果的信心。


需要说明的是,尽管我们认为王小鲁的推算方式和推算结果存在着比较严重的缺陷,但这并不意味着我们试图否认住户收入调查中所存在的问题。事实上,我们认为王小鲁所指出的现行收入统计中的两个缺陷确实是存在的,我们的分歧仅在于,对他目前所采取的推算方式不认可,而且认为其推算结果也缺乏合理的解释。撇开其学术研究方法上的严谨性,从王小鲁推算结果所具有的社会影响来看,社会公众对收入分配的基本态度以及对收入分配秩序改革的期待已经成为当今社会所必须正视的问题。

 


参考文献

Banerjee, Abhijit V. and Piketty, Thomas, 2003, Top Indian Incomes, 1956-2000, MIT Department of Economics Working Paper No. 03-32.

李实、罗楚亮,2010,“中国收入差距究竟有多大?”,《经济研究》第4期。

Mistiaen, Johan A. & Ravallion, Martin, 2003. "Survey compliance and the distribution of income," Policy Research Working Paper Series 2956, The World Bank.

M. Ravallion,2010,“Survey Non-response and the Distribution of Income”, 2010年10月22-23日中国社会科学院主办的“中国社会科学论坛(2010年·经济学)后金融危机时代的社会保障与人力资源发展”上发言稿。

施发启,2010,《也评王小鲁博士的<灰色收入与国民收入分配>》http://www.stats.gov.cn/tjfx/grgd/ t20100825_402667408.htm.

王小鲁,2007,《我国的灰色收入与居民收入差距》,《比较》第31辑。

王小鲁,2010,《灰色收入与国民收入分配》,《比较》第48辑

王有捐,2010,《也谈居民收入的统计与调查方法》http://www.stats.gov.cn/tjfx/grgd/t20100824_402667008.htm

 




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存