风笑天 | 调查结果如何误导我们的认识——以二孩生育意愿调查中的方法问题为例

风笑天湖南师大社科学报 2023-08-28

欢迎关注“湖南师大社科学报”

作者简介

风笑天

现为广西师范大学讲席教授、南京大学特聘教授，博士生导师；国家社会科学基金社会学评审组成员；曾任教育部社会学学科教学指导委员会第一届、第二届委员；中国社会学会常务理事等。主要研究领域为社会研究方法，青年社会学，家庭社会学，人口社会学，独生子女问题等。承担国家社科基金重大项目1项、重点项目1项、一般项目4项、教育部社科基金重大攻关项目1项、一般项目2项、国外基金项目2项、国际合作项目4项等。出版独著、合著、及主编、主译著作、教材30多部，参编20多部；在《中国社会科学》《社会学研究》《教育研究》《社会》《人口研究》等学术刊物上发表唯一作者和第一作者论文160余篇。

调查结果如何误导我们的认识——以二孩生育意愿调查中的方法问题为例

核心提示

结合现有二孩生育意愿的调查结果，从研究方法的角度，分析若干影响调查结果可靠性和准确性的因素后的研究表明，由于在调查对象、调查范围、样本规模、测量问题等方面的不同，同一主题的众多调查结果并不一定能给出确切的、一致的答案；对于非常分散的数据结果，平均值的价值会受到影响；调查中给出“没想好”的答案符合实际情况，但统计时需要对其进行调整处理；而测量指标的效度、调查关键变量及调查对象的界定，以及调查时间、调查对象、测量问题等因素之间的共同作用等，都会对调查结果的正确性产生较大的影响。

内容精选

社会调查是人们了解和认识各种社会现象、社会问题、社会状况的重要工具。现代社会调查方法也因其高效性、及时性、准确性等特征，不仅被广泛运用于社会科学各门学科的研究中，同时也为政府相关部门在社会管理、社会建设、社会政策制定等方面提供许多有价值的经验结果。然而，值得注意的是，由于社会现象所具有的复杂性，以及社会调查研究人员所拥有资源的有限性，现实生活中的许多社会调查在一些方面不可避免地存在这样那样的局限或不足。有些社会调查的结果甚至成为误导我们对社会现象认识的主要原因。因此，从调查方法的角度系统解析调查结果的局限和不足，对于提高社会调查的质量、防止调查结果误导人们的认识具有十分重要的意义。本文的目标，正是希望以笔者近期研究的二孩生育意愿问题为例，对与调查方法相关的一些问题进行探讨。

首先简要介绍一下本文所用的文献来源。笔者近期在探讨育龄人口二孩生育意愿问题时，对2014年实施“单独二孩”政策以来，学术界所发表的关于育龄人口二孩生育意愿的调查结果进行了系统的检索和收集。笔者采取的检索方法是：以论文“篇名”中包含“生育意愿”同时包含“二孩”或“两孩”为标准，检索的期刊为北大核心期刊和南大CSSCI来源期刊，论文发表的时间范围为2014年至2021年。通过检索，共得到83篇相关论文。“通过对这83篇论文逐一进行阅读，发现其中有20篇论文没有提供具体的二孩生育意愿调查结果（有的论文是文献综述，有的论文是一般性的理论分析，有的只是关注和探讨了影响二孩生育意愿的因素而没有报告二孩生育意愿的结果，还有的则是采用定性方法对少数个案的研究等等）。而报告了在‘单独两孩’‘全面两孩’政策实施后对各类对象进行抽样调查并得到二孩生育意愿具体结果的论文共有63篇。剔除其中一稿两投的论文1篇，最终得到62篇有具体调查结果的论文。”本文所用的资料和所分析的调查案例均来自这62篇论文。

一、众多调查结果就能给我们确切的答案吗

虽然学术界和政府相关部门一致认为，育龄人口的二孩生育意愿比较低。但究竟低到什么程度，学术界和相关政府部门并没有明确的认识和统一的看法。所以，对于探讨“目前育龄人口的二孩生育意愿状况究竟如何”这一问题，最有效的方法当然就是进行抽样调查。事实上，自“单独二孩“政策实施以来，学术界和政府相关部门也的确进行了大量的调查。仅笔者在北大核心期刊以及南大CSSCI期刊上检索得到的这方面论文就有62篇（如果加上非核心刊物上的论文，数量则会更多）。既然已经有了这么多专门的调查，那么，对于上述问题，这些调查结果能够给出确切的答案吗？众多调查给出的答案又是什么呢？下面先看看这62篇论文给出的调查结果（表1）：

显然，这些专门的生育意愿调查并没有给我们提供确切的、一致的结果。根据表1的统计，我们不仅不能得到二孩生育意愿是高是低的答案，甚至可能更加糊涂了。因为这62项调查所得到的育龄人口二孩生育意愿的比例从最低的11.4%到最高的88.7%，分布非常分散。各种不同的调查所得到的比例几乎覆盖了从10%到90%的宽广范围。显然，面对这样的调查结果，我们无法回答前述的中心问题。因为它们并没有告诉我们有关育龄人群二孩生育意愿的确切信息。虽然我们希望了解的具有二孩生育意愿的育龄人口的比例一定客观地存在于社会现实中，且一定是处于0%~100%的范围，但是如果说，现有的这62项调查的结果只是告诉我们，这一比例处于10%~90%的范围内，那它们基本上等于什么也没说。因为这样一种结果并没有给我们提供足够确切的答案。用统计的话说，这种比例的分布范围意味着答案的巨大模糊性和不确定性。这种状况给了我们一个重要的启示：现实中存在的大量社会调查结果并不一定能为我们提供了解社会现象的确切知识。

二、为什么不同的调查结果差别会那么大

从上述结果中引申出来的一个明显的问题是：为什么对同一个主题（比如二孩生育意愿）的调查结果会如此的不同？它们相互之间为什么会相差那么大？这是因为，现实中的各种社会调查，由于目的、时间、资源、条件，以及研究者的方法水平、研究经验等方面的不同，必然会在与调查方法、调查过程、调查结果相关的众多方面存在差别。其中，最为重要的方面包括调查的对象、调查的范围、抽样的方法、问卷中测量变量的具体问题、资料收集方法、数据统计及分析方法等。据笔者统计，这62项调查的结果之间之所以会有那么大差别，就是因为它们在上述的一些方面存在明显不同。从表2我们可以看到这些不同。

拿调查对象来说，对一孩育龄夫妇、一孩育龄女性的调查结果，一定会与对大学生、普通居民的调查结果有所不同。因为大学生年龄处于18~22岁之间，基本上还没有结婚，生育问题，特别是生不生二孩的问题离他们目前的生活还有些远，不像一孩育龄夫妇那样迫在眉睫；而对普通居民（15~60岁）中那些年龄在50岁以上的人来说，生育问题以及生不生二孩的问题则早已过时，他们虽然在调查中也会给出自己的答案，但实际上，这种答案并没有实质意义。因为“生育意愿调查中，对象的年龄是最重要因素，只有育龄人口、特别是35岁以下的青年育龄人口才是最恰当的调查对象”。这62篇论文中二孩生育意愿比例最高（88.7%）的那项调查，可以看成是调查对象影响调查结果的一个典型例子。这项调查的对象是“年龄在30岁及以上的二孩孕妇”，针对这种特殊的调查对象的调查结果出奇地高，因为都已经怀上二孩了，她们的二孩生育意愿还能不高吗？显然，如果用这一调查得出的结果去反映普通育龄人口的二孩生育意愿，就会偏高太多。但用这种接近90%的比例来描述年龄大于30岁的二孩孕妇的二孩生育意愿，不仅不高，甚至还可以更高一点。至于为什么是90%而不是100%，这或许是因为现实中的确有极少数夫妇是由于意外怀孕后才决定生二孩的，并非其原本的意愿，这个调查结果反映了这样一种现实。

调查范围的影响也很大。全国范围的调查与仅仅在市、区、县范围的调查所得结果很可能不同。而且，一般情况下，高质量的全国范围调查对总体具有最好的代表性。而越小范围的调查结果，即便质量也高，但对反映总体状况来说，产生偏差的可能性越大。因此，对来自不同调查范围的结果应有清醒的认识。

同理，在其他条件相同的情况下，样本规模越小的调查，其结果偏离总体现实的可能性越大。例如，一项调查的地点为一个仅有37万人口、“属传统农业地区”的小城市，调查的对象又是在该市的“热闹繁华地段”以偶遇方式“非随机”地抽取“流动的市民”得到的，样本中符合二孩生育政策的一孩育龄人口规模也仅222人。所有这些都使得这项调查所得到的二孩生育意愿结果的可靠性和价值大打折扣。类似的还有对沈阳市198位流动人口的调查、对承德市260位一孩育龄妇女的调查、对广东三个城市216位农村女青年的调查，等等，都会因为调查范围较小，特别是样本规模过小，导致它们所得到的调查结果可靠性偏低。即使是对它们各自调查范围中的对象总体来说，其结果也很难反映现实状况。而如果要用它们的结果来估计更大范围育龄人口总体的二孩生育意愿，偏差则会更大。

调查问卷中测量核心变量所用的具体问题不同，对调查结果的影响同样明显。对测量育龄人口的二孩生育意愿来说，最好的方式是直接询问诸如“是否想生育二孩”“是否打算生育二孩”这类问题。而采用其他方式，特别是采用“理想子女数”或者“假设条件下的意愿生育子女数”进行调查所得到的结果，往往不能很好反映育龄人口实际的二孩生育意愿。这也是不同调查得出不同结果的一个原因。

总之，由于“这些调查抽取的是不同规模的样本，采用的是不同的测量指标、调查的是不同类型的对象，得出的结果所回答的是有关不同地域、不同类型的育龄人群的二孩生育意愿。它们或许都在一定程度上反映着现实，但反映的却是属于不同范围、不同对象、具有不同可靠程度、不同准确程度、对育龄人口总体二孩生育意愿的代表性有大有小、有正有偏的现实”。

三、为什么不能用平均值来描述总体的二孩生育意愿

平均值是定量研究的统计分析中一种最基本的集中趋势描述工具，它常常用来反映一组调查数据的一般水平。对从总体上描述育龄人口二孩生育意愿来说，采用这62项调查结果的平均值似乎是一个很好的选择，特别是在众多的调查结果各不相同、前面表1又给出了这62项调查的平均值的情况下。那么，我们是否可以直接用这一平均值来反映育龄人口二孩生育意愿的整体状况呢？

回答是否定的，即我们不能简单地相信这一定量分析的结果。之所以不能用这一平均值来反映育龄人口总体的二孩生育意愿，主要有以下两个方面的原因。一方面，平均值具有意义的一个重要前提，是用来计算平均值的这组数据的离散程度很小，即分布比较集中。而从表1可以看到，这62项调查结果的分布范围非常宽泛（覆盖了10%~90%的范围），说明这些调查结果的离散程度很大。正是由于这组数据的分布范围太广、太不集中，导致从这些调查结果统计中所得到的平均值并没有多大的代表性，即这种平均值对反映总体的情况来说，价值并不大。特别是类似11.4%、88.7%这样的极端结果，更会对平均值的代表性产生严重影响。另一方面，由于这些调查不仅在调查对象、调查范围等方面不相同，而且在研究者的调查方法水平、实地调查经验、可用于调查的资源等方面也各不相同。这些不同必将导致不同调查的质量有高有低。质量高的调查，其结果就相对可靠；质量低的调查，其结果就不太可靠，它们对现实状况的反映就会产生偏差。还有的调查代表性相对较大，而有的调查的代表性则相对较小。因此，对这些质量参差不齐、结果有偏有正的调查数据“一视同仁”地看待，将它们毫无保留地都纳入进来进行统计计算，并不是一种科学的方式，这样做所得出的平均值的质量也不会高。总之，这种简单计量的统计分析有时并不能有效反映现实。

在不能采用平均值进行描述的情况下，一条可行的思路是，先从研究方法的角度，对现有调查结果进行甄别、筛选，即先去伪存真。剔除掉质量低的、偏差大的、代表性小的，然后逐步从杂乱无章的结果中，有根有据地走向相对正确、更加接近客观现实的调查结果。笔者在探讨二孩生育意愿的研究中，正是通过这种筛选，使62篇论文最终只剩下了一半，即31篇。经过分析，这31篇质量相对较高的调查结果所揭示出的育龄人口总体二孩生育意愿的比例，既没有低到20%以下，也没有高到80%以上，同时也不是表1中平均值所揭示的45%左右，而是处于50%~60%的中等范围。下面几个与调查方法相关的问题，正是笔者在这种甄别、筛选的过程中所遇到的。

四、为什么要对调查结果中的二孩生育意愿比例进行调整

从表1可以看到，除了按调查给出的比例进行统计的“论文数量”结果外，右边还有一列“调整后的论文数量”分布结果。这里的问题是：为什么在统计二孩生育意愿数据结果时，要对调查得到的比例进行调整？笔者又是如何进行调整的？为什么调整后的数据结果比原结果更为科学？这里涉及一个调查中常见的但同时也是十分重要的方法问题，即如何处理“没想好”或“不确定”这类答案的问题。“没想好”究竟意味着什么？该如何处理？

在关于二孩生育意愿的调查中，问卷设计主要有两种类型：一种是仅仅给出“有二孩生育意愿（或打算生育二孩）”和“没有二孩生育意愿（或不打算生育二孩）”两种答案的两分法。另一种是给出三项答案，即在上述两种答案之外，再增加第三个答案“没想好（或不确定）”的三分法。而这62项调查给出的二孩生育意愿结果中，有些是两分法的结果，有些是三分法的结果。即有的调查得到的是诸如“28%有生二孩意愿”“72%没有生二孩意愿”；而另一些调查得到的则是诸如“28%有生二孩意愿”“52%没有生二孩意愿”“20%没想好”这样的结果。在这种情况下，两种“28%有生二孩意愿”的调查结果一样吗？哪一种更科学、更接近客观现实呢？

笔者认为，对本文探讨的二孩生育意愿问题来说，三分法的设计更为科学，二分法的方式则不够科学。因为在现实中，被调查者在被问到“是否愿意生育第二个孩子”的问题时，并不是只有“愿意生二孩”或者“不愿意生二孩”两种状况。他们中一定会有一部分人因为这样或那样的原因而处于犹豫不决的状态，他们面对“生不生二孩“的问题，的确是“还没想好”或“还不确定”。所以，在调查问卷中列出这一项答案，可以较好地反映这部分人的真实状况，较好地区分出这一类人，而不至于将他们强行划分到另外两类中。

但是，在调查结果中报告二孩生育意愿的比例时，我们又不能简单地将这一类人排除在外，只统计和报告那些明确表示“生二孩”的人及其比例。因为这样统计和得出的二孩生育意愿的比例也是不够科学的。从实际情况来看，这些调查时回答“还没想好”“还不确定”的人，将来终究是要变成“生育二孩”和“不生育二孩”这二者之一的。“还没想好”“还不确定”虽然是调查时的一种正常情况，但同时又只是一种暂时的情况。所以，统计二孩生育意愿时不能将这一部分人排除在外，而是要对这一部分“还没想好”（还不确定）的比例进行统一的调整处理。

这种调整处理依据的逻辑是：虽然目前“还没想好”“还不确定”的人将来生育或不生育二孩是一种未知的情况，但现在应该尽可能利用调查结果去估计和反映这种未知的情况。一种比较合理的方式是按目前“生二孩”和“不生二孩”的比例来进行估计，即假定目前“还没想好”“还没确定”的这部分人中，将来最终生育和不生育二孩的比例，与目前回答“生育二孩”与“不生育二孩”的比例相同。因此调整的方法是：将调查中回答“还没想好”的人，按照回答“愿意生育二孩”和“不愿意生育二孩”的比例进行分割，并将分割的比例分别添加到二者的比例中，形成最终的比例。例如，假设一项调查得出结果为：回答“生育二孩”的人占28%，回答“不生育二孩”的人占52%，而20%的人回答“没有想好”，那么，将这20%的人，按目前28%生二孩与52%不生二孩的比例进行分割，并分配到二者中去。这样，实际有二孩生育意愿的比例就不应该是28%，而应该是35%（即28%+20%*28/80=28%+7%=35%），而没有二孩生育意愿的比例也不应该是52%，而应该是65%（即52%+20%*52/80=52%+13%=65%）。这样计算出来的比例或许更接近未来的现实。

当然，如果一项调查的目的主要是为了反映当前育龄人口二孩生育意愿的现状，那么采用“有多大比例的人明确表示希望生两个孩子、多大比例的人明确表示不生育两个孩子、多大比例的人目前处于犹豫状态”的结果统计和报告方式是合适的，即分别计算出并报告“打算生二孩”“不打算生二孩”以及“没想好”三种回答的比例。如果调查目的是希望用调查结果来估计育龄人口总体中二孩生育意愿的可能比例，则最好是对原始结果进行上述调整。

五、为什么同一套调查数据会得出不同的结果

这62项调查中，有相当一部分是对流动人口的二孩生育意愿进行研究的，其中好几项研究甚至都采用了同一套调查数据，比如都采用2016年全国流动人口卫生计生动态监测调查数据。但是，令人感到奇怪的是，这些采用同一套调查数据进行的研究，所得出的流动育龄人口二孩生育意愿的结果却不相同，有的甚至差距明显。比如，有的研究得出流动人口有二孩生育意愿的比例很低，只有22.6%；但也有的研究得出的比例却达到42.7%，二者之间差距明显。

正常情况下，不同研究者使用同一套数据，用来回答同一个问题，不应该出现多种不一样的结果。那么，是什么原因导致出现上述现象呢？笔者阅读相关论文后发现这种结果差别的存在，是由于不同研究者对某些关键变量的界定不同，导致对调查数据的取舍不同。

比如，对于“有二孩生育意愿的流动人口”这一关键变量，有的研究者将其界定为“现有一孩育龄流动人口中那些有二孩生育意愿的人”；有的研究者则界定为“在婚的或已育有一孩的育龄流动人口中有二孩生育意愿的人”；还有些则将其界定为“在婚的或已育一孩的育龄流动人口中那些有二孩生育意愿的人，以及那些已生育二孩的人”。第一种界定的结果是研究者仅统计了这一数据中“一孩育龄流动人口”的数据；第二种界定的结果则是在第一种界定的基础上增加了“已婚未育育龄流动人口”的数据。由于二者的界定不同，所得结果一定会有所不同。实际上，前者得到的比例是24.3%，后者得到的比例则是22.6%，二者之间有一定的差别。而第三种界定则是在第二种界定的基础上进一步增加了“已生育二孩的育龄流动人口”的数据，这一增加导致其结果与前两者明显不同，且比前两者所得到的二孩生育意愿的比例更高，第三种界定得到的结果为42.7%。这种增加已生育二孩人口的统计结果比不纳入已生育二孩人口的前两种统计结果足足高出了20%左右。这是一个十分重要的发现，它说明，即使使用同一个数据，是否纳入已生育二孩的人口，会极大地影响统计结果。如果仅仅以“一孩育龄人口”为对象，排除已生育二孩的人口，那么，得出的二孩生育意愿的比例就相对较低；如果加上已生育二孩者，所得结果的比例就会明显增加。因此，从这一发现可以进一步推论出，“目前仅对一孩育龄人口进行调查（即将已生育二孩者排除在外）所得到的调查结果，实际上都低估了育龄人口整体的二孩生育意愿”。这正是表1结果中即使对“还没确定”“还没想好”的结果调整处理后，仍有60%的调查结果呈现二孩生育意愿比例低于50%的一个重要原因。

对关键变量界定不同导致结果不一致的例子还有对“育龄人口”的界定。在二孩生育意愿调查中，“育龄人口”是最经常使用的调查对象。但是，不同研究者所界定的、所使用的“育龄人口”在年龄范围上并不一致。除了常见的15~49岁外，一些调查中还分别将其界定为14~52岁、16~49岁、18~49岁、19~49岁、20~49岁、22~49岁、20~40岁、20~45岁、20~46岁、15~50岁、18~50岁、19~50岁、24~45岁等等。因此，即使其他条件都一样，这些对不同年龄范围的“育龄人口”的二孩生育意愿调查，也不可能得出相同的结果。调查结果表明，对20~40岁、20~45岁、24~45岁这些相对集中于生育高峰年龄的“育龄人口”的调查，其比例就会比较高；而对诸如14~52岁、15~50岁这样更为宽泛年龄范围的“育龄人口”的调查结果，其比例则会比较低。

与此相关的还有调查对象的年龄界定与相应的二孩生育意愿比例的实际价值问题。虽然生育意愿调查的对象通常是15~49岁育龄人口或育龄妇女，但真正对二孩生育结果有实际效果、有直接影响的主要是年龄在40岁以下的已婚育龄女性，特别是在20~35岁生育高峰年龄的女性。而年龄在40~49岁的育龄女性，以及15~19岁尚未结婚的育龄女性，虽然从纯粹生理的角度来看，她们的确属于育龄人口，并且对调查中“是否愿意/打算生育二孩”的问题，她们会给出回答，但这种回答的价值和意义其实并不大。因为40~49岁的育龄妇女大多不会再去生育；而15~19岁的未婚女性尚未进入婚姻，具体生几个孩子的问题对她们来说相对较远，所以她们的回答与实际的生育行为之间可能存在着较大的距离。正如上面的分析显示的，当所调查的育龄女性的年龄范围越大，所得到的二孩生育意愿的比例往往越低。而所调查的育龄女性的年龄范围越集中在生育高峰年龄，所得到的二孩生育意愿的比例就会相对越高。

六、什么样的测量问题是有效度的问题

核心变量的测量是社会调查中最为重要同时也最为困难的环节之一。调查问卷中研究者使用不同的测量问题，其效度有所不同。对二孩生育意愿这个核心变量来说，前述表2中展示了几种不同的测量问题。其中，“理想子女数”和“假设条件下的意愿生育子女数”是两个效度比较差的测量问题。在二孩政策已经放开的现实条件下，一般应该直接采用“有无生育二孩的意愿”“是否打算生育二孩”“是否打算再生一个孩子”这样测量效度较高的问题。否则，调查结果会严重偏离现实情况，也会严重误导我们的认识。

比如，一项以“理想子女数”为测量问题的调查，得出的二孩生育意愿比例高达81%。如果认为育龄人口真有如此高的二孩生育意愿，那就大错特错了。因为这项调查所得到的最多只是育龄人口对理想的生育状况的一种看法、一种认识或者一种观点，而不是他们对想要生几个孩子的实际意愿、期望或者打算。5篇采用2015年CGSS调查数据的论文，所得出的二孩生育意愿的比例基本上在77%左右，这些数据也同样是明显偏高的。导致数据偏高的原因也是因为问卷中的测量问题采用的是“如果没有政策限制的话，您希望有几个孩子”这样的“假设条件下的意愿生育子女数”问题。当然，该调查之所以采用这种问题，是由于2015年实行的还是“单独二孩”政策，因此众多“双非夫妇”当时还不符合生育政策的要求，即还受到生育政策的限制。正是考虑到这一实际情况，CGSS调查才采用了“假设条件下的意愿生育子女数”来对育龄人口的二孩生育意愿进行测量。这种不得已的测量方式与“理想子女数”一样，都不是生育意愿最有效的测量方式，所以其所得到的结果自然就会出现较大的偏差。

由于与“理想子女数”相比，“打算生育子女数在受到社会经济影响的同时，还将更多地受制于本人及其家庭的各种现实条件，因而将更加接近实际的生育子女数”。所以，在二孩政策完全放开的情况下，用“打算生育子女数”显然要比用“理想生育子女数”“假设条件下的意愿生育子女数”要好，甚至也比“希望生育子女数”更接近实际生育行为。但是，对不同的调查对象来说，“打算生育子女数”也不一定就是完美无缺的，在某些情况下它也不一定比“希望生育子女数”的测量效果更好。

比如，2017年国家卫计委组织开展的“全国生育状况调查”是一项质量非常高的全国性调查。这项调查从样本设计、问卷设计、样本抽取、调查队伍组织、调查员培训，以及资料收集方法和数据整理，都非常规范，因而调查质量非常高。对于二孩生育意愿的测量，这项调查采用的是“你打算生育几个孩子”，在二孩生育完全放开的条件下，这种提问似乎并无不妥。但是，当我们仔细思考一下该调查的调查对象时，可能就会有不同的看法。与常见的一些生育意愿调查一样，该调查的调查对象也是更为普遍的“15~49岁的育龄女性”，而不是相对集中的“一孩育龄女性”。应该意识到，这些育龄女性中，不同年龄段的人情况是很不一样的。她们有的已婚，有的还未婚；有的已育，有的还未育；有的生了一个孩子，有的则已经生了两个甚至更多的孩子；有的早已参加工作，有的还在中学读书。那么，这一调查所使用的“你打算生几个孩子”的问题最为适用的对象，主要是育龄女性中的“已婚育龄女性”。而对样本中那些尚未结婚的，特别是还在读中学的女性来说，“你打算生育几个孩子”这种过于现实、过于直接的提问似乎尚早，因为她们目前关心的可能还只是如何考大学或如何找男朋友，以及找什么样的男朋友等问题。此时直接询问她们的生育打算，她们虽然也会回答，但可能因为问题距现实较遥远而导致回答具有较大的随意性。如果对这部分人改为询问“你希望将来结婚后生几个孩子”或者“你将来结婚后想生育几个孩子”这类问题，情况可能会稍好一些。尽管此时她们回答的“希望”或者“想”生育的子女数目，可能会与她们将来实际“打算”生育的子女数目有所不同，但却有可能更好地反映这些未婚女性目前在生育意愿方面的真实想法。

当然，一项调查的问卷设计会受到众多因素的影响和制约，这就要求问卷的问题不能太多，问卷的篇幅不能太长，问卷的结构不能太复杂，等等。因此可能设计的问题很难兼顾不同类型被调查对象的特点。这里对2017年调查问题的讨论只是想说明问题提法与调查对象的关系。如果考虑到调查问卷的整体情况，或许也只能采用“打算生二孩”的提问方式了。

七、导致这些调查结果产生明显偏差的原因是什么

从表1的结果可以看到，大部分调查（占比为73%）得出的二孩生育意愿的比例处于20%~60%之间。前面相关分析已经指出，比例高于80%的两项结果分别是因为测量问题不科学，以及调查对象极其特殊（已怀二孩的孕妇）；比例为70%~79%的5项结果（即采用CGSS数据的论文）是因为测量问题不恰当；而考察比例处于60%~69%的4项结果，是由于抽样方法不科学或者没有报告调查方法。这也就是说，比例高于60%的11项结果都存在方法上的问题。那么，比例低于20%的6项调查结果又存在哪些造成偏差的原因呢？笔者考察发现，除一项是调查方法不清楚外，另外5项调查结果分别存在一些与方法相关的原因。

其中有3项调查得出二孩生育意愿比例明显偏低，是调查的对象、调查的时间以及询问的问题等多种因素共同作用的结果。比如，一项调查得出19.3%的结果，其调查的时间是“单独二孩”政策时期的2015年，而调查对象年龄在18~35岁，包括“原京籍人口、迁入型京籍人口及非京籍人口三类人群”的育龄人口，问卷中的调查问题则是“是否准备生二孩”。由于在这一调查时间内，被调查对象中存在大量不符合当时“单独二孩”生育政策的“双非夫妇”，而对这些不符合政策的被调查对象来说，“是否准备生育二孩”显然又是一个不切实际、很不合适的调查问题。正是这三种因素所构成的特定背景，使该调查得出的比例偏低处在情理之中。

另一篇二孩生育意愿比例为14.1%的论文，同样受到调查时间、调查对象与调查方式三种因素的共同影响。该调查的时间为2014年，即“与单独二孩政策出台和实施的时间相隔很近,有些省份在调查时政策尚未‘落地’”，加上“调查的组织实施者是卫生计生部门的工作人员,故受访者对生育意愿问题的回答可能会有一定的戒防心理,从而使数据中反映出来的生育意愿偏低”。另外，在调查对象中，有高达85.2%的夫妇是不符合当时“单独二孩”政策条件的“双非夫妇”。对如此高比例的对象询问“是否打算再生育一个孩子”这种不符合现实条件的问题，且他们又是在卫生计生部门工作人员的面前回答，这就是导致该调查所得结果比例偏低的重要原因。

还有一篇二孩生育意愿比例为17.4%的论文，也是由于调查时间与调查问题的共同影响造成的。该调查是在“单独二孩”政策提出半年、在该省落地刚刚三个月的时间进行的。问卷询问的是“你是否打算生育二孩”这样确定性很强的生育决策问题，因此调查效果并不太好。因为有一些人或许是想生育二孩的，但在政策刚刚开始实施阶段，他们可能还在思考、在商量、在讨论，还来不及做出明确的生育二孩的决定。所以，当面对这样的问题时，他们可能会选择“没想清楚”的答案（调查结果表明，有21.2%的育龄人口回答“没想清楚”）。研究者在文中也指出：“由于问卷调查中，所设问题是‘您是否打算生育二孩’，询问的是二孩生育安排，有部分人不一定有明确的生育时间表，但明确回答不要二孩的比重会接近真实意愿。可以认为没有明确回答不要二孩的，都有较强的二孩生育倾向，占比在40%左右。”这也就是说，育龄人口实际的二孩生育意愿比例应该是调查得到的20%左右加上回答“没想清楚”、实际倾向于生二孩的20%左右。从这里也可以看出，调查时间与调查问题对调查结果的巨大影响。

另两篇二孩生育意愿比例分别为16%和11.4%的论文，产生偏差的原因则主要是研究者对关键变量的不恰当界定。例如，一篇研究中，研究者“将二孩生育意愿归纳为被调查者在未来12月内打算生育或已经怀孕的情况”。显然，这种界定方式无疑会降低育龄人口实际的二孩生育意愿比例。因为在一孩育龄人口中，既有人打算在一年内生育二孩，也一定有人打算在一年后或者两年后甚至三五年后再生育二孩。这就是说，实际上想生育二孩的人，一定比那些打算在一年内就生育或已经怀上二孩的人要多。所以，研究者根据这种界定方式得出的二孩生育意愿一定是偏低的。另一篇论文中，研究者一方面不恰当地“将‘还没想好’看作不打算生育”二孩，另一方面又不恰当地“把‘已经怀孕’的剔除在外”。正是研究者对“有二孩生育意愿的人”的这两种不恰当的界定方式，导致其调查所得到的二孩生育意愿的比例明显偏低。因为那些回答“还没想好”“还不确定”的人，绝不会都是不生育二孩的，他们中一定有后来决定并且实际生育二孩的。至于那些“已经怀孕”的人，更是已经用行动践行了生育二孩。把这两部分本该属于有二孩生育意愿的人都排除在外，必然会大大降低育龄人口二孩生育意愿的比例。

最后需要说明的是，本文的目的并非给现有的调查挑毛病，而是希望以笔者在研究中所接触到的部分调查为例，来揭示调查方法在运用中容易出现的问题，以及如何正确分析和看待不同的调查结果，以避免一些错误的、有系统偏差的、缺乏代表性的调查结果误导我们对相关现象的认识。

文献引用格式

风笑天.调查结果如何误导我们的认识——以二孩生育意愿调查中的方法问题为例[J].湖南师范大学社会科学学报,2022,51(01):41-49.

本文刊发于《湖南师范大学社会科学学报》2022年第1期社会学研究方法栏目。参考文献从略。

欢迎投稿

《湖南师范大学社会科学学报》

http://hnss.cbpt.cnki.net

《湖南师范大学社会科学学报》

国家社会科学基金资助期刊

中文社会科学引文索引（CSSCl）来源期刊

国家期刊奖百种重点期刊

全国中文核心期刊

中国人文社会科学核心期刊

全国高校社科名刊

主编：李培超

副主编：尹金凤

本文责编：尹金凤

编辑部电话：0731-88872471

微信公众号编辑：李淑

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

风笑天 | 调查结果如何误导我们的认识——以二孩生育意愿调查中的方法问题为例

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

生成图片，分享到微信朋友圈

风笑天 | 调查结果如何误导我们的认识——以二孩生育意愿调查中的方法问题为例

您可能也对以下帖子感兴趣