查看原文
其他

王思琦 李雪 | 编码领导干部: 简历数据收集与整理中的问题及方法

王思琦 李雪 公共管理评论 2024-02-05

编码领导干部:简历数据收集与

整理中的问题及方法

王思琦 李雪

(西南交通大学)


文参考:王思琦、李雪.2022.编码领导干部:简历数据收集与整理中的问题及方法[J]. 公共管理评论,4(4):网络首发


【编者按】为提高学术成果的传播效率,凡《公共管理评论》录用的文章,将在本刊知网主页和公众号网络首发。有转载需求的公众号请联系本公号开白名单。



摘要

干部晋升与精英选拔既是党和国家政治生活领域的重要问题,也是中国政治学与公共管理学研究领域的一项核心议题。近年来,晋升领域中的众多实证研究将领导干部简历作为数据来源。如何从不同渠道获取目标简历? 如何有效地提取变量并编码? 如何解决编码中常见的细节问题? 对此有必要进行系统性的讨论。因此,针对这一基础的方法论问题,本文基于自身的研究经验,结合相关文献和官员数据库,对简历数据收集、整理与编码进行了系统性的讨论,以期在一定程度上为干部晋升研究以及其他使用简历数据的研究提供一种方法论意义上的指南。


关键词

党政领导干部;简历信息;数据整理;变量编码



投稿时间:2022/4/1

送外审时间:2022/4/2

首轮外审完成时间:2022/5/13

录用时间:2022/7/6



一、引言


干部晋升与精英选拔不仅是党和国家政治生活领域的重要问题,也是中国政治学与公共管理学研究领域的核心议题之一。在这一背景下,领导干部简历成为众多研究的数据来源。许多学者以此为基础,对不同行政层级领导干部的群体特征和政治晋升等方面展开了颇多研究。


县级层面上,陈硕等(2019)、Gao(2017)、许彬(2017)等基于县委书记的简历分析,探究了县委书记的个人特质、能力、关系和职业经历等方面对其晋升速度与空间的影响;地级市层面上,祁凡骅和卢湘枚(2018) 通过使用 GDP 百强市市长简历数据,总结了我国地级市市长的任用规律;省级层面上,杨竺松等(2021)对省委常委进行分析,实证研究了中国共产党干部选任的能力导向;中央层面上,我国正部级领导干部的学习、专业与其晋升的关系也得到了探究与讨论(汤俊等, 2015)。可见,党政领导干部的研究离不开简历数据的使用。一份完整的领导干部简历包含个人基本特征、受教育经历和工作经历等信息,在一定程度上解决了党政体制内部领导干部选拔任用无法直接观察的问题,为中国精英选拔领域的实证分析开拓了渠道,对中国政治学和公共管理学的学术研究发挥了至关重要的作用,具有独特的方法优势。


那么,从何种渠道获得目标简历信息? 如何合理地编码和使用领导干部的简历? 如何解决编码过程中常见的简历信息缺失、简历内容模糊等问题? 鲜有研究对此做出系统性讨论。因此,本文基于研究经验,结合学界既有文献和已公布的官员数据库,对编码领导干部尝试进行总结与思考。简历数据使用的基本步骤是收集、整理与编码,即获取目标简历、基于简历信息提取变量并编码,最终形成可供实证分析的数据库。本文总结了党政领导干部简历获取的常见渠道及其优缺点;在自身研究经验和既有文献的基础上,对相关变量的编码方式进行了示例性的介绍;并且对编码中可能出现的问题进行了分析。出于简单化和研究基础的考虑,本文对简历数据的整理与编码主要以干部晋升研究为例。实际上,党政领导干部的简历数据可以应用于广泛的研究领域。


本文的主要贡献在于,对简历数据的使用方法进行了系统性讨论,在一定程度上为党政领导干部晋升及其他使用简历数据的研究提供方法论意义上的借鉴与指南。具体如下。第一,基于对简历获取渠道、变量提取及编码的总结与讨论,本文针对简历数据使用中的常见问题提出了尝试性的解决办法。例如,在无法通过政府网站和搜索平台获得目标简历的情况下,试图通过资料记载和定向联系等多种途径获取;针对简历中关键信息的缺失,尝试寻找相似变量加以替代;对于简历内容的模糊,可以通过寻找目标对象其他相关资料加以验证;在变量界定和测量无法建立统一标准的前提下,需要针对特定情境做出特定的编码。第二,本文在既有实证研究的基础上,基于初次编码和二次编码的逻辑,提出了晋升领域在未来可能加以研究的变量,如复合型专业院校、复合型专业背景等。第三,本文在已公布的官员数据库基础上,进一步丰富了变量种类及其编码方式。本文创建的数据库一共包含变量 98个,采用二分、定序和数值等编码方式,在一定程度上有利于拓展晋升领域的研究范围。因此,本文希望能够起到抛砖引玉的作用,吸引更多学者对简历数据的使用方法加以补充和完善,最终形成更加细致的方法论体系。


二、简历的获取与结构特征


(一)目标简历的获取与收集


简历的获取是进行编码、整理和分析的前提。在大数据时代和信息公开的背景下,获取党政领导干部简历的渠道会更加多样、便捷,但同时也需要经过仔细的核查与补充,否则会出现信息遗漏与缺失。因此,有必要了解简历的搜集渠道及其特征,以便选择合适的方式,避免耗费更多人力和时间精力。基于研究经验,结合相关文献,本文归纳了七种获取党政领导干部简历的常见渠道,并分析了其优缺点和适用特征。


第一,在政府门户网站逐一查找目标简历。该渠道适用于查找从县到中央各个层级党政领导干部的简历。其优点在于信息完整度较高,信息具有真实性、可靠性和针对性;缺点在于不适合获取数量较多的简历,否则需要不断切换政府网站,增加研究者的工作量。此外,政府门户网站一般只包含现任的党政领导干部信息,不利于展开历史性研究。


第二,通过各大官方权威网站进行查询。现有研究涉及的权威网站包括人民网(http:/ / www. people. com. cn / )、 新 华 网 ( http:/ / xinhuanet. com / )、 中 国 经 济 网(http:/ / www. ce. cn / )等。该渠道的优点在于,国家授权的官方平台信息具有真实性和可靠性。网站内部整合了各个层级(部门)党政领导干部的简历,基本可以达到“一站解决”的效果。例如,人民网中的“地方领导资料库”包含了各个省、直辖市和地级市的党政一把手信息。然而,该渠道有两个可能存在的缺点:一是简历信息不完整、更新不及时,需要通过其他渠道补充和验证;二是缺少副职领导干部和各个部门领导干部的信息,不利于围绕副职和各党政部门展开研究。


第三,在相关的学术网站中查询。例如,由卡内基国际和平基金会( Carnegie Endowment for International Peace)维护和运营的“中国名人录” (China Vitae)公布了超过 5000 位中国政府、政治、军事和教育等领域官员的传记信息,追踪了大约 500 名中国主要官员的职业履历。其目标在于创建一个集中的信息存储库,让世界各国政府、学术界更好地了解中国政治精英的背景、互动和决策环境。该渠道的优点是便于搜索,并且有利于英文研究;通过与渠道二的对比发现,其缺点在于信息完整度较低,仅包含了党政领导干部重要职业节点的信息,并且存在信息有误的可能性。


第四,借鉴和使用已有研究公布的数据。例如,CCP Elite Database(Lee,2016)、CPED(Jiang,2018)、CCER Official Dataset(姚洋等,2020)、中山大学岭南学院地方官员数据库(徐现祥,2013)和地级市市委书记市长数据库(陈硕,2016)等。这些数据库可以直接作为后续研究的数据来源,或者在此基础上根据需要扩展变量。其缺点在于这些数据是被整理之后的,留给研究者可灵活操作的空间较小。


第五,根据《中国城市统计年鉴》中的党政领导干部花名册,在百度百科等网站中进行搜索。该渠道的优点在于能够帮助研究者获得更多附加的信息,比如历任的领导干部和地区的社会经济状况。缺点在于可能需要投入较多的时间和人力成本。


第六,查阅历史资料和个人传记。该渠道可以对部分党政领导干部的缺失信息进行补充。但是,记载性资料覆盖的对象相对较少,可能更加适用于获取级别较高、有特殊经历或者作出较大贡献的党政领导干部的简历。


第七,利用百度百科等网站搜索。利用网站搜索主要作为其他渠道的补充,对个别党政领导干部的信息有针对性地搜索查询。其优点在于能够较快地获得研究所需要的关键信息,缺点在于无法保证信息的规范性和准确性。


以上是获取与收集党政领导干部简历数据的常见渠道,其优缺点的比较如表 1所示。



(二)简历的结构特征


了解简历的结构是为了更充分地对简历数据加以使用。一般来说,一份完整的党政领导干部简历包含个人基本特征、教育背景和工作经历等主要信息。常见的结构特征如表 2 所示。



为了更形象地说明简历的结构特征,本文在“地方人民政府资料库”中下载了一份党政领导干部的简历作为示例。图 1 分别用三种线条标注了简历信息的三个部分:粗线方框代表该领导干部的个人基本特征,椭圆形边框代表教育背景,细线方框代表部分工作经历。



具体来看,个人基本特征层面,通过简历可以得知该领导干部的性别、民族、出生年月、籍贯、入党时间和参加工作的时间。教育背景层面,得知其最高学历为硕士,最终毕业院校为天津大学,并且是 985 高校;第一学历是本科,就读于河北大学;本科毕业后先参加工作,在工作过程中取得硕士学位,属于在职教育;此外,可以看到该领导干部有党校教育的背景。在专业背景上,其本科就读专业为化学,属于理科;硕士专业为工业工程,属于工科。最后,通过细线方框圈出的部分工作经历发现,该领导干部有共青团工作经历、市委宣传部部长的职务经历和正厅级的行政级别经历;并且曾在国企担任董事长等最高职务。此外,根据时间点的变动可以推断出其每段工作经历的时间长度。


三、简历变量的提取与编码


获取简历之后,需要提取相关变量并编码形成可供实证分析的数据库。该数据库多以 EXCEL 表格的形式呈现。简历数据的编码具有两层含义:一是收集原始数据过程的初次编码;二是针对原始数据,应用到分析中的二次编码。基于研究经验,结合相关文献和学界已公布的官员数据库,本文将从初次编码和二次编码两个层次分别对简历结构三个方面的变量及其编码做示例性的介绍。


(一)个人基本特征变量编码


党政领导干部简历上所呈现的个人基本信息比较有限。常见的个人基本特征主要有任职的省政区、地市级政区、姓名、性别、民族、出生年月、籍贯、参加工作的时间、加入党派的时间、是否为工程师、是否为经济师等,以及实证研究通常使用的变量,如年龄、工龄、党龄等。


1. 初次编码


根据原始数据可以进行初次编码的信息包括:省政区名称、地市级政区名称、姓名、性别、民族、出生年月、籍贯、参加工作的时间、加入党派的时间、是否为工程师、是否为经济师。


性别,编码为二分变量(0 和 1),男性= 1、女性= 0,或者相反。民族,一般划分为汉族和少数民族,编码为二分变量,汉族= 1、少数民族 = 0,或者相反;如研究需要,也可将全部民族分别编码。是否为工程师和是否为经济师,为二分变量,是 = 1、否 = 0。本文截取了 EXCEL 数据库的一部分作为示例,如图 2 所示。



2. 二次编码


在原始数据的基础上,需要二次编码的变量包括:年龄、工龄和党龄。以年龄为例,初次编码的数据已包含领导干部的出生年份,在二次编码中,通过计算形成年龄变量。目前学界普遍采取的方法有两个:第一,使用目标对象的实际年龄(林蓉蓉,2019),即“当下年份 -出生年份”;第二,使用目标对象的晋升年龄( 杨竺松等,2021),即“晋升的年份-出生年份”。此外,为了便于实证分析,任职政区和籍贯一般也会进行二次编码。CPED (Jiang,2018)、中山大学岭南学院地方官员数据库(徐现祥,2013)和地级市市委书记市长数据库(陈硕,2016)等通过设置政区代码的方式对各政区进行二次编码。例如,河北省的代码为“13”,石家庄市的代码为“130100”。具体的编码方式见表 3。



(二)教育背景变量编码


近年来,以学历水平为代表的教育背景成为党政领导干部选拔任用的重要因素(Chai et al. ,2020)。简历中包含的教育背景变量较多,学者们通常根据需要选择不同的变量,编码方式也不尽相同。变量和编码都是服务于研究的需要,并无优劣之分。本文所涉及的变量及其编码方式更多起到示例性的作用,并非领域内的通用标准。


1. 初次编码


为了更直观地了解教育背景变量及其编码,本文将相关的教育信息大致归纳整合为学历、院校和专业三个层面。


(1)学历


在初次编码环节,学历层面可能包括的变量有最高学历、第一学历、参加工作前的学历、进入体制前的学历、进入党政部门前的学历、在职最高学历、非在职最高学历等。学历主要用来体现党政领导干部受教育的层次。因此,在现有的文献和数据库中多以定序的方式编码。


①“参加工作”指脱离学校学习状态,参加任何形式的工作,若博士毕业先做博士后,就从博士后时间算起。

②“体制”在本文泛指财政拨款的企事业单位和党政部门。

③“党政部门”指具体的公务员系统,即党政领导干部的公务员生涯。


过勇和卢文超(2018)对最高学历的编码方式为:本科= 1,硕士= 2,博士= 3。在学历水涨船高和在职教育盛行的背景下,党政领导干部的最高学历基本在本科以上,因此可以将本科作为起点。若使用其他领域的目标简历,相应地降低起点即可。例如,高中及以下= 1,专科= 2,本科= 3,硕士= 4,博士= 5。


第一学历如大专学历、函授本科学历、党校大学学历、全日制大学本科学历等,侧重于捕捉党政领导干部在首次接受高等教育上存在的差异。工作前的学历、进入体制前的学历和进入党政部门前的学历,有利于更加细致地分析学习的影响效应,在未来的研究中可能逐渐涉及。本文认为可以将其作为后续研究的解释变量,编码方式可以为:高中及以下= 1,专科= 2,本科= 3,硕士= 4,博士= 5。


CCER Official Dataset(姚洋等,2020)设置了“在职最高学历”和“非在职最高学历”变量,编码方式为:无在职/ 非在职学历= 0,在职/ 非在职本科= 1,在职/ 非在职硕士= 2,在职/ 非在职博士= 3。具体的变量及其编码方式如表 4 所示。除此之外,研究者还可以根据需要将学历变量设置为二分形式。例如,宋冉和陈广汉(2016)使用的变量是“市委书记是否为研究生学历”,编码方式为:是= 1,否= 0。



(2)毕业院校


毕业院校能够体现党政领导干部在接受不同层次教育(大学本科、硕士研究生、博士研究生)时所取得学位的院校特征。可以得到的变量有本科毕业院校、硕士毕业院校、博士毕业院校,或者最高学历毕业院校、第一学历毕业院校、在职最高学历毕业院校、非在职最高学历毕业院校等。毕业院校层次的编码方式一般有两种:一是按照学校的层次形成数值变量,例如,普通高校= 1,211 高校= 2,985 高校= 3,海外高校= 4。二是形成二分变量,例如,是否为重点高校(吴芸, 2012)、是否为 211 / 985高校、是否为省属高校、是否为“双一流”高校等。具体的变量及其编码方式如表 5所示。


(3)专业背景


专业背景在初次编码环节可以包括的变量如下:本科专业、硕士专业、博士专业、在职最高学历专业、非在职最高学历专业等。有关专业背景的编码,学界呈现出多种不同的方式。杨芸榕和李洪涛(2022)将其划分为人文社会科学和自然科学两大类,其中,人文社会科学 = 1,自然科学 = 0。陈硕(2016)在地级市领导干部数据库中将专业背景分为五类,分别是人文、社科、理工、农科和医科,并且均设为二分变量,是= 1,否= 0。杨竺松等(2021)采取定序的方式将专业背景编码为:理 = 1,工 =2,农= 3,医= 4,文= 5,经= 6,管= 7,不详= 8。


除此之外,本文认为还可以采取以下两种方式,以更好地突出党政领导干部的专业背景。第一,按照国家学科专业目录划分,分别为:哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、管理学、军事学。第二,按照学科性质形成四个类别,分别为:人文(文学、教育学、历史学)、社科(法学、经济学、哲学、管理学)、理工(理学、工学、军事学)、自然科学(农学、医学)。其编码形式可以根据研究需要设置为数值变量或二分变量。如表 6 所示。



除学历、院校和专业之外,从原始简历信息中可直接获得的变量还包括:是否为党校教育、是否有留学经历、是否为在职教育等。这些均可视为二分变量,编码方式为:是=1,否= 0。


2.二次编码


部分教育背景变量如受教育年限、复合型毕业院校、复合型专业背景等,需要在原始数据的基础上进行二次编码,才可应用到实证分析中。受教育年限,其假设是“一般而言接受不同层次的教育程度的所需年限”。陈硕等(2019)、杨芸榕和李洪涛(2022)设初中学历为 9 年、高中及中专学历为12 年、大专学历为15 年、本科学历为16 年、研究生学历(硕士)为 19 年、研究生学历(博士)为 22 年。


复合型院校和复合型专业背景主要针对至少有两段高等教育经历的样本。从目前和未来的趋势来看,这部分样本将越来越多。因此,对复合型院校和复合型专业也需要加以重视。在原始数据基础上可以形成的二分变量包括:本硕/ 本硕博的院校均为 211 / 985 / 省属高校/ “双一流”高校、本硕/ 本硕博专业均为人文社科/ 理工科、本硕/ 本硕博专业是否一致。或者根据专业变化形成定序变量:全是人文社科 =1,全是理工科= 2,人文社科到理工科 = 3,理工科到人文社科 = 4。具体的变量及其编码方式如表 7 所示。



(三)工作经历变量编码


基于研究经验和现有的文献、数据库,本文归纳的工作经历变量有以下类别:某种经历(共青团、省级、一把手等)(Kou and Tsai,2014;Pang et al. ,2018)、部门数量与变动次数(杜兴强等, 2012;潘娜和丁智聃, 2021)、担任职务级别(杨竺松等,2021)、任职时长(Bian et al. ,2001)、晋升情况(刘佳等,2012;Wu and Cao,2021)等。本文所列举的变量及其编码方式仅仅是一种示例,如何选择与使用差异化的工作经历变量,需要基于研究目的和理论框架加以确定。


1. 初次编码


可以在收集原始数据的过程中进行初次编码的变量包括:是否有过某种经历、部门数量与变动次数、晋升结果。


(1)是否有过某种经历


是否有过某种经历包含部门、职务和行政层级的任职经历。一般情况下编码为二分变量。例如,是否有过共青团经历,编码方式为:是 = 1,否 = 0。更多的变量见表 8。



(2)部门数量与变动次数


部门数量是对任职各类型部门的衡量,如任职地区数、任职政府部门数。变动次数意味着工作经历中职务、岗位的变动与转换,如职务变动次数、工作部门变动次数、党政部门与非党政部门的更替次数。如表 9 所示。需要说明的是,党政领导干部的简历大多详略不同,并且兼任多个职务。因此,本文建议在测量部门数量和职务变动情况时,以党政领导干部的核心部门和核心职务为主。一般而言,位于每一任职阶段最前端的是核心部门和核心职务,后面为兼任部门和职务。



(3)晋升结果


晋升结果体现了党政领导干部某一阶段任期结束后的政治流动情况(Kostka and Yu,2015;Jia et al. ,2015),如晋升、调职、退休、不当行为解雇、降职和死亡(Landry,2017)。既有研究中有关晋升结果的变量更多为“是否得到了晋升”。其中,晋升= 1,其他情况均视为 0(Zuo,2015);或者,晋升= 1,平级调动 = 0,其他情况 =-1(陶然等,2010)。不同行政级别的党政领导干部,尤其是主政官员,晋升、平级调动和降职的标准不尽相同。学界既有文献对此也有明确的定义与标准。如表 10所示。



本文发现,既有研究认为省长调任至省委书记属于晋升,地级市和县级市层面亦是如此。这说明党的一把手和政府一把手虽然属于同一行政级别,但两者分别代表了不同类型的领导力,两种类型领导的任命涉及不同的参与者和程序( Zuo,2015),其实际权力和地位也有所不同。学界虽然关注到了这种差异,但少有研究对其进行单独分析。以地级市的主政官员为例,本文认为,晋升至市委书记职位和晋升至市长职位体现了不同的晋升高度。因此,可以将市委书记和市长职位单独作为一个因变量纳入晋升分析的框架,变量命名为“晋升职位”,其编码方式为:市委书记 = 1,市长= 0。这样处理有利于体现党政之间的差异,以及党和政府对领导干部选拔任用的不同标准。此外,能够体现高度差异的变量还有正副职、不同级别城市和不同区域的城市,编码方式为:正职= 1,副职= 0;副省级城市 = 1,一般地级市 = 0;东部地区城市= 1,西部地区城市= 0。


2.二次编码


在工作经历变量中,可以通过二次编码形成的变量包括:职务级别、任职时长、晋升速度、政治联系等。


(1)职务级别和任职时长


职务级别为领导干部担任职务所对应的行政层级,适用于党政部门内部和体制内其他单位。更多的变量及其编码方式如表 11 所示。任职时长是对党政领导干部在某一地区、某一行政层级、某一部门或某一职务任职时间的测量,为数值变量( >0或= 0),一般由两个时间点相减得出。例如,“共青团任职的时间”的计算方式为:结束共青团任职的时间-开始共青团任职的时间。



(2)晋升速度


晋升速度代表党政领导干部晋升到某一职位所用的时间,一般通过晋升时长的倒数来表示。晋升时长为首次担任晋升后职位的年份与参加工作的年份之差,测量公式为“V= 1 / T = 1 / (T1-T2)”。其中 V 表示晋升速度,T 表示晋升时长,T1 和 T2 分别表示首次担任晋升职位的年份和参加工作的年份( Lin, 2012;王贤彬和徐现祥,2014;潘娜和丁智聃,2021)。这一测量方式在后来的研究中被广泛采用。此外,在党政领导干部不同的职业生涯阶段,晋升速度可能存在差异。一般情况下,职业生涯早期的晋升速度比职业生涯后期更快。例如,“从基层到正厅局级”与“从正厅局级到正省部级”相比,前者所用的时间可能更少。这是由中国科层制金字塔式的组织结构而决定的,级别越高,晋升的空间越小,晋升速度随之变慢。


(3)是否拥有政治联系


党政领导干部是否拥有某种特殊的政治联系是关于中国政治精英文献的关注重点。政治联系在很大程度上是工作经历的延伸,对其的判断可以采取如下两种方式。第一,通过工作经历加以判断。比如团委干部的经历有助于领导干部在累积人脉资源和年龄上取得优势,使其可能会得到更快的提拔( Li,2005;Kou and Tsai,2014);有秘书经历的领导干部可能会因为和上级的密切关系而获得更多的政治资源(Li, 2002;Mulvenon and Chase, 2003)。因此,基于是否具有团委干部经历和是否具有秘书经历来判断其是否具有某种政治联系。第二,通过与上级的同质性(Opper et al. ,2015)加以判断。与上级领导有老乡、校友关系,或者曾经共同在某一地区、部门等任职(Opper et al. ,2015;Fisman et al. ,2018),可能会形成某种特殊的社会关系,从而影响政治晋升。因此,籍贯、出生地、毕业院校、工作部门等是判断党政领导干部是否具有某种特殊政治联系的重要变量。


由于党政领导干部简历包含的信息有限,很多基于姻亲、朋友等而存在的政治联系可能无法通过简历判断。若对政治联系做深入的分析,仅仅依靠简历数据难以实现,可能需要通过私下访谈或者查阅相关的资料报道进行个案研究。


(四)不同编码方式的影响


一个变量具有多种编码方式,不同的编码方式可能会产生不同的影响,或者出现不同的解释。


以变量受教育程度为例,现有研究的编码主要集中在两个方面,分别是学历类别和受教育年限。学历类别是一种离散型的编码方式,比如“初中 = 1,高中(包括中专)= 2,大专= 3,本科= 4,硕士= 5,博士 = 6”;受教育年限指接受不同层次教育程度所需要的时间,比如“初中= 9,高中(包括中专)= 12,大专 = 15,本科 = 16,硕士 = 19,博士= 22”。在干部晋升的研究中,前者可能得出的结论是:受教育水平越高,晋升的空间越大,高学历的领导干部往往更具有晋升优势(林蓉蓉, 2019);后者在得到相同结论的基础上,还可能得出更细致的结论,即受教育年限每增加 1 年,晋升所耗时间减少 0. 63 年。由此发现,两种方式相比较而言,受教育年限的编码方式在实证研究中会得到更加具体的结论。


此外,研究者可以根据研究需要,在二次编码过程中通过加减乘除产生与理论解释相匹配的新变量。变量的类型、数量、精细程度和编码方式都需要基于研究框架做灵活性的调整。此外,本文认为编码最好进行交叉验证,不同的人按照同一标准分别进行编码,判断得到的结果是否一致,以保证编码的科学性和准确性。


四、码过程中的常见问题及解决方法


编码是对简历信息进行量化的过程。由于简历完整度及呈现方式参差不齐,编码过程中难免会遇到各种各样的问题。本文基于自身研究经验,以实际的简历信息为例,对编码过程中可能遇到的部分复杂问题进行分析,并试图介绍具有参考意义的解决方法。


1. 目标简历及信息缺失


简历信息缺失是编码中较为常见的问题之一,具体表现为:(1)找不到目标对象的简历;(2)简历中缺失部分关键信息。例如,只显示在 xxx 学校学习,而不显示专业;部分党政领导干部简历中科级及以下职位不显示。由于简历本身的局限性,数据可能无法达到最完美的状态。因此,在建立电子化数据库之后,一般会通过描述性统计分析来获取数据的质量指标,如数据缺失率、异常值以及缺失值的时间空间分布特征等(陈硕和高琳,2012),然后剔除关键变量和参数所对应的异常值(聂辉华等,2012)。如果数据分布特征在可接受的范围内(缺失值和异常值较少),那么,该数据对研究将不会产生较大的影响。


对于缺失信息较多的情况,研究者可以根据异常值的时间和空间分布特征,有针对性地查找与分析。若通过其他途径仍然无法补充缺失信息,可以借鉴以下办法加以解决。(1)通过留言或定向邮件等方式获取缺失的目标简历。由于研究对象的特殊性,该方法可能更适用于研究人员通过官方渠道来获取其所在地党政领导干部的简历信息。但是,对于非现任领导干部,尤其是任期在很久以前的研究对象,可能难以实行。(2) 通过寻找替代变量来解决简历信息不足导致的系统性缺失数据(missing data)问题。例如,在党政领导干部实际绩效难以衡量的情况下,有研究认为挂职经历和基层工作经历代表了领导干部所接受的历练,能够在一定程度上反映其职业能力。因此,挂职经历和基层工作经历被用来代替职业能力(陈硕等,2019)。


2. 工作经历内容模糊


党政领导干部公开简历信息中关于工作经历的表述不具体,这种现象较为常见。比如,一个时间段内有多段任职经历,难以区分各段任职经历的具体时间、对应级别等。内容的模糊性不利于变量的提取、界定和编码。例如:


1997 年参加工作,曾任河北四建公司副经理,河北建工集团有限责任公司纪委书记,河北建工集团有限责任公司纪委书记、党委副书记、工会主席,河北旅游投资集团股份有限公司董事长、党委书记;2019 年 4 月,任职河北省机关事务管理局局长;2021 年3 月,任职河北省唐山市委副书记、市长。


上述信息未包括从 1997 年到 2019 年每段工作经历的具体起止时间。通过既有的信息推断,我们可以界定的变量包括:有过国企工作经历、任职国有企业的时间为22 年、担任过所任部门的最高职务等。但是,每一段经历所对应的具体起止时间和具体级别无法从既有的信息中获得。又如:


曾任国务院国资委直属机关团委书记(副处级),国务院国资委直属机关团委书记(正处级),国务院国资委直属机关党委办公室主任,中办调研室一组正处长级干部、副巡视员,中办调研室综合调研组副组长(副局长级),河北省发展和改革委员会副主任、保定市委副书记(挂职)、河北创新发展示范区筹备工作领导小组办公室临时党委委员,雄安新区临时党委副书记、河北省发展和改革委员会副主任。


由上述案例可知,该简历信息有具体的行政级别,并且能够通过逗号和顿号的位置来判断不同阶段的工作经历。一般来说,逗号隔开的是两段不同时间的工作经历,顿号代表领导干部在同一时间段的兼职情况。但是,每一任职阶段对应的具体时间难以判断。


对于工作经历内容模糊的情况,研究者可以试图搜索目标对象在其他地方的简历相互验证,或者在目标对象曾任职单位的网站等平台上获取相关信息加以推断。


3. 测量标准不一


无论是变量界定,还是变量的编码与测量,都不具有统一的标准,从而增加了变量使用与编码的难度。因此,研究者需要在特定情境下具体问题具体分析。例如:


江苏省宿迁市市长xxx:1992. 08—2000.12,在徐州矿工作,从副科级秘书一直到副处级秘书;2000.12—2001.05,担任徐州矿务集团太阳宾馆副总经理。


假设需要判断该领导干部的非党政部门工作经历,由上述简历信息可知,从1992 年 8 月至 2000 年 12 月,该领导干部一直在矿务局(政府部门)工作,从 2000 年12 月至 2001 年 5 月工作于矿务集团太阳宾馆。这段经历被理所当然地认定为非党政部门的工作经历。但是,从矿务局到矿务集团,很明显具有连带关系,可能是和政府相关联的一个企业。而且,该领导干部在矿务集团的任职时间较短,这段经历对其社会关系积累和专业学习可能未发挥较大的作用。因此,在编码的过程中,是否将矿务集团太阳宾馆副总经理的经历编码为非党政部门的工作经历,需要慎重考虑。因此,在对变量界定和编码的过程中,需要更加注意这段经历的任职时间,以及与前后部门之间的关系,以提升结论的科学性。


在编码过程中常见的问题还包括:现实信息与最初设定编码参数不符、同时担任多个职务、院校名称与代码不对应等。现实信息与设定编码参数不符,可通过预搜集的方法减少损失。同时担任多个职务则可以通过设置数据中允许官员兼职的情况加以解决。院校名称与代码不对应是由院校信息前后不一致而造成的同校不同代码或不同校同一代码的情况,对此,可以在获取数据分布特征后,针对不一致的信息进行检查与修改。另外,在数据分析的过程中,可能会遇到多重共线性问题,导致模型估计失真或难以估计准确。对此,可以通过将多个变量整合成一个变量的多个层面或者继续细化变量来避免。


五、研究结论


简历数据在一定程度上解决了党政体制内干部选拔任用信息无法直接观察的问题,是干部晋升、科层制和政府能力等研究领域必不可少的分析媒介。基于此,本文系统讨论了编码领导干部简历这一关键的方法论问题。首先,在数据收集阶段,本文归纳并分析了简历获取的七种渠道及其优缺点。其次,变量的挖掘编码是简历使用的关键,基于简历结构特征,本文对部分变量的编码进行了示例性的介绍。最后,对于编码中常见的问题,本文尝试提出了相应的解决办法。


简历数据的使用有一定的局限性。首先,简历中党政领导干部的级别信息不明确。例如,某个岗位对应不同级别,可能同时包含副处级和正处级,但未知具体级别变动时间。其次,数据选择容易出现对照组的缺失。实现晋升的党政领导干部比没有实现晋升的更容易被注。因此,在基于因果推断范式的学术研究中,很可能会出现对照组缺失的问题。在具体的实证研究中,需要根据理论假设,尝试选择可获得的信息作为对照组。例如,过勇和卢文超(2018)通过优秀县委书记和同期普通县委书记作比较,探讨优秀领导干部的成长规律。再次,简历以个人信息为导向。单纯依靠简历数据可能会得到错误或者不完善的结果。因此,需要与其他类型的数据加以匹配,比如任期内的 GDP 平均增长率(梅赐琪和翟晓祯,2018)、所在地区的社会经济情况(Bo,1996)等。最后,简历所呈现的信息有限,某种程度上将领导干部完整的成长和职业经历碎片化,并且容易掩盖很多重要的信息。因此,中国政治精英晋升和职业流动的规律越来越需要更多的研究方法作为补充,如社会网络分析、案例研究等。


总之,大多数研究建立在不完美的数据之上,数据的不完美带来了研究的不确定性。因此,在实际研究中,需要通过对既有文献的回顾,吸取学者们对不完美数据的处理方式和相关经验,对数据加以补救。鉴于中国政府部门、岗位、制度的高度时代性与复杂性,本文认为可以在编码领导干部简历的过程中请有政府工作经验、熟悉组织人事制度的专家进行审查、给出建议。


那么,如何推动基于简历数据的晋升研究可持续? 未来可以朝以下方向努力。第一,更新理论框架。基于对现实的回应,重新解释和补充晋升研究的理论基础,以指导简历数据的编码、整理与使用。第二,拓展研究议题。除晋升现象外,政治精英在条块、层级、区域、部门间的流动规律也值得关注。第三,丰富研究对象。现有研究多聚焦于地方党政主要领导干部(如省委书记、省长、市委书记、市长、县委书记、县长等)。在中国多样化的干部队伍中,部分干部的晋升和职业轨迹并未得到足够重视,如长期在铁路、电力、邮政等系统工作的专业类干部。现有的理论框架是否适用于其他类型的干部,需要在未来的研究中不断论证。


本文的创新点在于以晋升研究为基础,系统性地总结了简历数据使用的步骤与方法,在一定程度上可以为党政领导干部晋升以及其他使用简历数据的研究提供方法论意义上的借鉴与指南,并且吸引更多学者进入简历数据使用的研究领域。首先,本文从简历获取和变量编码的角度,对简历数据使用中的常见问题提出了尝试性的解决方法。例如,对于缺失的简历,通过记载性资料和定向联系等多途径获取;寻找替代变量来解决简历信息缺失的问题等。其次,本文基于初次编码和二次编码的逻辑,尝试提出了晋升领域在未来研究中可能进行分析的变量,并且在已有数据库的基础上丰富了相关变量的种类和编码方式,能够在一定程度上拓展晋升领域的研究范围。


当然,文章仍存在改进的空间。在信息收集方面,本文并未呈现全部的简历获取渠道,可能还存在更方便的简历收集途径,需要在未来的研究中进行补充。在变量提取和编码方面,本文所呈现的变量种类及其编码方式更多是一种示例,并不能作为研究领域的通用标准。因此,本文对简历数据的介绍仅仅起到抛砖引玉的作用,更深刻、更具体的方法还需要学者们在简历数据的使用过程中不断补充与完善。





参考文献 略


文章已于中国知网网络首发,经授权由《公共管理评论》公众号转载。建议到中国知网下载原文阅读,尊重版权,尊重学术。



编辑 | 常远  李舒敏

排版 | 王书铭

核发 | 梅赐琪

微信推送:2022年第185期




继续滑动看下一个

王思琦 李雪 | 编码领导干部: 简历数据收集与整理中的问题及方法

王思琦 李雪 公共管理评论
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存