如何客观评价世界银行停发营商环境报告的影响？

营商世界 2024-02-26

9月16日，世界银行集团发布声明，决定停发下一期《营商环境报告》，并发起一系列对报告及其研究方法的审核和审计。在此之前，《营商环境报告》就曾出现数据违规事件，对报告研究方法的质疑也一直存在。但质疑声并未妨碍多个国家以世行营商环境评估指标作为参照系，开展市场治理领域的改革。

纽约大学法学院 Kevin E. Davis教授在他的《数据与分权：多层治理体系中的法制绩效评估》一文中，就精准地指出了《营商环境报告》及其同类型评估所处的境地：一方面，人们需要一套绩效评估指标以推进改革和发展；但另一方面，多层治理体系的复杂性与评估指标的简化处理方式必然产生冲突，从而导致“测不准”。

而Kevin E. Davis教授在文章中对各类法制绩效评估指标的客观评述，也有助于我国冷静、客观思考当前营商环境优化活动。以“临时抱佛脚”的考生心态来面对世界银行营商环境评估并不可取，但也不能全然否定相关评估指给我国市场治理改革带来的推动和启示。

数据与分权

多层治理体系中的法制绩效评估

Data and Decentralization:

Measuring the Performance of Legal Institutions

in Multilevel Systems of Governance

作者 | 凯文·E·戴维斯（Kevin E. Davis），纽约大学法学院教授

译者 | 王美舒，华东师范大学法学院副教授

原文 | 载《明尼苏达法律评论（总第102卷）》2018年第4期

译文 | 载《北大法律评论》（2019）第20卷第２辑

01引言

在奥巴马的最后任期，他的政治对手抓住每一个可能的机会，对其任期内的表现进行批评。其中一个有意思的批评责难道，奥巴马政府竟然允许美国在世界银行发布的营商环境便利度排名中下降。《华尔街日报》的一位专栏作家指出，奥巴马总统上任后，美国的综合排名从第三位跌至第八位。他还抱怨道：“八年前，市场主体拿到施工许可证需要40天，现在却需要81天之久。布什总统离任时，合同执行仅需300天，可现在，却花了420天。产权登记成本自2009年以来从0.5% 上升到了2.4%，翻了近5倍。”

世界银行的营商环境指标有很多优点。但显而易见，无论谁当总统，它都不是用来评价美国联邦政府绩效的好方法。原因在于，美国采取多层治理体系，总统只是该体系中的一部分，而营商环境指标主要抓取该体系中其它部分的表现。特别是营商环境评价仅以各国一到两个最大商业城市的数据为基础。就美国而言，两个城市被作为样本：纽约市与洛杉矶市。美国总统负责的事很多，却无法控制在纽约市或洛杉矶市获得施工许可证，要花多长时间。美国总统也无法控制在纽约或洛杉矶市进行产权登记的具体费用，更无法控制在纽约高等法院或加州高等法院执行合同要花费多少时间。施工许可证由市政府发放；合同执行则在法院职责范围内。至于产权登记的花费，在纽约市则由手续费、税以及国家、市、州三级所设收费项目决定。营商环境评价所用的10个国家层面指标中，只有三个与美国联邦政府控制的事项有关，即：纳税、跨境贸易和办理破产。在这三个指标中，又因纳税指标包含市、州和联邦纳税项目，其得分仍不完全受联邦政府控制。

世界银行营商环境指标虽不在其列，但仍有一些评估能够在多层体系中测评各行政单位的表现，并于要求行政单位承担责任，维持和改善绩效中发挥重要作用。没有准确的绩效评估，利益相关者很难坚称某个行政单位，甚或某类行政单位，需要进行改革或被替代。绩效评估适用于内部和外部执行者——若执行者不知道自己的表现如何，那么即使是最富动力的行政官员，也因缺乏理性基础，而不知如何更好履行自己的职责。

在多层级治理体系中对法制（legal institutions，又译作“法律制度”）——即颁布、执行规范的制度，进行绩效评估尤为重要。但是由于下述原因，找到准确进行绩效评估的方法并非易事。对体系中的基层法律制度进行准确评估，更是难上加难。毕竟基层机构与体系中引人注目的国家立法机关、宪法法院相距甚远。

可能限制法制（legal institutions）绩效评估的因素有两个。第一，很难将基层法律制度的影响与其他层级治理的影响区分开来。第二，市场不一定会推动人们费心去建构区分二者的绩效评估方法。分类绩效评估（disaggregated measures）的成本可能与综合绩效评估（aggregated measures）的成本一样高——甚至更高，而且还会在绩效评估的精确性上设限。

如果以上观点皆正确，那么某些形式的多级治理和法治分权（legal decentralization），就有了不可忽视的缺点。许多为多层治理辩护的观点假设，各利益相关者，无论是选民（voters）、潜在居民（potential residents）、潜在投资者(potential investors)、高层政府官员（officials in higher levels of government），抑或公务员职业网络中的一员（members of government officials’ professional networks），都能够对各行政单位进行绩效评估。没有合适的评估方法，这些利益相关者都无法对政府官员产生积极影响。关于治理分权的学术研究对影响基层政府问责的因素多有关注，但对法制（legal institutions）绩效评估的有效性研究不够。大量研究探讨了建构法制（legal institutions）绩效评估所面临的挑战，但迄今，没有专门针对多层治理体系中基层制度绩效评估的研究。

02法制（legal institutions）绩效评估的价值

世界上的大多数人都在政府和非政府的多重治理之下。在中国，除了国家政府之外，还有省、市、县、镇、村，五级管理制度的存在。在欧盟，单个成员国的政府层级一般少于中国，但还需考虑到欧盟超国家层面的治理。事实上，世界上任何人的生活都切实地受到国际组织、国外政府域外法权的影响。民族国家之外的机构在治理贫穷弱小国家方面，尤其是在治理那些内部治理能力有限的国家方面，发挥着重要作用。比如，世界银行在为基础设施项目设立社会与环境标准中所起的作用。

法制（legal institutions），即公布、实施或执行规范的制度，当然是各级行政单位的应有之义。典型的多层治理系统包含一级以上的立法机构。在印度，除国家议会外，每个邦（state）都有自己的民选立法机关。至少在农村地区，有多达三个级别（县、区、村）的潘查亚特（panchayats）。相当大的权力下放给通过选举而成的村级潘查亚特。法律由所有层级的行政机关，以及国家警察、邦警察负责实施与执行。印度司法制度也区分了层级，最高法院位于各邦高级法院与县法院之上。相对非正式的法庭，一般称作“人民法庭”（lok adalats）。它平行于正式的纠纷解决形式，处理日常争端。

对这些法制（legal institutions）进行绩效评估意味着什么？对本文的研究目标来说，这意味着观测、评价、报告官员的规范、能力与行动，在多大程度上，导致了预期效果的形成。不管这些行为是官员自身所欲为的（如，因为他们反对对嫌疑人严刑逼供），还是有意为之（如贿赂的减少、污染水平的降低，或是地价的增加）。本文还假设绩效报告以指标形式呈现：即以简易形式抓取绩效的某一特定方面，并进行排序的一组数据。换言之，本文集中讨论法治指标（legal indicators）。

绩效评估因其影响官员表现的方式，而具有重要的现实意义。这种语境下的是“影响”，可以意味着引导官员选择某一规范，调动某种能力，采取某些行为，或将不愿合作的官员替换成愿意合作的官员。对不同影响路径类型化的方法之一，是按影响机制进行分类。激励式机制显然依赖于绩效评估。这种机制是依过去的表现进行奖惩，进而预期效果出现的影响机制。为预防起见而以过去工作情况来分配未来行政职责的体系，也依赖绩效评估。其他影响机制，如同侪压力、理性说服、内在驱动，也都可能依赖绩效数据。

另一种类型化绩效评估影响路径的方法，是按照绩效评价的潜在用户来分类。在民主制国家中，最明显的潜在用户是选民。他们用手中的投票权来促进好的政府行为，防止坏的政府行为。在等级制国家中，政府高层官员运用基层政府的绩效信息，来决定如何行使其监督权。政府官员的也根据绩效数据，决定对自己的同僚进行表扬还是批评。自我激励的政府会运用同样的数据，决定是否改进，以及如何改进其绩效。政府债权人会运用与财政相关的绩效数据，来进行信用评估。最后，也是最重要的，潜在定居者和投资者会根据过去的绩效数据来预测政府未来的表现，以决定是否将自己置于该政府管辖之下。对那些政府官员有动机去吸引的潜在定居者而言，尤为如此。

无论绩效评估如何完成，由谁使用，比较数据都会发挥重要作用。比较数据能够将单个行政单位与其过去绩效，或与其他单位的绩效相关联，进行比较分析。作为标尺，比较数据能够洞察到一些在单独评估中无法获得的绩效结果。没去过香港的纽约人很难想象，会有比纽约地铁更干净、更安全、更可靠的地铁系统。比较数据还有助于评估政府行为。例如，对治安策略与犯罪率进行跨时或跨区域比较，可以用于发现何种治安策略最佳，以及哪些政府了选择这种策略。

不同类型的潜在使用者会对不同的绩效评估感兴趣。像选民、潜在定居者这样的大众群体，通常没有时间，也没有专业知识，对政府绩效进行分析。这些使用者倾向于寻找信息量相对大，但又高度简化的指标。世界银行的营商便利度指数就是高度简化的极佳例子。这个指数意图用一个数字将一国内所有与营商便利相关的法律制度（legal system）绩效情况呈现出来。

03地方绩效评估之实践

本文聚焦于可以用于评估多层治理体系中各法律制度的方法，尤其关注地方层面的法制（legal institution）测量。自20世纪初以来，各种法治指标（legal indicators）层出不穷。但其中最著名的例子，也仅为每个国家打出一个分数。这显然不适合用来评估地方机构的绩效。以世界银行营商便利度指数，及构成它的单个指标为例：单个指标测量了国内中小企业完成11个环节的能力，包括注册企业、登记产权、获得施工许可证、执行合同，以及纳税。指标聚焦于评估完成相关事项所需时间与花费，虽然一些指标也评估法制（legal institutions）实施的质量。用于计算营商便利度指数的营商环境指标，通常根据一国“最大商业城市”的数据，给出该国的得分。但为公平起见，11个较大国家（包括美国）的得分，则根据人口比重，加权平均两个最大商业城市的分数而得。

另一套著名的法治指标（legal indicators）是世界正义工程（World Justice Project, WJP）法治指数（Rule of Law Index）。这一指数旨在衡量“普通人感受到的法治（rule of law）状况”。它的数据源有两个：（1）每个国家的普通人群调查；（2）国内民商事、刑事诉讼、劳动法及公共健康专业人士调研。普通人群调查在每个国家最大的三个城市进行，但国内专家的调研地点不是特定的。

世界银行营商环境指数与世界正义工程法治指数（WJP Rule of Law Index）至少说明它们在各国所刻画的部分。其他法治指标（legal indicators）则更为不透明。例如，世界银行创建了一套含6个国别层面指标的评估体系，称为“全球治理指数”（Worldwide Governance Indicators, WGIs）。其指标所评估的治理方面，即治理效率、规制质量、法治（rule of law），看上去都与法制（legal institutions）绩效相关。这个评估毫无疑问受到国家与地方政府的影响。但全球治理指数的设计者没有说明哪一层级地方政府是评估的数据源，当然也是因为设计者们不知道。全球治理指数作为一个综合指标体系，基于30多个基本数据源形成评估。其数据来源包括家庭调查、企业调研，以及专家评估。被测量的企业与专家并不总是样本国之内的。极有可能，全球治理指数有时测量了人们对不同地方机构的认知——如，审理国外大公司与国内中小企业纠纷的法院，有时又测量了人们对多个机构的综合认识。在这些情况下，“全球治理指数”的设计者几乎无法说明他们的指标刻画了那几个机构。

也有对以国内不同地点进行评分的跨国指标体系。此类指标最突出者，是由世界银行营商环境项目组，在其国别层面指标的基础上设计而成的。自2005年起，世界银行营商环境项目组就推出了65个国家438个地区的地方性报告。这些地方性报告通常包含3-6个主题。一般包括开办企业、办理建筑许可证、产权登记这三个指标。其他出现在地方性报告中的指标有：执行合同、获得电力、纳税、跨境贸易。与国家指标不同，地方性营商环境指标的推出是不定期的，而非每年都进行设计。

地方性评估指标也会由国内执行者制定。在巴西，教育机构热图利奥·瓦加斯基金会（Fundação Getulio Vargas, FGV）资助设计了巴西司法信心指数（Confidence in Brazilian Justice Index, 葡萄牙语为Índice de Confiança na Justiça Brasileira，ICJBrasil）指标。这套指标用于测量公众对法院系统的信任程度。巴西司法信心指数（ICJBrasil）包含了两个子指标：一个评估了人们对法院系统的综合感受，另一个则评估了人们对法院解决特定纠纷能力的信赖程度。指标基于巴西7个州（亚马逊、伯南布哥、巴伊亚、米纳斯吉拉斯、里约热内卢、圣保罗和南里奥格兰德），以及联邦特区城市人口的调研而形成评估结果。各州与特区的数据分别进行报告。中国也出现了类似的法治指标（rule of law indicators）。其中包括，一个名为中国法治研究院（China Rule of Law Research Institute）的智库机构所设计的指标。

另一个地区性评估指标的重要例子是“越南省际竞争力指标”。这套指标由越南工商总会（Vietnam Chamber of Commerce）与美国国际开发署（United States Agency for International Development）共同开发。指标报告了越南63个省份和自治市的得分。除了综合竞争力指标，还有10个次级指标覆盖了法治或非法治领域（legal and non-legal topics）。其中一些法治子指标与营商环境指标所覆盖的主题类似，包括新设企业的市场进入成本、获得土地及使用权保障、合规时间投入。此外，指标中还包括法制（legal institutions）综合信心指标和国有实体偏见指标。指标数据来源于对每省企业的调研，并国内外企业是分别进行调研。

上述各绩效评估指标都依赖于调研数据。但原则上，他们可以依赖其他数据源。人们最容易想到的是官方数据，包括审计数据。作为负责监督公共资源使用的机构，联邦政府审计局（Controladoria Geral da União , CGU）设计了巴西城市审计模型。每年，联邦政府审计局随机选择城市，对其政府开支进行审计，并在网上公布信息。虽然联邦政府审计局的审计并不一定与法制（legal institutions）运行相关联，但在发现浪费与腐败方面非常有效。印度政府则与非政府组织共同开展了，针对个人扶贫项目的“社会审计”。没有什么理由不去利用可比较的审计数据，来获得关于法制（legal institutions）的信息。

04建构复杂法治体系（legal system）绩效评估的挑战

虽然有几个地方性法治绩效评估（legal performance measures）的例子，但它们未必对特定地方的法制（legal institutions）绩效进行较好测量。事实上，现有的绩效评估极少对多层治理体系中法制（legal institutions）绩效评估，所提出的挑战进行回应。本节内容详细介绍了这些挑战。

（一）两类法治绩效评估（legal performance measures）

法治绩效评估（legal performance measures）可以分为两大类：（1）直接对法制（legal institutions）本身进行的评估；（2）对可能受法制（legal institutions）影响而产生的效果的评估。直接评估对诸如以下问题进行测量、报告的方法：法律是否允许所有商业纠纷都可进行仲裁？每级法院的法官有多少，有何资质要求？对建筑设计图审查人员的建筑学或工程学学历要求？审查人的资质要求是什么？效果评估的例子包括：获得建筑许可证的时长是多少？公司对公职人员贿赂行为的披露率是多少？暴力犯罪率是多少？有多少针对警察的投诉？空气质量如何？

上述例子表明，法治绩效评估（legal performance measures）可以与完全不同的法制（legal institutions）本身及其效果相关联。对法制（legal institutions）本身进行的直接评估，与法律规范（如，法律是否允许……？）以及法律官员（如，有多少法官？）有关。同样的，一些法律效果评估聚焦于法律官员（legal officials）的行为；另一些则聚焦于非法治参与者（nonlegal actors）的行为；还有的则聚焦于诸如贿赂，这样的共同行为。

下文讨论了与上述两大类绩效评估相关的挑战。涉及特定类型的法制（legal institutions）直接评估或法治效果（legal outcomes）评估，本文暂不详述，留待以后分析。

（二）法制（legal institutions）直接评估

进行规范，或法律官员（legal officials）能力、行为的评估，相对简单。尤其是当所需信息已经具备的时候。规范通常以法律、条例或命令的形式呈现。法律官员（legal officials）的数量及其学历，也往往因行政目的而被记录。此外，约束行政许可、行政执法机构的实践的规则，也记载于手册、说明书和指引中。

以未记录的信息为基础，制定绩效评估指标相对较难。比如，法律官员（legal officials）一般援引法律、条例、指引等书面规范，来决定特定行为应有何种法律后果。但在另外一些情况下，法律官员（legal officials）会视个案情况进行裁决，或援引以往案件中隐含的规范进行裁判。事实上，这正是普通法系法官在案件裁判中所做的工作。而且，我们也有理由相信大陆法系的法官，或其他法系的裁判官也以同样方式操作。这种操作方式通过回顾大量判决文书来获得规范，以此规范解释过去的判决，预测未来的裁判。但至少从现有技术水平看，这种操作方式需要相当大的工作量，且得出的结果容易产生分歧。另一个复杂因素是，负责发放许可证和执法的官员可能不愿披露关于其能力和实践的信息，以保留他们相对与被监管方的策略优势。

如果忽略法制（legal institutions）特征评估中的实际操作问题，其面临的挑战就是找出哪些特征需要进行评估。允许所有商业纠纷进行仲裁是否可行？是否坚持由注册建筑师或工程师检查建筑设计图？是否随机指派法官进行案件审理，而非根据法官经验多少？只有当这些规范、能力、实践的效果是理想的，它们本身才是可取的。因此，确定是否是好的绩效评估的唯一方法，就是研究它们是否与理想结果有相关性。最终，建构基于效果的绩效评估就成为必需。

（三）法治效果（legal outcomes）评估

只有明确哪些机构对结果负责，以效果为中心的评估才能成为衡量具体法制（legal institutions）绩效的有效方法。特别是，如果希望绩效评估能够促进某些有利行动，政府应当因其行动所产生的效果，而非其行动控制之外的效果，而受到奖励或惩罚。那些碰巧产生预期效果的投机行为，不应受到鼓励，反之亦然。

识别为给定结果负责的机构，将会面临两个挑战。首先，需要判断是否某一机构自身就可以完全影响所研究的行为。其次，当不止一个机构产生影响时，就有必要区分单个机构的影响。本文中，我们侧重第二项影响。

在假想的最简单的世界中，每个结果都与单一层级政府中的某个机构相关。如果政府各部分的职能划分得严丝合缝，政府的每部分只能影响特定的一组结果，那么多层级政府也可以满足这种情况，。可以设想下面这种情形：市政府负责建设，省政府负责安保，国家政府负责空气污染治理。诸多关于分权的文献，就是假定政府职能以此种方式进行分配。

真实世界远比假想世界复杂得多：不同层级的政府机构都可影响最终的结果，而结果的变化需要从机构组合变化的角度来解释。当公职人员需根据法律，对某项活动进行事前审批时，这种情况就会发生。比如，企业注册可能包括，在国家层面的政府机构进行注册，并从市级政府机构处获得许可。多层级政府也可能同时参与某项监管工作，包括监管中的事后处罚工作。比如，法律由一级政府负责颁布，而由另一级政府负责实施。巴西就是一个很好的例子。国家立法中所禁止的事项，如反腐败法中所列事项，可以由州或联邦警察队、多个独立机构，以及联邦或州检察官来进行调查。根据调查，独立机构或检察官可以提起民事、行政、刑事诉讼。诉讼程序会在州法院或联邦法院进行。在复杂案件中，不同层级中的多个机构涉案，已经不再罕见。

多个治理机构共同导致结果出现的这一事实，并不意味着单个机构所发挥的作用无法被追踪。对于任何一个结果，足够深入的历史分析可以揭示问题的根源——如，哪个排放标准过于宽松，哪个政府机构在排污控制的监督上失职，或是哪个法院拖延了对贪污犯的诉讼。在对少量结果进行原因分析时，这种分析方法是切实可行的。可是当需要分析的结果变多时，这种方法就迅速变得不切实际。

只要有充足数据，就有可能将涉及不同机构组合的结果进行比较，并推断出各机构所发挥的作用。当下面三个条件满足时，这种比较分析法尤为简单明了。首先，机构的影响范围完全根据地理范围来界定。其次，每个机构的运作，对辖区内人口的影响是一致的。最后，在多层治理体系中，基层机构的影响范围，应完全囊括于高层级机构的影响范围内。当上述条件都具备时，给定的地理范围内的所有结果，都会以相同的方式，受到相同制度/机构组合的影响。而且，相邻区域的结果，虽会受到不同基层机构的影响，但实际上受到相同高层级机构的影响。因此，相邻区域间的结果比较，可以揭示基层机构变化带来的影响。例如，开办企业所花费的时间，可能受国家政府和市级政府的共同影响。但由于所有城市都以同样方式受国家政府的影响，当开办企业所花费时间发生城际变化时，即可解释为不同市级政府的表现所带来的影响。

不幸的是，通过区域间的结果比较，进而推断特定法制（legal institutions）绩效所需的一系列条件，在现实世界中并不具备。根本原因在于，法制（legal institutions）的影响范围并不由领土范围界定。域外法律适用就是最明显的例子，而其中最为典型的，就是关于行贿公职人员的立法。每个国家都已经或承诺将行贿定为犯罪行为。越来越多的国家，包括经济合作与发展组织成员国（Organization for Economic Co-Operation and Development, OECD），已经将其国民在境外行贿外国公职人员的行为定为刑事犯罪。因此，当一名公职人员受到经合组织成员国国民的行贿时，该贿赂行为至少违反了两个国家的法律。在根据行贿率评估反腐败绩效时，就必须考虑到上述情况。

除了根据国籍原则，而非领土原则适用的法律，还有一些法律仅对特定宗教团体成员适用。印度继承法（India’s inheritance law）就是一个例子：印度教徒、佛教徒、耆那教徒和锡克教徒受该法约束；而其他宗教的人，如穆斯林、基督徒、帕西人和犹太人，则受其他法律的约束。因此，印度继承法在国家层面的约束力，就无法得到评估。

当人们可以选择自己受哪些法律制度治理时，另一个复杂情形就出现了。一些政府允许其国民受另一政府法律制度的约束。例如，美国和欧盟的商人有相当大的自由，选择自己的商业实体适用哪个国家管辖权下的公司法。同样，在契约关系中，当事人可选择适用较大商业中心的法律，如纽约州法或英国法。合同当事人也可选择外国法院来解决纠纷。

即使可以判断哪个政府负责治理某一特定活动，识别其所涉及的专门机构仍不是易事。政府有时也会对不同主体进行区别待遇。一类重要的例子就是，在有些国家政府设立的特别经济区里，诸如允许雇员组织工会、罢工的立法会被废除。有时，国家政府还会根据与外国公司签订的投资协议，或与投资公司所在国签订的投资协议，为外国投资者设立特殊的法律制度。较高层级政府也可采取影响范围较小的区别待遇。例如，中国政府有时会在试点城市进行法治改革（legal reform），以此作为先期试验。最近的一篇文章指出，一系列以市场为导向的城市住房改革，最初都是中央政府在地方发起的试验。

甚至表面上中立的法律规范，也会因执法的不统一，而形成不同效果。例如，肯尼亚于2015年在其《公司法》（Companies Law）中，对企业开办程序进行了全国统一的规定。这个程序的诸多方面由县级政府负责。根据《肯尼亚营商环境报告》，开办企业的时间、成本出现了县际变化。而这是各县级机构在营业许可证申领上的时间要求、收费标准的差异所造成的。但有些差异则是由国家机构造成的。开办企业者需要向全国企业注册中心提交申请，而这个注册中心只在内罗毕设有办事机构。当面提交申请需要一到两周的时间。因此，到内罗毕旅费的差异，就造成各县企业注册费用的不同。

基于以上原因，行为的物理位置不是评估法制（legal institutions）影响的必要指向标。这就意味着，通过比较不同地理位置的结果，来区分各法制（legal institutions）影响的方法并不牢靠。跨区域结果的变化，可能是由名义上负责相关区域的机构的不同所引起的，但也可能是由治外法权、自愿选择管辖，或是更高层级政府的区别对待所产生的。比如，在不同城市开办企业，所花费的时间有差异，这既可以解释为市级政府间的不同所引起的，也可以解释为国家立法差异所引起的。企业披露行贿的比例在省际之间有差异，这可以解释为省级政府在实施反贿赂法上的不同，也可以解释为受域外反贿赂法规制的企业比例不同所引起的。

05法治绩效评估（legal performance measures）市场

鉴于第三部分所阐述的原因，在多层级治理系统中进行法制（legal institutions）绩效评估将会极具挑战性。在一些情况下，无论投入多少资源，挑战都无法克服。在另一些情况下，问题在于有谁可以为形成有效的绩效评估投入资源。下面的前两部分内容，侧重于审视市场力量，也就是“私”主体的利己选择，是否能促进良好的绩效评估的形成。最后一部分内容则讨论，我们是否可以期待非营利组织或公共部门去弥补绩效评估市场中的缺陷。

（一）绩效评估的用户需求

为了了解自利主体是否会进行绩效评估，我们首先要计算绩效的需求水平。评估者的收益来自于其需求的满足程度。所以，需求水平将决定评估者的动机强度。

正如本文第一部分所指出的，对法治绩效评估（legal performance measures）的需求可能来自于不同的潜在用户群体。首要的潜在用户是那些关注法制（legal institutions）如何影响他们生活，以及重要决策（如居住地，是否创业、在哪里创业、如何创业等）的人群。这些人群尤其关注：开办企业所需时长，获得经营许可是否需要进行行贿，或是晚间周边环境的安全程度，诸如此类的信息。换句话说，他们关心由政府行为所产生的效果，包括不同机构组合所产生的结果。

出于利己考虑的人们，可能不需要将他们关心的结果，与特定机构对结果的贡献相联系。为什么准企业家或准定居者一定要关心国家政府还是市政府对企业准入、腐败或预防犯罪负责？原则上，仅有关于结果的信息就完全足够了。但是，关于特定机构绩效的信息，会在预测未来结果时有实际价值。假设，某个最近营商较为便利的省份，其政府可能会做出一些改变。那么省政府的改变，是否会影响营商环境？为了回答这个问题，需要知道以往结果是由省政府还是国家政府造成的。

对法制（legal institutions）绩效评估的需求，也会来自在法律官员（legal officials）之上行使权利的人群，即选民、更高级别的官员。这些用户会特别关注特定机构的绩效。公职人员的同僚也会对绩效监测感兴趣。例如，警察会关注邻近辖区同事的表现，以评估他们自己的表现，或确定新招募人员，或借鉴学习新的工作方法。他们也会希望获得特定机构的精准信息。

对法治绩效评估（legal performance measures）的总需求，取决于相关信息对每个潜在用户的价值及用户总量。绩效评估对每个用户的价值，取决于评估相对于用户个人知识，能提供多少有效信息。这依赖几个方面的因素，包括感知的精确度、评估频率，以及评估者身份。精确度的价值是不言而喻的。可得数据的数量，在指标用于比较目的的情况下，也会成为相关因素。评估的数量越大，可比较的范围就越广。最后，绩效评估用户可能会用评估者的“出身”或名声，来推测评估结果的质量。

聚焦于特定机构绩效的评估，其价值取决于替代者的可得性。必要时，用户会根据他们已经了解，或他们自认为了解的相似的机构绩效，来推断评估对象的绩效。如果相似制度/机构的绩效相差较多，这种策略就会导致较大误差。例如，一个考虑在墨西哥投资的商人，会倾向于根据世界银行《营商环境报告》中的数据，来预测在墨西哥境内经商的便利程度。毕竟，理论上讲，相对于各国之间的差异，墨西哥境内的营商环境差异会小很多。但如果投资计划是建造仓库，那么世界银行的数据会误导这个商人。当他试图于2016年在科利马，一个位于太平洋海岸的墨西哥小州，获得建筑许可证。那么科利马的办事效率会远远落后于全球最好的城市，也会落后于墨西哥在此项上的得分。因为墨西哥在该项上全球第87名的排名，主要得益于墨西哥城和蒙特雷的分数。

最后，对特定绩效评估的总需求，会随着用户数量的增加而增加。用户数量又反过来取决于受相关机构影响的人群、受监管的人群，或是自认是公职人员职业共同体一员的人群。受利己因素驱动的用户，对影响高风险决策的法制（legal institutions）绩效评估需求最大。由此可以推定，至少对出于利己目的的用户而言，影响给定结果的机构越多，对单个机构绩效评估信息的需求就越少。

对绩效评估的需求，并不必然转化为对其支付的意愿。一旦公布，绩效评估数据就可以极低成本进行复制和传播。当他们手握便宜的复制版本时，潜在用户就不愿为绩效评估的信息支付费用。这就意味着，对营利性评估者而言，绩效评估的有效需求相对较低。

（二）绩效评估的供给

法制绩效评估（legal performance measures）市场分析的下一步，就需考虑等式另一边的供给方。评估形成的过程具体来说有以下几步：（1）评估的设计与概念化操作；（2）收集相关数据；（3）分析数据并计算分数；（4）公布分数。每一步的成本都会很高。成本包括：绩效评估设计和数据分析的专业人士所花费的时间；从已有数据库购买数据所支付的费用；从熟悉相关制度形式与效果的人士那里直接收集数据所支付的费用；推广和出版绩效评估产品的花费。

在很多情况下，绩效评估成本固定的这一假设是合理的。这意味着评估成本不会随评估价值的变化而变化。首先，一般来说，绩效评估的设计和推广成本，似乎与所评估机构的影响力或重要程度无关。而且，就法制（legal institutions）数据本身而言，从法律条文和法律实践中收集数据所花费的成本，也与所评估机构的影响力或重要性无关。更大的管辖区域，并不必然对应更长的法律文本：印度尼西亚的人口是马来西亚的8倍之多，但是马来西亚的宪法文本长度却是印度尼西亚的10倍。阅读和编辑印度尼西亚宪法的成本，并不会比用在马来西亚宪法上的多。

收集或分析未经编纂的法律实践或法治效果（legal outcomes）数据的成本，通常取决于需评估的行为或结果的数量。一般而言，需收集和分析数据的行为和结果越多，成本就越高。因此，这一结论是可信的：即相对有影响力的机构，其数据收集的成本也会较高。但数据收集成本与结果量之间，并不必然成正比。比如，获得行贿率调研数据的成本，会随着人口规模的增加而提高。因为人口规模越大，在一定的置信区间，评估行贿率所需的样本量就越大。但是，样本规模并不必然随着人口基数的增加而增加。例如，预测500万人的平均结果，需要700人的样本量；而对1000万人口进行评估，则需要1000人的样本量。但是，如果人口规模更大，其异质性更高，且需要对人口内部变化进行评估，而非简单测量典型结果，情况就会不同。

如果在计算机的帮助下进行数据分析，额外数据分析所增加的成本就会很小。但同样的，如果相关结果的成分复杂，越大的数据组就需要越多的分析工作。决定成本高低的关键因素，更多的是被评估对象内部的异质程度。

鉴于上述原因，试图以最低成本，展开最有价值测评的评估者们会发现，评估相对有影响力的法律制度会更诱人。这就意味着，他们需要对以显著且相似方式，影响最广范围人口、活动的法律制度进行评估。类似评估的综合价值相对较高，而其产品成本，并不明显高于其他法律制度评估的成本。这表明，市场力量不会对多层级治理体系中的最基层制度进行绩效评估。即使对基层制度进行评估，也只覆盖影响最大、最突出的那部分。因为潜在用户会希望从少量机构绩效出发，推测相似机构的表现。

（三）非营利组织与“公”主体

目前为止，我们已经考虑了利益最大化的利己主体，是否会进行法治绩效评估（legal performance measures）。他们并非是仅有的评估供给者。事实上，非营利组织与公共部门在现有法制（legal institutions）绩效评估中，也发挥了重要作用。世界银行（它发布了《营商环境报告》，Doing Business reports）是国际组织，热图利奥·瓦加斯基金会（它发布了巴西司法信心指数，ICJBrasil）是私人基金会，而越南工商总会与美国国际开发署（发布了《越南省际竞争力指数》，Provincial Competitiveness Index）分别是非营利贸易协会与政府机关。这些主体可能因关注社会福利，或希望自我提升，而进行绩效评估。但他们在这之中并不关心利益最大化。没有这些主体的介入，是否进行地方性机构绩效评估就变得不明朗。

06结论

绩效评估是保持和改善法制（legal institutions）表现的重要工具。通过多种渠道，包括投票、激励性薪酬、绩效竞争上岗，绩效评估既可以引导公职人员提升工作表现，也可将表现更好的人员替换上岗。在大多数情况下，将大量数据压缩成一个指标的比较式评估，可能更具有价值。

构成现有法治绩效评估（legal performance measures）的指标，都是将其测量现象的一方面进行彻底简化而形成的：他们忽略了这样一个事实，即法制（legal institutions）是在一个多层治理体系中运作，而这个体系中的每个层级都包含多个治理机构。很多指标都试图评估国家层面的政府绩效，但极少去关注地方绩效对国家机构表现的影响，也很少去试图评估地方机构自身的绩效。

目前法治指标（legal indicators）中的这个缺漏，是一个很大的缺点。为了实现其潜在价值，法治绩效评估（legal performance measures）必须在多机构治理体系中，区分出特定机构的绩效。建构这样一套绩效评估体系并非易事，特别是当该评估依赖于测量相关机构的社会或经济效果时。其主要挑战来自于，将特定机构与特定效果相匹配。与流行观点相反，地理位置与法律适用之间没有直接的对应关系。法律适用范围全部或部分被非领土要素决定，如国籍、宗教、合意，或是表面上的统一适用而内里的区别对待。

即使能充分建构起法治绩效评估（legal performance measures）体系，在市场运作下，也无法保证它们能得到实现。在市场的一边，绩效评估的需求很大。选民、投资者、债权人、监管者、公职人员的同僚——所有这些群体都有理由重视机构表现的信息。围绕影响范围广、活动价值高的机构所展开的绩效评估，其需求更高。对市场的供给方来说，评估高影响力机构的成本，与评估低影响力机构的成本相近。这就意味着，营利性评估者会聚焦于测量更有影响力的机构。而对影响力较低的机构评估的需求，将由非营利组织或公共部门满足。这可能意味着，相关需求无法被满足。

分析的结果是，潜在评估者不能或不愿为某类机构提供绩效评估。这个结论对围绕多层治理绩效的讨论有诸多重要启示，而该讨论则反过来与制度设计中的重要问题有关。在法治背景下，经典讨论围绕超国家组织、联邦、州和市政府之间的分权问题展开。普遍认为，各法律机构的表现，一定程度上取决于是否有让它们承担责任的机制。因此，这些机构的表现将取决于绩效评估的有效性。

最后，上述讨论也涉及了一系列围绕法治指标（legal indicators）建构与运用的文献。此类研究发展迅速。研究表明，在建构抓取机构表现的法治指标（legal indicators）的过程中，我们应当给予多层治理体系所提出的挑战以更多关注。

来源：《北大法律评论》

作者：凯文•E•戴维斯

继续滑动看下一个

如何客观评价世界银行停发营商环境报告的影响？

营商世界

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

如何客观评价世界银行停发营商环境报告的影响？

如何客观评价世界银行停发营商环境报告的影响？

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

如何客观评价世界银行停发营商环境报告的影响？

如何客观评价世界银行停发营商环境报告的影响？

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡