科技评估前行路径需要不断探索

Original 方衍北京科学学 2022-07-09

评估不仅是描述一种状态，更重要是做出价值判断，因此需要加强研究，并在不断学习、沟通、反思、平衡中构建多元化视角的价值判断，既需要增强对现实判断的理解力和洞察力，也要不断丰富和提升评估认识论和方法论。

加强自身能力建设

迎接科技评估新挑战

随着时代的变化，科技评估的理念内涵、目标内容、主体对象都已经远远超出了二十年前的范畴，评估者必须不断加强能力建设，紧跟时代发展。

按照评估对象和评估目的分类，科技评估主要有四类：

学术评价的出现最早是学术共同体内部为了确定研究成果的优先权而形成的一套科研行为准则，对象是学术研究成果；

科技评估提出的初衷是为了改进政府部门内部管理、优化资源分配而采用的一种工具，对象是计划、项目、机构、人才等；

政府绩效评估则是出于对政府公共服务问责的要求，对象是各级政府部门，评估其使用公共财政资金带来的绩效；

正在孕育和兴起的技术影响评估，目的是评估新兴技术对未来经济社会带来的影响，如转基因、人工智能等，主要是为政府的重大技术决策服务。

经过二十年的演进发展，前三类评估受到了政府重视和大力推动，但在发展过程中又经常把针对不同目标、不同主体、不同对象的评估活动“一勺烩”，不能因事制宜，出现了概念混淆，带来标准上单一化，增加了对结果判断的难度。

由此想说明，“评估”是一个内涵宽泛具有弹性的术语，具有功能多重、主体多元和目标多样的特点。

当讨论不同目的、不同对象和不同主体的“评估”时，都应界定相应的语境，尽量避免“跨界”。

重要的是，要阐述清楚评估是如何与政府部门的管理有效结合起来的。

随着政策的变化，“评估”的标准和功能也带来新的变化和挑战：

（1）对R&D活动的评估，从早期关注立项中资源分配的公平性、管理效率等，到科技创新不仅要“产蛋”（科研成果），还要产出“金蛋”（成果达到产业化应用）。

（2）评估的标准从事实标准（完成合同任务）延伸到实现社会价值（科技对社会发展贡献）。

（3）评估的对象从具体任务（产品/项目/成果）向系统综合的政策评估（把握科技发展方向，实现可持续性）转变。

（4）评估的功能从早期的决策支持、经费问责向战略转变和政策投入转变。这些，都为评估者带来了极大的挑战。

这些，都为评估者带来了极大的挑战，这些挑战包括：

评估方法的挑战

当评估的目标转向更广泛的社会经济影响时，评估对效益和成本、外溢效应和反事实的描述，以及“软”制度和获取的经验教训都很难进行全面评价。

评估的质量控制

由于社会的开放，有了更多的利益方参与评估，各种利益诉求更加多元化，到底如何听取和采纳这些不同的经验和观点？哪些超出评估的范围？这给评估的质量控制带来难题。

评估还有许多的不确定性

特别是对科研活动和创新政策的评估，要经过较长时间才能产生结果，可用的方法和路径还存在一定的局限性。

评估结果的利用仍不尽如人意

评估报告的公开性不够，只有少数关键人看到而得不到更大范围的扩散，如何吸取经验教训，发挥正确导向，形成持续改进，都还有待于完善制度细节。

面对新变化带来的评估新挑战，评估者应该有清醒的认识。

一方面，要承认评估的局限性，探讨可用的评估方法，避免大包大揽和“毕其功于一役”的做法；另一方面，要谨慎地制定评估方案，特别要因事制宜、因地制宜，有针对性地制定切实可行的评估方案，避免照搬套用。

同时，评估是一项涉及广泛、实践性很强的活动，必须要在实践中不断加强评估能力建设，并且通过能力建设来促进评估制度更好的完善。

具体途径包括：

设计更好的业务流程应对挑战。一个好的业务流程往往胜过那些宏观性、原则性的管理文件。评估的业务流程要描述评估人员如何负责任地选择同行专家，如何管理评估的过程，并对专家的评估结果和利益相关方对结果的认可程度进行价值判断。

评估人员要不断地掌握新知识，了解被评估对象的基本知识和变化动态，起码做到“外行听来是内行，内行听来不外行”。对评估对象没有深入了解，就不可能挖掘有针对性的评估问题。

要向评估的委托方、客户传授相关的评估知识和对所评估问题的深刻理解，并尽可能地在评估设计、方法程序、最终结论、判断建议、报告表达中体现出来，以区别专业评估与总结宣传、调研报告、经费审计等的不同。

要向委托方提议如何用好评估结果，如公开办法、扩散方式、经验学习等，促进评估结果得到更广泛的使用。评估结果一旦被应用，评估的作用才会取得更广泛的共识。

通过不断反思深化

对评估价值判断的认识

无论是商业领域的评估还是公共领域的评估，对价值的判断都存在一定的难度。特别是后者，如果把一项具体事物按照大一统的价值观（还包括政府意志甚或领导偏好）设计指标、发现问题和得出结论，则评估的价值判断难以真正体现。

德国哲学家叔本华在《论教育》中讲，“判断力的运用需要依据成熟的经验，要通过大量的观察，否则不能发挥作用。很多人在儿童时期就会被灌输种种偏见，在还未自己观察世界之前就被掐断了观察世界的需求。没有成熟的观察力，也就不会有成熟的判断力。”

而我们许多的评估活动，在还没有弄清评估对象的状况，评估的目的何在之前，就要按照管理者的要求设计一套评估指标，并按照这套指标（管理者价值观）形成评估的判断。

特别是在大型的综合性评估活动中，预设指标可能会带来观察和认识上的误区。

很多评估之所以流于形式，采取简单的打分排序方式，是因为评估者自身的研究能力不足，只是让专家按照上级意图设计的指标体系和设置的分值打分，加权平均得出评估的结论。这种做法管理方和评估机构都可以不负责任，美其名曰是专家结论。

更有甚者，有些“一揽子”的评估活动，把不同领域、不同部门、不同事项、不同经费的活动硬要来个横向间的打分排序，可比性意义何在？

因此，评估的价值判断首先要有针对性，不同目的、不同对象、不同主体都有个性化需求，需要通过前期研究制定可行的评估方案。

再有，要承认评估存在着不确定性，要增加评估可信度，就需要打破封闭的知识体系，以多元化的视角和开放心态，加强评估者、评估对象、评估专家之间的相互学习和高度理解。

特别要注重在评估的过程中取得共识和解决问题，而不是花大量的时间造出一个“完美”的报告向委托方交账。

在大多数的政策评估中，管理者总希望评估给出明确的因果关系，即政策的效果来自于某项政策的使然。

实际上政策评估常处于复杂条件下，如政策叠加效应、受益对象现实状态、反事实缺失等，因而很难获得确定的因果关系，即便通过方法的相关补充，加大评估的成本，也难得出十分可信的结果，只是增加了报告的“好看性”。

西方理性主义认识论认为，每个行动都可被解释为发生于其前（或至少同时发生）的真实的原因所带来的结果（一定存在因果关系）。由于现实是单一的、有形的，所以评估者自身可以与被评对象之间保持中立，没有相互影响，因此可以分解成独立单元进行研究得到归因。

而东方自然主义的认识论认为，一个行动要用多个相互作用、相互影响的因素、事件和过程解释。对现实只能从整体上加以研究，对多个现实的调查将导致更多分歧，反而增加了判断的难度。尤其把人作为评估对象时，这种相互作用的人为因素更为明显。

所以，一个项目结果不完全是项目活动带来的，还可能来自于其他因素，而这种因素很难被观察到或从结果中剥离出来，所以做不到真正的归因，即或去做，也是多层面的，有限的，并非绝对的。

在当今价值观多元化的社会体系中，所谓“事实”是在评估者所遵从的价值体系下确定的，不同价值观下构建的“事实”会有不同的解释。

那么，多数人的价值观一定正确吗？

历史经验告诉我们，既要防止多数人的暴政，并非多数非理性人的选择就符合多数人长远的利益，也要防止少数利益集团对多数人的绑架（被利益集团操纵的政策）。

评估本身就是对价值观不断反思的过程，需要评估者有高度的理解力和同情心，承认评估价值判断存在模糊性和不确定性，学会从多角度反映均衡的观点，关注细节，理解变化，从反思和沟通中寻找新的感悟和洞察力。

科技评估的价值判断需要

不断探索新的方法论和认识论

科技发展到今天，我们看到的世界仅仅是整个世界的5%。

这和1000年前人类不知道有空气，不知道有电场、磁场，不认识元素，以为天圆地方一样，人类未知的世界还多到难以想像。

正如老子曰：“道可道，非常道；名可名，非常名”，意思是说，人们看到的事物或方法并不是前人见到的事物或方法，事物的变化加上每个人的经历和角度不一样，即使是同一时刻看到的事物也会类似盲人摸象，只见到其中的一面。

两千多年之后科学发达的今天，这个道理依然。

盲人摸象也是认识世界的一种方式，因为每个人摸到的都真实存在，研究客观真实的存在，就是科学。

评估的价值判断在于运用更好的方法论和认识论反映事物的变化，判断事物的本质，而不仅是描述事物状态，解释因果关系，评判是非对错。

对评估的研究，还有很长的路要走，诸如评估能够建立标准化体系吗？能够形成知识体系吗？大数据方法在什么条件下和多大程度上能解决评估的问题？这些问题都还有待于进一步讨论。

美国管理领域前沿大师和思想家玛格丽特.惠特勒在《领导力和新科学》中论述：“在新科学里，潜在的趋势是向整体观发展，倾向于将事物作为一个系统来理解，将那些看似分离的各个部分之间存在的联系赋予价值。当我们从这种视角来看待系统时，我们进入了一个全新的世界，在这个全新的世界里，各个部分和层面都是相关联的，现象不能归纳为简单的原因和结果，而且过程也在持续地变化。”