美专家：不会作战评估的指挥官是不称职的指挥官！

查看原文

其他

美专家：不会作战评估的指挥官是不称职的指挥官！

Original: S·威尔希斯等桌面战争 2019-06-08

推荐

《桌面战争——美国兵棋发应用及案例》

往期回顾

焦点丨美军重振兵棋推演及启示（二）

关注丨加拿大麦吉尔大学：为什么让学生设计多种主题的兵棋？

兵推丨看看什么叫政经兵推？

我们承担不起扭曲评估的后果：过度的乐观会促使我们仓促发动地面战争，付出大量生命的代价；过度的悲观会压抑我们我们呆坐不起握拳顿足，抱怨敌人仍太强大。

——诺曼·施瓦茨科普夫将军（GenH.NormanSchwarzkopf）

前言

纵观历史，作战指挥官们总会思考这个问题：我们仗打得怎样?1972年的史诗影片《巴顿将军》中有这样一个场景，演员乔治·斯科特扮演的巴顿将军身处北非战场，手握望远镜瞭望一场大型坦克决战。这位举世闻名的将军通过望远镜将广阔战场上的坦克群和近空支援尽收眼底，亲自对战况进行评估。

现代指挥官如果离开需要信息管理技术的先进传感器能力，已经无法进行有效的作战评估。这种情况在“沙漠风暴”行动期间逐渐明显，在当前全球非正规战争冲突中持续存在。随着过去25年来对评估用数据的需求成指数级增长，我们的指挥官们已被淹没在日益复杂的海量数据中。从国家和战略目标到衍生作战目标和战术任务，指挥官必须随时关注来自无数层级的要求和输入的信息，用这些要求和信息拼构成作战全景图。

为此，指挥官只能依靠参谋幕僚和士官（他们则依靠各种分布式和协作程序、工作流，以及信息技术）来判别相关数据并提供综合评估，然后，指挥官据此生成对作战环境的全面理解，并将这种理解与自身对作战的解释和评估（主观的、思维化的、极少依赖技术的理念建构）结合起来，作出有效和及时的决定。

于是在现代作战评估中，我们面对着一个数据管理和主观分析结合起来的难题。在这个双面挑战的背景下，美军最关切的，是需要一个机敏的作战评估框架，这个框架应能支持人工操作员发挥作用，而人工操作员通常被视为关键因素，也可能成为评估过程中的单点致命故障点。虽然人类智慧是作战评估的基石，但它不排斥也不会减少对现有和未来技术支持这个过程的需求。设计用于收集、筛选、关联、描述、可视化和预测模拟战场的技术，能够极大地扩展和丰富人类分析思维的深度和广度。

当今的作战评估团队必须能够汇集、合成并分析信息，用以评价和估算作战的进展。日新月异的信息和“情监侦”（ISR）技术进步，已使得评估员和指挥官对作战的几乎每一方面，都能更好地理解和决策。但另一方面，传入数据极其繁杂而巨量，又使得这项重要任务更加艰巨复杂。本文审视当今作战评估范式的基础层面，着重观察其框架结构、研究设计和衡量类型，进一步评点其中的模糊性和不确定性，最后讨论认知上的细微差异。本文为作战评估提议一个新的基础，将作战评估锚定于创新的技术、修正的作战评估认知，以及适变的陈述表述系统。

作战思想和作战评估

飞行员面临的一项最大挑战一直是作战评估：我们如何知道自己是否实现了任务目标?此问题困扰飞行员几十年，可以说自二战以来几乎基本无解。

——美国空军退役上校菲利普·梅林格（ColPhillipS.Meilinger,USAF）

简单地说，作战评估衡量的是联合部队完成任务的进度，将实际观察的行动事件与预测结果进行不断比较，以确定此任务实施的整体有效性，包括是否实现预期的终局，有无实现预定目的，是否完成规定任务等；重点落在衡量作战进展，将相关、可靠的反馈信息纳入作战规划进程，并在实施过程中及时调整行动。虽然正式定义总是将作战评估与“军事终局”挂钩，但所有指挥官和分析员都知道，评估过程中需要监控、评算和理解的内容远远不止纯粹的军事后果。

军事理论家克劳塞维茨强调指出，军事作战行动绝非发生于真空，而是政治过程的延伸，以实现政治上的更大目标——通过作战的一系列行动——包括相对短暂的作战之前、期间和之后的各种努力。更重要的是，军事能力只是实现和保护重大国家利益的国家力量的若干要素之一，甚至常常不是施展国家力量的最重要或最有效的手段。从这个角度来看，军事行动常常收效有限，不及政治、经济、社会和信息化软实力等要素的成效。理想的做法是，军事力量应当与其他软实力要素配合使用，形成合力，但由于军事行动几乎总是涉及暗示或公开的暴力，因此成为展现国家力量的最直接手段。

遗憾的是，历史上不乏国家过度依赖武力的例子，最终的结局都常常是毁灭性的。因此，有效和明智地使用军事行动，要求我们能够以某种方式确保发动军事行动的时机、地点和方式都最适当有效，并将风险控制在最小。作战评估是反馈，它允许指挥官按照不断变化的条件调整，以适当和有效的方式开展作战，完成任务和实现目标。如果没有评估，指挥官只能盲目作战，依靠运气，而不是凭借技巧和计划来完成任务。

一个有效的评估过程，必须从这场周密思考的军事行动的分析和策划开始——远在其相关责任地理范围内实际发生危机（如果发生的话）之前。在这一节点，指挥官和参谋班子必须考虑“衡量什么和如何衡量，才能判定任务的进展情况，确定任务完成，达到预期效果，或者实现预定目标。”规划者不仅要思考传统上与作战评估紧密相关的军事行动诸因素，还必须考虑到可能影响规划和执行的各种外部因素，预判这些外因对实现目标进展的影响。因此，指挥官和参谋人员需要经常与非军事机构和非政府组织协作（如有必要充分整合），以更好地发现、分析和衡量“作战环境中己方、敌方和中立方的外交、信息与经济行为”的影响。

作战设计和研究设计

首先，我们研究的任何国际安全问题——无论历史事件、当前危机、或猜想的未来战争——几乎总是比初始的认知更复杂。理解复杂的国家安全事件，需要对其进行简化，这种简化已成为我们评估战略形势的常规。

——安德鲁·斯蒂格勒，“复杂安全环境中因果关系评估”（AndrewL.Stigler“AssessingCausalityinaComplexSecurityEnvironment”）

作战规划和评估的目前做法植根于作战设计（operationaldesign），或者说“支撑战役或重大作战计划及其后续执行的框架概念和构建。”作战设计作为基础性活动，更加注重对作战和环境复杂性的深刻理解，与解决问题则较少关联；它帮助指挥官“将作战环境形象化，理解必须解决的问题，并制定一种能够创建理想终局的宽泛作战方法。”作战设计包括若干进行有效作战评估的既定机制。在设计过程早期制定的收集计划先提供“一个系统方案，优化运用所有可用收集功能，以及相关的信息处理、归纳和分发资源，以满足特定的信息要求。

”进一步，收集计划识别指挥官对关键信息的所有要求，将这些要求“挂钩到作战评估过程，及时满足指挥官的信息和选项需要，从而做出决策。这个程序也帮助参谋班子识别指挥官希望密切监控的作战关键环节，以及指挥官决策所需了解的各方面。”如能从目前的既定作战评估流程和产品再向前演进和超越，应可做到更好地将作战评估向作战设计对准。从更广泛的角度来看，作战评估的核心实际上是关于研究、发现和阐释性道理建构，需立足于严谨、科学和适变的研究设计（researchdesign）。通常，这些研究设计涉及对某种效果或者基于结果的框架做假设检验（即：假设采取某行动，就会生成某效果/结果），或者说是做一个从自变量=>处理=>到因变量的设计。

詹妮弗·梅森（JenniferMason）将研究设计阐释为三个广义提问：

第一，我要研究什么，或者调研什么现象?

第二，将研究问题、方法和证据联系起来的策略或提出的研究假设是什么?

第三，拟议的研究将如何对相关的伦理、政治和道德问题进行考量?

因此，研究设计结合“理论主张[假设]和实证证据[指标数据]，生成能够回答研究所探究的问题或者疑问的论证。目前的作战分析员使用日常办公产品软件或其它专门软件（例如地图或排程调度工具）来支持自己的调研，然后生成证据数据，以回答所实施处理的何人、何事、何时、何地和如何；再依据推动策划的原因，决定下一步应该做什么。如果世界是静止不变的，那么这个程序就相当简单了。但随着时间的推移，变化不可避免；而军事行动涉及志在必得的对手，此对手同时千方百计阻止我们实现目标。

因此，作战评估的研究设计必须具备灵活性和适变性。本文介绍的新现设计方法能够解决这些关切，它“允许并预见到[评估]战略、程序、疑问、数据生成方法等各方面的变化。”新的设计程序侧重于创新发现和不断适变，几乎引发一种生物模型，其中：实际分析不太像预设的测试和验证程序，而更像是一种发现过程。整个分析通过生成数据、审查初始焦点问题、以及考量理论假设等的相互作用，以这些过程交替重复即迭代的方式展开。因此，分析成为一个循环的过程，首先对关心的现象认真勾勒出一种版本或观点，然后随着更多数据的生成和新问题的提出对该版本或观点进行修订，形成新的版本，如此循环下去。

新的设计方法不是着眼于将研究结果整理归纳入指定的和静态的知识类别内，而是前瞻并容纳分析员与数据的必要互动将生成的新框架和新观点。在这里，形成我们知情和认知的不是证据性数据，而是各种数据元素之间各种关系生成的认知意义或理念，且这些理念一直在调整变化。从根本上来说，新的设计方法提供了学习的基础。

准确度和精密度

请注意，不要试图将“表现衡量指标”（MOP）与“效能衡量指标”（MOE）连在一起混为一谈，做好一件事不等于做对一件事。MOP和MOE关注的重点不相同。MOE及其支持指标只衡量作战环境，而不考虑MOP和任务。在评估过程中，只有在进行缺陷分析时，才将MOE和MOP放在一起考量。经验教训表明，试图建立MOP与MOE之间的联系，是对参谋人员时间的浪费。

——指挥官评估规划与执行手册（Commander’sHandbookforAssessmentPlanningandExecution）

数据（指适用于兴趣现象的有关指标）既是衡量的来源也是衡量的结果。衡量行为赋予数据两种品质：准确度（accuracy）和精密度（precision）。遗憾的是，这两个概念经常被误解和互换使用；更糟糕的是，有些情况下有人认为做到精密比只做到准确要好。通过衡量得到的数据的准确度，被定义为“得到的实量值与受量事物的真实值之间接近一致的程度。”13此定义表明了衡量所衍生数据的第一项重要特质：受量事物是被衡量的数量或对象；但因为所有的衡量都有误差，无论衡量多么精确，由此产生的实量数据值与（认识论上不可知的）基准值之间总有某些差异。

进一步，衡量准确度的概念不是一个量，因此无法给出数量值；只能说，衡量所生成的误差越小就视为越准确。衡量的准确度不可混同于衡量的真实度，或者说，准确度是无数次反复衡量得到的数值平均值与一个参照数值之间的接近程度。数据精密度指的是“在指定条件下对相同或相似对象重复衡量所得到的指标或量值互相之间接近一致的程度。”此定义引入了衡量所衍生数据的第二个重要特质：衡量行为本身的“严格性”（即可重复性）和重复衡量所得数据之间的一致性（或非一致性）。指定条件可以是衡量的重复条件、衡量的中间精密度条件、或衡量的再生条件。作为从统计派生的术语，衡量精密度通常以数值表示（即：标准偏差、差异或偏离系数）。因此，在作战评估的语境中使用衡量，必须解决准确和精密的这些关键方面；不仅要评估出作战行动取得的成果与预期结果的接近程度，还要对实现目标努力中的成功（或非成功）做出合理的估计。

表述精密度和准确度的指标

指标的定义是：“一项显示某事物的条件、状态或存在的特定信息，并提供一种衡量表现或效能的可靠手段。”进一步，“指标的生成来自为满足情报和信息需求而确定的数据。作战评估是一个迭代的过程，此过程取决于可得的数据源和专业的军事判断；判断效能和进展的程度，往往取决于建立特定的指标相对于适当结果的趋势线。”精密度是通过表述衡量结果所衍生数据的确切度，以指标的形式呈现。准确度与之有别，其之加强，在于通过各种手段和来源，获得最能贴切反映敌方行为变化的数据，亦即分析员最希望了解到的信息——尤其是当分析员采用多种（而非单一或几种喜好的）手段和来源时。

对数据做细致表述，需将数值和文字相结合，展现所述信息的精密度和对其准确度的估算。然而，数据精密度与准确度的确切传达形式取决于被表述数据的确切性，例如，一件武器的预期和实际弹着点，可通过三维地理坐标表现，其精密度以水平和垂直衡量的有效数表达出来。对准确度的表述则以对圆形（水平面）和线性（垂直平面）误差的估算来表现。至于非定量性评估数据，如打击后任务总结报告，其精密度随报告文本所含细节描述的详尽性而直接变化。而准确度取决于这些细节被其它来源所证实的程度；其它来源诸如：机载传感器视频、参与打击的机组人员观察、打击后ISR报告等。

无论如何，若要将数据最有效地用于作战评估，数据的信息必须以能正确反映其精密水平和准确度估计的方式表现出来；更重要的是，若要有效使用这些数据，作战评估团队成员必须通晓这些特质的基本原则。数据的表述也涉及偏见，因为人类有着追求自然世界的一致性和有序性的天然倾向。总之，我们很少能够认识到世界的真容，而是下意识地把世界看成我们所希望的那样。这种倾向作用于作战评估，于是我们在评价数据群或取样时，倾向于中心趋向和正态分布（即高斯分布）量度，且视之为理所当然的标准做法。鉴于这样的习性影响重大且后果严重，也许，我们应该对这些人类倾向做客观和批判性分析，拒绝这种质量中心式的结果，而积极探索边缘现象（诸如“黑天鹅”事件）。

那么，何种数据源能最好地满足与实现一个或多个目标相关的指标和量度的需要呢?大多数评估员发现，“的确有夸大所需量度和指标数目的倾向，从而产生巨大的数据采集要求……[尽管]所吸取的经验教训表明，更多的信息并不一定转化为更好的评估。”

不确定性和模糊性

不确定性是信息的基本性质，而不是信息的残留缺陷。真理并非埋藏在数据中，信息不会带来知识，最佳答案通常不会轻易得到。

——达林·里德和拉尔夫·基芬中校，《猜测编织的网，第三篇》（DarrynJ.ReidandLtColRalphE.Giffin,“AWovenWebofGuesses,CantoThree”）

在任务分析期间制定的量度和指标，很可能不完整。为每个预期目标生成的量度和指标清单只能作为起点，从此点开始分派对可用资源的衡量责任。此外，衡量过程中必有的两个陷阱加大评估的困难，一是人类感知能力的不对称，二是侵蚀所有数据的模糊性。感知不对称源于这一事实：对于观察到的事件或情况，没有两个人会得出完全相同的结论。我们都倾向于通过一个复杂且时常微妙的理解或阐释框架，来审视每一个人和每一件事情。这个框架建立于个人一生中获得的经验和学习（即智慧）之上，成为我们认识世界的意义不可或缺的工具。

这种阐释框架是人类独特自我意识属性的直接后果。不过我们也必须承认，这一框架往往会随着我们经验的积累和时间的推移，变得更加根深蒂固。其结果是一种经验反馈效应，它促使我们生成对物体和事件的固定阐释，而这些物体和事件似乎具有与过去经验的足够程度的相似性。在不小程度上，这种阐释归类溯源于评估的第二个陷阱，即所有数据中带有内在的模糊性。即使最具客观分析能力的人，也必须承认主观性和固有偏见的影响。而且，讨论感知不对称的影响时还需认识到：我们的敌人在经受我们的进攻和防御作战时，以及在策划、执行和评估针对我们的作战行动时，也会受到与我们相同的陷阱之害。

虽然感知不对称和模糊性密切相关，且两者结合使得评估复杂化，但数据的模糊性远更棘手，比我们无法客观辨别事物本身更难应对。出现此困难，是因为我们不可能获得任何事物的每一个细节，围绕我们所收到的信息的每一个元素，总有与之相关的已知和未知的信息。现代战争如此复杂，我们的能力如此精密，我们政治领导人的期待如此之高，我们的作战评估过程却是如此状态，不免尴尬。此外，最近几十年来对技术情报和ISR的片面重视，以及这些能力展示出的令人惊叹的细节，常常导致我们对其真准性抱有毫无根据的期望。例如，传感器只可看到其关注范围内的东西，只能观察和搜集其设计规定的频谱片段中的事物，而不能对观察到的东西的真实性或意义作出价值判断。

例如，在第二次海湾战争中，我们对伊拉克空军形成了一种先验评估，因为萨达姆拥有相对现代和相当可观的军事能力，我们就引申出一种与后来事实不符的推定：他会像我们那样来充分运用空军。事实是，伊拉克空军在这场战争中几乎没有登场，从未对盟军空中或地面行动构成威胁，并且在战争的头几个星期中就有大量飞行员驾驶（超过125架）飞机出逃到伊朗。尽力固然必要，但是我们必须知道，准确知识的获得是极为复杂的，这种努力几乎无望完全成功。结果是，评估本身变成一个如何表述好的问题，因为人类没有能力看到事物的最后真相（感知），却要不断抗争想避开这种无能，欲尽最大努力缩小对事实的不可避免的不完整了解的实际差距（认知）。这种抗争需要分析方法、程序和技术，将感知不对称性和模糊性尽量减少或最小化，同时应承认，感知不对称性和模糊性的影响绝不可能彻底消除。

认识论和作战评估程序

不说明因果假设，会带来基于对因果关系不准确期待而在战略领域采取冒进行动的风险。查找我们因果推理中的潜在漏洞虽不能绝对保证不犯错误，但鉴于当今战略环境的复杂性，我们必须这样做。

——安德鲁·斯蒂格勒，“复杂安全环境中因果关系评估”（AndrewL.Stigler“AssessingCausalityinaComplexSecurityEnvironment”）

许多丰富的理论描述了可替代认识论或知识及论证研究的多种其他方法。虽然不排斥那些怀疑论者，经验主义者把我们对世界的理解锚定在真实、基本的感官经验之上，例如，将严重损坏建筑物的最新打击后图像作为可信证据，证明打击取得积极的成果。理性主义者以这个实证框架为基础，再在我们的感官感知上添加理由作为其逻辑延伸。此处，一个简单的因果逻辑前提（即：打击任务活动=>建筑物被毁）就可以完成这一知识模型。当这些基础主义观点“寻求永久和不可争辩的知识标准……并热衷于建立想法与对象、概念与观察之间的对应关系”时，它们代表了当今作战评估的主导方法。

詹姆斯·威尔山斯博士（JamesS.Welshans）指出：尽管我们竭力追求客观性，人类观察和分析本质上是一项主观活动。每一项客观衡量的精密程度皆受限于主观确立（即文化主导和接受）的阈值。研究人员不是简单地发现已经存在于可收集状态的数据，而必须创建可行框架，以最佳方式生成和表述来自选定来源的数据。因此，数据的生成和表述过程涉及理智性、分析性和阐释性的行为。知识不仅是我们已知事物的基础，也是评价和吸收新经验与信息的框架，我们现有的知识被用来创造新知识。新事件、经历和信息，与先验观察、阐释模式、暗含的假设和信念，产生相互作用与影响。一位经验丰富评估员的专业知识、洞察力、经验和判断无法轻易地编码归类，也无法轻易地作为信息而共享。

因此，使这种知识更有成效的关键，是创造或提供正确合理的思考方法，并更加重视作战将士之间的关系和网络，使知识得到扩散、测试和最有效的利用。我们建议使用更广泛和更具智力包容的认识论，来进行作战评估，将我们的关注点从只重视因果关系概念转移到容纳意义概念。这种方法应融入批判性社会科学和立场理论的哲学元素，为有效的作战评估提供更为理智、具有分析性和阐释性的环境。批判性社会科学寻求理论与实践的结合，以培养人们认识到“信仰体系和社会实践之间的矛盾和扭曲……故而达不到其自身的标准，存在着内部固有的不一致、虚假、不连贯，于是形成虚错的意识。”我们需要以一种健康的怀疑，和对实证证据与理性判断局限性的谅解，来重新界定作战评估的方法。当今的作战评估分析员从来没有与主证据真正互动，而是在与次要的（第n次的）人工证据——诸如图像、任务总结报告、情报摘要之类——进行交流。

无论在个别还是整体层次，我们的基于文本的数据元素，充其量是对现实的表述模型，我们通过研究文化视角（例如，数据库结构或语义本体）而得到的诸种替代方法，就是证明。由于人类语言有其缺陷，以语言描述的信息对象绝对值得我们以批判的眼光去审视。然而，这个基于符号的语言框架，同时也增添了默认知识与真实人类经验微妙的丰富，使得人类能够进行理念建构、学习和共同领会。

立场认识论也对知识的普遍和客观阐释进行批判，称其是不真实、低效能和不完整的。认识和了解的过程必须始于接触不同人群的广泛体验、兴趣，和价值观，通过挑战习惯思维和积极学习解构主导观点，来持续调整知识。以来自各方的观点取代来自凭空的外行观点，以此构建分析的空间，如此，就“不会想象将它们粘合成为一个完整或者集体的，关于什么是知识的观点。”22我们所能期望的最佳结果，是一个马赛克拼图、点阵打印输出，以及高质量的分析文本。知识永远是不完整的；人类生活在不确定性和矛盾之中，同时生成许多知情的假设。

结语

假如你将目光投向正确的方向，间或会见到来自最奇特地方的光亮。——罗伯特·亨特和杰里·加西亚，“红色秋海棠”作战评估的最佳实践告诉我们，“在复杂环境中预测结果，无论如何精确也有问题。条件在变化，对手在调整，任务在挪移，目标在演变……环境条件、政治考量和作战现实，共同影响着成功实现预设目标的过程，指挥官和参谋人员必须对其评估所依据的基本假设和条件进行检讨。”

一名指挥官如果不能准确、快速地评估正在进行的作战，以及相关非作战事件，就不称职，就无法对必要的资源分配和作战适变做出准确的决策。虽然各种原始机制可做这种分析，但是它们不足以应对所面临的挑战，而且太过度依赖人手有限的人工输入。此外，它们目前缺乏可靠的数据基础，无法保证分析和预测的合理程度的精确性，而在分析和预测中受惯性思维和系统偏见及模糊因素的影响。

评估与其说是科学，莫若说是艺术。推理的艺术性，是人类唯一的依凭，以此去直觉感知生命过程中无法解脱的模糊和非对称感知的后果。但是现代科学也有其巨大作用可发挥。有经验的分析人员通常同意，有效的评估需要大量的衡量工作，但常常缺失最关键的数据；并且，最有可能缺少数据的时机和场合，常常就是必须用关键数据体现的时机和场合，发生两者巧合的几率很高。

虽然作战规划和实施不是决定性的，但是优秀的分析师或策划师通常能以高度的信心，对原因、效果和影响将如何发展，做出合理的预测。显然，需要的是一种方法，去积累和整理支持有效作战评估所需的大量信息，这种方法又要依凭各种手段，让作战分析人员可对这些数据进行视觉化处理，然后将其以直观的易于管理的格式表述出来，以协助指挥官基于该信息进行决策，而不是把大量不必要或不直接相关的细节一股脑压给指挥官使其应接不暇。特别提醒，由美国国防高级研究计划局等机构支持的项目，在支持作战评估分析师所面对的数据量、速度、庞杂和精确性等问题上，已经取得了一些进步。

美国国防高级研究计划局极为关注分析和管理大数据的项目，投资的项目主要涉及推动算法、分析和数据融合等领域的进步，投资数额从2014财年的不足9,700万美元，增加到了2016财年超过1.64亿美元。如果表述性语言和自动化推理技术，可以为作战评估分析师在梳理海量数据时，拨开笼罩着其关键见解的迷雾，这种能力将具有极大的价值。空军研究实验室正运用这项努力，寻求对贯穿空天网三域使命元素的同步规划和执行加以改进，以把在充满抗衡的环境中所做的各种作战努力统一起来，形成决定性优势。而植根于敏捷框架的高效能和高效率作战评估，对此极端重要。

本文：原载于空天力量杂志|第11卷第3期|2017年9月

桌面战争

兵棋交流者平台，挖掘兵棋原理及背后的故事！

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议