情报界(IC)和国防部(DOD)对开发和部署人工智能(AI)系统以支持情报分析表现出了兴趣,这既是利用新技术的机会,也是解决数据过剩问题的一种解决方案。这种过剩源于人类无法单独处理的大量数据,对于某些智能学科来说,这是一个特别尖锐的问题。然而,兰德公司之前的研究,以及公共机构发布的研究和策略,已经将验证、验证、测试和评估(VVT&E)确定为使AI系统在国家安全环境下部署复杂化的核心挑战。 我们专注于VVT&E问题的一部分:识别适应当前任务的人工智能系统的指标(或性能指标)。利用学术人工智能文献、情报文献以及对RAND和政府的主题专家的非正式采访,本研究开发了一种方法,用于评估人工智能系统可能对其支持的情报任务产生的影响,并将这些影响追溯到系统本身的属性。计算出的影响和预测它的测量值都可以用来表征人工智能系统的性能,从而告知决策者系统对任务的实际价值。 尽管复制人类的表现有时被认为是人工智能系统成功的充分标准,也是部署系统之前最相关的门槛,但我们认为,这一标准的适用范围比它最初可能出现的范围要小得多。 此外,即使在其适用性范围内,该标准也比系统影响的全面核算更有局限性,
因为它只提供了最低限度的标准,而没有了解系统可能提供的正值或如何最优地分配这个值。
在本报告中,我们根据人工智能系统对下一步智能过程的支持程度来组织我们的分析。由于我们需要一个将AI系统插入的过程的概念模型,以确定AI系统之后的“下一步”是什么,所以我们采用智能周期作为智能过程的模型。我们定义了一组四种“系统功能类别”,它们部分由智能周期组织,并根据它们支持的“下一步”属性划分支持智能的AI系统的功能(见表S.1)。换句话说,这些系统功能类别根据AI系统的输出如何被利用的。表S.1
系统功能类别
| 评估支持 | 自动化分析 | 信息优先级 | 收集支持 |
描述 | 摄取报告或产品,以确定其质量和优先次序 | 无需人工监督即可转换或丰富数据 | 吸入可获得的信息 分析师倾向于将分析师与有用的信息联系起来 | 吸收现有信息以指导未来的收集 |
例子 | 将报告分类的工具 国家情报优先事项框架(NIPF),并跟踪哪些优先事项得到了充分收集 | 一种转录、翻译和总结信号情报(SIGINT)的工具。 | 用于标记报告的推荐器 所有的来源分析师基于先前的兴趣或评级 | 一种使用SIGINT指示图像情报(IMINT)来发现或跟踪目标的系统 |
注意: 例子是人为概念上的,不一定反映实际的系统
利用输出的方式提供了一个自然的平台来分析系统输出中错误的后果,然后我们可以回溯到了解不同的错误率是如何在“下一步”连接到不同程度的后果的。对于信息的优先排序和收集支持,我们发现这个程序产生了对这些系统的影响进行推理的方法,而没有解决决策者选择的情报和行动如何对美国的整体安全做出贡献的难题。对于其他两个类别,我们发现,尽管可以推断出可行的基线性能标准,但这种对绝对功效的详细分析仍然存在障碍。 然后我们开发一个简单的数学模型信息优先级的操作系统,捕获错误的后果的系统执行这个函数,并用它来推导一般结果带来的影响,这样一个系统的分析时间和丢失一块相关的概率有限公司-美信。为了构建这个模型,我们分析了这样一个系统可能会犯的两个错误:错误的优先级(假阳性)和不正确的去优先级(假阴性)一条信息。在假阳性的情况下,我们发现这些错误的成本是可以量化的,在没有有意义的回报的情况下,对分析师时间的总体预算的影响。另一方面,在假阴性的情况下,我们认为很难防御性地分配成本给他们。为了避免这种困难,我们构建了一个模型,该模型预测假阴性的剩余风险,作为分析人员使用系统时间的函数。换句话说,该模型预测了分析师时间的“投资回报”,这是由系统的属性所调节的。 我们通过几个人工示例来演示这个模型的实用性。首先,通过展示一个例子,我们表明这个模型证明了开发与实际系统使用相匹配的度量标准的重要性,在这个例子中,模型表明,一个数学精度较低的系统碰巧比一个精度较高的系统在信息优先级排序方面更有用。然后,这个主题扩展到模型本身,因为我们演示了不同的系统可能更可取,这取决于分析师可用的时间量。
查看输出。然后,我们将演示如何使用该模型优化信息优先级系统在误报或误报方面的错误程度,方法是调整系统将一个项目标记为有用的阈值。在大多数情况下,这个最优的阈值会导致系统精确地标记出分析师能够实际审查的所有有用的项目。随着调优的完成,该模型提供了预期的分析师时间投资回报(见图S.1),这是决策者制定战略的宝贵输入。结合人工智能和智能文献的现有结果,对该模型的研究得出了与人工智能系统支持智能的功效有关的两个普遍结论:使用与实际优先级不匹配的指标会模糊系统性能,并阻碍最优选择的明智选择
注意: 在这个模型中,信息优先级系统将所有项目标记为有用或无用,然后分析人员检查已经到达的项目的固定百分比,显示在x轴上。 固定阈值对应于具有任意选择阈值的单个可能系统。 阈值优化曲线上的每一个点都代表了该审查百分比所优化的系统的性能。更多细节见第三章。
系统度量标准在真空中不一定是有意义的。策者应该预料到需要开发与他们的优先级相匹配的度量系统性能的方法。自从指标通常用于捕获系统的性能不同意这两个系统的表现更好,简单地选择一个度量任意不会使决策者能够排名系统,他们会多么有用的任务系统支持。类似地,工程决策从总体模型设计到假阳性和假阴性之间的交易的优化,都是为了使系统性能相对于记录的度量最大化。度量选择应该在系统构建之前进行,并由评估系统部署的实际影响的尝试来指导。 有效性,以及度量它的度量,不仅取决于系统属性,还取决于系统是如何被使用的。在信息优先级系统的情况下,这是通过发现的有用项的数量与分析员检查系统输出的时间的依赖来捕获的。由于最优的系统必然是最有效的,这也意味着哪个系统是最优的,可以取决于如何使用该系统。例如,在信息优先级系统的上下文中,不同的审查百分比可能导致不同的决定,以确定哪一对系统是最好的。也就是说,对于给定的一对系统,哪个系统更有效取决于可以检查多少系统输出。在工程水平上,这影响了假阳性和假阴性之间的最佳权衡。然而,无论是对于理解系统有效性的问题还是对于选择最优系统的问题,这些都只是更一般的经验教训的例子。在部署一个系统时,决策者应该明白,关于如何使用系统的选择可能会影响与系统本身属性相一致的结果。其中最主要的是除了用于建立该系统的资源外,用于该使命的资源的数量。基于此分析,我们对国防部和IC提出以下建议。 从正确的指标开始。在考虑购买一个人工智能系统时,国防部和IC应该首先详细了解该系统的使用方式,并选择反映该系统使用成功的指标。 特别是对于信息优先级AI系统,我们建议一个版本的信息优先级性能模型,可能经过调整和扩展,以覆盖当前的精确情况。通过这个过程,AI系统采集者可以了解系统设计师所取得的性能将会产生什么样的影响。人工智能系统设计师也将受益于指导其工程决策的明确目标,如果这个目标与用户优先级相一致,他们将交付一个更有效的人工智能系统。 定期重新评估(和调整)。由于AI系统在部署后的世界不断发展,因此AI系统评估必须继续作为常规维护的一部分。狭义地说,这意味着继续收集测试数据,并测量人工智能系统的性能,以检测性能的任何变化。更广泛地说,这必须包括重新评估系统的部署上下文。人工智能系统是否仍在以最初部署时设想的方式使用? 在利用系统的输出和完成系统想要支持的任务上,是否投入了相同数量的资源? 随着这些细节的改变,衡量有效性的正确方法可能会发生改变。最引人注目的是,这可能会导致完全不同于那些在部署时用来评估系统变得最合适的度量。此外,人工智能系统可能需要重新调整(例如,在假阳性和假阴性之间达到不同的平衡),以反映用户变化的优先级。 语言。系统设计师拥有一套完善的指标,通常用于捕捉AI系统的性能。虽然可以构建新的度量标准,但熟悉这些传统的度量标准将有助于在设计新系统或维护现有系统的过程中与专家进行沟通。确保为可能掌握人工智能系统的采办专业人员提供课程。Tems介绍了这些传统指标。此外,采购专业人员将受益于对评估这些系统的统计方法基础假设和推理的理解,这也可以包括在相关课程中。更广泛地说,应该创建或确定AI系统指标的公共资源,作为跨IC的公共接触点。 人工智能系统有效性评估方法有待进一步研究。除了在评估支持智能的人工智能系统的有效性方面迈出了一步之外,这一努力还表明,如果没有经过优化的评估这种有效性的方法,将会失去什么。不幸的是,还需要进一步的基础研究,以便在所有与情报任务相关的系统和部署环境中提供这些方法。这项研究不同于为国防和情报应用开发确保人工智能系统完整性和可靠性的方法而进行的大量努力。除了能够保证这些系统不会突然停止工作在一个关键时刻,我们必须能够批判性地评估他们是否会增强效果在他们支持的任务时,判断他们的任务不仅仅是一个狭隘的定义,而是他们所提供的实际价值。换句话说,除了了解如何防范不利因素外,还需要进行研究,以真正了解这类系统的好处。目前,特别是在情报方面,这项努力的结果表明,在评估这些系统向用户提供的实际价值的方法方面仍有改进的余地