是游戏更是对未来战争的演练,从《星际争霸》看未来自主作战决策技术
讨论了未来作战自主决策技术面临的瓶颈问题,并提出以打造大型战争游戏为手段,从关键技术出发,试图指出未来作战自主决策技术发展着力点,为自主决策系统的智能化技术开发和研究提供研究思路和理论基础。
未来作战自主决策技术是关键,“知识”的较量已成为战争主角,其本质就是决策算法之间的较量。
在当前阶段,各类游戏依然是训练和验证智能决策技术的绝佳平台。不仅因为其对未来战争模拟程度非常之高,更重要的是蕴含了当下人工智能在认知决策层面还没有很好解决的问题,对于未来群体智能研究将具有重要意义。
《星际争霸》分析
《星际争霸》是暴风雪游戏公司在1998年开发的一款即时策略性大型战争游戏,主要通过在不同的地图条件下,由多名人类玩家控制3种角色,利用装备、资源以及士兵数量,以摧毁敌方大量战争资源为目的的高强度博弈对抗行为。
《星际争霸》决策算法
战略和战术决策是实时战略游戏的两个关键方面,优秀的战略决策能帮助我方部队采集更多的资源、建立更多的战斗单位,而良好的战术决策能帮助我方部队在小规模战斗中赢得主动。1、战略决策算法
1)基于案例的决策算法
基于案例的决策算法是将当前状态与历史案例数据进行比对,找到适合于当前状态的最优规划结果,如何降低计算空间的复杂性是主要的研究热点问题之一。
2)分层规划决策算法
分层规划决策方法可以在不同抽象程度下单独处理子状态空间的规划问题,子目标的规划结果可以从宏观目标到微观动作规划,并能很好地映射到全局规划结果中,通常与其他方法结合使用,分层任务网络结构构建是当前研究热点之一。
3)目标驱动决策算法
目标驱动决策算法是根据智能体的任务目标及周围环境变化,构建定量变化关系模型,只能通过手动赋值完成系统初始化。发生意外情况时,系统不但可以记录异常状态,还能做出反馈调整。
将基于案例规划法与强化学习结合,可以实现系统目标和领域知识的动态变化,如果领域知识发生变化,系统也会自动适应,但若领域知识过于简单,该方法的准确性不如目标驱动决策算法。
2、战术决策算法
1)典型战术决策算法
典型的战术决策算法研究对象可以分为己方和敌方两方面。其中敌方研究较少,仅以经济状况建模方法以及对手策略预测为主,而己方研究成果较为丰富,涵盖了协同编队控制、协同攻击决策、整体对抗策略生成以及智能体快速运动控制等方面。
当前对敌方的研究较少,主要集中在对敌方经济状况预测以及敌方策略预测两方面。
对于时间维度,研究重点逐步从己方的决策控制问题向敌方策略预测过渡;从研究对象上,小规模同构智能体向大规模异构智能体过渡。对于混合异构智能体、大规模场景,特别是对不完全信息条件下的自主决策研究较少。
2)建造顺序预测算法
建造顺序是决定战争成败的核心因素,与己方经济发展速度、应对敌方战术袭扰密切相关,包括建筑物种类、建造数量以及建造位置三个方面,从研究方法上可以分为利用比赛录像和算法开发。
可以使用比赛录像来预测对手,并决定实际比赛中的我方建造顺序,结果显示该方法能够准确预测对手策略。
3)反应控制决策算法
反应控制是指利用不同算法对作战单元实现移动、攻击、侦察、撤退功能,在算法层面,主要有基因算法、蒙特卡罗算法、势流法、贝叶斯法和强化学习。
在作战单元移动方面,根据敌方目标的数量和类型,可使用势流法实现对作战单元的编队控制。
在作战单元攻击方面,可简化为多目标连续优化问题,构建仿真作战单元环境,使用基因算法控制作战单元实现最大化攻击和最小化伤害,依据环境条件选择合适的动作行为。
强化学习技术可使作战单元能够根据敌方的行为做出相应决策,研究发现作战单元能够在不同的游戏阶段做出最佳决策,但该方法仅适合特定场景下的决策。
在侦察方面,根据敌方目标的数量和类型,使用势流法对作战单元进行编队控制。
未来战争制智权的夺取,决策算法是关键。《星际争霸》与实际作战过程比较接近,是未来战争决策算法的孵化器。
通过分析对《星际争霸》算法研究,对于搞清多智能体博弈对抗决策机理,以及未来作战自主决策具有重要意义。然而,除去算法本身之外,未来作战自主决策技术的落地应用,仍然面临一些挑战。
未来作战自主决策技术面临的挑战
未来作战自主决策技术AI 复杂度分析
AI算法模型对样本数量和复杂度具有强烈的依赖性,学习对象越复杂,对样本数量要求也越高,如果要考虑攻击类型、能源以及科技研发等因素,那么复杂度会更高。与《星际争霸》相比,真实战场的复杂度要高出多个数量级:作战单元种类和数量更多;作战单元行为控制更加复杂,作战单元往往需要设定大量的控制参数完成;作战域更加复杂,真实作战域已扩展为海、陆、空、天、网、电磁以及意识域;评价标准更为复杂。
未来作战自主决策技术可以尝试“分布式解决”模式,分解为具体的子问题,针对每个子问题运用对抗网络、模仿学习以及元学习等手段进行策略求解,最后将各个子策略进行集成。
未来作战自主决策技术瓶颈问题
1)缺乏足够的领域知识和样本数据战场样本数据通常是指在实际作战、演习训练以及仿真过程中,产生的情报、通信以及作业数据等,需要清洗加工和标注标签等工序才能够用在学习模型中。样本质量包括数据本身的好坏及数据标签的准确性。
当前自动化标注方法面对战场纷繁复杂的态势信息灵活性不强,且数据的产生主要依靠演习训练和仿真试验,战术对抗激烈程度和灵活程度以及装备使用程度均不如实战。
2)缺乏科学的验证评价技术手段
模型通常需要使用大量的数据,但现阶段无法实现将模型放在实际战场中去测试。目前针对未来作战自主决策技术的效果验证,缺乏统一的量化指标和标准,即便面对实际场景,也很难有统一的量化衡量标准。
3)缺少多学科融合人才
在未来作战自主决策技术场景下,精通军事作战理论、熟悉装备性能、明确交战规则的领域专家,与掌握机器学习模型算法、强化学习训练技巧、深度学习网络构建经验的AI技术专家相结合,才能找到切入点和发力点,真正发挥未来作战自主决策技术效能。
基于大型战争游戏的
未来作战自主决策技术发展着力点
本质上,未来作战自主决策技术的瓶颈问题是“人”和“物”的矛盾关系。缺乏军事决策技术领域与人工智能算法跨领域专家,这个“人”,以及可以有效训练学习模型数据,这个“物”。
未来作战自主决策技术智能系统架构
未来作战自主决策技术智能系统架构主要由未来作战自主决策技术智能系统和作战单元两部分构成,两者相互配合、相互协同,前者发出决策指令,后者执行并将执行效果进行反馈。未来作战自主决策系统基本运行原理是通过对复杂战场环境进行建模,将战场资源虚拟化,构建虚拟-现实的实时映射关系。
根据战场实际态势,并基于构建的虚拟化战场模型,得到适合于当前战场情况下有利于我方的作战决策行为,其中虚拟资源构建的真实程度直接决定了智能AI模型的计算准确程度。
未来作战自主决策技术大型战争游戏AI虚拟建模技术
当前诸多大型战争游戏建模技术已较为成熟,具备精细化建模的能力,但与实战应用还有相当距离:缺乏包含作战规则、裁决模型等决定实际战争效果的军事应用规则模型的嵌入;缺乏仿真模型与实际战场环境的交互能力。从担负的任务和规模看,可将未来作战自主决策技术分为战术级、战区级、战略级3个层次。
可从战术级入手,在当前游戏建模技术基础上,从作战概念模型和推演模型体系两方面搭建适合于仿真推演的虚拟模型。
未来作战自主决策技术大型战争游戏推演引擎技术
对于战争游戏引擎而言,更重要的是应从设计理念、引擎模式、应用方式3方面进行技术研发。
设计理念是指一款战争游戏涵盖不了战争的方方面面,要求以聚焦作战概念为核心,针对当前引擎架构设计基本方法,突出显示需要修改开发的地方,支持作战概念,设计开发战争游戏引擎。
引擎模式可以分为人在回路和人不在回路两种,前者是指作战人员可以指挥各个单元以及战场态势,在线实时修改游戏模型,后者指整个游戏推演过程完全由AI模型自主完成。
应用方式是指战争游戏引擎可以支持调试运行模式,根据指战员训练、推演以及实战需要,根据战场全局的某个片段、某个子任务进行重复调用、重复训练指挥。
结论
《星际争霸》游戏是决策技术应用的一个重要领域,是算法开发、模型验证的重要平台,与真实战场的复杂性和多变性相比,《星际争霸》直接应用于作战自主决策仍然有较大差距。但其具有高实时性、战争迷雾、状态和动作空间巨大等特点,在战场数据生成机理、战略战术算法开发和验证方面,能够为作战自主决策提供理论指导和技术支撑。
并且博弈论将作为未来作战自主决策技术的理论牵引,模仿学习、迁移学习以及增量学习的探索,都会给该领域带来新的研究思路。
本文作者:黄彬城,陈思,高放,葛建军,吴雪玲
作者简介:黄彬城,中国电子科技集团公司认知与智能技术重点实验室、中国电子科技集团公司信息科学研究院,工程师,研究方向为群体智能、多智能体决策。
论文全文发表于《科技导报》2021年第5期,题目为《星际争霸视角的未来作战自主决策技术》,本文有删减,欢迎订阅查看。
内容为【科技导报】公众号原创,欢迎转载
白名单回复后台「转载」☟精彩内容回顾郭烈锦院士:提高能量转换有序化程度,实现洁净、无污染、低碳甚至无碳排放
《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。
《科技导报》微信公众平台创建于2014年,主要刊登《科技导报》期刊内容要点,报道热点科技问题、科技事件、科学人物,打造与纸刊紧密联系又特色鲜明的新媒体平台。科技导报公众号聚集了数万名专心学术的未来之星和学术大咖,添加编辑微信,让优秀的你有机会与志趣相同的人相遇。