查看原文
其他

测绘学报 | 朱杰:基于主题模型的地理环境时空数据隐含语义理解

测绘学报 智绘科服 2022-07-16

本文内容来源于《测绘学报》2021年第10期(审图号GS(2021)6119号)



基于主题模型的地理环境时空数据隐含语义理解朱杰1,2, 张宏军1, 廖湘琳1, 田江鹏3     1. 陆军工程大学指挥控制工程学院, 江苏 南京 210002;
2. 73021部队, 浙江 杭州 315023;
3. 信息工程大学地理空间信息学院, 河南 郑州 450001
基金项目:中国博士后科学基金(2019M664028);国家自然科学基金(41701457)摘要:文本是战场信息的重要数据模态,从中挖掘地理环境时空语义信息是机器理解战场环境的重要方法,有助于扩展战场环境的空间认知与理解。本文设计一种基于主题模型,反映地理时空因素与事件主题之间语义关系的计算方法,通过信息抽取,挖掘主题要素相关信息,形成不同主题分类及其对应的特征词汇分布;将事件主题与地理时空语义特征建立联合分布模型,自动发现时间、空间与事件主题之间的相关性,从而生成地理时空隐含的语义主题。通过试验验证并结合应用实践,得到如下结论:利用事件主题与位置信息的关联,并应用空间分析方法探寻不同主题的时空分布规律,可为新事件的位置预测及趋利避害对策制定提供基础,从而拓展传统的地理事件主题分析。关键词:主题模型    地理环境    时空数据    语义理解    空间分析    
引文格式:朱杰, 张宏军, 廖湘琳, 等. 基于主题模型的地理环境时空数据隐含语义理解[J]. 测绘学报,2021,50(10):1404-1415. DOI: 10.11947/j.AGCS.2021.20200380ZHU Jie, ZHANG Hongjun, LIAO Xianglin, et al. Latent semantic understanding of geographical environment spatio-temporal data based on topic model[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(10): 1404-1415. DOI: 10.11947/j.AGCS.2021.20200380
阅读全文:http://xb.sinomaps.com/article/2021/1001-1595/2021-10-1404.htm
引 言
理解战场环境,是指作战人员对战场空间的理解,由空间、空间知识的表达方式,以及运用推理生成新知识的能力而构成的认知思维,一般通过心象、纸图或者计算机等工具将战场环境可视化,从而建立与环境可交互的思维活动[1]。在理解过程中,无论是作战人员本身对空间的理解,还是不同人员之间的相互沟通,地图、文本是记录和传输战场环境信息的最基本的两种模态,特别是作战过程中产生大量的非结构化信息,如各类作战文书。文本是其最主要的载体之一,越来越多地成为一种主要信息媒介的数据模态,是表达战场环境信息的重要形式。然而,文本除了具有通用知识的内涵和特点之外,还承载了描述战场的时间、空间、事件和资源等丰富信息,具有特定的地理时空特征。战场文本信息不仅包含了作战任务语义信息,还蕴含了丰富的地理空间语义信息,表现为同一任务区域的空间数据隐含语义会随着时间的不同而发生变化,相似任务主题的位置数据隐含语义也会随着空间的不同而发生变化。由此,地理环境时空数据的隐含语义信息既存在时间上的变化,也存在空间上的变化。
面对大量的战场文本数据,以传统的人工方式理解战场环境信息已经不能满足高效、准确的需求,如何利用人工智能的理论和方法,由机器对数据进行自动获取、学习与解译,从而输出与人脑认知思维相符的计算结果,是当前战场环境空间认知和理解在大数据环境下所面临的挑战。自然语言处理技术的发展为文本数据理解提供了新的思路和方法,也为战场环境数据理解提供了新的工具。如何从大量的战场文本数据中获取地理环境知识,如何利用机器学习技术挖掘与事件主题相关的地理环境时空语义信息,如何对不同时空主题进行管理、检索和推理,这一系列问题,都是机器理解战场环境数据过程中所要解决的关键问题。其中,如何融合事件主题对地理环境时空主题进行抽取与分析,成为战场环境信息理解的核心问题之一。通过提取带有地理空间标识的文本主题来挖掘任务指定的实施作战行动的区域空间信息及其对应的意图,获取作战行动模式转换、任务事件焦点时空演变及地理环境效能变化等知识,为行动方案推荐、战情趋势预判、威胁目标预警分析等军事服务提供有力支撑。
本文立足现有研究基础,通过分析战场文本数据句法结构,提出一种融合任务事件主题的地理环境时空主题模型,建立地理时空因素与事件主题之间的语义相关性计算方法。通过对文本信息中蕴含的时空分布、地理环境要素特征及影响效能等规律进行分析,考虑事件主题偏好对时空数据隐含语义信息的影响,建立事件主题与时空语义特征的联合分布模型,自动发现时间、空间区域与事件主题之间的关联关系,生成地理时空隐含的语义主题,以提高定位应急事件时空信息的准确性,为有效识别异常区域的分布规律提供支持。

1 相关研究工作
时空语义信息是表示现实事物所代表的时空概念和含义及其相互之间的关系,是数据在时空域上的解释和逻辑表示,对于各类事件信息的挖掘有着关键作用[2-3]。战场环境时空数据描述了战场环境的时间和空间属性,是战场环境的基本组成要素,从不同粒度记录了不同层次的战场环境各要素的活动信息。理解战场环境时空数据语义对于深挖战场环境各要素作战效能、提高作战计划推演评估精度、提升态势推理与威胁估计效率有着关键作用。例如,利用数学方法描述地理实体、地理现象及其相互之间的时空关系,形式化描述战场环境对联合作战活动影响的基本规律[4];利用全球空间立体网格剖分并对时空信息进行编码,简化复杂的时空运算以提高时空属性定量表达的精确性[5];利用模板匹配与贝叶斯网络相结合的推理算法处理高维时空数据,建立有效推理模式以合理预估敌军行为模式和作战意图[6]。总之,准确理解战场环境时空语义信息对于战场信息融合有着十分重要的意义,随着战场时空数据类型与体量持续增长及作战应用深入需求,将会越来越多地受到不同作战领域的关注。
目前,随着以深度学习为代表的人工智能技术的发展,从方法上,战场环境时空数据语义理解由传统的基于规则的模式匹配向基于信息识别与分类的自主学习发展,并在无人平台、知识图谱、辅助决策等方面取得了一定的研究进展。国内,文献[7]针对现有无人自主平台在复杂环境上认知和理解不足,提出建立任务关联环境模型形成持续自主学习模式,在不断的数据交互中实现机器对环境的理解;文献[8]通过构建基于深度认知神经网络,从战场情报中高效准确地发现有价值信息,获取多源情报隐含的关联分析,从而提取满足需求的可理解并利用的时空知识;文献[9-10]从语义层面统一多源异构的战场环境数据资源,利用知识图谱集成融合各类概念关系,提高时空知识整体认知水平;文献[11]将深度学习方法应用于态势理解,以用户需求和作战任务的综合情境作为知识过滤约束条件,实现对相关语义知识的自动检索,提高辅助决策的智能化程度[11]。国外,美军从2007年提出“深绿计划”开始,一直致力于计算机对战场数据理解及智能化处理的研究,并在最新的《2017-2042年无人系统发展路线图》中将语义理解和语义分析技术作为无人指挥信息系统关键技术,包括自然文本、图像、语音等各种类型载体的自动整合及生成,利用深度学习方法从战场获取的各类数据中抽取隐藏的有价值特征,用于模式识别、特征分类、关系挖掘及事件预测,实现从不确定信息中理解数据、分析结果和推理关系[12-13]
从战场文本中提取相关地理环境时空主题,是地理环境时空数据语义理解的首要解决问题。尽管上述文献从不同角度利用时空数据处理与分析方法,阐述时空语义理解的相关技术和应用,但是从时空主题角度研究战场环境时空数据挖掘中的相关任务,特别是对其隐含语义信息挖掘的相关工作尚未完善。目前,主题模型作为文本挖掘的重要数学模型,已广泛应用于遥感影像分类及检索、地理信息分类与融合、位置轨迹数据挖掘及地理时空主题提取等方面[14-17],通过基于抽象文档主题的统计模型研究了在不同主题分类下时空信息提取与时空事件发展规律并取得了一系列成果[18-21]。这也为地理环境时空主题挖掘提供了基础模型。为了进一步研究任务事件与时空主题之间的相关性,挖掘影响事件主题特征的时空因素,获取地理环境时空数据隐含语义信息,本文借鉴GIS领域研究者从融合地理位置及其相应的区域环境特征语义出发,按照不同时空语义变化条件,挖掘地理位置中的隐含语义信息。如,文献[22]利用web日志提取公共主题来发现时空主题模式,分别通过给定位置生成的主题生命周期和主题快照的比较分析,发现主题模式的演变;文献[23-24]从空间、时间和行为3个方面建立一个联合概率模型,有效地应用于社交网络生成的与地理信息相关的文本信息主题发现;文献[25]考虑用户位置的马尔可夫性质,提出一种基于主题多样性、地理多样性的社交网络文本数据的多样性建模算法;文献[26]结合移动位置数据,提出一种新的位置和文本相结合的联合模型,能有效地找到热点位置和感兴趣的区域,解决地理分布与主题建模之间关系问题。

2 方法
地理环境时空数据隐含语义与文本主题密切相关,并通过相关的主题特征词汇进行表达。具体体现为:不同空间区域对其范围内的任务事件主题影响程度是不同的,通常与地理环境的军事效能相关,如不同地貌对机动任务的影响,反映在文本中由“越野机动”或者“道路机动”等相关功能性词汇相组合进行描述,以表示山地或者平原区域;不同时间对其阶段内的任务事件主题也会产生不同的影响程度,如一日内白天与夜晚对道路机动速度影响程度不同,一年内雨季与非雨季对道路机动速度影响程度也不同。
因而,为了有效判别不同时空区域对任务事件主题的影响程度,挖掘时空数据的隐含语义,形成时空数据语义理解过程,主要采取如下的解决方法:数据获取、数据预处理和数据主题计算等。如图 1所示。下面重点阐述数据主题计算过程:①分析战场文本的句法结构,通过信息抽取的方法抽取主题要素,建立基于LDA的事件主题分类及其对应的特征词汇分布;②通过构建基于事件的地理环境时空主题模型,将事件主题与空间、时间特征词汇建立联合分布,提高时空数据隐含语义获取的准确性;③基于支持向量机方法结合主题模型实现地理时空主题的实时分类,以满足实时信息的主动发现需求。
图 1 地理环境时空数据隐含语义理解过程 Fig. 1 Latent semantic understanding process of geographical environment spatio-temporal data
图选项

2.1 基于句法分析的主题要素抽取
战场文本数据是指战场信息以文本形式进行描述和传递的各类数据,包括各类命令、指示、计划、方案、请求、报告等。为了从这些非结构化信息中抽取出与地理环境信息相关的主题信息,首先对其进行句法分析,获取主题要素的结构组成及其语义特征。由于战场文本在通常情况下都是按照军用文书的格式进行编辑,因而其数据的语义结构在一定程度上符合军用文书的编写规范,并具有以下几个特征。
(1) 句法结构相对固定。战场文本基本上以陈述句为主,且句式简短,其中复合句的形式也以简单谓语构成的并列复句为主,较少出现连词构成的复杂句式,如连贯复句、递进复句等。
(2) 文本内容层级易解。从内容对象上,分为对象的静态状态描述(如部队部署位置、时间等信息)和动态行为描述(如部队行动路线、行为规划等信息);从内容词义上,内容描述按照文字字面意思组合而成,有利于人机理解。
(3) 语义描述明确无歧义。为了确保不同信息系统对战场文本的一致性理解,文本语义描述必须是明确清晰,避免出现歧义现象。
从上述特征可以看出,在语法结构上,战场文本数据通过具有一定语法结构的句子来描述事件发生过程,即“主语+谓语+(宾语+状语+…)”;在语义表达上,战场文本数据语义结构由主体、行为关键词、客体及相关属性等主题语义要素组成。因此,可将其形式化描述为四元组模型,即:主题语义要素=〈主体,行为关键词,客体,属性〉。
其中,构成主题语义要素中的每一项元素都可以与句中的词组相对应,形成特征词组与主题要素相关联的模式。具体表示为:主语对应事件发生的主体,一般由名词、数量词组合表示;谓语对应事件发生的行为,一般由动词表示;宾语对应事件发生的客体,一般由名词、数量词组合表示;其他部分描述对应事件发生的相关属性,如时间、位置等,一般由名词、代词、介词等组合表示,文本词组主要以实词构成,较少出现虚词。
采用正则表达式进一步将文本主题要素与词组以字符串的形式相匹配,从而将文本语义转换为词义组合表达[27]。作为主题要素自动抽取的基本模式,以一个简单句semPattern作为实例,使用正则表达式如下
式中,subject_noun表示主体名词;behkey_verb表示行为关键动词;object_noun表示客体名词;attribute_phrase表示属性词组;option_modifier表示修饰词组;[]表示所必须组成要素;()表示可选项;“^”表示字符串序列开头标识;“|”表示语义匹配逻辑;“+”表示字符串表达式可多次匹配;“$”表示字符串序列结尾标识。时空语义信息通常是以属性词组形式进行描述。由此可将attribute_phrase进一步分解为表示空间语义的where字符串和表示时态语义的when字符串,即
以某个文本片段为例:“2连于4月08日12时占领1号地域南侧”,其相应的正则表达式分解如下
2.2 基于LDA的任务事件主题分类
战场文本数据内涵丰富,但是语义主题比较明确。以作战任务信息为例,任务事件内容包括行动目的、行动对象、行动类型、时空信息及其他属性信息,每一条信息又可以按照层次和尺度进行分解,归类至不同执行者,按照相应的主题形成具体的行动序列。任务事件主题分类与文本分类相似,将任务事件映射为一篇文档,任务中的意图或者目的作为一个主题,每个事件的主体和客体对象关联的属性及其行为活动作为单词。一个目的任务相当于主体和客体对象完成行为过程的集合,包括任务执行对象、地理环境对象、行为作用等,在文档中映射为构成上述事件主题要素特征的词汇,如描述任务下达者、执行者、行为以及区域、兴趣点、位置、作用关系、时间等相关主题特征词汇。
潜在的狄利克雷分布(latent Dirichlet allocation,LDA)模型是一个建立“文本-主题-词汇”3层贝叶斯模型,通过主题分布与词分布的概念,能够将文档转换到主题空间进行分析,根据主题进行语义区分,从而获得文档在隐主题空间的表示,也就是既能将词汇聚类成主题,也能将文档聚类成多个主题[28-29]
因此,使用LDA模型能够抽取构成主题要素的特征词汇,并得到事件主题分布。具体方法是:①将战场文本集合记作D(d1, d2, d3, …, dn),每一篇文档d内容可视为由不同任务事件主题混合组成,每个文档按一定的概率分布表达多个主题,设目前按照任务主题区分获取已知主题数为K;②在前述句法结构分析基础上,通过分词、过滤、关键词提取等步骤,生成描述主题要素的关键词集W(w1, w2, w3, …, wn),每个主题按一定的概率分布选择不同的词汇进行表达,也就是由若干描述事件主题要素的词汇构成一个概率分布;③通过Gibbs采样,由每个词汇在不同的文档中对应不同的主题概率得到相应主题分布,生成主题集Z(z1, z2, z3, …, zn),同时输出基于主题集Z下的词汇分布Wd。由概率图来表示LDA模型实现过程,如图 2所示。
图 2 基于LDA模型的事件主题分布过程 Fig. 2 Event topic distribution process based on LDA model
图选项

图 2中,空心圆部分表示潜在概率,wd, n表示文档d中第n个词汇概率,zd, n表示文档d中第n个词汇所对应的主题概率,θd表示文档d中主题分布概率,ψk表示组成主题k的词汇分布概率,α表示文档中主题分布的超参数,β表示主题中单词分布的超参数;矩形框部分表示重复的过程,M表示文档中词汇个数,Q表示文档个数,K表示文档主题个数,分别用于每个矩形框内容重复的次数。由此,通过主题分布的采样获取任务事件主题z,通过基于主题z下词汇的分布概率获取词汇w,并不断地重复上述过程直至文档主题对应的所有词汇生成完毕。
利用OPTICS聚类方法[30],可对每个任务事件每个主题概率分布进行聚类分析,获得相对集中的任务事件主题分类结果,与作战任务类型相结合,将描述相似任务类型内容的词汇合并为一个大主题,形成具有层次结构的事件主题分类。表 1为部分相关主题的特征词汇分布。
表 1 部分相关主题分类及其特征词汇分布 Tab. 1 Topics classification and distribution of feature words
聚合后事件主题分类聚合前事件主题分类部分主题特征词汇及其分布
履带机动越野机动营(0.084 771)、山地(0.074 015)、队(0.056 074)、坡度(0.055 489)、速度(0.040 722)、土质(0.036 868)、红色(0.031 419)、高度(0.026 701)、小时(0.022 352)、方向(0.005 452)、到达(0.002 304)、…
涉水机动营(0.079 268)、水体(0.074 621)、距岸(0.068 895)、队(0.055 174)、时速(0.046 957)、水深(0.027 042)、流速(0.018 907)、红色(0.017 887)、小时(0.015 076)、风速(0.003 968)、直航(0.002 474)、…
阵地防御坚固阵地防御团(0.095 777)、营(0.090 165)、防御(0.074 781)、阵地(0.052 913)、要点(0.043 963)、扼守(0.042 024)、高地(0.027 475)、阻止(0.019 793)、构筑(0.018 967)、一线(0.004 037)、伏击(0.000 914)…
野战阵地防御营(0.076 456)、队(0.068 597)、防御(0.065 065)、野战(0.058 049)、阵地(0.048 953)、要点(0.047 887)、高地(0.045 522)、公路(0.028 239)、地段(0.019 336)、配置(0.006 642)、一线(0.002 738)…

表选项

2.3 基于事件主题的地理环境时空主题模型
按照空间相关性原理,地物之间的相关性与距离有关,距离越近,地物间相关性越大;反之,地物间相关性越小。在文本中由自然语言描述空间信息,利用词汇之间的语义相似性来反映空间对象之间的相关性,由此通过聚类方法发现地理时空主题,即如果两个词汇语义对事件主题的描述很相似,那么它们极有可能属于同一空间区域;如果两个词汇语义描述同一空间区域,那么它们就可被聚类为同一空间主题。
为了能够有效获取时空主题,每个文档经主题要素抽取后,形成由实体词向量组与描述空间、时间、事件等主题特征的属性词向量组组成,即d={wd, rd, td, zd},其中wd表示文档经过分词与实体抽取后形成的实体词向量组;rd表示文档中描述事件相关的空间特征属性的词向量,如事件发生位置的经纬度;td表示文档中描述事件相关的时间特征属性的词向量,如具体日期与时间点;zd表示文档经主题分类后描述事件主题特征属性的词向量。
利用LDA主题模型对上述词向量建立联合分布模型,通过对事件主题模型的改进,构建地理时空主题模型。其思路是:①通过LDA模型将高维的“事件文本-时空特征”数据矩阵降维成“事件文本-主题-时空特征”低维数据矩阵,利用“文档-主题-词汇”3层贝叶斯模型计算“事件文本-主题”、“主题-时空特征”的分布并分别得到事件主题、空间主题及时间主题的多项分布参数;②由主题分布参数计算每个事件文本对应的时空主题概率方差并对其进行排序,获得相应的时空主题分布;③按照一定的阈值过滤不符合实际的主题,并对满足阈值条件的主题记录其对应选择的特征词汇分布。由概率图模型表示其实现过程如图 3所示。具体实现过程如下:
图 3 时空主题模型实现过程 Fig. 3 Implementation process ofspatiotemporal topic model
图选项

(1) 由设定超参数α0的Dirichlet分布,采样得到文档中事件主题z分布参数θ0
(2) 由设定超参数β0的Dirichlet分布,采样得到文档中每个事件主题z=1, 2, …, k对应的实体词的条件概率分布ϕz
(3) 从空间域上,按照任务事件尺度,在全局条件下划分任务执行空间区域集RR={r1, r2, …, rn},每个区域r内包含地理环境要素空间属性及其效能特征:①在位置特征上,采用基于经纬度l(longitude, latitude)由位置均值向量μ和协方差矩阵ε构成的高斯分布,由此形成具有军事效能的局部地理主题分布,并对各自任务区域内的事件主题产生影响;②由设定超参数η0的Dirichlet分布,采样得到文档中空间区域r的主题分布参数ηr;③由设定超参数γ0的Dirichlet分布,采样得到文档中每个事件主题对应的区域R地理实体词汇的条件概率分布λgeo
(4) 从时间域上,文本中往往描述的是一个时间点,如以“年-月-日时:分:秒”格式描述事件相关的时间变量。为了避免这种离散时间造成跨度大小不一的问题,在时间特征上采用Beta分布,从Beta(δ0)中采样得到每个事件主题z=1, 2, …, k对应的时间分布参数φz,以此描述不同事件主题时间连续变化的强度[31]
(5) 从主题域上,一个文档的主题由背景主题分布和区域主题分布共同影响,主题表达通过相应的词向量的语义进行描述,反映在事件文本上对应事件主题分布和区域地理主题分布。对于每个事件主题z=1, 2, …, k,由θ0ηrλgeo构建主题多项式分布,从中抽取形成任务事件主题分布Zd和区域地理主题分布Zgeo
(6) 依据事件主题分布Zd对应实体词的条件概率分布ϕz,与区域地理主题分布Zgeo对应地理实体词的条件概率分布λgeo,分别从其多项式分布中抽取相应的词汇w,并依据Beta(δ0)对应的时间分布参数φz抽取相应的时间词汇t
任务事件主题Zd所包含的地理时空词汇W在语义上与区域地理主题分布Zgeo相关联,而区域地理主题分布Zgeo又从语义上反映了时空主题类型的区域分布,因此,这里依据任务事件主题Zd、区域地理主题分布Zgeo建立联合分布概率P。引入上述时空主题模型中各元素求解相应主题中潜在变量的词汇分布W,使用欧拉公式可得如下依赖关系
(1)
式中,事件主题分布参数θ、区域空间主题分布参数η和实体词汇主题分布参数ϕ计算公式如下[31],相应的主题类型条件概率分布可基于主题分布参数进行求解
(2)
(3)
(4)
对于每个文档,利用Gibbs采样估计主题模型参数,生成空间区域、位置、事件和词汇的主题分布并分别满足以下相应的条件概率分布。
(1) 生成潜在的空间区域分布R,使之满足
(5)
式中,η0满足空间全局分布;ηz满足任务事件主题空间区域分布,表示潜在的空间区域分布依赖于空间全局分布和任务事件主题区域分布。
(2) 生成位置分布L,使之满足
(6)
式中,μ为位置均值向量;ε为协方差矩阵,表示每个位置依赖于潜在空间区域并服从高斯分布。
(3) 生成主题分布Z,使之满足
(7)
式中,θ0满足主题全局分布;θz满足事件主题分布;θgeo满足区域地理主题分布,表示根据空间区域分布和位置分布,潜在主题分布依赖于事件主题和区域地理主题。
(4) 生成词汇主题分布W,使之满足
(8)
式中,ϕ0为全局事件主题参数;ϕgeo为区域地理主题参数,表示特征词分布依赖于主题分布。
改进后的基于LDA模型计算时空主题分布算法过程如下所示。
算法1:基于LDA模型计算时空主题分布算法过程
输入:文档向量集合{d},主题数目k,超参数α0β0η0γ0δ0
输出:多项分布参数θϕη,主题类型分布{zd}以及对应的词分布{wd}
(1) 初始化参数。
(2) 主题采样:
  for all文档m∈[1, M] do
     for all单词n[1, Nm] in文档m do
      采样Zm, n,使得Zm, n=k~multi(1/K)
      更新相应m, n计数
(3) Gibbs采样:
    for all文档m∈[1, M] do
       for all单词n∈[1, Nm] in文档m do
        多项分布采样,利用式(1)使得满足~p(zi|z-i, w)
        更新相应m, n计数
(4) 检查收敛性,读取主题分布参数:
  if收敛且达到阈值then
    归一化参数;
    利用式(2)-式(4)读取相应的主题分布参数
(5) 基于上述参数计算主题分布及词分布,分别满足式(5)-式(8)。
2.4 基于支持向量机的实时主题分类
由于军事语料标注样本的局限,为了能够利用文本特征学习实现文本的主题检测,采用监督学习方式中的支持向量机(support vector machine, SVM)方法,在基于训练样本的学习特征基础上,建立机器学习模型,解决小样本情况下的机器学习问题,从而当新的任务事件文本输入时,结合SVM通过主题模型判断文本中对应的地理时空主题类别,实现时空主题实时分类。
(1) 对已有的样本数据按照主题分布的概率进行排序,找出文本集合中隐含的地理时空主题,将其作为已发现的主题。
(2) 利用SVM算法构建时空主题分类模型,基于已发现的地理时空主题及其特征词汇分布作为文档样本集,将构建的联合主题分布特征向量作为输入。如下所示
(9)
式中,m为样本个数;x(i)y(i)分别为样本i输入、输出值;ωTx(i)+b=0为超平面;ξi为第i个样本的松弛系数;C为惩罚系数。
(3) 采用径向基高斯核函数k(x, y)=exp,使得数据从低维特征空间映射高维特征空间,以解决非线性分类问题。其中σ是用户定义的确定到达率,可以通过遍历搜索所有文档,设置多个参数进行交叉验证计算后得到最优值σ,满足主题分类获取最高精度。
3 试验与应用分析
 3.1 试验数据
本文以某战术训练场为研究区域,试验数据集选用近年战术演习导调系统采集获得的文本数据,包含690个计划、2250条命令、695条指示、1035条报告等共4670篇文档,如表 2所示。位置数据采用的是该区域1∶5万系列比例尺矢量地图数据,各类文本信息均包含位置、时间及相应事件主题信息。
表 2 文本数据源及其分类 Tab. 2 Document datasets and classification
来源采集时间文档数量分类及其数量
演习A2015年3月1156计划(159)、命令(560)、指示(168)、报告(269)
演习B2015年4月1197计划(193)、命令(563)、指示(185)、报告(256)
演习C2015年7月1179计划(178)、命令(569)、指示(178)、报告(254)
演习D2015年9月1138计划(160)、命令(558)、指示(164)、报告(256)
表选项

对上述战场文本数据内容按要素进行标注形成训练样本语料库,见表 3
表 3 部分训练样本语料片段示例 Tab. 3 Part of training sample corpus
文档词汇词性标签
〈ent: org〉机步第100团〈/ent: org〉〈key: grp〉占领〈/key: grp〉〈ent: loc〉万羊碑(16, 84)〈/ent: loc〉,〈ent: loc〉412高地(12, 85)〈/ent: loc〉,〈ent: loc〉401高地(13, 89)〈/ent: loc〉,〈ent: loc〉蝎子山(15, 88)〈ent: loc〉〈oth: f〉一线〈/oth: f〉。〈ent: org〉团指〈/ent: org〉〈key: grp〉设〈/key: grp〉〈ent: loc〉391高地(14, 87)〈/ent: loc〉


机步第100团实体名词ent: org
占领动词key: grp
万羊碑(16, 84)位置名词ent: loc
412高地(12, 85)位置名词ent: loc
401高地(13, 89)位置名词ent: loc
蝎子山(15, 88)位置名词ent: loc
一线方位词oth: f
团指实体名词ent: org
动词key: grp
391高地(14, 87)位置名词ent: loc



表选项

3.2 试验设计及精度评估
本试验利用上述已有的文档语料库进行模型主题分类验证。将文档样本集随机分组,其中80%作为训练集,20%作为测试集,构建主题模型输入的文档集D。采用perplexity[32]指标计算战场文本的时空主题数K。首先,设定K∈(4, 120),利用80%的训练集计算此时的时空主题分布及其perplexity值域;其次,在训练集计算的时空主题分布基础上,利用20%的测试集计算此时的时空主题分布及其perplexity值域;最后,基于perplexity分布曲线确定主题数K,同时通过交叉验证,得到模型的准确率。
图 4所示,试验中perplexity指标分布曲线按照主题数K的增加而不断下降,且下降趋势逐渐减小。当K=4时,perplexity值最高,接近750;当K在(4, 40)区间时,perplexity值随K值增加而迅速下降;当K>40时,perplexity值随K值增加趋于稳定。由此,当K=40时作为主题数临界值,文本主题的可信度并未随K值增加而明显提高,因而,选择主题数为40。
图 4 不同主题数量下困惑度比较 Fig. 4 Comparison of perplexity values with different topics
图选项

此时计算文本的时空主题分布概率,表 4所示为部分主题类型及其所对应空间对象的分布概率。同一主题下分布概率较高的空间对象突出了与事件主题紧密联系的相关特征表达,从影响任务事件的效能特征上反映了时空主题类型。如主题6中“公路”“街区”“车站”“村庄”等空间实体类型,反映了道路机动相关时空主题;主题17中“高地”“树林”“密灌”“冲沟”“沼泽地”等空间实体类型,反映了越野机动相关时空主题。
表 4 不同时空主题类型对应的部分空间实体对象分布 Tab. 4 Distribution of spatial entity objects corresponding to different spatio-temporal topics
时空主题6
时空主题17
空间实体分布概率
空间实体分布概率
公路0.071 889
高地0.040 806
村庄0.048 066树林0.028 773
车站0.011 889密灌0.014 961
街区0.006 328冲沟0.007 772
桥梁0.001 867沼泽地0.002 588
表选项

根据上述方法获取样本数据的分类精度,如表 5所示。在3736个训练样本中,3347个任务事件被提取主题分布,其中2881个样本被正确提取时空主题,分类精确率为86.1%;在934个测试样本中,819个任务事件被提取主题分布,其中702个样本被正确提取时空主题,分类精确率为85.7%。由此,总体上说明该模型适合对战场文本数据从任务事件主题中提取相关的时空主题分类。
表 5 时空主题分类精度 Tab. 5 Classification accuracy of spatiotemporal topics
主题类型训练样本测试样本
时空主题2881702
事件主题466117
合计3347819
精确率/(%)86.185.7
召回率/(%)90.088.7
F1值/(%)88.087.2
表选项

3.3 应用分析
为了验证上述方法在实际应用中的可行性与价值,将基于任务事件的地理环境时空主题模型对战场文本数据进行主题信息抽取和语义相关性分析,应用于时空主题趋势及不同主题下时空分布特征分析,以验证隐含语义理解方法的可行性,从而为数据挖掘自动化提供支撑。

3.3.1 时空主题趋势分析
在上述样本的基础上对任务事件及地理时空主题信息进行抽取。选取某一个时间阶段任务过程所包含的文本数据来计算不同主题所占的比例,随着时间变化相应的主题比例发生规律性变化,如图 5所示。线状表示事件主题,点状表示地理主题。从主题相关性角度,分析任务事件主题与时空主题之间存在的语义关联性,发现地理环境对任务事件所具有的军事效能;从主题发展趋势角度,分析不同主题在时间轴上的分布,发现事件主题的发展过程规律。
图 5 不同主题随时间变化所占比例发生变化 Fig. 5 Trend of proportion under different topics over time
图选项

(1) 主题相关性分析。由图 5可以看出,每个任务事件主题关联着若干个时空主题,每个时空主题又关联着若干个空间实体对象。利用统一资源描述框架RDF来描述两者的语义相关性,见表 6。采用“主语-谓语-宾语”结构描述“主体-语义关系-客体”,能够清楚地陈述主题数据之间的对应关系,从军事效能上进一步表达时空主题隐含语义信息。
表 6 部分事件主题与地理主题的语义关系 Tab. 6 Semantic relationship between event topic and geographical topic
主体客体语义关系主题比例
道路机动接近路和…相关0.072 093
地面障碍和…相关0.058 699
观察与射界和…相关0.022 534
接近路道路和…相关0.056 357
植被和…相关0.035 188
居民地和…相关0.025 817
表选项

以任务事件主题“道路机动”为例,其关联较密切的地理主题有“接近路”“地面障碍”“观察与射界”,其中“接近路”与任务事件的相关度最大,空间实体对象“道路”相比“植被”“居民地”等对地理主题“接近路”影响要大,这与地理环境实体对任务影响效能结果是一致的。因此,一个任务事件主题随着事件时间发展,事件发生区域地理主题的变化能够反映事件发展不同阶段所关注的时空对象。通过分析时空对象的主题相关性,能够进一步从语义上解析时空数据里面隐含的主题知识。
(2) 主题发展趋势分析。一个任务过程随着事件时间发展可以分为若干个任务事件主题。如图 5中在4月21日05时00分至17时00分,共包括“隐蔽集结”“道路机动”“阻击防御”等3个任务事件主题。分别统计每个主题在此期间所对应的比例,发现9时之前以“隐蔽集结”主题为主,任务关注重点是如何利用从空中和地面免受观察的地形要素,如植被与隐蔽配置,完成集结任务;9时至13时以“道路机动”主题为主,任务关注重点是根据通路分析计算通道容量,分析利于武器装备通过的机动走廊相关地形要素,完成机动任务;13时之后以“阻击防御”主题为主,任务关注重点是利用对特定武器部署位置有影响的、且具有防御能力的地形要素,构建直瞄和间瞄武器射击区域,避免受敌火力威胁区域地理环境,达成阻击任务。结合时间信息,对应时空主题分布分别从“隐藏配置”主题,“接近路”主题发展为“观察与射界”主题,将整个任务过程分为3个阶段,分别对应任务事件的初期、发展期和结束期。因此,一个任务过程中包含不同的事件主题,能够反映不同阶段任务关注的重点,由时空主题关联反映出区域地理环境变化特征,有助于进一步从不同角度预测任务发展进程。
以上对时空主题趋势分析可以看出,随着战场位置与任务事件进展发生变化,地理环境时空主题也随之发生改变。通过分析这些变化可以发现任务事件主题与时空主题之间的关系及发展趋势,有助于发现事件的发展规律并研判地理环境对任务执行的影响效能,利用不同的时空主题作出趋利避害的对策。

3.3.2 不同主题下时空分布特征
由于战场文本数据中包含了丰富的位置信息,将每个任务事件主题与位置信息相关联,形成带有主题属性的点状地理实体,对其在一定空间区域内进行聚类分析,产生不同主题下的时空分布规律,从而为新事件的位置预测提供基础。
选取上述任务过程所包含最主要的3个事件主题“集结”“机动”“防御”进行空间聚类分析,分别包含了115条、370条、406条位置信息文本。采用OPTICS聚类方法对上述主题关联的位置信息进行分析,得到的聚类核心(十字表示)如图 6所示。
图 6 相关主题的空间聚类 Fig. 6 Spatial clustering of related topics
图选项

“集结”主题空间分布得到的聚类核心主要分布在区域A,与其相对应地理主题可以发现,该区域以“植被与隐藏配置”时空主题分布为主,与“植被”“居民地”等空间实体关联较强,结合任务过程事件时间分布,与“早期”阶段任务主体行为为达成隐蔽集结意图是一致的;“机动”主题空间分布得到的聚类核心主要分布在区域B,与其相对应地理主题可以发现,该区域以“接近路”时空主题分布为主,与“道路”“居民地”等空间实体关联较强,结合任务过程事件时间分布,与“发展期”阶段任务主体行为为达成沿道路机动意图是一致的;“防御”主题空间分布得到的聚类核心主要分布在区域C,与其相对应地理主题可以发现,该区域以“观察与射界配置”时空主题分布为主,与“高地”“植被”等空间实体关联较强,结合任务过程事件时间分布,与“结束期”阶段任务主体行为为达成阻击防御意图是一致的。
从上述对不同主题下的空间数据聚类分析,能够发现时空主题的空间分布特征受到事件主题的影响,并对事件的发展产生新的作用。当新事件发生的时候,通过主题分类结合空间分析,预测事件可能影响的位置区域,从而有效作出趋利避害的对策。

4 结语
战场文本信息不仅直接反映战场行为过程,还蕴含着丰富的区域地理时空语义信息,与地理环境变化密切相关,并揭示了未来时空过程发展趋势。本文以与任务事件相关的战场文本数据为信息源,研究基于句法分析的主题要素抽取及事件主题分类方法,并通过主题模型分析地理时空主题与事件主题之间的隐含语义分布形态,揭示区域地理时空主题与任务事件主题之间存在的相关性特征及在时序上的发展趋势,反映了不同事件主题影响下的时空分布规律。由于本文选择的数据源较为单一,尽管一定程度上能够反映客观趋势,但是文本数据样本数量上的不足使得主题隐含语义研究存在一定偏差。未来将结合不同类型战场文本数据,进一步深入挖掘多源文本数据中的语义信息,提高主题分类精度;同时,需要考虑不同尺度时空区域与不同等级任务对结果可能造成的影响,此外,还需考虑算法运行的效率对分类结果与精度的影响。

作者简介

第一作者简介:朱杰(1983-), 男, 博士, 工程师, 研究方向为战场环境认知及战场位置服务的理论和方法。E-mail: zjsoldierlee@163.coml



初审:张艳玲

复审:宋启凡
终审:金   君

往期推荐

资讯


○ 中国科学院空天信息创新研究院城市环境遥感团队岗位聘用职工招聘
○ 中国工程院院士郭仁忠:城市如何数字化?既要有好“路”还要有好“车”
○ 中国科学家首获地球观测组织卓越个人奖
○ 关于诚邀参加中国测绘科学研究院2021年测绘科技成果推介会的函
○ 北京市测绘设计研究院2022年应届毕业生公开招聘
○ PPT | 李春来 :基于高光谱红外成像的气体探测方法、现状与展望
○ 中国测绘 | 筹建北京冬奥赛道的测绘⼈

会议


○ 第一届中国生态系统遥感学术研讨会(三号通知)
○ 《测绘学报》2021年编委会会议在青岛召开○ 会议通知 | 2021中国地理信息科学理论与方法学术年会通知(第二号)
○ 关于第八届“测绘科学前沿技术论坛”再次延期召开的通知

《测绘学报》

○《测绘学报》2021年第10期目录

○ 测绘学报 | 樊仲藜:SAR影像和光学影像梯度方向加权的快速匹配方法

○ 测绘学报 | 左溪冰 : 高光谱影像小样本分类的图卷积网络方法

○ 测绘学报 | 成飞飞 : 结合自适应PCNN的非下采样剪切波遥感影像融合

《测绘通报》


○ 室内高精度三维测图新技术

○ 面向上海城市数字化转型的新型测绘

○ 图像全站仪及图像测量发展与展望

○《测绘通报》2021年第10期目录

《北京测绘》

《北京测绘》2021年第9期摘要推荐

《北京测绘》2021年第8期摘要推荐(下)

《北京测绘》2021年第8期摘要推荐(上)

《北京测绘》2021年第7期摘要推荐(下)


《测绘科学技术学报》


○ 《测绘科学技术学报》2021年第1期重点论文推荐

○ 摘要 |《测绘科学技术学报》2021年第3期摘要推荐

○ 摘要 |《测绘科学技术学报》2021年第2期摘要推荐

○ 摘要 |《测绘科学技术学报》2021年第4期摘要推荐

○ 摘要 |《测绘科学技术学报》2021年第5期摘要推荐


《地球信息科学学报》

○ 《地球信息科学学报》2021年第10期佳文推介

○ 《地球信息科学学报》2021年第9期佳文推介 

○ 《地球信息科学学报》2021年第8期佳文推介

○ 专刊征稿:社会感知与地理大数据挖掘(征稿中)

《测绘工程》

○ 摘要 |《测绘工程》2021年第5期摘要推荐

○ 摘要 |《测绘工程》2021年第4期摘要推荐

○ 摘要 |《测绘工程》2021年第3期摘要推荐

○ 测绘教学 | 后疫情时代“线上+线下”混合教学模式创新——以测绘类课程视角

《中国空间科学技术》

○ 摘要 |《中国空间科学技术》2021年第4期摘要推荐

○ 摘要 |《中国空间科学技术》2021年第3期摘要推荐

○ 多传感器组合导航系统的改进多尺度滤波算法

○ 火卫二地形地貌探测综述

《卫星应用》

 摘要 |《卫星应用》2021年第9期摘要推荐

 摘要 |《卫星应用》2021年第8期摘要推荐

○ 摘要 |《卫星应用》2021年第7期摘要推荐

○ 综述 | 北斗系统应用趋势分析


《Journal of Geodesy and Geoinformation Science》


○ 专刊征稿 | Call for Papers:空间人文与社会地理计算 (SHGSS)

 Special Issue on New LiDAR Technologies and Techniques

○ 《测绘学报(英文版)》(JGGS)LiDAR专刊发布

○ 论文推荐(四)| Speical Issue on New LiDAR Technologies and Techniques

○ 论文推荐(五)| Speical Issue on New LiDAR Technologies and Techniques

《Satellite Navigation》


 [综述]| 高扬教授:GNSS智能手机定位:进展、挑战、机遇和未来展望| SANA佳文速递

○ 熊超教授:地磁暴期间夜间低纬电离层和赤道等离子体不规则体| SANA佳文速递

○ 徐元博士:面向有色测量噪声下UWB/INS组合行人导航的分布式卡尔曼滤波| SANA佳文速递

○ 杨飞博士:GNSS天顶对流层精化模型的构建与分析| SANA佳文速递

○ 牛小骥教授:用半解析法分析GNSS/INS在铁路轨道测量中的相对精度| SANA佳文速递

《自然资源遥感》


○ 《自然资源遥感》入驻“智绘科服”融媒体平台!




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存