中国测绘丨基于用户大数据的国产卫星信息智能分发系统研究
The following article is from 中国测绘学会 Author 中国测绘学会
点击图片上方蓝色字体“慧天地”即可订阅
随着人类对地观测系统的发展,卫星遥感数据以TB级的速率爆炸性增长,IDC(互联网数据中心)曾预计,到2020年全球卫星遥感数据量将达到40ZB,对卫星资源协同管控、数据存储、数据获取、个性化应用均提出了迫切的需求。遥感在多行业的应用不断拓展,海量遥感数据和数据服务方式之间的矛盾更加突出。
有序高效地存储、计算、管理和分发海量遥感数据将推进遥感在各行业的广泛应用,加速我国遥感的工程化、业务化和产业化进程,促进我国空间信息产业加速发展,为国家安全、社会建设和经济发展提供信息支撑和服务保障。
针对海量遥感数据分发速度慢、服务器压力大、客户端不可控等问题,本文设计并实现了基于用户大数据的遥感数据智能分发系统,可以提供大数据分析、按需分发、按户推荐、主动分发等功能模式,分析各类数据应用的用户需求,对用户行为进行画像,从而实现针对特定用户影像数据需求的智能分析、主动获取,对影像数据智能分类、按需推送等服务。工程实践表明,该系统实现了海量遥感数据的高效存储与管理、快速共享与分发。
系统的基本架构
国产卫星信息智能分发系统的基本架构在信息标准化、信息安全管理体系、公共平台的指导下分为:基础设施层、数据源层、数据存储与服务层、GIS模块层、“云+端”国产卫星资源服务自适应层和用户层。
1基础设施层
包括必要的服务器、存储设备、网络设备(防火墙、路由器、交换机等)。
2数据源层
主要包括各类遥感数据、空间数据、用户数据、系统运维相关数据等,包括空间地理数据(如行政区划数据)、遥感数据元数据等结构化数据,用户浏览信息、用户提交的采集单文件等非结构化数据以及系统日志数据、用户检索查询历史数据等。
3数据存储与服务层
内部包括3个层次,自下而上分别是国产卫星多源数据动态接入、基于云架构的分布式存储和国产卫星应用需求自动推理。其中,国产卫星应用需求自动推理根据用户行为分析与画像进行用户大数据的挖掘,检索相关遥感数据。
4GIS模块
指各类GIS和遥感数据处理软件,本研究采用了苍穹数码的KQGIS Desktop、KQGIS Server、KQGIS Mobile、KQGIS 3D等。
5“云+端”国产卫星资源服务自适应层
采用HTML5、JavaScript等技术以及B/S的开发架构完成用户服务与数据分发、采集任务申请、移动客户端等应用的开发。
6用户层
各领域的专业用户和普通用户,包括企事业单位、科研院所以及广大个人用户。
系数据分发平台关键技术
国产卫星信息智能分发系统融合了多项关键技术,主要包括国产卫星天地闭环协同管控技术、国产卫星多源数据动态接入技术、国产卫星信息应用需求自动推理技术、“云+端”国产卫星资源服务自适应协调技术、基于云架构的分布式存储技术。
国产卫星天地闭环协同管控技术示意图
01 国产卫星天地闭环协同管控技术
根据用户对国产卫星遥感数据的需求,包括申请遥感数据的空间范围、时间等,依据国产卫星星历计算和卫星轨道计算的结果,通过对观测卫星资源协调与任务规划,生成国产卫星遥感数据采集任务申请;卫星根据采集任务申请采集数据并供地面遥感数据处理系统处理,最后利用“云+端”智能分发技术将遥感数据结果集返回给用户,完成国产卫星天地闭环协同管控。
国产卫星天地闭环协同管控主要负责处理用户提交数据采集申请,然后由卫星轨道计算与预报模块根据用户数据申请生成遥感数据采集任务申请,遥感数据处理中心将遥感数据产品由“云+端”智能分发系统发送给用户。
国产卫星多源数据动态接入技术架构示意图
02 国产卫星多源数据动态接入技术
根据用户需求以及国产卫星的情况,统一考虑不同国产卫星遥感数据使用用户提交的遥感图像、空间信息专题图件、地理国情统计资料、导航电文等多源数据的需求分析,对多源数据进行数据分解、制定不同用户需求的模板,即用户需求多源数据元数据,对不同类型数据进行处理,并在此基础上实现多源数据的动态接入。
国产卫星多源数据动态接入技术包括以下三个内容:
(1)不同用户国产卫星多源数据应用需求分解:根据不同国产卫星信息数据使用用户提交的遥感图像等多源数据的需求分析,对多源数据进行数据分解、制定不同用户的需求模板,在此基础上利用基于Kafka分布式消息队列,实现多源数据动态接入任务通信与监控;
(2)多源数据内容识别与数据关联融合处理:即构建多源数据表达模型,以便于对接入的多源数据进行识别,通过模型约定接入数据的格式、内容、描述元数据等,从而识别接入的多源数据;
(3)多源数据接入任务通信与监控:即在国产卫星多源数据应用需求分解的基础上,依托国产卫星天地闭环协同管控技术,对遥感数据、空间信息专题图件、地理国情统计资料、导航电文,根据各自数据模型进行识别与关联融合处理,并对正确识别及处理后的数据进行动态接入。同时,对各接入任务过程中的通信及任务状态进行跟踪和监视。
03 国产卫星信息应用需求自动推理技术
国产卫星信息应用需求自动推理技术主要基于卫星 产品信息大数据和用户应用需求行为大数据建立。进行国产卫星信息应用需求自动推理技术研究,旨在全方位 多维度深入挖掘大数据间关联信息,构建用户个性化应 用需求自动推理引擎。
国产卫星信息应用需求自动推理技术从以下三个方面来实现:
(1)卫星信息数据挖掘分析:从多维度全面立体挖 掘分析卫星信息数据,包括时间、行政区划和地理区 划、热点数据、用户数据、线下数据分发等维度,全面 掌控卫星产品数据;
(2)用户应用需求挖掘分析:从多维度挖掘分析应 用需求,包括用户在线数据、注册用户分布、用户需求 等维度,精准把控用户行为,为用户行为画像储备历史 数据;
(3)个性化应用需求自动推理:通过分析用户潜在 兴趣点形成用户标签,并根据用户标签的不同权重因子,结合时间、空间等要素,对用户标签进行生命周期 管理,基于协同过滤机器学习算法构建用户个性化推荐 模型,用于处理不同场合的自动推理,如主观个性化推 荐与潜在个性化推荐等。
04 “云+端”国产卫星资源服务自适应协调技术
基于用户偏好模型,设计卫星智能服务模式,融合基于微服务架构的云端服务自适应技术以及“云+端”卫星资源智能分发技术,实现云端服务资源的弹性配置和跨平台的“云+端”分发服务。
“云+端”国产卫星资源服务自适应协调技术包括以下三项内容:
(1)基于用户偏好的卫星资源智能服务模式构建,首先采用拉取模式实现用户的查询,通过用户查询数据的累积和用户的基本信息,建立卫星资源用户偏好模型,实现智能拉取和智能推送相结合的卫星资源智能分发;
(2)基于微服务架构的云端服务自适应,采用微服务架构设计云端卫星资源分发服务系统,并基于Docker技术实现微服务架构,实现卫星资源分发服务端的资源自适应弹性配置。同时研究基于影像热度的卫星资源镜像技术,将热点卫星资源预分配至各个镜像服务器中,提升服务效率;
(3)“云+端”卫星资源智能分发,建立由云端遥感数据存储模式到多用户遥感数据逻辑存储模式的虚拟映射,通过用户订制等操作实现多用户的遥感数据分发服务,基于HTML5的跨平台应用开发架构,实现面向web端、IOS移动端、移动端的多终端服务。
05 基于云架构的分布式存储技术
基于云计算大数据集群架构,采用分布式的手段,充分利用多节点、多核处理器等硬件资源,支持TB/PB级空间数据和属性数据的管理,提供高可靠、高性能、高并发的地理空间服务;采用云架构可弹性规划资源池,根据数据量和访问量可水平扩展存储资源和计算节点以满足应用增长需求,实现高效的分布式并行空间分析算法和数据挖掘分析算法。
基于云架构的分布式存储技术包括以下三点:
(1)基于MPP分布式关系数据库存储卫星信息,采用MPP分布式集群对卫星信息进行存储、查询和统计分析,基于高效的分布式索引分区机制,对外提供空间和属性一体化查询分析功能;
(2)基于HDFS分布式文件系统存储文件型大数据,采用HDFS存储管理PB级海量大文件,对外提供高可靠、高性能的文件上传、下载存储服务,并构建完成水平扩展的体系架构,方便弹性扩容;
(3)基于Elasticsearch分布式NOSQL数据库的数据挖掘分析引擎,基于Elasticsearch收集存储海量应用需求行为数据,利用其高效的倒排索引和分布式分区机制,构建实时和离线一体化的数据挖掘分析引擎。
数据分发核心处理流程
不同用户在系统前端界面提交遥感数据申请,“云+端”国产卫星资源服务自适应技术对用户请求进行响应,若数据中心存在满足用户需求的遥感数据产品,则直接将历史遥感影像数据产品分发给用户;若数据中心没有满足用户需求的数据,则通过天地闭环协同管理技术进行国产卫星资源调度与任务规划,生成遥感数据采集任务申请,由卫星进行数据采集并处理后分发给用户。
同时,通过多源数据动态接入技术实现空间信息专题图件、地理国情统计资料、导航电文等多源异构数据的接入,并将这些数据存储于基于云架构的分布式存储系统中。
根据用户历史需求数据,国产卫星信息应用需求自动推理技术对用户行为进行画像,并以用户行为画像为基础,对潜在用户挖掘数据,实现遥感数据产品的自动推送。最后,通过研发国产卫星信息智能分发技术示范系统,对上述关键技术与任务进行验证。
数据分发核心处理流程图
数据分发平台的应用效果
本系统在实际操作使用过程中数据分发的准确率得到了良好的反馈。用户在前端通过拉取模式按需查询后,后台通过用户查询数据的累积和用户的基本信息,建立卫星资源用户偏好模型,实现智能拉取和智能推送相结合的卫星资源智能分发模式,主动地将最新信息推送给用户,有针对性、选择性地满足用户的个性化需求。在卫星资源智能分发过程中,用户偏好模型会随着拉取模式的增量信息进行调整,从而改善卫星资源分发的质量。
平台通过引入多种关键技术,极大提高了数据的分发效率。在工程系统中,用户在系统的检索界面按中国行政边界检索全部卫星数据响应时间不超过10秒,绘制200个四边形矢量无卡顿,数据浏览时界面流畅;系统后台单次覆盖筛选用户所需影像数据的响应时间不超过10秒,可同时并行处理大于500个工作任务,采集计划匹配时间小于10秒。
结语
本文通过对国产卫星数据分发过程中遇到的问题进行具体分析,设计并实现了一套基于用户大数据的国产卫星智能分发系统,融合了天地闭环协同管控、多源数据动态接入、应用需求自动推理等关键技术,深入研究国产卫星信息智能推送和“云+端”信息产品快速分发方法,研制空间信息定制云平台和终端应用软件,构建国产卫星信息“快速、精准、主动”的全新智能服务模式,实现多星信息的接入管理、综合集成、关联搜索、融合展示和快速下载,构建全新遥感服务模式。
内容转载、商务活动、投稿等合作请联系
微信号:huitiandi321
邮箱:geomaticshtd@163.com
欢迎关注慧天地同名新浪微博:
ID:慧天地_geomaticser
中国测绘丨为长三角一体化发展测绘蓝图——访上海市测绘院总工程师赵峰
中国测绘丨山海情深携手扶贫 地理信息奠基先行——测绘地理信息助力宁夏脱贫攻坚纪实
《慧天地》敬告
《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,探索企业核心竞争力,传播测绘地理信息文化,为测绘、地信、遥感等相关专业的同学提供日常学习、考研就业一站式服务,旨在打造政产学研用精准对接的平台。《慧天地》高度重视版权,对于原创、委托发布的稿件,会烦请作者、委托方亲自审核通过后才正式推发;对于来自网站、期刊、书籍、微博、微信公众号等媒介的稿件,会在作者栏或者文章开头显著标明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!