查看原文
其他

DSE精选文章 | 自适应伸缩的多模型大数据分析和信息抽取系统

Springer 2023-03-30

The following article is from CCF数据库专委 Author 专委会秘书处

An Adaptive Elastic Multi-model Big Data Analysis and Information Extraction System

欢迎扫码免费阅读全文

文章介绍

随着行业和特定领域环境下的多样化应用,对半结构化和非结构化数据以及跨数据模型的多源信息提取变得越来越普遍。然而,多模型信息抽取往往需要在云端部署多个数据模型管理、存储、分析子系统,多个子系统同时资源利用率不高,资源浪费现象往往比较严重。为此,文章设计并实现了一种自适应伸缩的多模型大数据分析和信息抽取系统,能够支持关系型、图型、文档型、键型等数据模型的数据维护和跨模型查询,提供高效的跨模型信息提取。在此基础上,文章提出了基于控制论的自学习动态阈值弹性伸缩算法。根据多模型大数据分析的实时性要求,动态调整各子系统资源分配。该方法使伸缩资源的阈值动态可调,并能针对调整结果进行学习,解决了经典阈值法依赖专家经验或系统测试设定阈值,和难以兼顾QoS保障和资源利用率的问题。在真实数据集中模拟常见云应用工作负载评估时,系统可以在对性能影响小于5%的前提下减少30%的资源量,不仅保证了多模型查询和信息提取的性能和服务质量,而且显着降低了系统资源的总消耗和成本。论文的主要贡献如下:

  1. 总结了经典阈值方法的问题,并提出了一种基于控制论的自学习动态阈值方法。

  2. 设计并实现了一种自适应伸缩的多模型大数据分析和信息提取系统。

  3. 在真实数据集中模拟常见云应用工作负载,对提出的方法进行实验评估。与基线方法相比,该方法具有更好的总体效果。


实验效果

按照查询并发数模拟的Cycle/Bursting负载如图1所示。测试中分配资源以资源槽为单位进行分配,CPU和内存的分配被绑定在一起。图2,图3,图4和图5分别展示了实际CPU资源使用情况,资源槽分配情况,资源槽累计占用情况和平均资源利用率。总体来说,文章方法较基线方法节省了更多资源并提高了资源利用率。

表1. Cycle/Bursting负载

表2. 实际CPU资源使用情况

表3. 资源槽分配情况

表4. 资源槽累计占用情况

表5. 平均资源利


图6展示了无弹性伸缩,文中方法和基线方法的查询性能变化。在大部分情况下,该方法较基线方法花费更少的查询时间。

用率

表6. 查询性能变化情况

表7. 其他常见负载下资源槽累计变化情况


图7展示了在其他常见负载下资源槽累计变化情况。该方法同基线方法的资源槽使用相似。


结语

论文设计并实现了一种自适应伸缩的多模型大数据分析和信息抽取系统。在此基础上,文章提出了基于控制论的自学习动态阈值弹性伸缩算法用于在数据维护和跨模型查询时动态调整各子系统资源分配,减少资源浪费现象。该算法使伸缩资源的阈值动态可调,并能针对调整结果进行学习。在真实数据集中模拟常见云应用工作负载评估时,系统可以在对性能影响小于5%的前提下减少30%的资源量。实验结果表明,与基线方法相比,该方法具有更好的总体效果。


主要作者

尹强

尹强,男,人大金仓性能领域技术负责人。长期从事数据库内核研发工作,主要研究方向为OLTP性能、OLAP性能、多模计算、性能自治等。

张峰

张峰,男,中国人民大学数据工程与知识工程教育部重点实验室副教授,博导,CCF数据库专委委员,研究方向为数据库。


其他作者

  • 王建华,女,人大金仓应用开发领域技术负责人

  • 杜   胜,男,人大金仓总裁

  • 冷建全,男,人大金仓高级副总裁

  • 李金涛,男,中国人民大学信息学院2021级专业硕士

  • 洪殷昊,男,中国人民大学计算机应用技术博士研究生

  • 柴云鹏,男,中国人民大学信息学院教授,博导

  • 张   晓,男,西北工业大学计算机学院副教授,博导

  • 赵晓南,女,西北工业大学计算机学院副教授,硕导

  • 黎梦钰,女,西北工业大学软件学院2020级专业硕士

  • 肖   淞,男,西北工业大学计算机学院2020级专业硕士

  • 卢   卫,男,中国人民大学信息学院教授,博导


关于Data Science and Engineering

Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格 自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。


目前期刊已被EI、ESCI与SCOPUS收录,CiteScore 2021为6.4,在Computer Science Applications领域排名# 157/747(位列前21%)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。

欢迎扫码进入期刊首页阅读下载



点击“阅读原文”,阅读论文全文!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存