查看原文
其他

小橙数智 | LCC-Optimizer:自动调优大数据作业,降低资源成本高达30%以上!

小橙数智 2024-04-14

Editor's Note

大数据作业从相对静态化的资源调度到动态的自动调优,从目前几家金融客户的POC结果来看,效果非常明显,即提高了任务执行效率又降低了成本,在大数据作业这个场景上降本增效的效果非常明显。

The following article is from 贝联珠贯 Author 贝联珠贯长帆

创始人毕玄请大家点击以下链接:
       小橙数智 | 贝联珠贯创始人毕玄
       以下为整体方案: 

NO.1
引言

LCC-Optimizer是贝联珠贯科技(浙江)有限公司推出的一款大数据作业优化产品。它可以对大数据任务的历史运行数据进行分析和挖掘,为每个任务计算更优的运行参数,并自动应用到提交的作业中进行自动调优,从而降低资源成本。采用低侵入实施方式,通过动态注入的方式快速进行部署,对业务的影响降到最低。

此外,它还提供作业健康检查等功能,帮助用户快速发现潜在问题和风险。LCC-Optimizer已经成功应用于多家大型企业,取得了显著的效果。

如果您也在寻找一款解决大数据优化问题的工具,欢迎尝试LCC-Optimizer免费试用!

NO.2
大数据作业优化痛点
在离线大数据计算场景中,大数据任务主要为Hive、Spark作业,资源调度管理主要采用Yarn或Kubernetes,多数公司的大数据任务数量从几百到几万不等。对于每个大数据任务,可以个性化配置运行的参数(详见Spark作业参数地址:https://spark.apache.org/docs/latest/configuration.html),使得任务运行更快或集群的利用效率更高。

在实践过程中,通常有几个痛点:

  • 高技术门槛,理解并正确设置任务运行参数有较高技术门槛,需要开发同学有较强学习能力和丰富实践经验;

  • 工作量巨大,任务数量众多,导致为每个任务通过人工进行个性化参数配置的工作量非常大,且需要持续进行

多数企业的实践是:通用任务参数模板+个别任务定制优化的方式,限于技术经验和工作量,导致参数配置往往比较粗放。另一方面,大数据集群的利用效率有提升空间,从现象看,机器的CPU/内存的实际利益率只有50%左右甚至更低,但是大数据任务出现长时间排队等资源运行的情况,相当于集群的资源没有实际被高效利用起来。
针对上述情况,LCC-Optimizer的方案是通过对任务的历史运行数据进行分析和挖掘,为每个任务计算更优的运行参数,并支持在任务提交计算时进行参数的自动运用,结合客户实践,大多数场景下,可以减小30%以上的成本
NO.3
LCC-Optimizer的优势
相比于Dr. Elephant开源的Hadoop和Spark的性能监控调优工具,LCC-Optimizer具有自动分析调优,低侵入实施注入方式,作业健康检查,多重灰度机制,作业历史查询和性能对比报告等特点,使得大数据作业优化更高效、更可靠。


自动分析优化

根据计算引擎的运行原理,对大数据作业历史运行数据进行挖掘分析,生成优化配置参数,并自动应用到提交的作业,进行自动调优,降低资源成本;可以对大数据的表数据形成成本分析,帮助任务优化治理;


低侵入的实施方式

通过在大数据作业提交端动态注入的方式,快速的实施部署,对业务的影响降到最低;对大数据作业作业指纹信息生成归一化任务ID,并据此应用优化;

作业健康检查

通过对历史运行数据的分析,实时生成不健康运行任务的报告明细,提前发现潜在问题和风险;

多重灰度机制
多级别的黑白名单和多重自动隔离机制,优化规则粒度的管理,便于优化的逐步灰度发布,保障任务的稳定运行;

作业历史查询
提供与YARN作业列表对应的视图,方便查看对应优化效果和历史趋势;并增加了CPU/内存等资源使用量趋势、健康度等指标,直观观察到运行成本;


性能对比报告

对选定条件的任务,比如不同时间段、任务类型、队列等条件,进行优化效果的对比分析;

NO.4
Lcc-Optimizer的原理

系统架构

各个阶段功能

  • 数据采集:通过JobHistory、SparkHistory等持续采集作业的相关数据;

  • 数据挖掘:数据挖掘任务由一组工作流完成,分析挖掘各种引擎作业的统计数据;

  • 优化决策服务:根据实践经验形成优化模型算法,结合统计数据,产生优化决策,并提供优化详情、优化前后性能对比、优化预估等功能;

  • 决策应用:调用决策服务接口获取优化决策,通过agent机制应用于作业优化,并上传作业优化决策记录

NO.5
实际案例

单创

单创是一家综合性品牌管理公司,拥有单创电商,单创APP等产品。面临PB级的业务数据,大数据集群几乎全天用满,高峰时段还存在大量挂起。在使用LCC-Optimizer后,通过对大数据作业自动调优,提升了集群整体使用效率和离线计算任务的完成效率,同时完成成本缩减。
  • 每天优化任务数量达上万,覆盖总任务的80%以上

  • 集群计算资源较优化前可节省40%

  • 大数据任务的总时长较之前降低45%左右

连连支付

连连支付是中国跨境支付综合服务行业引领者,背后拥有多个大规模的大数据集群。在使用LCC-Optimizer后,这些集群每天都有数千任务进行自动优化,提升集群使用效率。实施过程无需人工干预和手动调优,且对用户系统和平台无侵入。上线至今系统和收益都表现稳定。
  • 集群优化任务的总内存覆盖整体的94%

  • 大数据任务的总时长较之前降低25%左右

  • 每月离线计算资源云账单节省36%


NO.6
总结与规划



综上所述,LCC-Optimizer是一款针对大数据计算场景的作业优化产品,通过自动分析和优化大数据任务的运行参数,能够显著降低资源成本。其技术方面采用低侵入实施方式、多重灰度机制等,保证了集群作业的稳定运行。此外,LCC-Optimizer还提供了作业健康检查,能够帮助用户快速发现潜在问题和风险。

未来,LCC-Optimizer将继续加强技术研发,并增强资源使用量优化和作业检查告警功能。同时,我们也将进一步完善操作界面,提供更加友好的用户体验,为更多企业用户带来更好的服务。

LCC-Optimizer现已上线,如果您想要尝试显著降低资源的使用量。点击阅读原文或扫码提交试用信息,即可免费试用欢迎大家试用!

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存