小橙数智 | LCC-Optimizer:自动调优大数据作业,降低资源成本高达30%以上!
Editor's Note
The following article is from 贝联珠贯 Author 贝联珠贯长帆
引言
LCC-Optimizer是贝联珠贯科技(浙江)有限公司推出的一款大数据作业优化产品。它可以对大数据任务的历史运行数据进行分析和挖掘,为每个任务计算更优的运行参数,并自动应用到提交的作业中进行自动调优,从而降低资源成本。采用低侵入实施方式,通过动态注入的方式快速进行部署,对业务的影响降到最低。
此外,它还提供作业健康检查等功能,帮助用户快速发现潜在问题和风险。LCC-Optimizer已经成功应用于多家大型企业,取得了显著的效果。
如果您也在寻找一款解决大数据优化问题的工具,欢迎尝试LCC-Optimizer免费试用!
大数据作业优化痛点
在实践过程中,通常有几个痛点:
高技术门槛,理解并正确设置任务运行参数有较高技术门槛,需要开发同学有较强学习能力和丰富实践经验;
工作量巨大,任务数量众多,导致为每个任务通过人工进行个性化参数配置的工作量非常大,且需要持续进行
LCC-Optimizer的优势
自动分析优化
根据计算引擎的运行原理,对大数据作业历史运行数据进行挖掘分析,生成优化配置参数,并自动应用到提交的作业,进行自动调优,降低资源成本;可以对大数据的表数据形成成本分析,帮助任务优化治理;
低侵入的实施方式
作业健康检查
多重灰度机制
作业历史查询
性能对比报告
对选定条件的任务,比如不同时间段、任务类型、队列等条件,进行优化效果的对比分析;
Lcc-Optimizer的原理
系统架构
各个阶段功能
数据采集:通过JobHistory、SparkHistory等持续采集作业的相关数据;
数据挖掘:数据挖掘任务由一组工作流完成,分析挖掘各种引擎作业的统计数据;
优化决策服务:根据实践经验形成优化模型算法,结合统计数据,产生优化决策,并提供优化详情、优化前后性能对比、优化预估等功能;
决策应用:调用决策服务接口获取优化决策,通过agent机制应用于作业优化,并上传作业优化决策记录
实际案例
单创
每天优化任务数量达上万,覆盖总任务的80%以上;
集群计算资源较优化前可节省40%;
大数据任务的总时长较之前降低45%左右;
连连支付
集群优化任务的总内存覆盖整体的94%;
大数据任务的总时长较之前降低25%左右;
每月离线计算资源云账单节省36%。
总结与规划