查看原文
其他

当当开源elastic-job 分布式作业调度框架;在使用缓存时应注意哪些问题?

2015-09-27 Q新闻 InfoQ

1
当当开源elastic-job分布式作业调度框架


当当近期开源了分布式作业调度框架elastic-job项目。


elastic-job是当当内部应用框架ddframe中dd-job的作业模块中分离出来的分布式弹性作业框架。去掉了dd-job中监控和ddframe接入规范部分。ddframe其他模块也有可独立开源的部分,之前当当曾开源过dd-soa的基石模块DubboX。


elastic-job和ddframe关系见下图:


Elastic-job的主要包括以下功能:


1.定时任务:基于成熟的定时任务作业框架Quartz cron表达式执行定时任务。


2.作业注册中心:基于Zookeeper和其客户端Curator实现的全局作业注册控制中心。用于注册,控制和协调分布式作业执行。


3.作业分片:将一个任务分片成为多个小任务项在多服务器上同时执行。


4.弹性扩容缩容:运行中的作业服务器崩溃,或新增加n台作业服务器,作业框架将在下次作业执行前重新分片,不影响当前作业执行。


5.支持多种作业执行模式:支持OneOff(类似Quartz原生作业),Perpetual(类似TbSchedule作业)和SequencePerpetual(类似TbSchedule和kafka的合并,但处理时维持分片顺序)三种作业模式。


6.失效转移:运行中的作业服务器崩溃不会导致重新分片,只会在下次作业启动时分片。启用失效转移功能可以在本次作业执行过程中,监测其他作业服务器空闲,抓取未完成的孤儿分片项执行。


7.运行时状态收集:监控作业运行时状态,统计最近一段时间处理的数据成功和失败数量,记录作业上次运行开始时间,结束时间和下次运行时间。


8.作业停止,恢复和禁用:用于操作作业启停,并可以禁止某作业运行(上线时常用)。


9.错过执行的作业重触发:自动记录错过执行的作业,并在上次作业完成后自动触发。可参考Quartz的misfire。


10.多线程快速处理数据:使用多线程处理抓取到的数据,提升吞吐量。


11.幂等性:重复作业任务项判定,不重复执行已运行的作业任务项。由于开启幂等性需要监听作业运行状态,对瞬时反复运行的作业对性能有较大影响。


12.容错处理:作业服务器与Zookeeper服务器通信失败则立即停止作业运行,防止作业注册中心将失效的分片分项配给其他作业服务器,而当前作业服务器仍在执行任务,导致重复执行。


13.Spring支持:支持spring容器,自定义命名空间,支持占位符。


14.运维平台:提供运维界面,可以管理作业和注册中心。


上面列出的功能已在当当内部稳定使用,现在开源,供大家参考和指正。也希望感兴趣的朋友也来为elastic-job贡献更多的改进。未来也将会开源更多的ddframe子模块。


  • 注:elastic-job严格遵循Apache 2.0许可证的要求。


[附:ddframe简介]


ddframe是针对技术部Java体系提供的统一应用开发框架。目的:


1.分离技术和业务,封装技术细节,将应用开发人员的精力集中在业务开发上;

2.可快速配置启动,降低新项目搭建框架的成本;

3.统一框架,将项目分为业务+框架+云平台+治理;

4.提供统一的编码,配置,监控,日志的标准和规范;

5.组件可插拔,不强制业务开发人员使用框架的全部内容;

6.灵活的提供定制化功能,框架不限制引入其他技术组件;

7.模板代码自动化生成,降低书写难度;

8.提供独立的工具箱和分布式技术组件产品;

9.推动SOA以及微服务进程。


2
缓存是个好工具在使用缓存时应注意哪些问题?


许多有用的数据都适合放在内存中。那样可以降低延迟,减轻数据库负载,减少硬件成本。但实际上,缓存的成本很高,只是软件开发人员往往低估了缓存带来的问题和复杂度提升。近日,来自Twitter的软件工程师Mike Solomon发表了一篇博文,从以下几个方面分析了实现缓存的困难之处:


1.缓存数据更难以推断:缓存意味着不从真实数据源读取数据。因此,每次读或写缓存数据都可能与真实数据源不匹配。在问题追踪时必须经常考虑这种情况。


2.缓存数据可能导致“视角(perspective)”Bug:比如,一个新闻站点上有个“最佳文章”列表,其中的内容可能会随登录用户的不同而变化。一个常犯的缓存错误是缓存的数据独立于视角,具有不同视角的用户看到了相同的内容。这会导致严重的隐私甚或安全问题。


3.涉及缓存的行为难以重现:当引入缓存,就引入了一个新的层,其上的行为可能同预期不符。缓存对象依赖访问模式,会随时间或其它因素变化。一旦出现问题,很难通过重现行为来帮助问题修复。


4.访问模式变化可能会损害性能:访问模式变化可能会莫名其妙地导致缓存命中率降低,延迟增加,吞吐量减少。但流量水平可能会保持不变,这屏蔽了问题原因,潜在地增加了底层数据源的负载及问题处理的难度。


5.进程内缓存可能会增加GC压力:具有垃圾收集功能的语言中,大量长寿命的缓存对象会增加垃圾收集的时间和次数。


6.缓存失败恢复困难:缓存机器故障,存储在内存中的数据就会丢失,无法简单地重新上线。在缓存重新创建的过程中,吞吐量可能会下降。


尽管缓存有着这些困难,但还是需要它,比如,Facebook、Twitter、Instagram及Reddit都将缓存视为一个关键的基础设施。Facebook基础设施工程师已经构建了一个名为mcrouter的工具用于管理缓存。该工具开源不到一年,就获得了1000多颗星,缓存的重要性可见一斑。只是,在考虑使用缓存的时候需要注意上述问题。


今日文章推荐


写代码这事儿,架构师你可以说不么?

Speedy:来自京东的Docker镜像存储系统

为什么你的软件项目会失败?

成功技术领导者10条经验锤炼

投稿请联系:

邮箱:editors@cn.infoq.com QQ:1073600161

版权归属InfoQ,禁止私自抄袭转载。

回复关键词React | 架构师 | 运维 | 云 | 开源 | 物联网 | Kubernetes | 架构 | 人工智能 | Kafka | Docker | Netty | CoreOS | QCon | Github | Swift | 敏捷 | 语言 | 程序员

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存