“大数据”自麦肯锡咨询提出这个概念以来,已经走过了 20 多个年头,并在近些年迎来了爆发式增长。中国大多数企业也面临着数字化转型的挑战,从新基建,到工业 4.0,再到5G网络和物联网的发展,各行各业都急需一个强大有力的大数据分析平台。数字化转型已然成为众多企业必走的路线,大家都在提倡“大数至简”之道。然而,众多尝试者在第一步“数据采集”就已经遇到了难题:难以与上下游系统集成
效率低下
安全性不高
数据准确性不足
诸多功能缺失
……这些使用了市面上很多数据采集工具之后发现的问题至今仍然很难被解决,也成为了令众多企业头大的难题。炎凰数据作为新一代异构大数据即时分析平台,也密切关注到了用户的数据采集需求。为此开发了新的数据采集工具——DataScale。DataScale 是一款轻量级、高性能的数据采集工具,能够帮助你实时采集、处理来自众多数据源的数据(包括但不限于日志、指标、调用链数据等), 并将数据轻松导入数据分析平台。让用户能够快速、稳定的将来自各种数据源的数据接入数据分析平台,通过与数据分析平台功能的结合,提升数据在分析阶段的可用性和易用性。
针对众多数据采集难题,DataScale提供了众多实用功能:- 提供直观的 Web UI 来管理数据管道,快速连接各种数据源,配置数据处理逻辑
- 集成多种开源数据采集器,支持丰富的开箱即用的数据源类型和完善的数据处理方法
且为了满足企业的多种数据采集需求,DataScale 实现了支持 standalone 部署和集群部署两种模式:- 在 standalone 部署模式下,每个 DataScale 服务独立负责自身的数据采集任务的管理(手动或使用第三方部署工具管理)和执行。
- 在集群部署模式下,DataScale 服务分为 worker 和 manager 两种。DataScale worker 负责执行数据采集任务,DataScale manager 负责集中管理和分配 worker 上的数据采集任务。
“大数至简,采集为先”,从创新和实践的角度,DataScale可谓对众多企业实现大数据分析需求的期待构建了第一条简单实用的通道。在数据采集需求中,众多开发者都希望能够实现自己想要的数据类型适配、应用场景适配,DataScale数据采集器的自定义功能应运而生,用于实现任何定制化的数据采集需求。当你将自己开发的 collector 安装到 DataScale 后,该 collector 就可以作为 source 组件在 dataflow 中使用:
为了帮助更多用户轻松开发出属于自己的数据采集利器,更好地服务于数据分析处理需求,炎凰数据特为广大开发者举办了第一届黑客马拉松比赛,主题为“大数至简,采集为先——开发自己的数据采集利器”,参赛者报名成功之后,可以基于DataScale的自定义功能开发自己的数据采集功能。为了奖励好的参赛项目,前三名优胜者将获得惊喜大奖:
一等奖(1名):奖品iphone15 pro Max 512GB
二等奖(1名):奖品 ipad Air5 WLAN版 256G
三等奖(1名):奖品apple watch Series 8 蜂窝款
识别二维码,观看直播答疑(12月19日 19:00):
大数至简,采集为先,让我们一起开发属于自己的数据采集利器,实现定制化数据采集需求,向着心仪大奖进发!