查看原文
其他

发布 | 网易数帆开源Arctic,已应用于金融实时湖仓架构升级

文 / Arctic社区

2022年1月,中国人民银行印发《金融科技发展规划(2022-2025年)》,提出了夯实数字基础底座、激活数字化经营动能、强化金融数据全生命周期管理体系等要求。金融企业落实这一规划需要解决什么问题,构建哪些能力,网易数帆在近日交出了一份答卷。


8月11日下午,网易数帆举办企业级流式湖仓服务Arctic开源线上发布会,宣布以开源的Arctic完善现有数据湖底座,拓展数据平台的边界,推动湖仓一体、流批融合落地,提升企业用数效率,实现数据价值。网易数帆大数据产品线总经理余利华透露,Arctic目前已在金融行业落地。


流批割裂,金融行业数智中台建设面临挑战

近年来大量金融科技子公司的成立,各种金融数字化/信息化管委会的设置,无不彰显金融公司对技术升级的渴望。余利华表示,金融企业希望融合实时数据湖与数据仓库,打造实时数据中台支撑其数字化业务创新,如实时的营销、风控,这本质上正是湖仓一体的思路。然而,余利华也认识到,目前的主流数据湖技术等只解决了更新、大表访问性能、流式消费等问题,仍然遗留小文件导致性能损耗、兼容性和流失更新等性能和易用性相关问题,而开源社区尚未出现对应的解决方案。


网易数帆大数据产品线总经理    余利华


这就是网易数帆研发并开源流式湖仓服务Arctic项目的直接原因,解决实时问题的同时也兼容历史遗留的多种数据系统,让金融数据真正成为资产。


Arctic 作为流式湖仓服务,在 Iceberg 和 Hive 之上添加了更多实时场景的能力,并且面向 DataOps 提供流批统一,开箱即用的元数据服务,让数据湖更加好用和实用。对于金融企业而言,Arctic能够把实时的数据和离线的数据统一起来成为一份数据,并且这份数据能做到同时做离线分析与实时计算,这样能更好地融入我们现在数据中台的体系当中。


余利华表示,秉承开放式架构原则,Arctic立足开源数据湖,不绑定计算引擎,注重与传统数仓Hive的兼容,能做到100%兼容 Iceberg / Hive 的表格式和语法。这是继SQL统一入口之后,网易数帆大数据体系再次在存储层面实现统一,这使得数据中台体系可以无缝扩展到实时场景,金融数据价值的发挥将不再被孤岛所困扰。


对网易数帆而言,Arctic的成熟也意味着其金融行业数字基础底座建设能力的再次升级。


Arctic开源,助力金融实时湖仓架构升级

在发布会上,网易数帆大数据实时计算技术专家、湖仓一体项目负责人马进详细介绍了Arctic项目的目标、特性、规划以及给开源用户带来的价值。Arctic 定位是一个搭建在 Apache Iceberg之上的流式湖仓服务,马进表示,流式强调向实时能力的拓展,服务则强调管理、标准化度量,以及其他可以抽象到基础软件中的湖仓一体能力。


通过 Arctic,用户可以在 Flink、Spark、Trino 等引擎上实现更加优化的 CDC、流式更新、OLAP 等功能, 结合数据湖高效的离线处理能力,Arctic 能够服务于更多流批混用的场景;同时,Arctic 的结构自优化、并发冲突解决以及标准化的湖仓管理功能,将有效减少用户在数据湖管理和优化上的负担。


网易数帆大数据实时计算技术专家、

湖仓一体项目负责人    马进


当前数据湖技术虽多,提供的都是各种数据湖格式,而非真正的湖仓一体平台。这些格式已经存在于企业环境。而有了Arctic服务,金融企业可以去适配不同的数据湖格式,无需担心数据湖技术的选型问题,持续优化数据分析能力,也让数据流管理变得简单。在金融行业数据中台建设中,这一设计得到了充分的利用。


共建企业参与计划创新社区协作模式

在整个数字基础底座全面升级的时代,开源的模式也悄悄发生变化,如同Arctic,越来越多的企业级能力走向完全开源,同时技术型企业组织参与开源的程度越来越深。另一方面,金融行业在数字化转型及开源政策的双重吸引下,对参与开源、推动金融数字底座发展也产生了浓厚的兴趣。


在此背景下,Arctic开源社区同步启动了共建企业参与计划,邀请包括金融行业在内的企业加入社区参与建设,不仅作为用户结合业务场景提供真实的使用反馈,也可以作为开发力量共同持续探索流式湖仓技术领域创新性功能。


未来,网易数帆将进一步繁荣 Arctic 社区生态,与Arctic 社区伙伴一起,共同打造一款全球领先的流式湖仓服务创新产品,构建繁荣的实时湖仓生态圈,并以金融行业应用为重点战役,为整个数字化转型提供先进技术支持。


(来源:Arctic社区)






新媒体中心:主任 / 邝源  编辑 / 傅甜甜  张珺  邰思琪

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存