RisingWave 在超百亿管理规模对冲基金公司中的应用
作者:交易系统工程师 超百亿规模管理对冲基金公司
1. 公司背景
XX 私募基金(应客户需求,我们对其公司名称做了保密处理)是一家专注于量化投资的超百亿对冲基金公司,成立之初主要以自营期货高频交易为主。目前公司成员近百人,投研团队占比 70%。团队内主要成员大多来自清华、北大、中科大、普林斯顿大学、哥伦比亚大学、宾夕法尼亚大学等国内外知名高校,均为计算机、电子、数理专业等行业高精尖人才。公司发展迅速,管理规模逾百亿。
2. 使用 RisingWave 之前的情况
2.1 学习成本
2.2 资源成本
在实际交易的 Colocation 机房 (在量化交易领域这个词通常表示是服务器托管在离交易所比较近的机房)环境下,硬件资源是非常稀缺的。因此更少的资源占用,更低的部署复杂度都是我们需要考量的因素。
2.3 可观察性
metrics 监控系统和状态可查询功能是在做延时调优和系统调试过程中非常得力的助手,一次微小的逻辑变动都可能会让 CPU 和内存占用发生巨大的变化,因此一个完备的可视化监控系统和状态可查询功能尤其关键。
2.4 技术支持
对于流计算的初学者来说,会遇到很多技术和概念上的困惑,尤其在项目 PoC 阶段,技术团队高效率的沟通和给予高质量的响应支持可以快速地加深对系统的使用了解。
3. 为什么选择 RisingWave
在实时流计算系统的选型上,我们没有历史包袱。经过对 ksqlDB 到 Flink 的使用,我们明白其各自特点和优势,但我们从没停止寻找更优秀更适合自身业务场景的流计算系统,直到 RisingWave 的出现,通过深度使用发现这是一个极其现代化的流计算系统,如同官网上宣传语一样,在某种意义上来讲,它确实重新定义了流计算。其有如下几个特点吸引着我们:
3.1 PostgreSQL
最为打动我们的是 RisingWave 从一开始就选择使用 PostgreSQL 来表达流计算,SQL 作为声明式语言可以说是受众最广的表达方式之一,其简洁、易于理解、高层次的抽象语法使得开发者可以更专注的关注业务逻辑的本质,极大降低学习开发成本,从而提高开发效率。因为其兼容了 Postgres 协议,Postgres 生态中的技术栈均可以应用到 RisingWave 中来,无形之中增添了不少能力。从我们的实践来看,SQL 的表达能力已经可以覆盖绝大部分的业务场景,对于极其复杂个性化的数据处理我们可以通过 UDF 或者其它命令式的语言来实现。
3.2 低延时
3.3 数据集成
RisingWave 提供了非常丰富的 source 和 sink connector。从主流的消息队列到 OLTP 和 OLAP 数据库,再到数据湖存储引擎,都提供了非常好的支持。在编码方式上也提供了主流的 JSON,Avro,Protobuf,这样可以非常方便且低成本地将现有的业务数据系统集成到 RisingWave 中。如果说 Kafka 是流处理市场最大的赢家,那么 RisingWave 也可以称得上是流计算领域的瑞士军刀。
3.4 丰富算子
在我们进入生产环境的项目中有 50+个表、物化视图、以及与外部系统交互的 source/sink connectors,独有 temporal join、interval join、temporal filter、TopN 算子、实时增量计算提高新鲜度的 materialize view、时间窗口函数、支持乱序处理的水位线机制、以及支持 PostgresSQL 中绝大部分语法比如 common table expression,`DISTINCT ON`等。 可以满足维表拓宽事实表、多路 stream 聚合、实时 ETL、窗口指标统计等场景的应用。
3.5 可观察性
3.6 技术支持
RisingWave 的同学们非常的专业、热情、耐心,在我们初期使用的过程中,给予了我们非常高效和快速细心的解答帮助,让我们更深入地了解 RisingWave 和流计算,在 POC 阶段顺利完成了一些业务的落地。
4. RisingWave 的实施情况
我们和 RisingWave 的合作始于数月前。当时在一些交易场景下,出现了大量需要非常高效低延时的扩宽表,多个数据流实时的聚合,实时指标计算以及和多种数据系统如消息队列和数据库交互的场景。起初使用 Flink 来实现并没有达到预期便捷的效果,同时也希望避免使用其它命令式的语言来开发,这主要是开发运维成本上的考量。在 RisingWave 同学们的悉心指导下,我们仅使用 SQL 声明式的语言就完成了以下业务的开发并应用到了生产环境。
从消息队列摄入实时交易成交流水,基于维度表对其拓宽后并sink到下游数据系统
基于成交实时累计账户持仓并 sink 到下游数据监控系统
基于成交和持仓实时计算账户盈亏 (Profit & Loss) 并 sink 到下游监控系统
对行情与交易流水等多个事件流进行实时聚合出衍生消息并 sink 到下游数据系统
5. 总结与展望
经过几个月对 RisingWave 深入学习与实践,我们已经成功将 RisingWave 应用到实盘交易生产环境,并稳定运行。RisingWave 作为冉冉新星,以独特的视角重新定义流计算,以兼容 PostgreSQL 为核心思想,便捷地将多种数据系统集成到一起来简化数据流。不仅有丰富的功能组件,在易用性,低延时,低学习成本,低部署运维成本方面有着巨大的优势和吸引力,同时也在不断学习与成长。RisingWave 的出现,解决了我司之前遇到的痛点。从某种意义上来说,也拓宽了流计算的边界,使得我们在面对更创新、更复杂、具有挑战性的业务时都可以从容面对。
关于 RisingWave
RisingWave 是一款基于 Apache 2.0 协议开源的分布式流数据库,致力于为用户提供极致简单、高效的流数据处理与管理能力。RisingWave 采用存算分离架构,实现了高效的复杂查询、瞬时动态扩缩容以及快速故障恢复,并助力用户极大地简化流计算架构,轻松搭建稳定且高效的流计算应用。RisingWave 始终聆听来自社区的声音,并积极回应用户的反馈。目前,RisingWave 已汇聚了近 150 名开源贡献者和近 3000 名社区成员。全球范围内,已有上百个 RisingWave 集群在生产环境中部署。往期推荐
技术内幕