查看原文
其他

望繁信科技CTO李进峰:揭秘流程挖掘20亿行数据秒级响应背后的技术力量

一起回顾的 望繁信科技Prothentic
2024-09-01

3月10日,启点·2023望繁信科技产品发布会在上海召开。望繁信科技联合创始人兼CTO李进峰博士在会上分享了《重构计算引擎与PQL——开启全新流程诊断、分析、检测与治理方法》的主题演讲,向大家详细阐述了望繁信流程挖掘的核心技术突破与探索。

01 创新流程图算法

流程图清晰度超越国际主流产品


流程挖掘的最大价值之一是流程图,流程图学名叫做直接跟随图,它可以让人非常方便快捷地去了解企业真实的流程走向。

一张好的流程图应该具备什么样的特征?首先,人在看一张图的时候,通常会从上往下或者从左往右看,这意味着流程图如果要满足人的观看习惯,就需要有非常好的分层;其次,按照顺序分完层之后,流程图要能真实、客观地体现企业流程的实际情况,如果两个流程节点在实际业务流程走向里是相邻的,那么它们在流程图里也要是相邻的角色;最后,一个好的流程图要尽量少交叉,流程图中边与边之间也要能像节点一样做很好的分类,将一些相似的边聚类在一起,这样才能帮助运营人员去理解流程图,并且通过流程图来理解业务流程。

下面这张流程图来自于望繁信真实的客户案例。这张图有一个主干,从第一层1.1开始,到下边的2.1,2.3,4.1以及7.1,这条直线代表着在企业真实的业务流程当中最常发生的一条流程。除此之外,这条流程还有一个特征就是双主业务流程,除了刚才的主干流程之外,旁支还有一条主干。

采用同一客户数据集,与国际排名第一的流程挖掘厂商生成的流程图做对比,会发现该知名厂商流程图主干里面的2.3节点,本来应该在中央却显示在了左下角,双主流程的旁支流程本来应该跟主流程并行却跑到了右下角,这让业务人员理解起来就会非常费劲,甚至会理解错误。而望繁信的流程图上下结构和层次之所以更加清晰,是因为技术团队在流程图上花了非常多的功夫,单单这一张图,背后就用了图算法、数学组合优化、聚类算法、统计分析等,使可视化流程图更为简洁清晰。

02 100%自研PQL

实时在线计算,极大简化业务流程分析


一张业务流程图,当把所有的流程数据导入进去后通常会变得非常复杂,而想要在其中去做具体的业务瓶颈和问题分析显然是很困难的,必须要做针对性的过滤。一旦做了过滤,案例总数发生变化,这些数据就需要重新做计算,这时就需要依赖PQL和计算引擎,将过滤后的计算结果实时反馈到流程图,给用户更好的使用体验。

PQL(Process Query Language)是一种简洁的、面向于流程分析的语言分析代码,简称低代码。为什么说它简洁?举个例子,在按票付款流程里,一般是最终检查发票必须得发生在按票付款前面,但凡在后面就是违规。如果要统计违反规则的案例总数有多少,通过传统的SQL去统计既要窗口函数,又有Join操作,数据达到千万级别时需要等待的时间会非常长;而通过PQL去统计只需要短短的代码就可以实现。

03 释放实时数据价值

流程计算引擎提速PQL的执行


PQL执行效率远胜于SQL,这背后要归功于流程计算引擎。望繁信科技流程计算引擎有三个值得骄傲的核心技术点。第一是函数,第二是数据存储层,第三是数据执行层。

望繁信流程计算引擎能处理的数据量是20亿行数据,在32核服务器上,返回的时间是4秒钟——这是秒级响应的函数。传统的BI函数里面有求和、求均值、分位数、最大最小以及常用的if条件的判断函数等,它就好比一个傻瓜相机,提供的是通用的计算能力,什么样的业务场景都可以用,但处理得不一定是最好最快的望繁信科技在PQL里面不仅提供了传统BI常用的函数,而且还专门提供了很多流程相关的函数。它就好比是一个单反,它可以处理通用的BI问题,但更适合于解决流程问题。

第二个核心技术,数据存储层。望繁信科技从数据的底层开始就做了优化,无论是长度还是数据结构都做了调优处理,天生具有Case属性的Block设计,保证上层函数在调用数据过程当中以一种更高效的方式去存储和读取。

第三个核心技术,执行计划层。人们在写PQL或一段代码的过程当中不会只用一个函数,这时候就需要有非常强大的执行计划层将能并行的函数做并行,能串行的函数做串行,确保无论在单服务器还是集群环境里面,都能尽量拉满所有CPU资源,将执行效率提到最高。除此之外,在CPU性能优化方面,望繁信科技还专门对比较高级的CPU做了执行层面的引擎支持,让效率成倍增长,这些都是望繁信在技术领域所做的努力。

04 高效的流程算法

构筑流程挖掘坚实的技术底座


望繁信通过自研流程算法实现了对业务流程的充分挖掘与还原,主要算法有一致性检验、流程瓶颈分析、根因分析、流程聚类、仿真分析等。

一致性检验算法。做一致性检验,首先需要有一个流程的标准,例如BPMN。将这个BPMN标准拿到现在的数据里面去检测,最后会出来两个分组,一个分组是符合BPMN标准的案例,另一个是不符合的。这样就方便企业以各种维度去自定义各种KPI,然后利用一致性检验去看合规的KPI是什么样的,不合规的KPI又是什么样的。

瓶颈分析与根因分析。瓶颈分析可以分析耗时、案例数量、成本等,去判定一些节点和边是不是瓶颈。但分析瓶颈不是目的,更多的是通过这个瓶颈找到背后的原因。举个例子,现在有一个瓶颈是节点的吞吐时间很长,这时望繁信的流程引擎就可以告诉你,采购金额大于10万所有的订单,以及供应商为A、物料为X的这些相关因素会导致节点的吞吐时间很长,这就是根因分析做的。望繁信科技所有的根因分析以及瓶颈分析都从计算引擎层做了实现,它们是非常强大且计算效率非常高的算法。

流程聚类。如果给定一个3的流程类数,流程聚类就会根据给定的这个数量,到流程里面分出3种不同的类,每一个类里面的活动属性都是比较相似的。这时可拿一个自定义的PQL形成一个KPI,到三类数据里分别观察KPI指标是多少,这会非常方便地让大家看到不同的数据组里有什么特征。望繁信完全摒弃了各式各样的实体与物理表格,所有的东西都是硬盘与内存实时做计算,大大节省了时间

仿真分析。仿真分析又叫WHAT-IF分析,如果发生了什么事情之后,接下来的结果会是怎样的?举一个例子,如果企业切换了供应商之后,接下来企业的按时到货率会不会提升,成本会不会下降?如果企业将总的案例提升10%之后,流程里面是否会有拥堵的情况?拥堵在哪里?在流程挖掘具体实践中,用户给出他的IF,望繁信流程智能平台会根据用户的IF到原始的数据里面去找到规律,进而生成新的数据集,让用户能在新的数据集上去自定义自己的KPI,这就是仿真分析。 

为了能实现各种各样的复杂分析,望繁信科技在技术领域层下足苦功夫,得益于100%自研的计算引擎以及PQL,望繁信科技真正实现了20亿行数据的秒级响应。


继续滑动看下一个
望繁信科技Prothentic
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存