专访 | 观远数据吴宝琪:BI 最大的难点并不只在单点技术
采访背景
6月16日,世界经济论坛(World Economic Forum)从全球范围内选出了100家新兴科技企业, 将其评为2020年度技术先锋(Technology Pioneers)。作为全球新兴科技的代表企业,技术先锋们用尖端技术解决全球问题,推动未来变革。其中, 9家中国创新代表企业荣誉上榜,观远数据作为国内创新企业代表,凭借在“AI+BI”领域的产品和方案创新力实力入选。观远数据在泛零售与消费行业深耕多年,其客户包括联合利华、百威英博、全家、沃尔玛、赫基集团、小红书等等,通过自助式分析,降低传统BI使用门槛,同时赋能管理端与业务端,让不懂技术的业务人员也能快速上手;同时打破数据孤岛,让数据从业务中来到业务中去,打造从数据到决策的闭环。
这次,CSDN有幸邀请到了观远数据联合创始人兼首席架构师吴宝琪来给大家分享BI(商业智能)的技术要点、难点与其对应的解决方案;BI团队人员架构的设计;最后深入解读BI的未来以及企业级应用的发展趋势。
CSDN: 作为观远数据的联合创始人与首席架构师,请您简单介绍一下自己和观远。
吴宝琪 : 我本硕均就读于南开大学,2007年毕业来到杭州加入微策略, 2014年加入阿里,2016年决定和几个老同事一起创业,成立了观远数据。目前,观远数据已经成长为一家国内新锐“AI+BI”智能数据分析公司。我们大部分的小伙伴在商业智能和大数据分析领域有过多年从业经验,做得了技术,拼得了业务,讲得了方案。公司在管理上也非常扁平化,技术氛围很浓。另外,我本人是开源使用者,也是多个项目的贡献者,去年作为 Apache DolphinScheduler 的PPMC参加了 Apache DolphinScheduler 的首届用户大会,并作了分享。
CSDN: 一个好的智能数据分析团队的人员架构是怎样的?
吴宝琪 : 大致可以分为三层:前台,中台,后台。后台主要就负责产品研发;中台偏服务实施,例如解决方案顾问,数据架构师等;前端主要是销售人员。具体的人员架构还要根据方向来决定,例如在观远,我们研发部门的AI团队可以分两个部分:一是AI探索团队,有许多算法科学家,会基于观远自己的数据平台分析数据,并结合notebook等工具发挥算法探索和模型能力;二是AI工程团队,AI要真正用起来,算法和模型只是一部分,真正上线需要对应的工程平台来提供更完整的能力,比如结合历史与预测数据进行的偏差分析,不断更新的行业特征库,运维自动监控,以及模型动态优化等等,以形成决策闭环。
CSDN: BI在实施过程中有哪些技术难点?
吴宝琪: 首先我想梳理一下BI的整体技术点,主要包含以下几部分:
1.数据可视化:将数据通过合适的可视化图表展现出来,例如可视化企业报表。
2.数据整合:大多时候企业数据其实散落在不同的系统中,比如ERP、OA、CRM、财务等。这些系统虽然实现了业务数据化,另一方面也会造成信息孤岛,因为每一个系统都是一座孤岛。所以,BI一定需要具备将不同的数据融合到一个分析模型或平台中的能力。
3.数据分析:在完成数据接入整合之后,通过适当的统计、分析方法对收集来的大数据进行汇总、理解和消化,以求最大化地开发数据的价值。包括过滤、筛选、联动,下钻等操作。
4.企业集成:BI如果单独作为一个系统存在依然会给各部门带来使用负担,所以,还需要能集成到企业内部系统(如钉钉、企业微信)中,和公司人员架构进行打通,实现自上而下的权限管制。
5. 数据分发:没人时时刻刻盯 BI系统,在有了内容之后,我们要把有价值的数据通过邮件、企业微信、钉钉等工具分发到相关的负责人手中。
6. 智能决策:BI的未来一定是智能分析与决策,也是我们与不少客户从BI开始合作,陆续进入到AI层面应用的典型路径。
上述几点中,其中数据整合和终端展现方式在BI的落地过程中相对较难。很多企业即使做了多年的信息化建设,但是在做数据分析时,依然会发现缺乏高质量、高集中的数据资源。所以在信息化搭建之初,就需要站在高处,用更全的角度看待问题,做好数据积累。其次,不同的终端使用者对于数据应用的展现需求也不一样,CEO在办公室可能需要数据大屏,一线业务人员则需要将最简单的数据指标呈现在移动端就可。所以,要求BI产品在应用端有多种展现形式,能够把优秀经验沉淀到数据分析模型中,让每个使用者都可以快速上手。最后也是最难的一点,不是在技术层面,而是如何将BI产品与业务深度结合,做出标准化、场景化的数据分析模型。这也是观远和其他BI产品不一样的地方,我们沉淀了覆盖零售消费、互联网领域成熟的数据分析方案,可以帮助企业快速落地。
CSDN:BI(商业智能)这个带着浓烈商业性质的概念的提出其实可以追溯到1996年,发展到2020年,BI已是一个相对成熟的市场,国外有Tableau、MicroStrategy,DOMO,Thoughtspot等等。就市场上目前的BI工具,平台和厂商,您可否从工具本身出发,简单分析一下各家平台的优缺点?
吴宝琪: 不同时代,BI产品特点也不尽相同。第一代BI是传统企业级BI, 主要特点是有“三强”——强IT;强管控;强建模。功能全,但是缺点也很明显,第一、门槛特别高,使用人员如果想要上手,其培训时间有可能要2周到3个月;第二企业规划后建模周期长,实施周期长;第三、改变起来很麻烦,修改先从模型修改开始,一层层逐步改到具体报表,往往从IT接到需求,到最终完成可能要两个月时间,这个效率是无法快速响应企业发展的,并且过于依赖于专业人员。
二代BI是敏捷BI, 例如之前谈到的Tableau,它的优点是上手快但是在企业中是缺少管控,缺乏标准。所以发展到三代,我们就要求既要敏捷又要有管控。另外,为了能解决更多的客户实际场景,观远也内置了一个强大的计算引擎(Apache Spark),这样能实现很多传统BI不具备的能力,比如:我们的Smart ETL能使得业务人员也能用“拖拉拽”的方式快速处理、融合数据,做到更快的业务响应。
CSDN: 在搭建自己的平台和使用第三方工具之间,企业用户应该如何选择?
吴宝琪:企业需要多维度去考虑。首先是成本的问题:毋庸置疑,采购比自研成本低。但是为什么要自研呢,之前一般有如下几个出发点:一是认为公司的数据量太大,海量的数据,采购标准BI可能支撑不了(但是,现在的OLAP数据库发展的很快,比如ClickHouse也能低成本的处理海量数据);另一个是公司可能会有一些特殊的定制需求(一般采购的标准BI也可以提供一些插件扩展,来满足一定的定制需求)。所以,一般来说没有必要自研,除非其BI和业务强关联,需要业务全流程打通,这时自研包括BI在内的一整套完整系统也许是有意义的。其次和国外产品对比的话,本土BI从服务来说远远优于国外厂商,所有问题都第一时间解决,定制化的需求也完全可以满足。另外有时候IT部门其实也想去自己创造效益,大家通常都认为IT部门是成本部门,是无法直接盈利的,但是现在CIO们也有自己的想法了,想让IT部门盈利,做一些业务系统,做一些BI系统,再卖给其他的第三方,不过这个其实是比较难的。
CSDN: 要如何选择第三方工具呢?
吴宝琪:如果是要选第三方,肯定要选一些相对成熟相对开放的平台。怎么理解这个开放?例如它可以提供多种部署方式,一方面在阿里云或者腾讯云等主流云服务商上都没问题,当然自己的机房也要没问题;另一方面是需要对方提供一些相关的功能,例如API,方便你去组装或者是定制,然后还有一些插件体系,方便你去扩展。
CSDN:观远产品设计的底层逻辑是什么?在产品上有哪些细节是跟随着前沿科技走的?
吴宝琪:首先得益于开源技术的发展,大大提升了产品研发的效率,成熟的开源软件不光贡献者众多,也在大量用户那里验证了其稳定性,比如:观远的核心计算逻辑很多都基于Apache Spark这个非常流行的计算引擎。其次是云原生(Cloud Native)时代,通过kubernetes这个集群管理操作系统,观远既支持公有云也支持私有云的部署,增强了系统的可扩展性。另一个核心思想是:存储和计算分离,比如数据太多,硬盘存储不够了,我们可以单独扩展存储部分;计算能力不足,需要更快的计算,我们也可以单独扩展计算能力,而之前的架构都是存储和计算是一体化的,之前只能同时进行扩展。存储和计算的分离最终会大大减少系统的总拥有成本,并能提升系统的稳定性。
无处不在的数据分析思想,数据分析不光可以用于分析客户的业务数据。我们也用数据分析的思想来分析自己的系统运行状态,比如说:我们分析系统中到底是哪些SQL比较慢,哪些Spark任务比较慢,然后对于这种慢的任务,我们会进一步分析其慢的原因,比如:它到底是数据分布不均匀导致的性能问题,还是说我们生成的SQL可以换成更优化的方式等,最终我们也会把这些慢的任务,以及系统的运行情况做成展示图表,方便客户了解系统当前的运行情况以及潜在的系统问题。
CSDN:有没有哪些行业是观远数据着重去做的,下一步的计划是?
吴宝琪:观远数据过去几年主要深耕泛零售与消费领域,包含连锁卖场、超市、茶饮、便利店、百购地产、快消品等细分业态,目前,我们合作的都是这些业态里的头部和中腰部客户,例如联合利华、百威英博、全家、见福、上蔬永辉、明康汇、蜜雪冰城、奈雪的茶、赫基、Lily、欧莱雅、元气森林等。另外,2020年,我们也在加强泛互联网品牌的合作,包括小红书、蜜芽宝贝、西瓜创客等,以及扬子江药业、阿斯利康、华宝国际等行业巨头。不同的行业,观远提供的方案是不一样的,例如,互联网企业本身有比较好的IT能力,所以我们和这类客户的合作主要是偏产品层面,提供轻代码甚至零代码、可视化自助分析、实数数据分析等强大的产品能力。而对于零售消费客户,观远数据在这方面配备了强大的顾问团队,沉淀了针对各个细分业态的解决方案,可以帮助企业快速落地。就像前面所说,BI落地最大的难点是和业务相结合,因为很多业务人员无法清楚地表达自己在数据分析方面的诉求,而观远就可以帮助他们从下到上整理数据分析需求,再从上打下梳理数据分析指标。
CSDN:未来,BI有哪些可能?
吴宝琪:我认为,BI未来有以下三个发展趋势:一是更实时化,目前大部分BI依然只能提供T+1的数据处理能力,而企业想要掌握快速决策能力,就必然会助推BI产品要提供更实时的数据分析能力;二是更智能化,未来一定会和AI、物联网等技术进行更深度的融合,提供更加超前、精准的数据分析和预测能力;第三点,未来是会逐渐变为一站式数据平台,不仅仅是关心数据的采集,分析,更多的是关心如何把数据提供给业务系统使用,来改进业务系统,从而将所有数据串联起来最后又回归到数据中去。
CSDN:欢迎做客CSDN,感谢分享。我们即将迎来CSDN20 周年年庆,您有什么话想送给CSDN?
吴宝琪:我03年的时候就注册了CSDN, 之后很长时间里都一直订阅程序员杂志,所以说起来其实是CSDN的老用户了。最近你们在做的开源的活动,直播的活动我都有关注,非常棒,希望接下来可以越做越好。
更多精彩推荐
☞厉害!国内大学生计算机编程第一人,一人挑战一个队,百度最年轻 T10,现创业自动驾驶
☞厉害!国内大学生计算机编程第一人,一人挑战一个队,百度最年轻 T10,现创业自动驾驶
☞Balancer因通缩代币STA遭遇闪电贷攻击,价值50万美元资产被黑