查看原文
其他

增强分析在百度统计的实践

王晓元 百度Geek说 2022-09-06

导读 introduction
增强分析是近年来新兴起的一个方向,正成为数据和分析技术的主要趋势。本文结合作者实践经验,介绍了对于增强分析的理解和在实际工作中的展开点,包括基于自然语言的分析接口、核心功能的智能助手、业务洞察及建议,也希望在这个方向上能和大家有更多探讨。

全文4209字,预计阅读时间11分钟。

GEEK TALK

01

什么是增强分析
知名调研机构Gartner发布的2019年十大数据和分析技术趋势,着重提到了增强分析(「Augmented Analysis」)。其实早在2017年,Gartner就发表了题为「Augmented Analytics Is the Future of Data and Analytics」的报告。
按照Gartner的定义「Augmented analytics is the use of enabling technologies such as machine learning and AI to assist with data preparation, insight generation and insight explanation to augment how people explore and analyze data in analytics and BI platforms」,这是一种通过机器学习等技术帮助普通用户更好的使用和探索数据、更深入的理解数据、进而提升业务价值的新型分析形式。这里的"增强"主要体现在两方面:

1.技术层面,除了常规的分析范畴外,引入机器学习和AI能力,渗透到数据准备、数据交互、洞察获取、决策支持等一系列动作中,使得整个分析过程更加精细化、自动化。

2.业务层面,强调“分析平民化”,降低数据分析门槛,使得从数据中获得分析结果和洞察见解不再是专业人士的权利,普通业务人员也可以方便的参与进来。

△图1


从目前主流的BI软件(比如IBM Cognos Analytics、Microsoft Power BI、Oracle Analytics、Salesforce Einstein Discovery、Tableau、ThoughtSpot等)发展阶段也可以看出(图2),增强分析是商业智能分析的进阶版本。相比于传统的BI,增强分析更强调易用性、可解释性、以及机器学习和AI技术的使用。

△图2


那么,增强分析具体是做什么事情,对业务能有哪些帮助?Gartner提出了数据准备、挖掘数据模式并建模、分享数据发现三个阶段的应用场景。在这里我们以百度统计分析云为背景,介绍一下增强分析在具体业务中的一些展开点,也希望能和大家一起思考如何把增强分析贯穿到实际业务中。

GEEK TALK

02

基于自然语言的分析接口
最常见的分析接口有两种形式:图表交互和SQL,前者面向普通分析型用户,后者适合有SQL经验的分析师。随着智能设备的普及和对业务随时随地的查询需求,基于自然语言的分析接口成为了一种需要的形式,比如用户可以用手机通过语音或文本输入来描述想要提出的问题,对于非专业分析用户(比如销售和运营)更是如此。
根据提问和回答,分析接口分为两部分:自然语言提问(NLQ)和自然语言回答(NLG),这里我们的讨论侧重于提问这块。由于分析系统的底层往往是SQL查询接口,所以问题定义就变成如何从自然语言到SQL。业界在这方面已经有些工作,比较典型的有谷歌Analyza系统(图3),Salesforce的Seq2SQL model(图4)。Analyza系统由Metadata store、Parser、Conversation Handler、Answering Engine几部分组成,整体上是一个规则系统,没有引入机器学习的原因在于当时缺乏足够的训练集,以及对准确性要求非常高。

△图3


Salesforce提出了一个端到端的Seq2SQL model,其中把目标序列分解为Aggregation 、SELECT、WHERE三部分,模型结构如图4。同时,Salesforce还发布了WikiSQL数据集作为英文NLP2SQL的benchmark。

△图4


从整体上来讲基于自然语言分析接口的技术实现可以拆解为三部分:自然语言理解、业务知识库、查询翻译。在自然语言理解方面,百度提供了UNIT平台,融合了NLP相关技术,能够帮助快速接入问答系统。
业务知识库主要包括三部分:

1.预定义的事件及属性「predefined event/property」,以及自定义的事件及属性「customized event/property」,在百度统计业务里,预定义的内容包括固定的流量和访客相关维度,自定义内容是客户根据自身需要定义的事件,比如"登录"、"注册"。

2.扩展知识,主要是根据上下位关系对事件属性实体进行扩展。

3.同义词,包括通用同义词和业务同义词,其中通用同义词可以复用现有的训练结果,业务同义词需要结合业务场景进行构建,比如在业务文本语料上通过word2vec重新训练。

基本的实现框架如图5所示,UNIT模型负责NLQ解析,语义Parser把词槽结果翻译成中间结果,To-SQL模块把中间结果转换成可执行SQL交给底层查询系统执行,知识库跟UNIT模型、语义Parser、To-SQL都有交互。其中,中间结果层定义了一套规范,使得语义结果保持了对底层SQL的独立

例如,用户在2020.8.10提问"过去7天哪个来源的用户数最多?",翻译出的中间结果如下:
{ "order_by": [{ "type": "metric", "value": "uv", "desc": 1 }], "st": "20200804", "limit": 10, "et": "20200810", "where": [], "select": [{ "type": "dim", "event": "", "value": "from_type" }, { "type": "metric", "event": "", "value": "uv" }]}

△图5


由于底层查询及结果返回都复用了现有分析系统,结果展示还是可以采用用户熟悉的图表形式。当然如果从简单概要角度来讲,也可以结合NLG建立起自然语言概述性结果。

GEEK TALK

03

核心功能的智能助手
在数据分析系统中,核心功能往往具有一定的使用门槛,如何帮助用户更方便的使用核心功能,是增强分析要解决的问题,在产品层面通常以智能助手的形式落地。由于系统功能各有不同,这一块在实现上也是各有差异。我们通过把核心功能的输出抽象为目标事件,概括了整个处理逻辑,如图6所示,将业务内容(包括业务目标、文本内容、业务标签等)和对应的用户行为融合起来,抽取特征,结合已有标注集建立起模型,产出候选事件后进行排序输出到业务端。

△图6


这里以百度统计分析云的埋点助手功能为例,分析云提供了JS API和可视化圈选两种设置自定义事件的方式,特别是可视化圈选可以直接从页面中所见即所得的选出目标事件。那么在业务上要圈出哪些值得关注的目标事件呢?为了更好的帮助客户来理解这一点,分析云提供了AI推荐事件的能力。通过对用户点击行为建模,找出跟业务相关的自定义事件给客户参考,如图7所示。

△图7

GEEK TALK

04

业务洞察及建议
如何给出业务洞察及建议,也是增强分析重点关注的点。这里业务洞察要解决的问题主要有两种类型:1)用户对问题有明确需求,至少是有一定感知的,比如流量发生下降想要知道背后的原因,或者影响营收的关键因素是什么、其中哪些是趋势变好的因素。2)用户并不明确要解决的问题,需要通过数据驱动方式发现一些有用的结论,比如用户想要对网站结构进行优化,但并不清楚具体问题在哪里、潜在优化点在哪。
图8是ThoughtSpot SpotIQ的一个产品示例,用户输入关心的内容,系统从多个维度展开分析给出相关联的insight。

△图8


为了从数据驱动角度出发给出业务洞察,这里我们列举几种典型的从分析型业务点到对应技术点的展开形式(如图9),其中业务点抽象为业务指标、业务项、业务行为等几类。

△图9


通过这些常用的数据挖掘手段,可以对业务指标及行为给出数据层面的结果,但这里的难点在于如何将这样的数据结果转换为业务结论,特别是有可解释性、对业务有指导意义的结论。我们知道,单纯的依赖"数据共现"得到的结果,可能只是一种巧合或表象,如果不能落到业务逻辑上,那么这种数据现象并不具有实际意义。
一个有用的技术是构建业务知识结构,将业务实体间的关系约束在业务逻辑范围内。如图10所示,在百度统计的渠道来源范围内,我们可以构建这样的关系结构,只有相互间有业务含义的节点才会被连接起来,比如"直接访问"不会跟"搜索词"有直接联系。这样一方面可以"疏远"没有关系或关系较远的节点,另一方面也可以在现有数据结果基础上沿着关系边进行推理或扩展。从更深层的角度来看,这是在增强分析背景下,把统计学习和符号主义结合起来使用。

△图10


GEEK TALK

05

总结
基于自然语言的分析接口、核心功能的智能助手、业务洞察及建议,是我们认为增强分析在实际业务中的三个主要方面。目前增强分析还处于起步阶段,可以预见,随着企业积累越来越多的数据资产,其作用也会越来越突出。作为一个新兴方向,无论是技术实现还是业务场景,都还有很多值得探讨的地方。

 END


参考文献:
[1]www.gartner.com/en/information-technology/glossary/augmented-analytics
[2]Augmented Analytics Is the Future of Data and Analytics
[3]Analyza: Exploring Data with Conversation
[4]Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning
[5]ThoughtSpot SpotIQ AI-Driven Analytics Whitepaper

推荐阅读:

基于 TLS 1.3的百度安全通信协议 bdtls 介绍

百度用户产品流批一体的实时数仓实践

如何治理资源浪费?百度云原生成本优化最佳实践

面向大数据存算分离场景的数据湖加速方案

百度APP Android包体积优化实践(三)资源优化

ffplay视频播放原理分析

AI+BI+可视化,Sugar BI架构深度剖析



一键三连,好运连连,bug不见👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存