查看原文
数据科学新闻

嘿,贾维斯,分析一下日报数据看看谁在“摸鱼”

一蓑烟雨 数据猿 2023-08-29

大数据产业创新服务媒体

——聚焦数据 · 改变商业


随着数字化的快速发展,企业对数据的需求日益增加。数据分析,特别是BI已经成为企业战略决策的关键支撑。从最初的硬盘上的简单数据提取、过滤和报告,到如今的复杂数据挖掘和预测分析,BI的发展经历了多个演化阶段。

但直至近年,许多企业仍在使用传统的BI工具,这些工具主要基于静态报表、图表展示,其核心思路是“我知道我想要什么,我知道数据在哪里找”。但现实中,随着数据的激增,很多时候我们并不完全知道自己要什么,这使得很多潜在的数据洞察被忽视。传统BI工具的另一个限制是它们往往需要专业技能,如SQL知识,使得非技术用户在直接与数据互动时感到困惑和受限。

而现今,当我们进入大数据和人工智能的时代,BI面临着一次前所未有的变革。进入2023年,BI领域最令人瞩目的变革就是大模型+BI,打造ChatBI类新型数据分析产品,这些产品采用了与人自然交互的方式,使数据查询和洞察变得前所未有的简单。用户无需学习复杂的查询语言,只需提问即可。

还记得电影《钢铁侠》中的一些场景么?在这系列电影中,钢铁侠有一个叫“贾维斯”的助手,每当钢铁侠需要分析一些数据的时候,只要把他的需求告诉贾维斯,一两秒钟内数据分析的结果就会出现在他面前的屏幕上。现在,这一看似科幻的场景,也许可以通过ChatBI来实现了。

为了弄清楚ChatBI类产品的特征,以及其对数据分析的变革价值。数据猿采访了网易数帆大数据产品负责人杨兵、亿信华辰董事副总经理毛大群、惟客数据AI算法专家李翔等,共同探讨ChatBI如何为商业智能注入新活力,带来真正的变革。

七个步骤,打造属于你的ChatBI

网易数帆大数据产品负责人杨兵认为,从企业数智化转型趋势来说,应该是科技赋能每一个员工创造更大价值,BI是数字化运营、科学化管理的基础工具,引入大模型实现ChatBI,可以变革数据消费效率,有效降低企业用数门槛,让每个员工都能受益。从BI产品本身演进来说,智能化是其永恒的诉求,此前已出现自动化、低代码/零代码的探索,现在大模型的发展为BI深度整合AI能力奠定了技术基础。同时,ChatBI也符合计算机软件交互模式从命令行到图形界面再到聊天界面的变革趋势,必然是BI的发展方向。

那么,如果我们要打造一个ChatBI类产品,具体应该怎么做呢?在数据猿看来,要打造一个优秀的ChatBI产品,核心步骤包括:

1、模型微调,基于通用大模型进行微调,使其更好地适应特定的 BI 场景和行业术语

我们需要明确一点,没有所谓的“万能模型”。尽管有些大模型在许多通用任务上都表现得相当出色,但特定的行业和场景往往有自己独特的需求和术语。例如,医疗、金融和零售行业在数据分析时所关注的关键指标、行业术语以及数据结构都有很大的不同。

为了让大模型更好地服务于BI应用,模型微调成为一个不可或缺的环节。这通常需要在特定领域的数据集上对预先训练的大模型进行进一步的训练,以使其更好地适应特定的BI场景和行业术语。这样做不仅可以提高模型的准确性,还可以确保模型的输出与业务实际需求高度匹配。

2、数据流设计,构建将原始数据流动到大模型并返回到BI系统的流程

有效的数据流设计是确保ChatBI高效运行的关键。原始数据首先需要被收集、清洗和转换,然后流向大模型进行分析。分析完毕后,输出结果还需要返回到BI系统,供用户进行进一步的探索和交互。

为了实现这一流程,我们需要构建一个健壮的数据管道,确保数据能够无缝、实时地在各个系统之间流动。此外,数据质量监控也十分重要,因为即使是最先进的模型,如果输入的数据质量不高,输出的结果也可能不准确或失去意义。

3、识别人类意图,并映射到数据库查询、BI数据操作

现代的BI工具不仅需要解析数字,更需要理解人。当用户提出一个查询或请求时,系统需要准确地捕获其意图,并将这一意图转化为数据库查询或其他BI数据操作。

这里的挑战在于,人们的表达方式千差万别,而且同样的意图可以有多种不同的表达方式。通过自然语言理解技术,ChatBI可以识别并解析这些语言差异,然后将其转化为标准化的数据查询,从而确保用户得到他们真正需要的答案。

4、整合可视分析工具,并设计新的人机交互界面

数据分析的最终目标不仅仅是产生答案,更重要的是提供可视化的洞察,帮助用户理解数据背后的故事。为此,ChatBI需要与现有的可视分析工具进行整合。

但这还不够,传统的BI界面往往是基于图形的拖放操作,而ChatBI提供了一个基于对话的交互模式,用户可以像与真人聊天一样与系统交互。因此,我们还需要设计一个全新的人机交互界面,确保它既直观又高效。

5、通过缓存、分布式等技术融合,优化整体性能,缩短响应时间

在数据分析的实际应用中,响应时间对于用户体验至关重要。一个分析结果如果需要花费长时间等待,那么很可能会降低用户的工作效率,甚至导致用户放弃查询。为了解决这个问题,缓存和分布式技术的应用变得尤为关键。

缓存技术可以存储常用查询的结果,使得用户在再次进行同样的查询时能够几乎实时地获得结果,大大减少了等待时间。同时,当涉及到大量数据处理和复杂分析时,单一服务器可能很难快速响应。而分布式计算技术则允许将计算任务分散到多个服务器或计算单元上,并行处理,极大地提高了数据处理和分析的速度。

6、实现大模型、BI与其他业务系统的对接

现代企业的IT环境通常包括各种业务系统,如ERP、CRM、供应链管理等。ChatBI不仅需要与BI系统无缝集成,还需要能够与其他业务系统交互,实现数据的自由流动。

为了实现这一目标,API(应用程序接口)的开发和管理至关重要。通过API,ChatBI可以直接从其他业务系统中提取数据,或者将分析结果推送到其他系统中,实现自动化的业务流程触发。例如,基于销售数据的分析结果,ChatBI可以自动触发库存管理系统进行补货操作,或者推动CRM系统对某一客户群体进行特定的营销活动。

7、设置持续学习机制,以用户反馈推动大模型的持续进化

仅仅依赖于初始的模型训练是不够的,特别是在不断变化的商业环境中。用户的需求、业务环境和数据特征都可能随时间发生变化,这就要求模型能够进行持续学习,不断适应这些变化。

为此,ChatBI需要建立一个机制,允许模型根据用户的反馈和新的数据进行自我调整。例如,如果模型在某个查询上的响应被多次标记为“不准确”或“不相关”,那么这一反馈应该被用来调整模型的参数,提高未来查询的准确性。同样,随着新数据的不断累积,模型应该定期进行重新训练,确保其始终保持在最佳状态。

此外,用户的使用习惯、查询频率和偏好也是宝贵的信息源。通过分析这些信息,ChatBI不仅可以更好地理解每个用户的特定需求,还可以预测他们可能的查询,进一步提高响应速度和准确性。

接下来,我们举一个案例,来说明这个产品研发过程。

DataTalker:ChatGPT驱动的数据分析工具

在数字化时代,某BI公司为众多企业提供了数据分析服务。但很快他们认识到,尽管数据丰富,但在传统的BI界面中,很多业务人员找到所需的答案仍然很困难。

于是,该公司决定跳出传统的框架,采用一种革命性的方式,来研发一个名叫“DataTalker”的BI产品。

启动这一项目的初心很简单:如果人们可以像对Siri提问关于天气或新闻的问题,那为什么不能用同样的方式询问业务数据或市场趋势呢?为了实现这一愿景,该BI公司选择了OpenAI的ChatGPT作为基础。

但将一个通用的聊天机器人转化为一个精准、可靠的BI工具并非易事。团队首先对ChatGPT进行微调,使其更熟悉公司的业务术语和数据结构。通过API,他们让“DataTalker”可以直接与公司的ERP、CRM等系统进行对话。

设计师们去掉了传统的复杂界面,转而使用简洁的聊天界面。这样,不论是销售经理还是市场专家,都可以像与同事交谈一样,向“DataTalker”询问业务数据。

在进行了数月的内部测试后,“DataTalker”收到了大量的积极反馈。但这个过程也揭示出了一些问题,比如对某些行业特定术语的识别不准确。团队不断地根据这些建议进行改进,确保“DataTalker”不仅是一个有趣的工具,而是一个强大、可靠的数据分析助手。

事实上,目前国内已经有大量的企业在行动,将大模型与BI进行融合,相继推出一些创新产品,让人眼前一亮。而且,各个企业都在致力于打造自身的差异化竞争优势。接下来,我们将分别介绍网易数帆、亿信华辰在这方面的探索。

网易数帆

网易数帆有数BI平台已经推出了ChatBI的能力,有数BI已经融合AIGC技术,基于自研大模型提供ChatBI能力,采用“需求可理解,过程可验证,用户可干预,产品可运营”的设计理念,让非专业人员也能够通过自然语言对话获得可信的数据分析结果。

技术上,网易数帆ChatBI主要包括三项创新:

其一是自研NL2SQL垂类大模型,网易数帆基于网易大模型基座,定制生成和优化30w+不同类型的问法和SQL,调优出可私有化部署的NL2SQL领域模型,效果达到GPT-3.5的水平,但速度更快,训练成本更低。

其二是表格粒度的知识增强,基于用户问题实时检索表信息,通过检索增强的方式,注入大模型与检索问题更相关的表格知识,显著提升其生成准确率。

其三是企业定制的自学习能力,通过自定义prompt方式,向模型注入企业专有知识,无需重新训练即可提升个性化场景下的表现;此外,用户使用中,可纠正模型结果并维护到知识库,模型自适应学习,越用越准确。

亿信华辰

亿信ABI作为全新一代智能数据处理分析平台,分阶段地实施AI布局,通过程序自动化、ML 机器学习和深度学习等大数据能力,规划了智问、智读、智算三步递进策略。

亿信华辰的差异化设计重点体现在降低用户使用门槛上:智问基于自然语言进行问答,对于用户而言几乎没有学习成本;智读和智算则是让80%以上的数据处理与分析工作由机器来自动完成。将AI嵌入BI分析全流程环节,打造出一个会思考、能说话、有决策的BI系统,助力企业提升竞争力。

ChatBI的五个显著优势

数据已经成为了企业的核心资产,但如何有效地利用这些数据仍是一个挑战。传统的BI工具,虽然功能强大,但其复杂的界面和操作常常使业务人员望而生畏。ChatBI,作为新一代的BI工具,带来了许多令人眼前一亮的优势。

1、最自然的人机交互,变革以往拖拉拽的数据分析方式

回想一下,当我们需要解决一个问题时,通常会去咨询专家或同事。我们自然地用语言表达自己的需求,听取对方的回答,这样的交互是最直观的。ChatBI抓住了这一点,让数据分析变得就像与一个数据专家对话一样。

惟客数据AI 算法专家李翔认为,大模型和之前不同的地方在于,它能更好地去理解人类的意图,基于这个点,可以改变人和介质沟通的方式,无论是软件还是硬件,都是如此,在数据分析领域也是一样。以前的方式,业务人员需要把自己想看到的数据通过自然语言的方式描述出来,再交由专业的技术人员和软件产品去处理中间复杂的过程,专业的技术人员再把业务描述转化成机器的语言,交给机器去执行,最后通过报表的方式让人更好地去理解。

大模型可以把这个中间的交互过程做的更好、理解的更好、交互的更好、执行的更好,而且最终不仅是一个单独的图表,还可以搭配让人容易理解的文字描述,去让业务人员更好的理解数据、运用数据。

2、更深入的数据挖掘,发现更深层次的数据关联

大数据时代带来了海量的数据,但这些数据中蕴藏的深层关联和洞察往往被忽视。传统的BI工具主要关注明显的数据模式和趋势,而忽视了可能隐藏在庞大数据背后的精妙联系。

ChatBI的优势在于它结合了大模型的强大计算能力和高级数据挖掘技术,能够自动挖掘和发现数据之间的深层关系。例如,通过ChatBI,一个零售商可以轻松发现某一产品的销量增加与某一市场活动或与季节性因素之间的相关性。

3、说人话,让数据分析结果更清晰易懂

数据只有在得到恰当的解释后才能真正发挥其价值,传统BI工具生成的报告往往充斥着图表、数字和术语,对于非专业人员来说难以理解。

而ChatBI在此方面迈出了关键的一步。当它提供数据分析结果时,不仅仅是简单地呈现图表和数字,还会以通俗易懂的语言为用户解释这些结果。例如,当用户询问公司的盈利情况时,ChatBI不仅会显示具体的数字,还会解释:“与去年同期相比,盈利增加了15%,主要是由于新产品线的成功推出和市场推广活动的有效性。”

这种“说人话”的报告方式让每位成员,无论他们的背景如何,都能够理解和利用数据,从而使数据真正为企业创造价值。

4、数据应用,AIGC可以作为BI数据分析结果与其他应用系统的桥梁,将数据分析结果自动触发相应的业务流程

在当前的数字化时代,数据不仅仅是用于制定策略和做决策,更多的是要将这些数据实时转化为业务行动,实现自动化流程和智能决策。而基于大模型的AIGC(AI Guided Communication)技术,恰恰为此提供了可能。

AIGC可以视为一个先进的中间件,它能够理解和解释BI工具生成的数据分析结果,并将这些结果转化为其他应用系统可以识别和执行的操作或命令。例如,当BI系统分析后发现某一商品的库存不足时,AIGC可以自动触发库存管理系统进行采购申请,或通知销售团队调整销售策略。

此外,结合实时数据流和业务逻辑,AIGC能够做到即时响应市场变化。例如,在电商平台上,当某商品的销量突然暴增,AIGC可以自动触发营销活动,如发放优惠券或组织推广活动,进一步放大销售效应。

这种自动化和智能化的工作流程大大提高了企业的效率和响应速度,使得数据分析结果不再是封存在报告中的静态信息,而是转化为具有生命力的业务行动。

正如亿信华辰董事副总经理毛大群所说,“BI的核心业务是运用技术梳理生产关系、辅助决策,与大模型和AIGC这样的先进生产力结合,一方面能够以比传统方法快得多的速度处理和分析大量数据,实现自动数据洞察;另一方面也能够自动化重复的任务和流程,为更具战略性的举措腾出宝贵的时间和资源。基于AI的BI平台,会逐渐演进成长为懂业务的不同领域的AI助理,贯穿数据处理、分析、决策等各个环节。 ”

5、自我进化能力,模型本身会自我进化迭代,越来越准确,也越来越了解某个用户习惯

对于传统的BI工具,它们的功能和算法通常是固定的,需要人为地进行更新和优化。但在ChatBI中,模型具有自我进化的能力,使得它能够不断地学习和改进,适应不断变化的业务环境和用户需求。

这种进化主要基于两点:首先,是大量的用户交互数据。每一次用户查询,每一次数据分析结果,甚至每一次用户的点击和反馈,都是模型学习的数据源。这使得模型能够不断地调整自己,更好地理解用户的意图,提供更准确的分析结果。

其次,模型还会对自身的结果进行验证和自我测试。例如,当模型预测下个月的销售额时,它会在下个月结束后,自动对比预测结果和实际数据,从中找出偏差和误差,进行自我修正。

更为重要的是,随着时间的推移,模型会越来越了解特定用户或组织的习惯和偏好。它会记住用户过去的查询历史,理解用户的业务背景,从而为用户提供更为个性化和精准的数据分析服务。

这有点像钢铁侠的贾维斯,在为钢铁侠提供数据分析服务的时候,都会载入钢铁侠的行为习惯,来让他们的交互更加契合。

案例:ChatBI在零售业的应用

某大型零售连锁企业在寻求提高销售效率和客户满意度时,面临了庞大而复杂的数据挖掘和分析挑战。他们需要实时监测上千个商品的库存,分析各地区的销售趋势,并据此调整供应链管理和营销策略。

在采用ChatBI解决方案后,该企业的数据分析变得前所未有的便捷和智能。通过自然语言查询,市场部门能够轻松获取任何地区、任何时间段的销售数据和趋势分析。与此同时,ChatBI的可视化界面允许管理层通过直观的图表和仪表板,一览全局的运营状况。

更为重要的是,ChatBI的自我进化能力允许它不断学习企业的业务规则和市场环境。当季节性商品如夏装进入淡季时,系统自动调整库存预测模型,减少滞销风险。在销售旺季如节假日期间,它又能准确预测热销商品的需求,确保供应充足。

此外,ChatBI还与企业的CRM系统和营销自动化工具无缝集成。通过AIGC,当系统发现某一客户群体的购买倾向时,可以自动触发个性化的营销活动,如发送特惠优惠券或推荐相应产品。

总的来说,ChatBI通过其先进的人工智能技术,实现了数据分析的自然化、深入化和实时化,成功地解决了该零售企业的实际业务问题,提升了其运营效率和市场竞争力。

需要解决的五个关键问题

虽然ChatBI类产品在商业领域具有广泛的应用前景,但是,任何技术的应用都伴随着一些挑战和问题。对于ChatBI,我们需要着力解决以下几个关键问题:

1、提升计算的精确性,避免胡说八道

在实际应用中,我们也许会听到这样的反馈:“大模型为什么会给出这样的答案,完全不是我想要的?”其核心问题在于计算的精确性不足。虽然模型接受了大量的训练数据,但在特定的场景或问题中,它可能无法提供完全准确的答案。这不仅可能导致决策失误,还可能引发对整个系统的不信任。

网易数帆大数据产品负责人杨兵认为,大模型inside的ChatBI要做到规模化商用,必须保证高准确率和低成本使用,这需要从模型、知识库和流程设计三个层面来解决:模型方面,通用大模型由于缺乏业务知识,在数据分析领域难以达到生产级的应用效果,ChatBI应采用垂类大模型,通过丰富的针对性优化策略,兼顾性能与成本,不管大模型基座如何变化都能实现提升的效果。其次是优化业务知识库,借助prompt不需要重新训练就能提高正确率。流程上,需要用户必须能够识别AI返回结果是否正确,并留出修正结果的入口。

惟客数据AI算法专家李翔认为,要解决ChatBI可能存在的“胡说八道”问题,关键环节有两个:

首先,要让大模型可以更好的理解业务人员的需求,从而转化成数据库能执行的命令。由于人通常在描述自己的想法时会丢失一些关键信息,所以需要通过多轮交互的方式让大模型完全理解人的真实需求。其次,需要把返回的结果用一种更好的方式让人去理解,用图表加简单描述的方式去呈现会更好,这里涉及到大模型和BI界面的交互和展现的细节。

至于大模型的hallucination(幻觉)的问题,李翔认为现阶段有一些方法可以很大程度缓解,比如:基于某个特定领域的数据去对模型做微调,比如上述的第一个环节,已经有工作做了对应的微调,让大模型只去做自然语言到数据库语言的事情;基于LangChain的方式,去限定模型回答的上下文内容;Prompt(提示词)强规则以及模型参数设定的方式,在某种程度上去限制模型的发散性。

2、拆开黑箱,可解释性得到提升,如果结果有问题得知道问题出在哪

"黑箱"是大型深度学习模型的一个常见问题。用户输入查询,模型给出答案,但究竟模型是如何得出这一答案的呢?尤其在商业决策中,理解结果的来源和逻辑非常关键。可解释性的增强不仅可以帮助用户更好地理解和信任模型,还有助于当结果出现问题时,快速定位和纠正问题。

3、解决性能瓶颈,提升分析尤其是大规模数据分析的效率,避免长时间等待

当我们谈论大规模数据分析时,性能和响应时间是关键。在实际业务中,等待长时间的分析结果会影响决策效率。采用更先进的硬件,优化模型结构,或者引入并行计算和分布式系统,都可以帮助缓解性能瓶颈,提供即时的分析反馈。

4、保护数据安全,避免数据泄露,确保业务安全合规

在ChatBI系统中,用户可能会查询包含敏感信息的数据。如果没有适当的安全措施,这些信息可能会被非法访问或滥用。因此,确保数据的隐私和安全性是至关重要的。这需要采用加密技术、访问控制和监控系统来防止数据泄露。

5、解除算力瓶颈,降低算力成本

尽管硬件的性能在不断提升,但大模型的计算需求也在快速增长。随之而来的是昂贵的硬件和运营成本。为了使ChatBI更加可行和经济,我们需要找到方法来优化模型,减少不必要的计算,或者探索更为经济高效的硬件解决方案。

展望未来,随着ChatBI的兴起,我们预见到BI和数据分析领域即将经历一场深刻的革命。这不仅是一种技术上的进步,更是一次认知的转变,将重新定义我们如何与数据对话、发现和创新应用的方式。

ChatBI将让数据变得“有生命”,BI不再是静态的数字和图表,而是一个可以互动、响应和参与对话的实体。用户可以直接询问数据,得到直观、深入的答案,而不再是简单的数值反馈。这种人性化的交互方式将大大降低数据的门槛,使得不同背景、不同专业的人都能轻松参与到数据分析中来。

ChatBI的动态学习能力将加速数据分析的深度和广度,随着与用户的每一次交互,它都会变得更加智能,更好地理解复杂的查询和需求,甚至预测未来的数据走向。这样的前瞻性分析将引领企业和机构走在创新的前沿,捕捉到之前难以察觉的机会。

此外,ChatBI可能会催生出全新的数据职业和角色。例如,数据导向的“故事讲述者”可能会应运而生,他们利用ChatBI深度探讨数据背后的故事,为企业带来更丰富的洞察力。

总之,ChatBI正站在创新的巅峰,它有潜力重塑BI和数据分析的全貌。我们期待着在这样的技术指引下,数据分析将开启一个全新、充满无限可能的时代。我们也期待国内的BI企业能够抓住这样的技术变革机遇,尽快推出优秀的产品。可以预见,BI行业将在未来一两年内迎来一次“洗牌”,而其中的关键变量就是ChatBI。

谁能更快推出ChatBI类产品,谁家的产品在人机交互、自然语言理解、数据分析、产品界面、平台性能、应用打通等方面做的更好,谁就可能成为这一竞争阶段的赢家。

文:一蓑烟雨 / 数据猿

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存