导读 AI 在数据行业中的应用已成为大势所趋。随着数据量的不断增长和数据复杂性的不断提高,传统的数据处理方式已经无法满足需求。AI 技术可以帮助数据行业更高效地处理和分析数据,从而提高数据价值和决策效果。在未来,随着 AI 技术的不断发展和普及,AI 在数据行业中的应用将会更加广泛和深入。我们可以预见,AI 技术将成为数据行业中不可或缺的一部分,为数据行业的发展和创新带来更大的机遇和挑战。
本篇文章主要包括以下两部分内容:1. AI 的古往今来
2. AI + 数据行业的思考和挑战
分享嘉宾|李鑫 腾讯 资产服务中心AI产品负责人
编辑整理|孙蒙新
内容校对|李瑶
出品社区|DataFun
人工智能的发展可追溯到 20 世纪 50 年代,当时英国计算机科学家艾伦·图灵提出了一种思想实验,用于测试机器能否表现出人的智力。简单来讲,就是让机器和真人同时与真人对话,如果真人无法分辨出哪个是机器,那么就认为机器表现出了人的智力。在接下来的几十年里,人们尝试了各种方法来挑战这个测试。在早期,一种比较取巧的方法是使用模式匹配(pattern
matching)。这种方法通过识别关键词来模仿人的回答,但如果要达到比较好的效果,必须依靠人工枚举所有可能的情况。在 2000 年左右,机器学习的概念被提出,它让机器自己去学习如何处理不同的情况。但是,这个概念在当时没有得到长足发展,主要因为受到了两个条件的限制,首先,它需要依赖非常大的数据量;其次,它非常依赖算力。直到 2010 年,互联网时代的到来带来了数据量和算力的指数级增长,人们才开始尝试更多类人脑模式的模型训练,如神经网络和谷歌的 Transformer。正是在这个节点,OpenAI 提出了自己的 Generative Pre-trained Transformer,即 GPT。GPT 的强大之处在于让人感觉好像它是一个真人在思考回答,仿佛图灵测试在这一刻真的被人类所攻克。因此,许多大厂也紧跟 GPT 的脚步,发布了自己的大语言模型。同时很多个人开发者也借助 OpenAI 接口实现了很多小应用,使 GPT 生成式 AI 的能力迅速赋能到各个细分行业,包括数据行业。
AI + 数据行业的思考和挑战
自然语言处理技术在数据分析领域的应用日益普及,其中一个重要的应用是让用户通过自然语言与数据表进行交互。然而,在实际落地过程中,还存在许多问题。对于数据分析场景,自然语言并不足够高效。70% 的数据需求可以通过现成的看板解决,只需要几个点击即可满足需求,如果让业务人员手动输入自然语言去获取数据则更为麻烦,效率较低。那么对于剩下的 30% 的数据,是否通过手动输入自然语言去获取数据就会高效呢?这就引出了第二个问题,即数据不一致。我们知道在日常取数的过程中,最耗时其实就是数据口径确认的过程,利用生成式模型来取数的方式同样存在这个问题,因为业务侧的同事多数情况下是看不懂SQL的,所以如果让生成式模型帮他们取数的话,他们实际上并不知道取出来的数是不是他们想要的,也没有人能给他们做保障,其次,还有一个当下较难攻克的问题,就是模型输出非常不稳定,常常存在幻觉,如果让它给你写SQL,哪怕限制好了字段信息,它也仍然有可能给你捏造一些虚假字段,也因此业务侧的同事并不太敢用模型给他们取出来的数据。
除此之外,一些厂商在尝试让 GPT 发现数据问题并给出建议,但让模型给出有价值的报告和建议可能更加困难。因为在整个过程中需要突破数据敏感性、知识库更新对模型的影响等问题,并且实际业务逻辑非常复杂,需要花费大量时间调试模型,维护成本非常高。
总结下来,要让 GPT 真正提升数据分析效率,需要明确以下几个问题:
- 需要明确自然语言取数的需求场景和使用对象,以确定需求的真伪程度。
- 需要确保所问数据的准确性,以提高用户对该功能的信任感和安全感。
- 需要思考自然语言技术对谁的效率有所提升,以及对企业带来的价值。
根据我们之前的调研,业务侧对于自然语言问数还是充满憧憬的,尤其是面对繁琐、低效且耗时的取数沟通流程,找不到数、找不到正确数据的问题困扰他们许久。如果能让他们实现取数不求人,那么将是非常大的效率提升。另外,关于安全感问题。如果让模型直接与数据表交互,用户可能会觉得非常不可靠。考虑到这一点,我们不妨引入指标中台作为模型和用户之间的数据担保。
指标中台的职责之一就是解决数据口径不一致的问题。在中台上,业务会维护好他们所需的指标和维度的定义,而且所有的维度和指标都有相应的负责人可以追溯,因此所有的口径也都能够得到保障。在此基础上,用户获得安全感后,才敢尝试用自然语言来自述取数。针对那 30%的临时取数需求,我们可以让 GPT 结合用户 query 和中台维护的那些指标语义,并调用中台的自动化建模能力,来帮助用户快速查询所需的数据。这样一来,不会写 SQL 的产运同学、业务侧同学,也可以放心地、自助地去取数,从而释放数据分析同学用于临时取数的双手。此外,在调研之后我们发现,对于成熟的业务来讲,70% 的看数需求可以通过看板来解决。然而有时找到可以看的那些看板,本身就是一个很大的难点,因为看板实在是太多了,通过关键词来搜索,都经常无法找到想要的看板,所以这本质上是一种搜索场景,也是 GPT 最擅长的领域之一。如果引入 GPT,可以在数据搜索上增加语义层的理解能力,相当于给数据搜索增加了一个信息中介,它可以帮助我们把抽象的看数需求和相关的看板关联起来,这对于成熟业务的看数同学来说,也是一个效率的提升。至此,我们探讨了 GPT 在赋能数据应用侧的诸多思考。除了末端应用场景以外,GPT 还可以赋能数据加工、元数据生产、代码优化与解释、数据表检索等领域。未来,在 Copilot 理念贯彻之后,那些原本需要大量人力的重复性繁琐工作,将逐步被机器接手,人们也能将时间投入到更有价值的工作中去。我们也期待着 GPT 带来更多的惊喜。在新的自动化技术出现时,人们总是有各种焦虑,有的担心自己会不会被取代、有的则担心自己会错过这一波浪潮,焦虑仿佛是人的天性,历史也总是在不断地重演,就像第一次工业革命中珍妮纺织机的出现让工人们愤怒地付诸暴力。但人类发展的进程只会不断向前,效率也很现实的是文明进步的法则,祝愿我们能够积极拥抱变化,迎接下一个新的平衡。
分享嘉宾
INTRODUCTION
李鑫
腾讯
资产服务中心AI产品负责人
资产服务中心AI产品负责人,主要负责大数据指标治理工具的搭建与 Ai 数据产品的建设。