大模型背景下,从数据资产化到数据智能应用要分几步?
在日前的 InfoQ《超级连麦. 数智大脑》xFCon 直播中,我们邀请到了广发银行信用卡中心商业智能负责人徐小磊,以及某大型证券公司数据平台负责人王环深入探讨了以银行和证券为代表的金融机构在数据资产应用过程中,如何解决数据标准、数据质量、数据合规、数据供需平衡等难点,进而为数据智能应用奠定基础。
在 8 月 16-17 日将于上海举办的 FCon 全球金融科技大会上,2 位老师将在「数据资产化运营与数据智能应用」专题论坛 中与大家进行深入的交流和分享。此外,大会还将聚焦 AIGC+ 风控、AIGC+ 营销运营、AIGC+ 研发等场景邀请来自银行、证券、保险的专家分享最佳实践。更多演讲议题已上线,点击链接可查看目前的专题安排:https://fcon.infoq.cn/2024/shanghai/
以下内容根据对话整理,篇幅有删减:
数字化使得系统交互日益复杂,对数据要求日益提高
InfoQ:请两位老师分别介绍一下各自角度所观察到的,当前国内金融行业数字化和金融科技的发展现状。近两年有什么关键突破?当下最大的挑战又是什么?
徐小磊: 在银行领域,金融科技的发展带来了许多挑战和机遇。首先,技术与数据方面的挑战尤为突出。比如,大模型的兴起就对银行金融科技产生了显著影响。这种影响并非负面,反而是一种积极的推动。它促使我们思考如何利用这些新技术解决现有的问题和痛点。然而,随着新技术的引入,我们不可避免地面临一些挑战。银行业务复杂,新技术的融入需要与旧有的技术系统和战略发展方向相协调,这在集成上带来了难度。不同业务系统之间如何磨合、适配和联通,是一个重要且繁琐的问题。
其次,数据质量和数据安全是金融科技领域的一个重要问题。随着 AI 和大模型的引入,大量结构化和非结构化数据涌入,如何使这些数据符合银行的合规和运营要求,成为我们面临的难题。目前,很多机构采集用户信息的方式不规范,数据字段定义不统一,录入错误和缺失,这些都会对后续使用带来问题,甚至影响客户服务和投诉处理。
第三,人才和组织方面也存在挑战。在金融科技领域,专业人才供不应求,尤其是那些既懂金融业务又懂科技,同时具备创新能力的复合型人才。现代人工智能算法工程师的需求与日俱增,但人才培养的速度远远跟不上业务发展的需求。
此外,组织架构和文化也需要适应新技术的冲击。作为一家股份制银行,我们需要时间来理解和适应这些变化,这过程中不可避免地会带来组织内部的冲突。
最后,金融科技的发展也面临一些现实问题,尤其是在存量时代,所有银行都面临着消费降级的挑战。如何在这个时代中提升存量客户的服务和体验,是我们亟需解决的问题。我们需要借助科技力量,将这些服务和体验具象化、量化,从而衡量其效果,寻找银行的第二增长曲线。
王环:我补充一些关于证券行业数字化转型的个人看法。就数字化现状而言,我认为近两年最大的突破在于金融科技领域,特别是 IT 系统建设思路的转变。
在信息化时代,信息建设的主要内容是业务的线上化。虽然许多企业至今尚未完全实现这一目标,但业务线上化慢慢成为主流,特别是在客户高频使用的业务场景和企业内部管理运营场景中,表现得尤为明显。
过去,信息化建设的特点往往是围绕单一业务或业务流程,在一套系统中实现,这套系统也基本上对应有一个数据库。这种建设方式不可避免地导致了数据孤岛问题,进而导致数据不一致性,这是信息化建设的一个普遍现象。
在数字化转型的背景下,虽然我们仍在继续完善业务线上化,但建设思路已经发生了很大转变。现在,我们不再孤立地解决业务线上化问题,而是从整个企业乃至跨企业的角度出发,考虑数据如何流通和共享,以此为基础设计和建设系统。
举个例子,过去在企业内部,许多系统都包含客户信息。按照以往的建设方法,每套系统都可能需要录入并维护客户信息。现在的趋势是建立一套统一的客户信息服务,产品信息也有类似的变化。企业会有一个统一的、可信的数据源来提公用的信息服务。
近年来平台类或中台类系统成为趋势。尽管我们现在的数字化建设思路也是这样的,但同时不可避免的一个问题是,企业中存在大量遗留系统,这些系统很难改造。解决这个问题是许多数据团队或中台团队需要承担的职责。
过去,传统的数据团队更多地从事分析类、经营决策类、智能类支持工作,包括报表和商业智能等。但现在,这个角色正在逐渐发生变化。数据团队不仅继续承担原有的职责,还开始承担起企业内部数据流通和交互的角色。他们的核心任务是汇聚企业内的数据,并为各类系统提供数据服务,包括前台的业务系统。这种转变可能是当前或未来数据团队与传统数据团队最大的区别,也是当前发展的突破之一。
除此之外,数字化建设使得系统之间的交互越来越复杂,对数据质量和标准的一致性要求也越来越高。如果原来是孤立的或烟囱式的系统,数据质量的影响或数据标准的要求可能没有那么高,影响范围也相对较小。但在当前,如果系统平台化、中台化后,对数据的要求,尤其是数据治理的要求会变得越来越高。
InfoQ:您提到了信息化、线上化和数字化这几个概念,它们之间存在怎样的关系,以及有哪些显著的差异?
王环: 信息化的目的主要是将业务流程线上化,即将传统的业务活动转移到线上进行,提高效率和便捷性。
互联网企业由于其原生的数字化特性,数字化对它们来说是一个自然发展的过程。然而,对于传统行业来说,数字化不仅仅是业务的线上化,而是一个更深层次的转型。
在数字化的过程中,我们不仅仅是把业务搬到线上,而是要将业务的各个对象、流程和规则用数字的形式重新构建,并在系统中重新定义,包括重新考虑物理世界中的业务流程、角色定义以及人与人之间的交互方式。这可能包括优化现有的流程,甚至进行彻底的业务模式重造。
徐小磊: 根据我的经验和团队的理解,这个逻辑应该是:首先是线上化,然后是数字化,最后才是信息化。
线上化是将线下的业务流程和活动转移到线上进行,这是数字化的第一步。当业务流程被搬到线上后,自然而然地,我们需要将这些业务流程从模拟信号转化为数字信号,这就是数字化的过程。建立好数字基础之后,最后一步是信息化,即从数据中提取和沉淀知识。
目前,银行的许多业务已经线上化。在数字化方面,银行已经积累了大量的数据,实现了业务的数字化,但这些 数据的体量巨大,且缺乏高质量的治理和统一的数据标准,导致在数据治理方面面临挑战,从而 影响了从数据中提取有用知识的效率。
在向信息化迈进的过程中,银行会遇到很多困难。我们现在虽然知道未来是美好的,但现有的基础仍有很大的提升空间。我们需要将现有的“马车”变成“跑车”,从而更高效地在“信息高速路”上奔驰。这需要我们在数据治理、数据分析和知识管理等方面做出改进。
InfoQ:徐老师描述的阶段与业界过去认知中的似乎有所不同。大约在十几年前,大家开始关注信息化,随后数字化成为讨论的焦点。那么您所理解的信息化与十几年前讨论的信息化有哪些区别呢?
徐小磊: 我将信息化放在最后阶段的原因,主要是因为 2023 年大模型的出现,使我们意识到在原有信息化的基础上,除了深入挖掘信息和业务之外,还需要进行横向和多维的扩展。
过去我们的信息化工作可能更侧重于在特定垂直领域内的数据挖掘和深度学习,这些可以被视为在特定领域内深入挖掘的“数据井”。现在我们发现除了这种垂直的深入之外,还需要利用大模型的通用能力和庞大的知识库,来进行更广泛的业务和客户需求分析。
InfoQ:从去年开始,数据资产入表、“数据要素×”行动计划等一系列政策文件相继布和实施,今年以来多家银行纷纷对组织架构进行了调整,新设数据管理相关部门。可以看到数据在企业中正在扮演越来越重要的角色。两位老师是否可以结合自己的实践和经验,展开聊聊数字化转型与数据资产的关系?
王环: 近两年无论是国家层面还是企业层面,都把数字化转型提到了非常高的高度,甚至将数据视为生产要素之一,与技术、资本、土地、人力等传统要素并列。这说明从国家层面来说,对数据的重视程度非常高。
我们公司从三四年前开始系统性地进行数字化转型,很多业务部门事实上最初对数字化转型并没有太深刻的理解,比如,有的人会认为数字化转型就等于数据。这种理解可能并不完全准确,但它从一个简单、直观的角度出发,说明这两件事情是非常相关的。
我自己的理解是,数字化转型的核心是用数据驱动业务。当我们将业务对象、过程和规则数字化之后,结合现有的数据和智能化技术,重构业务流程,更新员工的认知和技能,从而更新企业的商业模式、服务模式或业务流程。
从这个角度来看,数据资产就成为数字化转型最关键的媒介或载体。数据资产不仅是数字化转型的基础,也是推动企业创新和优化业务流程的重要资源。因此,数据资产入表,即将数据资产纳入企业的财务报表,反映了企业对数据价值的认可和利用数据资产进行决策和管理的能力。
徐小磊: 我想分享一些我对数据资产的理解,并将其分为三个部分进行阐述。
第一,数据资产的定义,它听起来可能比较抽象,我倾向于从四个方面来界定它的特性。
1. 可控性与所有权
数据资产必须是企业可以控制和拥有的数据。数据资产就像私域客户一样,是企业可以控制和拥有的。这里需要注意的是,并非所有客户信息都属于数据资产。例如,客户所在的城市信息并不属于数据资产,因为这些信息并不总是由客户主动更新给我们,他们可能因为某些原因变更了城市却没有通知银行。
换句话说,客户的城市信息属于客户自身的属性,而不是银行可以控制的数据资产。我们经常能够看到用户的各种信息,比如手机型号。我们可以通过用户画像来分析他们使用的手机品牌和机型,进而推断他们的消费能力。然而,这些信息并不构成数据资产,因为当用户更换手机时,他们通常不会通知我们。
那么,以银行为例,什么是我们的数据资产呢?就是 客户在我们银行的存款记录、消费行为等信息。这些数据是我们可以收集、控制并用于分析和决策的。
2. 经济价值
作为资产,数据资产必须能够为企业创造经营价值,具有经济性。数据资产必须能够为企业带来经济价值。我们之所以将某些数据视为资产,是因为它们能够通过增强企业运营来产生利润。如果某些数据我们无法利用,或者目前还没有明确的用途,或者找不到能够变现的场景,那么这些数据就不能称之为数据资产。
3. 可重复利用性
数据资产应能够被多次利用,具有反复使用的价值。一旦数据成为企业的资产,它必须是企业可以控制和私有化的。这意味着企业可以反复利用这些数据,进行深度挖掘,以发现更多的价值和机会。
4. 多样性与多维性
与其他类型的资产相比,数据资产具有定义上的多样性和多维性,能够从各种不同的维度来满足企业的分析需求,包括结构化和非结构化等多个类型。
第二,数字化转型,这可以从两个方面来理解。
数字化是指使用数字量化的方式来衡量业务,将原本非量化的、主观的业务流程转换为可量化的数据。这涉及到收集、整合有价值的数据,因为这些数据构成了企业的数据资产。
转型是指企业或经营模式的根本改变。这里的转型不仅仅是技术上的更新,更是用数据来赋能决策,改变企业的经营方向、团队的经营思路和运营策略。尽管数字化转型的重要性被广泛认可,但在实际操作中,很多企业仍然存在业务惯性,依赖经验进行决策,而不是将数据作为主导手段。
如何看待数字化转型与数据资产之间的关系呢?从数字化转型的角度看数据资产,意味着从业务场景出发来审视数据,这要求我们关注数据的质量和应用效果。我们需要确保收集的数据是有价值的,满足数据标准化和质量要求,以便于更高效地使用这些数据资产。
从数据资产的角度来看数字化转型,则是要从数据的角度审视业务,寻找数据资产的应用场景和价值。这并不是说数据资产的规模越大越好,而是要评估哪些数据是有用的,哪些是闲置的。这意味着许多数据标签尚未找到其应用价值,这是一个需要关注的问题。
第三,行业生态系统合作。目前,数字化转型和数据资产的概念在网上广泛讨论,以我们公司为例,我们目前在与其他业务和行业的生态系统进行合作。通过这些合作来实现数据资产的多样化,这是我们正在努力的方向。
我们的目标是通过合作来沉淀更多企业可用的、有价值的数据。这样的数据资产不仅可以丰富我们的信息储备,还能增强我们对市场和客户行为的理解。通过这种方式,我们能够更好地服务现有生态,并与合作伙伴共同成长。
InfoQ:可不可以列举一两个例子展开说说哪些数据属于银行的数据资产?
徐小磊: 以下类型的数据则属于银行的数据资产:
1. 交易数据: 当客户使用银行发行的银行卡进行消费时,银行可以收集具体的交易信息。例如,客户在特定时间、日期在某个平台上购买的具体商品和服务,以及交易金额。这些数据包括交易的时间戳、交易金额、商品类别等,都属于银行的数据资产。
2. 用户行为数据: 银行通过自己的线上平台,如专属 APP、企业微信、小程序、公众号等,可以追踪用户的浏览行哇和用户旅程,包括购买特定商品、复购情况和分享活动等,这些数据有助于银行了解用户的偏好和需求。
InfoQ:证券场景中什么样类型的数据可以称之为数据资产呢?
王环: 数据资产是企业能够拥有、控制并从中获得效益的数据。它们可以以多种形式和多个维度存在。对于证券公司来说,最常见的数据资产可能是客户股票的买卖记录。
证券公司的数据资产主要来源于为客户提供的股票买卖代理服务。我们通常所说的经纪业务,就包括了客户的交易委托、交易成交以及持仓等数据。证券公司还会根据客户的交易行为和偏好,创建各种客户画像。例如,分析客户的盈亏情况,了解他们倾向于购买固定收益类产品还是权益类产品等。这些画像也是证券公司的数据资产。
除了经纪业务,证券公司还有其他业务线,如投资银行业务。在辅导企业进行首次公开募股(IPO)的过程中,证券公司会收集和处理大量关于 IPO 辅导企业的内部数据。这些数据经过提炼和加工,可以形成证券公司的数据资产。例如,基于企业的财务数据,证券公司可以创建一些标签和画像,这些加工后的数据可能对后续开展研究、机构业务等其他金融业务具有重要价值。
企业的很多数据可能根本不是数据资产
InfoQ:从数据体系建设到数据资产运营,企业数据全生命周期管理主要分为哪些关键阶段?每个阶段有哪些需要重点突破和注意的攻坚问题?
王环: 数据在其生命周期中通常会经历这么几个阶段,包括数据采集、存储、处理、加工、传输、使用和销毁。
首先,在数据采集阶段,最关键的问题在于确保数据质量。这包括数据的准确性、完整性和有效性,它们对数据资产的源头至关重要。
近年来,在数据的存储和处理方面,出现了许多技术突破,尤其是在大数据量的存储和处理方面。国内一些厂商在这方面的技术进步尤为明显,能够满足多样化场景的需求。
在数据使用阶段,数据被转化为各种产品或应用于不同场景。这一阶段是过去讨论和交流最为频繁的。除了关注如何使用数据和创造数据产品外,近两年来,特别是在金融机构和面向消费者的互联网应用中,数据的合规性和安全性变得越来越重要。数据分类、分级、脱敏处理和权限控制等都是目前需要重点关注和突破的技术领域。
最后是数据销毁阶段,尽管这一阶段以往受到的关注较少,但它是数据资产运营闭环的最后一步。许多企业内部对于过期或淘汰的数据没有及时进行销毁或归档,这不仅导致了存储和计算成本的增加,还可能留下数据安全隐患。因此,数据销毁阶段也是一个需要重点关注的领域。
InfoQ:王老师提到了一些关键节点上的难题,那么是否可以结合国投证券目前的践,详细讨论一下我们是如何克服这些问题的?在数据生命周期的每个环节中,国投证券采取了哪些措施来应对挑战?
王环: 在数据采集阶段,我们前几年的重点是在数据治理方面。例如,证券交易客户端的数据不仅满足我们自身的使用需求,还必须满足监管要求。我们需要向证监会等监管机构报送数据,这些机构对数据质量有非常明确和高的要求。因此,我们进行了大量的数据标准化和质量控制工作,以改进我们的 APP、小程序等终端设备的数据采集,以及客户端和内部系统之间的数据交互质量。
在数据存储和处理方面,我们基本上跟随了主流技术的发展。从最初的数据仓库建设,到后来的大数据处理平台和数据中台,这些技术都是为了更好地存储和处理日益增长的数据量,并满足不断增加的数据应用场景,包括数据报表和商业智能以及流计算和实时应用等。
在数据使用方面,这可能是我们团队投入精力最多、投入最大的方向。我们开发了大量的数据产品,以赋能我们的各个业务条线。只有将数据投入使用,才能体现其价值。这也是我们这些年来一直在做的事情。
在数据销毁方面,我们以前并没有给予足够的关注,导致很多数据没有得到及时处理。但近两年,我们在数据治理工作中加强了这一环节,实现了数据全生命周期的管理。我们会定期梳理和识别使用率低、访问量低的报表或数据仓库中的模型表,及时进行销毁或归档,从而形成数据运营的闭环。
InfoQ:在很多企业中,数据资产管理过程仍面临着高质量供给明显不足、合规化使用路径不清晰、应用赋能增值不充分等难点。对此,银行业的基础是相对比较好的,徐老师可以介绍一下我们是如何解决这一系列问题的吗?
徐小磊: 关于数据采集和应用,我们采取了一系列措施来确保数据的质量和未来的应
用效果。以下是我们的具体做法:
数据血缘管理: 我们的科技团队在前年完成了数据血缘管理机制的建设,这使我们能够做到以下两件事:
数据溯源和审计: 我们可以对数据进行溯源,当前端业务场景使用数据出现问题时,比如指标出现明显错误波动,我们能实时高效地定位到数据源的问题所在。这对于处理客户投诉,如信用评级问题,非常有用。
数据变更追溯: 我们从依赖离线系统管理变更,转变为使用在线系统管理,这使得我们能够快速发现数据变化并及时响应。
数据质量管理: 我们关注数据质量的评估和问题划分。通过数据溯源能力,可以了解数据从源头到目标的流转过程,定位业务端数据问题发生的环节。数据质量管理不仅是科技团队的责任,而是全员参与,从科技到中台到前台,都需要保证数据加工成业务指标的每个节点的质量。
数据标准委员会: 我们成立了数据标准委员会,由科技部门牵头,领导和各业务部门参与,制定流程和规章制度,建立接口和管理规范,确保供给端数据的高质量。
数据使用路径优化: 我们依靠系统能力来优化数据的使用路径,通过中台部门建立起承上启下的能力。我们建立了模型管理平台、画像平台、标签平台、中心的 BI 平台等,支撑数据的有效使用。
数据应用效果评估: 我们对数据应用效果进行后评估,主要衡量指标是:业务指标和数据的时效性、准确性、精确性。
业务指标:分析数据带来的业务指标变化,评估经营效果。
数据指标:时效性要求数据响应快,准确性要求数据正确无误,精确性则要求数据精细到小数点后几位。
数据应用培训: 我们培养业务部门的数据应用能力,让业务人员掌握如何使用数据、如何评估数据效果。通过这样的培训,业务部门能够更好地理解和利用数据,提升业务效果。
InfoQ:徐老师刚才提到了许多关键节点,这些节点的顺利实施确实需要多个部门的通力合作。在这一过程中,如何确保大家在思想上能够达成一致,以及在工作目标上能够对齐呢?
徐小磊: 这实际上涉及到我们每个人思维方式的转变,这是一个需要时间的过程。我们的"数据人才 313 工程"已经进行了两三年,主要工作是:
1. 初期教育: 让专业的数据分析师、数据工程师和数据应用专家向业务团队传授数据应用的知识,告诉他们应该如何利用数据。
2. 实践应用: 通过组织内部的各种比赛和竞赛,鼓励业务团队分享他们如何使用数据以及使用数据后带来的效果,比如成本降低和效率提升的显著差异。
3. 带动参与: 通过这些成功案例,激励和带动更多的团队参与到数据应用中来。
在这个过程中,并没有一个所谓的统一标准。如果一定要说有一个标准,那就是我们对数据分析师的初级、中级和高级的评判标准,以及金融科技人才的认定标准。在此基础上结合人力资源部门和业务部门的共同努力,推动大家提升数据应用的能力。
InfoQ:这个过程持续了两三年,大家没有怀疑过这个事情的价值呢?
徐小磊: 起初,人们对数据应用持怀疑态度是可以理解的。因为在最初阶段,如果没有看到实际效果,人们自然不会轻易相信。但事实上,一旦数据被正确使用,其效果很快就会显现出来。
以线上用户注册路径为例,我们通常认为用户会按照产品设计的逻辑顺序进行操作,先做什么,后做什么,提交哪些信息,然后完成注册。注册过程看似简单,但通过技术手段和数据挖掘,我们发现从用户注册的起点到注册成功的终点,这一过程中用户实际采取的路径竟然有 200 多种不同的方式。
数据直接向产品经理揭示了这一点:用户有 200 多种路径可以走,有的路径短至 4 步,有的则多达十几步。这样的发现让我们明白,转化率不高也就不足为奇了。借助这些数据,产品经理可以优化产品路径和用户体验。这是一个非常典型的数据应用案例。
寻找大模型的价值场景
InfoQ:目前 AIGC 主要集中在哪些金融业务场景?这些场景有什么共同特点?哪些潜力场景还有待探索,尚未普及的原因是什么?
王环: 我简单介绍一下国投证券在人工智能(AI)应用方面的经历,大致可以分为下述三个阶段:
1. 探索阶段(2016 年之前)
在这个阶段,我们主要进行的是智能应用的探索,做的工作非常传统,主要集中在零售领域的个性化推荐、营销和客户体验等方面,比如优化用户注册路径等。我们开发了一些股市晴雨表,预测当天股市的涨跌,还开发了 A 股机器人,用机器人选股并分析其走势和盈亏情况。此外,也进行了一些理财产品精准营销、挖掘新客户、为客户推荐新业务等。智能客服也是我们在这个阶段比较成功的 AI 应用之一,主要集中在产品营销和服务推荐领域。
2. 平台赋能阶段(2018 年到 2022 年)
在这个阶段,我们建设了大量的智能化基础能力。由于有大量业务系统需要引入智能化能力,我们把这些共性的智能化需求沉淀为基础能力,建设了大量的智能化基础设施。例如,开发了语音识别、图像识别、人脸识别等技术,并建立了机器学习平台,实现了这些基础能力的共享和复用,降低了应用系统建设的成本和简化了应用的复杂度。
3. 技术驱动阶段(2023 年至今)
这个阶段我们不再仅仅是做一些智能应用,而是需要主动识别和挖掘新兴人工智能技术的应用场景和特点,例如大模型,并引导业务部门尝试这些新技术,共同创造业务场景。具体来说,我们的工作更加主动,需要更深入地探索和实践。
我认为最大的难点是人才匮乏。现有的金融科技人员在利用新技术方面的能力需要提升,这是一个很大的挑战。另一个难点是识别高价值的业务场景。智能化技术从最初的基于统计规则到后来的机器学习和深度学习,已经发展了很多年,容易发掘和体现效果的场景大多已经被尝试过。现在,随着像 AIGC 这样的新技术出现,找到有价值的应用场景变得更加困难。至少在证券行业,虽然大家对 AI 技术的热情很高,但实际能看到效果的应用仍然很少。
徐小磊: 在 AI 领域,我们家的应用起步相对较晚,主要是随着人工智能大模型的出现而逐步开始探索。我将从前台、中台和后台三个方面来阐述我们的应用情况。
前台应用主要集中在精准营销。大模型与传统人工智能的区别在于处理方式。传统的人工智能像是“数据井”,过于垂直和精准。例如,我们可能会用机器学习预测某个客户的业务转化率,但当转化率相差很小的时候,传统模型可能会将它们视为两个完全不同的客户群体。然而,实际上这种微小的差异可能并不代表客户之间有本质的不同。大模型的优势在于能够淡化这种边界感,更全面地理解客户。
此外,传统 AI 在输出特征时可能会忽略一些重要信息。例如,它可能会从 1000 个特征中挑选出 10 个关键特征,但那些被忽略的特征可能也有其价值。而且,传统机器学习模型无法直接告诉我们应该如何根据这些特征制定策略,需要人工去解读和转化,而大模型则能提供更接近人类语言的业务策略建议。
中台应用主要赋能营销团队,利用大模型的生成能力,如文案、图片等。
后台应用侧重于数据能力,大模型可以帮助我们将自然语言转化为数据查询,生成结果。但面临的挑战是,数据信息相当复杂,目前大模型还难以充分理解。大多数现有的自然语言转查询技术还停留在文本转 SQL 的层面,而我认为大模型在后台的发展空间在于利用其通用理解力去深入理解企业的数据资产。
InfoQ:现在前中后台是哪一部分发展的比较快?
徐小磊:中台在我们银行的发展中是最快的,原因在于它已经被内部广泛使用。尽管前台的应用听起来也很有潜力,但实际上还存在一些挑战。主要问题在于,我们银行使用的 AIGC 技术所生成的内容不能直接面向客户。这些内容必须经过合规性和监管的审查,需要额外的处理步骤,以确保它们符合行业标准和法规要求。
InfoQ:金融行业目前对大规模使用大模型持谨慎态度,主要顾虑在于大模型的可解释性问题。即便是在内部经营策略的优化方面,这种担忧同样存在。您是怎么看待这个问题的呢?
徐小磊: 可解释性问题不仅存在于大模型中,传统机器学习模型同样面临这一挑战。由于向量空间的复杂性,很难直观地理解模型是如何得出结果的。通常我们只能通过前端调优来观察结果,而无法进行深入的回溯分析。
银行在使用大模型时,还必须考虑私有化部署的要求。这导致知识更新和模型能力迭代的速度非常慢,可能需要半年甚至一年才能进行一次更新。相比之下,能够实时联网的模型则可能每一分钟都在进化,这种本质的差异使得大模型在银行等金融机构中的应用受到限制。
InfoQ:如果说银行在这或者金融行业在这方面有那么多的限制,那会不会导致在去做大模型技术的投入的时候,投入产出不太划算?
徐小磊: 我们有几个典型的应用案例,如 数字人和智能客服。还有一个非常有趣的应用,我们称之为智搜,即智慧搜索。这个产品学习了我们所有内部的规范文档和知识库内容,并向内部业务团队开放使用。员工可以用自然语言进行查询,智搜能帮助他们快速找到所需的所有信息,类似于 ChatPDF 的功能。我认为这为企业员工提供了一个出色的助手,帮助他们从海量的企业内部知识库中解读、消化信息,并反馈给业务团队,使他们能够更专注于解决实际问题,极大地提高了工作效率。
此外,我们还实现了一部分所谓的 AIBI,即在大模型支持下的商业智能。我将在 8 月份的 FCon 大会上分享这一成果,展示我们如何在图形化界面下使用自然语言完成数据分析。
InfoQ:有位观众询问了关于权限控制的问题,因为知识库中存在一些敏感数据,只有部分人员可以查看。想了解一下咱们是如何进行权限拆分的?
徐小磊: 如果讨论的是大模型知识库的权限问题,很遗憾,我们无法在知识库层面进行控制,因为一旦使用大模型,它本身就会受到一定的限制和约束。我们能够控制的,是在大模型处理完数据后,决定谁能看到结果,谁不能看到。这种权限控制是在应用层进行的,而不是在数据知识库层面。
举例说明,比如某个工作人员要查询某位客户的个人信息,尽管大模型能从数十万张表格中汇总信息,比如识别出身份证号码,但在应用层返回这些信息时,我们会对其进行加密或脱敏处理,确保只有授权的在职员工才能查看。
InfoQ:王老师刚刚提到,寻找价值场景可能是阻碍我们进行大模型应用探索的一个重大挑战。除此之外,还有哪些挑战或难点,使我们无法更好地应用当前的 AIGC 技术?
王环: 基于我的从业经验和技术趋势判断,我对大模型或 AIGC 技术本身,持有非常积极的看法,我认为它们是非常有前景的技术。
现在的问题在于,人们对它抱有过高的期望。尽管现在大家都在讨论 AIGC,但我认为我们距离实现通用 AI 的目标还有很长的路要走,目前还没有达到那个阶段。因此,无论是大模型还是其他 AI 技术,它们都有其特定的适用范围。如果 AI 大模型实际效果达不到期望,大家可能会感到失望,这种情绪对于技术的发展和应用场景的探索是非常不利的。
从证券行业的角度来看,大模型理论上拥有广泛的应用场景,包括投资研究、投资顾问、投行业务、客户服务、营销和运营等多个领域。这些场景普遍涉及到大量文本的处理。目前,我们更关注文本处理方面的大模型,而视频和音频处理在证券行业的相关度相对较小,它们可能在生成营销素材时会使用。
证券行业存在大量非结构化文本的场景,这些场景理论上都可以应用大模型,但实际应用中存在一些障碍。
第一个是效果和可解释性问题。 虽然传统机器学习模型也存在可解释性问题,但它们至少可以提供定性解释,例如将用户标记为高风险欺诈用户。然而,大模型可能连这种定性的解释都做不到,成为一个完全的黑盒。
第二个是效果问题, 特别是在金融行业这个强监管的领域,试错成本非常高,这是阻碍大模型应用的一个重要原因。例如,网信办去年出台了大模型服务备案规定,目前有 100 多家机构备案,但除了基础大模型供应商如百度、阿里等,大部分是面向消费者的互联网应用服务提供商,金融机构提供大模型服务的缺失正是因为金融强监管和容错成本高的原因。
第三个是成本问题。金融行业对数据安全的要求非常严格,几乎所有场景都需要选择私有化部署方案,这涉及到部署大量的算力问题,现在算力的成本非常高,这也是大模型应用的一个巨大障碍。
当然,大模型有其适用的场景,特别是在容错度较高的场景中更容易应用。例如,从技术角度来看,大模型非常适合用于客服领域。我们可以看到,在电商等行业,大模型已广泛应用于智能客服服务。然而,据我所知,金融机构几乎没有直接使用大模型来提供智能客服服务的情况,这主要是因为监管的容忍度问题。
在我们的一些尝试中发现,客服部门并不需要大模型生成客户问题的回复。他们更希望大模型能够理解客户的问题,识别其意图,并将问题对应到现有的问答对(QA)中。客服部门希望大模型能帮助他们快速找到预先准备好的回复,而不是生成新的回复。他们认为大模型生成的内容风险较高,因为其结果可能难以控制。
InfoQ:那么大模型技术如何才能在金融业大规模应用?
王环: 目前,为了降低大模型产生的幻觉问题,业界开始采用 RAG 这种解决方案,这在很大程度上可以避免这一问题,尽管它无法做到 100% 的完美。目前,大模型更多地被用于辅助员工,比如客服或投资顾问的辅助工作,然后由人工进行审核或过滤,以提高员工的工作效率。我认为这实际上只是技术应用形式的一种转变。
徐小磊: 目前的大模型都是所谓的通用型,这带来了一些问题。也许在不远的将来,会有专门为金融领域设计的专属大模型进行部署和应用。这些模型将能够深入理解金融领域的特有数据环境和业务知识。我认为这个未来不会太遥远,可能在明年我们就能看到这样的专属大模型出现。
InfoQ:在大模型时代,除了机器与机器的协作,人与人、人与机器的协作模式也将面临巨大的变化,两位老师可以展开谈谈这些变化体现在哪些方面?
徐小磊: 我认为现有的银行人员架构,包括前中后台的分工,可能会因大模型的引入而发生改变。中台人员可能会逐渐转向前台或后台,因为中台的一些职能将被大模型的能力所取代。
例如,在进行客户精准营销时,原本需要向中台数据团队提出需求,让他们帮助圈定客群和生成用户画像,然后解读并制定策略。现在,大模型已经在一定程度上能够协助完成这些任务。
中台那些具备高精尖技术能力的人,可能会转向后台,逐步优化并构建私有大模型,以提升两端的效能。而中台原有的一些能力可能会逐渐消失。比如,目前使用自然语言查询数据的解决方案,通常是将自然语言翻译成 SQL,然后执行数据库查询。这是否有些多此一举?为什么不直接用自然语言查询,让系统生成图表。
我认为,一旦形成端到端的解决能力,中间环节就可能变得多余,这一趋势已逐渐显露。面对这样的变化,我们作为个体只能去适应和应对。以我们团队为例,我现在对数据团队的要求是发掘他们的个人偏好。有些同事喜欢与业务打交道,我会逐步引导他们向业务线发展,更多地转向业务方向。另一些同学如果喜欢在后台从事模型和算法工作,我则会鼓励他们提升技术能力、深化技术理解和技术管理能力,让他们逐步转向后台。
王环: 在讨论人与人、人与组织之间的关系时,我想补充一下个人的观点。随着大模型时代的到来,大家经常说的是大模型不会取代人,而是会取代那些不会使用大模型工具的人。
作为金融科技从业者,我认为没有必要过于焦虑。保持终身学习的习惯和能力至关重要。并不是每个人都需要了解 transformer 算法或训练大模型,这将是极少数人的职业或技术需求。对大多数人来说,重要的是了解大模型的特点和能力,学会使用大模型,掌握使用技巧,并思考如何利用大模型辅助自己的工作。
另外,我认为人与机器的交互协作模式将会发生很大变化。从最早的命令行交互,到图形界面交互,大模型的出现预示着人机交互的第三次转变,即用自然语言进行交互。这对未来的影响将非常深远,可能会导致所有软件都需要重构,按照这种新的交互方式重新设计。
金融行业凭借相对完善的数据和技术基础,以及丰富的业务场景,成为智能技术的实践场。在智能时代背景下,包括银行、保险、证券等在内的金融机构正在借助 AI 大模型、大数据、云计算等数字化技术不断完善和迭代自身的产品和服务,同时通过向外赋能,加速其它行业数字化,完成数实融合。关注「InfoQ 数字化经纬」,回复「实践案例」领取相关资料。
8 月 16-17 日,FCon 全球金融科技大会将在上海举办。本届大会由中国信通院铸基计划作为官方合作机构,致力于展示金融数字化在“十四五”期间的关键进展,以及近一年多来金融领域的 AI 大模型落地实践。大会邀请了来自工商银行、交通银行、华夏银行、北京银行、广发银行、中信银行、平安证券、华泰证券、度小满、蚂蚁集团等金融机构及金融科技公司的资深专家,现身说法分享其在金融科技应用实践中的经验与深入洞察。大会火热报名中,详情可联系票务经理 17310043226 咨询。
极客时间数字化人才培养认证项目共设 15 个岗位,分为初、中、高三个等级,覆盖数字化及人工智能人才所需的主要技能方向,满足人才技能升级和适应产业发展需求,通过测评后可获得工信部颁发的《工业和信息化人才能力提升证书》,扫码添加小助手,回复「认证」可免费咨询并获得产品手册,一个锦囊、一个助力数字化人才培养的妙策!
关注「InfoQ数字化经纬」公众号,回复「案例」领取《行知数字中国数字化转型案例集锦》。 关注「InfoQ数字化经纬」公众号,回复「进群」加入数字化读者群交流。 关注「InfoQ数字化经纬」公众号,回复「抽奖」可以参与本周活动,有机会获得精美礼品。
从排产到库存,智能算法在供应链优化中的应用与实践数字化时代的企业架构师团队:“设计院与监理公司”的双重角色大模型时代的工业质检:技术革新与实践探讨数字化浪潮下,软件行业的“鄙视链”警惕银行数字化营销的4大“陷阱”