度小满杨青：传统 AI 与大模型融合，引领金融科技创新浪潮

Original 杨青 InfoQ 架构头条

2024-09-16

嘉宾 | 杨青编辑 | 李忠良

在金融科技领域快速发展的当下，人工智能（AI）扮演着日益重要的角色。虽然生成式 AI 技术和大模型时代备受关注，但传统 AI 在金融行业中的应用依然至关重要，对业务增长的推动作用不可小觑。如今，我们正步入一个将传统 AI 技术与大模型紧密结合的新时代。这种融合不仅极大提高了金融服务的效率和智能化水平，同时也为金融业的运营模式带来了革命性的改变。

在近期举行的 FCon 全球金融科技峰会上，度小满技术委员会执行主席，数据智能部总经理杨青发表了主题为《人工智能在金融行业中的创新应用》的演讲。他深入分析了传统 AI 在金融领域的持续影响力，同时探讨了在大模型时代下，如何有效结合传统 AI 与新兴技术，以应对未来挑战。

杨青指出：“人工智能正在步入一个新的发展阶段，金融智能化的时代已然到来。在这一过程中，传统人工智能，尤其是有监督机器学习，依旧展现出巨大潜力，它在推动金融业务增长方面发挥着不可替代的作用。”

同时，杨青强调：“生成型人工智能的能力范围在不断扩展，它正从局部应用转变为全面赋能，从而重塑整个金融行业并创造巨大价值。未来，人与机器的合作关系将经历深刻变革，AI 将在重塑金融业乃至整个社会的生产关系中发挥关键作用。”

以下内容为演讲分享正文：

今天，我将分享人工智能在金融行业中的创新应用。尽管这一主题看似常见，但由于人工智能的快速发展，我们总有新的思考和发现。本次分享分为四个部分：

金融科技发展回顾：首先，我将快速梳理金融科技的发展历史，同时分析当前阶段我们面临的机遇与挑战。
传统人工智能在业务增长中的作用：接下来，我将探讨传统人工智能，特别是有监督机器学习如何推动业务增长。
生成式人工智能的探索与实践：鉴于任何关于人工智能的讨论都不可避免地涉及 AIGC，我也将分享我们在生成式人工智能领域的最新探索和实践。
未来展望：最后，我将提出对未来的一些思考和预测。

人工智能与金融行业：正当其时，大有可为

金融科技的发展经历了三个阶段，每个阶段都有着其独特的特点。

第一阶段为信息化阶段，技术主要作为金融业务的基础设施，为金融机构提供支撑和保障，并实现后台开发和系统建设等功能。这一阶段的关键词是“驱动后台”。

第二阶段为数字化阶段，金融机构开始将 线下业务 向线上迁移，这不仅提升了用户体验和便捷性，同时也加速了金融业务的数字化进程。在这一阶段，科技逐渐从后台向前台转移，成为金融业务的核心驱动力。这一阶段的关键词是“驱动前台”。

第三阶段为数智化阶段，随着人工智能技术的不断发展，金融业务逐渐与人工智能深度结合，渗透到业务的每一个环节。大数据、风控智能、获客、营销、投顾等领域也逐渐实现了技术与业务的融合和创新。这一阶段的主题是“技术与业务的融合和技术创新驱动业务变革”。

在当前阶段，数字化转型已进行一段时间，但我们仍面临许多机遇和挑战。

机遇方面，首先是政策层面的显著机遇。新一代人工智能发展规划、十四五数字经济发展规划，以及中央金融工作会议都鼓励科技金融的发展，特别是数智化以增强金融科技含量；其次是 数据、算力和算法的共同进步。

在讨论数据层面时，我们可以从宏观和微观两个角度来观察。宏观层面上，整个数据市场的规模正在不断扩大，数据资源日益丰富，流通机制也变得更加明确和高效。具体来说，中国的数据市场规模已经呈现出爆炸式增长。

截至 2020 年，中国大数据市场的规模已达到 5000 多亿，年化增长率超过 20%。同时，共享流通机制也得到显著改善，例如去年年底，已有 48 家数据交易机构支持的共享调用次数超过 5000 亿次。此外，国家数据局的成立对构建完整的数据流通体系和激活数据元素生产具有重大意义。

从微观层面来看，随着数字化转型的加速，金融领域的数据生产和利用正在迅速增长。比如，用户在使用产品过程中产生的行为数据，以及他们主动上传的信息，都为机器学习和人工智能提供了 丰富的数据标签。

以用户风险标签为例，这些由用户行为积累而来的标签，能够提高我们模型和算法的准确率。随着模型效果的提升，我们能够为用户提供更优质的服务，从而吸引更多用户，形成一个正向的飞轮效应。

在算力方面，我们可以观察到中国在这一领域正在迎来一个新的发展阶段，得益于政策的支持和指导。近期，工业和信息化部联合发布了关于算力技术的设置和高质量发展的指导意见，标志着中国算力发展进入了一个新时期。

在过去五年中，我国的算力总规模平均年增长率接近 30%，在处理复杂任务的速度、大规模并行计算能力以及解决复杂问题的能力方面均有显著提升。

在算法层面，首先，算法 技术的不断更新和迭代显著提升了我们的原有业务效果，其中最显著的例子是大数据风控。最初，大数据风控主要依赖于人工规则，随后我们发展到使用逻辑回归模型。随着技术的进步，我们开始采用更复杂的模型，如 XGBoost，甚至进一步发展到复杂的深度学习算法。

这些算法的迭代每次都显著提升了效果，促进了业务增长；第二个方面是新技术和新场景的出现加速 算法创新，这里有两个关键例子：

一是因果推断的应用，这是一种新技术，它在金融场景中的应用可以大幅提升我们的经营效率；

二是时序网络的应用。鉴于用户具有大量的时序行为信息，我们通过构建复杂的时序网络，有效预测用户未来的需求和流失情况，特别是在存量市场中，这极大地帮助提升了用户留存率。

第三个重要的机遇是 基于深度学习的生成式人工智能 的发展。在过去六年中，人工智能技术的发展经历了迅猛的变革，尤其是从 2017 年的 Transformer 模型到去年底 ChatGPT 产品的推出，生成式 AI 技术已经得到了广泛关注。这个领域的发展呈现出两个显著的趋势：

一是模型技术的更新迭代速度越来越快，二是模型的多模态表达能力逐渐提高；大模型的能力不断增强，为大模型带来了更多的应用想象力。

回归到金融行业本身，它具有三个显著特点。

首先，金融是一个数据驱动的行业。其次，金融领域存在较高的专业知识门槛，不同的子领域，如信贷、保险和理财，各自有着独特的特点和要求。最后，金融业务流程通常较为复杂，涉及大量的人工操作和决策过程。

这些特性与生成式人工智能的核心能力——理解、记忆和规划等 高度契合。因此，我们认为金融行业是生成式人工智能的理想应用场景之一。金融与生成式 AI 的结合不仅能够充分利用 AI 的这些能力，还有可能打开更多的创新空间和可能性。

除了迎接机遇，我们还必须应对许多挑战。

首先，数据合规 和 隐私保护 是金融领域中的重大问题，这是因为金融数据通常包含敏感信息，因此必须遵守相关法规和规定；

其次，我们必须努力吸引、保留和培养具备 金融和人工智能双重 专业知识的人才，这是一项极具挑战性的任务，因为这些专业知识在不断变化和发展；

另一个挑战是在技术变革下的人机协作，这要求人们学会如何与机器交互和协作，以提高工作效率和生产力。这涉及到个人技能的提升和组织文化的建设，未来的工作流程可能更多涉及人与机器的交流，这对组织来说是一个重要的适应过程。

此外，组织变革 也是一个挑战，随着智能体（Agent）的出现，协作关系和业务流程可能会发生巨大变革。

开始的结束：

厚积薄发，传统式人工智能驱动金融业务

尽管最近 AIGC 非常火爆，但我认为在传统时代，传统的有监督机器学习仍然拥有巨大潜力。目前，传统式人工智能已经在金融的每一个主要业务环节中得到深入集成，包括人脸识别、客户服务、营销和获客等方面。

以信贷为例，我们面临 获客、风控、经营 三大核心业务难题，而人工智能技术为解决这些问题提供了有效的手段。

首先，智能获客 的挑战在于如何更有效地获取目标客户并提升获客效率；其次，大数据风控 的关键在于如何提升风险识别能力，从而帮助降低风险；最后，第三个挑战是在客户经营阶段 如何更好地管理客户，提供个性化的信贷额度和利率。

传统方法在处理这些问题时，可能导致成本高、效率低下，且效果难以保证。通过运用 AI 技术，我们能够有效地赋能上述业务流程，解决这些难题。那么如何运用不同的技术手段来解决一系列问题呢？

首先是 NLP 技术在大数据风控领域的应用。在日常运作中，我们处理大量文本信息，包括用户上传的合同、沟通对话以及征信报告中的文字。这些文本通常非结构化且信息稀疏，使得提取有价值的变量变得复杂。起初，我们通过人工统计词频来分析这些文本，如通过计数特定的风险词汇来评估风险。但这种方法对语义的深层理解有限。例如，虽然能通过风险词汇识别潜在的不良用户，但无法准确洞察用户的真实意图或行为。

为了克服这一限制，我们引入了更先进的 NLP 技术，比如基于语义的模型。例如，词袋模型 不仅考虑统计信息，还引入了 语义量化，使我们能更有效地处理和理解长文本。此外，我们还引入了注意力机制，以学习长文本序列中的关键特征。

最近，我们进一步发展了基于特定领域的预训练模型，这些模型专门针对风控领域的文本处理需求。与早期方法相比，这些模型在文本处理效果上取得了显著提升，大约提高了数倍。

其次是图机器学习在信贷领域的应用。对于金融企业而言，征信报告的重要性不言而喻，它包括了用户的借款行为、查询历史等关键信息。最初，风险评估主要依赖于从征信报告中人工提取特征，大概可能有十几维变量，使用逻辑回归进行建模。然而，这种传统方法未能充分利用报告中丰富的数据。

为了深入挖掘征信报告的潜力，我们进入了人工特征衍生阶段。在这一阶段，结合对征信报告和业务的深入理解，我们从原始数据中衍生出了几百到上千维的特征，使用 XGBoost 模型进行风险评估，从而提高了预测的精度和效率。

随后，我们进一步发展到机器自动衍生特征的阶段。这个阶段，我们利用 自动化的特征 衍生框架，能够从一份征信报告中提取出千万维度的特征。考虑到这些特征的庞大数量，我们采用了有监督的机器学习方法，自动筛选出最具有价值的特征，最终从一份征信报里构建出一个含约 40 万维的有效特征，大大提高了风险评估的准确性和效率。

最终，我们转向深度学习和图机器学习阶段，专注于征信报告中的文本信息解析和报告间的关系分析。我们将单个征信报告视作一个图结构，深入分析各种关系，如企业间的投资和流水关系，以及报告内部的动态变化。这一新阶段的引入，不仅提升了征信报告的识别能力，也为风险评估带来了革命性的突破。今年 3 月，我们的项目因其在人工智能领域的创新贡献，荣获吴文俊人工智能科学技术进步奖。

通过这一系列的技术创新和应用，我们展示了如何在不增加额外数据的前提下，通过算法的创新和优化，显著提升征信报告的解读效果，并为业务带来了巨大的经济效益。

第三个案例是 计算机视觉技术的应用，它极大地提高了我们处理复杂信息的效率。例如，处理小微企业一年的交易流水，这些流水可能包含超过 100 页的 PDF 文件。通过智能文档处理技术，我们能够实现对这些多媒体材料的 秒级审批，将人工审核效率提高了 70% 以上，同时显著降低了人工成本。

最后一个案例是 因果推断技术在信贷领域的应用。 通常情况下，因果推断被广泛应用于 营销场景，比如通过模型决定发放什么样的优惠券以最大化收益。我们创新性地将因果推断技术应用于 信贷领域，通过模型直接计算用户的贷款额度和利率。这种方法不仅提高了决策的准确性，也为业务增长注入了新动力。

首先解释一下因果推断。它是一种用于确定变量之间因果关系的技术。例如，在生活中我们可能会通过大数据样本分析运动与胆固醇之间的关系。初始数据可能 显示运动量少的人胆固醇水平较低，这与我们的直觉相反。但当我们按年龄分组后，就会发现一个符合直觉的趋势：运动量少的人胆固醇水平反而更高。这种现象被称为辛普森悖论。

这在信贷领域存在类似的情况。例如，传统机器学习可能会错误地得出额度高风险低的结论，这显然是不符合实际的。在信贷领域，传统的额度分配方法通常基于用户画像、风险评级等静态因素，而未考虑到用户情况的动态变化。因果推断则能够识别这种风险迁移的 动态变化，更精确地评估用户的综合情况。通过这种方法，模型直接决定的额度不仅更精准，也大幅提高了风险管理的效果。

开始的开始：

另辟蹊径，生成式人工智能重塑金融业务

接下来，我将探讨生成式人工智能与金融业务结合的方式，尤其关注大模型技术的应用。

这些技术不仅具备理解、生成和记忆逻辑的能力，还在金融场景中实现了更深层次的抽象，包括个性化内容生成、交互增强、预测模拟和强自动化等多项功能。这些功能被看作是专业知识的一部分，能够作为高效的辅助工具，解决专业领域问题并提高工作效率。以下是一些实际应用的案例：

营销场景：在这一领域，AI 通过大模型实现智能获客，提高营销效率。例如，它能实时生成针对不同用户画像的 个性化营销文案，实现千人千面的策略。当用户点击广告并申请服务时，AI 即时分析用户需求和意图，匹配适合的产品，大幅提升获客效率。
服务场景：大模型显著增强了对话机器人的能力，使得人机交流更自然。这不仅提高了人工坐席的工作效率（约 25%），还能在特定场景中直接提供用户服务，同时保持高质量服务和增强服务能力。
运营方面：金融业务本质上是数据驱动的。传统的数据分析和报表统计，既耗时又依赖于个人能力。大模型逐步降低了 分析门槛，实现了日常统计和分析决策的 自动化，提升了企业的经营效率。
代码生成：这方面在内部应用中表现出色，它提高了大家的工作效率。它不仅协助生成和补全代码，还能进行代码检测。事实上，采纳率超过 40%，研发效益提升近 20%。
智能办公：金融行业涉及广泛的专业知识，对新员工来说是一大挑战。通过行业大模型的应用，可以有效解决这一问题。它就像是员工身后的一个 金融智能助手，辅助决策并提供相关知识，显著提升工作效率。
大模型在风控中的应用：目前大模型不能直接用于风险决策，但结合传统有监督机器学习的风控决策引擎，可以有效提高了 处理非结构化信息的能力。这种结合使得智能风控更加实时和主动。

未来展望：传统与新兴融合，人工与 AI 协作

首先，我更倾向于将传统 AI 视为业务流程的 嵌入式模型。这些“嵌入式模型”可以视为业务的“肢体”，通过不断增强它们，我们能够推动整体业务的增长。相对地，生成型 AI 则像是一个“大脑”，拥有广泛的专业知识和高级功能，例如 辅助绘图 和 编写代码。

传统 AI 与生成型 AI 的结合，就如同肢体与大脑的协同，共同构成了我们金融业务的智能体。这个智能体具备规划和执行任务的能力，能够持续进行反馈和迭代。在金融领域，我们可以将复杂任务拆分为若干子任务，由人工和 AI 共同完成。这意味着未 来的协作模式将超越传统的人与人互动，扩展到人与机器、机器与机器之间的合作。 我认为，人工智能和人类的结合将深刻改变 业务流程、组织架构，甚至是整个 生产关系。

回顾今天的演讲，我们首先指出，人工智能正在迎来新的发展阶段，金融智能化时代已经来临；其次，传统人工智能，特别是有监督机器学习，仍然拥有巨大的潜力，它能够持续推动金融业务的增长；第三，生成式人工智能正在逐渐扩展其能力范围，从局部应用走向全面赋能，重塑金融行业，创造出巨大的价值。最后，人与机器的合作关系将经历一次深刻的变革，AI 将重塑金融业乃至全社会的生产关系。

最后，介绍下度小满轩辕大模型，作为国内首个千亿级金融大模型，已在今年 5 月发布，并在后续几个月内陆续开源了其多个版本。它在国内知名榜单上排名第一，表现出色，尤其在金融知识问答领域的应用上。

未来，我们计划在 12 月开源轩辕 13B 模型，并在 1 月发布一本总结我们在金融大模型实践经验的书籍。我们希望通过不断的开源工作，鼓励大家下载使用轩辕大模型，共同促进金融大模型行业的发展。谢谢大家。

活动推荐

收官之战！2023 年最后一场会议——QCon 全球软件开发大会·上海站，将于 12 月 28-29 日在上海·中优城市万豪酒店举办。

此次大会策划了 GenAI 和通用大模型应用探索、AI Agent 与行业融合应用的前景、LLM 时代的性能优化、智能化信创软件 IDE、LLM 时代的大前端技术、高性能网关设计、面向人工智能时代的架构、构建本土编程语言生态的实践、性能工程：提升效率和创新的新方法、LLM 推理加速和大规模服务、现代数据架构演进、建设弹性组织的经验传递、SaaS 云服务弹性架构设计、大模型研究进展与产业应用展望等专题。

大会现已进入 8 折 优惠报名 最后 1 天，立减 ¥1360。咨询购票可联系票务经理 18514549229。更多大会相关资讯可扫描上方二维码了解，或点击「阅读原文」即可查看，12 月，我们上海见！

继续滑动看下一个

InfoQ 架构头条

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

度小满杨青：传统 AI 与大模型融合，引领金融科技创新浪潮

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

度小满杨青：传统 AI 与大模型融合，引领金融科技创新浪潮

您可能也对以下帖子感兴趣