查看原文
科技新闻

恒生电子探路金融大模型

周尧 数据猿 2023-07-06

‍数据智能产业创新服务媒体

——聚焦数智 · 改变商业


近日恒生电子和旗下子公司恒生聚源正式发布基于大语言模型技术打造的数智金融新品金融智能助手光子和全新升级的智能投研平台WarrenQ。此外,恒生电子金融行业大模型LightGPT也首次对外亮相

恒生电子董事长刘曙峰表示,大模型是信息技术的最新突破,刷新了人们对机器智能的认知,同时也在刷新行业应用传统AI模型的模式。

今年年初,以ChatGPT为代表的生成式AI掀起一阵席卷全球的热潮,大模型技术则正在重新定义各行各业,其中金融行业是数字化、智能化的先行者,也被视为大模型技术落地的最佳领域。

在大模型时代,具有通用能力的大模型成为基础设施,将对金融行业的智能化水平和数字化程度产生深刻影响。

作为服务金融行业的技术公司,恒生电子正在结合自身技术能力和对金融业务的深入理解, 持续打造金融行业大模型和基于大模型的全新数智产品,为金融行业应用大模型提供新动能。

技术进步推动行业变革

每一次技术的进步都会推动社会大的变革,大模型是信息技术领域中一次全新的突破。

从信息技术几十年的发展来看,可以清晰的看到“三浪”叠加形态,从最早的大型机、PC的信息化到互联网、网络化,移动互联网,整个地球连成了一个“村”。

大模型的诞生是这一轮信息技术的第三浪,来自5G、云计算,包括传统的AI所带来的冲击让外界感受到了AI带来的数字化浪潮,但是大模型把这个浪潮推到了新的高度。

其实,中国的金融科技的发展就伴随着“三浪”叠加的形态,在金融这样强监管的垂直领域,技术进步的浪潮带来的颠覆性可能并没有那么强,但是,每一次进步同样会催生新生的企业。

刘曙峰举例,信息化时代的招商银行以科技立行,抓住了信息化带来的力量而成长起来。互联网的发展,催生出了支付宝、余额宝这样新场景下的金融服务产品,也催生了蚂蚁金服、东方财富、众安保险等互联网原生的金融服务机构。

所以,大模型技术对于传统时代的更新是必然的,它意味着更高的技术门槛和更大的规模,大模型时代,“数据+算法+算力”构成了新范式的基本要素,而这些基本要素会进入通用、垂直领域中,不断去拓展。

基于基础大模型下,对于和垂直场景的连接,恒生电子看到了两种可能性:一种是连横,一种是合纵。连横就是通过行业插件作为外挂方式,向大语言模型中添加不同类型的知识模块,包括常识知识、领域知识、事件知识等,与大语言模型进行适配和集成,从而提升其在复杂任务中的表现。另外一种形态则是恒生电子正在探索的“合纵”模式。

刘曙峰表示,在金融领域,由大模型供应方主导的“连横”模式会碰到的很多问题,比如数据产权的归属等。在“连横模型”很难实现深度应用时,有必要建立一个“行业大模型”承接垂直领域“合纵”需求。

他同时提到,行业大模型也面临固有的挑战,比如算力协同、内外部数据协同、场景协同、机构间协同等等。“尤其是数据协同,这是非常具体也非常难以解决的问题,尤其是金融行业面临着大量的合规限制。”

从一定程度上来讲,大模型在商业应用上,聚焦于金融垂直领域,仍在领域知识时效性、数据安全与隐私保护、具体应用支持等方面存在局限性。合纵模式下,可以充分发挥大模型产业上下游的合作,提高金融领域AI应用的水平的同时解决数据安全和隐私保护等问题,为金融数智化提供更加强有力的支撑。

金融行业数智化从量变走向质变

“建设一个好的金融大模型,取决于高质量的数据、优秀的基础大模型、专业的大模型能力、充足的算力。”恒生研究院院长、恒生电子首席科学家白硕表示。

2014年开始,恒生电子正式启动了AI的研究工作,打造了NLP、OCR、CV、知识图谱等能力,同时将AI技术能力赋能到智能客服、智能投研、智能运营、智能营销、智能投顾以及数据与风险相关的业务系统。

截至目前,恒生电子已发布20+人工智能产品,服务机构包括银行、证券、基金、期货等金融机构,拥有超过500个客户案例,实现了AI产品“从可用到好用”的进步。

WarrenQ是恒生聚源推出的面向投研投资场景打造的专业一体化投研工具平台。在这次的发布会上,WarrenQ推出了两款AI工具产品——WarrenQ-Chat和ChatMiner。

WarrenQ-Chat是一款金融垂直领域的Chat产品,利用大模型叠加搜索和聚源金融数据库,通过对话指令,轻松获得金融行情、资讯和数据,且每一句生成的对话均支持原文溯源,确保消息出处可追溯,还可以生成金融专业报表,轻松实现“语控万数”。

ChatMiner是一款金融文档挖掘器,基于大模型和向量数据库构建,可以根据用户对话指令对指定文档进行快速解读,提供精准检索与定位,提取关键信息,还可以将信息进行有效的整合归纳和精炼或拓展,智能化处理海量文本数据。

恒生聚源副总经理、产品总监白雪提到,WarrenQ里有很多的场景、很多功能,包括无所不能的读取写器、引文和演算、演算版的模型。

比如ChatMiner可以收集一大段新闻事件的集锦,如果对其中一条比较感兴趣,就可以追溯新闻,查看原文当中的研报内容。如果看到中间一段想留存下来,则可以点住它,一键拖拽到笔记里。

站在产品经理的角度上,白雪表示,今年以来试用了很多产品,真切感受大模型正改变着软件产品,改变着软件交互,改变着软件行业。“大模型+数据+软件”的未来会长成什么样子是一个行业中会广泛讨论的话题。

在他们看来,最底层是数据层,和产生的数据层有一定的区别,传统数据层是帮助机构建一个数智化的平台,底层很多是公开的数据加上机构自有数据库,现在机构的数据库会加上金融基础语料、产品的语料、公开大模型的语料,一起构成新版大模型时代的数智化产品底层。

在模型层,通过将准备好的数据和语料结合在一起,做金融数据的预训练,同时也可以做监督的微调,调完之后就可以得到一个金融版的大模型。在金融领域的产品化上,还要持续训练插件。

如何构建更专业的金融大模型?

发布会上,由恒生电子打造的金融行业大模型LightGPT也首次对外亮相。作为专业面向金融行业的大模型,LightGPT较通用大模型更专业、更合规、更轻量。

恒生研究院院长、恒生电子首席科学家白硕表示,LightGPT拥有更专业的金融语料积累处理和更高效稳定的大模型训练方式,使用了超4000亿tokens的金融领域数据和超过400亿tokens的语种强化数据,并以之作为大模型的二次预训练语料,支持超过80+金融专属任务指令微调,使LightGPT具备金融领域的准确理解能力。LightGPT将于9月底完成新一轮的金融能力升级,并正式开放试用接口。

在白硕看来,现有大模型难以在金融特定领域实现落地的原因主要有三个方面:

第一,模型本身的质量。金融行业对回答的内容和服务的质量要求非常高,通用大模型基于公开数据的训练难以达到,效果距离金融行业的需求有明显的差距。

第二,合规监管方面,金融行业的监管对数据流动、身份(例如是否持牌经营)等有明确限制,现有的通用大模型难以满足。

第三,算力成本方面,结合前述两方面的要求,很多金融机构在使用大模型时明确要求私有部署、至少在行业可信的范围内部署,这样的部署方式下,如果参数体量不够大,质量可能会比较差,如果参数体量足够大,仅仅从推理来看,部署的算力成本也会比较高。

所以,恒生电子坚定地选择站在巨人的肩膀上,充分吸收现有基础大模型的高质量成果,持续去打磨行业所需要的金融大模型。

对此,白硕针对建设一个好的金融大模型,总结了四个关键因素。

第一,高质量的数据。金融有很高的专业化要求,数据上要反映行业的专业化,这是和通用大模型拉开距离的关键。LightGPT的数据来源包括聚源过去二十年超过4000亿tokens的文本数据及结构化数据,超过400亿tokens的金融教材、金融百科、政府报告、法规条例等数据,以及一些精调的数据集。

第二,优秀的基础大模型。以优秀的基础大模型为起点,面向专业领域时能够有更好的提升空间。恒生电子积极探索与国内外金融大模型的合作,使LightGPT有较高的起点。

第三,专业的大模型能力。训练大模型的专业能力,包括算法、人才以及外部合作等。在算法方面,要去学习和采纳较为先进的算法,包括参数冻结、领域相关的指令精调以及强化学习相关的算法。在人才储备方面,恒生电子拥有国家级博士后科研工作站,在外部合作上,恒生与复旦大学、浙江大学、中国科学院、中国科学技术大学等高校都达成了合作。

第四,充足的算力。一方面来自恒生与互联网厂商、云厂商在算力方面的合作,另一方面恒生也投入了一些自有算力来支持LightGPT的研发。

作为国内金融科技龙头公司,恒生电子为金融行业打造的能力正在逐步展现,面向市场的进一步深化,刘曙峰表示,预计到2030年,整个金融行业将完成数智化升级。而恒生电子作为其中的先行者,将与金融行业共同迈进数智化新时代。

文:周尧 / 数据猿

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存