查看原文
其他

阿里面向企业数字化的文档智能技术与应用

王梦佳 DataFunSummit
2024-09-11
导读 本文是来自阿里企业智能团队的分享。分享内容主要分为四个部分:首先是文档智能相关背景介绍,第二部分介绍文档智能的技术体系及演进,第三部分介绍一些与文档智能相关的大模型,最后介绍企业数字化落地的场景应用。全文目录:

1.背景介绍

2.文档智能技术

3.大模型之下的文档智能

4.落地应用

分享嘉宾|王梦佳 阿里巴巴 高级算法专家

编辑整理|张少华

内容校对|李瑶

出品社区|DataFun

01
背景介绍

随着在线办公模式的普及和推广,企业的文档,包括在线文档的数量和规模达到了一个新的数量级,在这种背景下,文档智能技术获得了更多的关注和重视。文档智能主要包括三方面内容,文档的阅读、理解以及分析。阅读主要是对于各种格式类型文档解析和结构化。理解主要是对文档进行统一表示,还有文档理解相关的一些预训练模型。分析主要是结合上游下游的一些任务,如文档的版面分析、信息抽取、分类、文档问答等,实现在企业各个场景的落地,赋能整个企业实现办公自动化,节省人工处理文档的成本和时间。

在文档层面,在文档读取和解析的过程中,需要一系列的工具和解析器来完成。此时,我们需要统一的文档协议,将文档里的不同元素,如文本、表格、图像等采用同一种协议表示,这样可以降低下游不同任务适配的复杂度。在模态层面,相比纯文本,文档信息表达的内容更复杂,是一种天然的多模态场景。所以怎么建模这些多模态信息,并实现多模态的对齐也是一个关键技术点。对于落地应用层面,会面临各种需求场景,同时也存在标注数据较少的情况。这时候通过零样本、小样本学习来降低对于标注数据的依赖,提升定制化交付能力。

以上是文档智能相关的背景介绍,下面介绍这个方向的相关技术。

02
文档智能技术

文档智能技术的演进,大体分为三个阶段。第一阶段是依赖大规模标注数据的监督学习阶段,在这个阶段,与文档智能相关的一些下游任务是单独建模方式,而且更多依赖单模态的数据。比如文档的版面分析,更多情况下可以转化为一个 CV的目标检测任务,检测文档里的标题段落表格,这种比较依赖标注数据质量。还有信息抽取,通过文档解析以后获得纯文本,最后转成NER任务。第二阶段是依赖深度学习预训练技术的发展,如layoutLM系列,依赖大量无标注数据进行自监督学习,通过预训练模型+下游任务微调来满足一些场景需求。当两个或者两个以上模态之间联合建模,这就逐渐过渡到多模态阶段。联合文本,+布局+图像信息进行联合建模,在预训练阶段,通过任务设计,最终实现模态之间的对齐。在下游任务建模上从独立建模到多任务融合训练的方式。

下图是文档智能技术整体的技术链路。主要包括文档解析、文档理解、文档分析。在文档理解中,除了上述提到的文档理解预训练模型,在面向具体业务需求时候,也会构建一些行业文档预训练模型,以提升行业文档整理的能力。

下图是一个自底向上的架构图,包括底层技术,到多模态文档解析和文档理解,再到中间层的文档树(包括文档层级树和文档知识块),以及通过文档理解实现上层应用。

接下来介绍文档智能相关的偏底层和中间层的工作。统一文档表示包括文本信息、富文本meta信息(如字体、字号、加粗、对齐等)以及逻辑结构信息,通过统一的接口表示来降低下游任务适配的复杂度。

文档层级树偏向于中间层的输出,文档层级树算法主要是以树状结构去展示文档整理的逻辑,对于不同领域的文档(如采购合同模板,销售合同模板等),可以通过采用相关的文档模板技术实现文档的解析。如合同文本包括了标题、签约主体、正文、盖章、附件等五部分内容。其中正文部分有更加精细化的层级树。不同层级划分可以帮助更好地理解文档获取想要的信息。

03
大模型之下的文档智能
接下来介绍文档智能大模型相关的一些工作,包括是预训练时代下(PLM)的文档理解和大模型时代下(LLM)的文档智能。首先介绍一个行业文档预训练模型AliLegalbert,我们也计划整理放到ModelScope上去,欢迎大家使用。为什么先在法务行业落地,这是因为法务是一个非常典型的文档密集型行业。另外法务的文档数据整体质量相对较好。
在数据侧,引入了法务各子领域数据,包含合同域,合规域,知识产权域和争议管理域。在模型架构设计上,基于达摩院开源的预训练模型StructBERT,采用Domain-awareContinual Training的方式,在预训练任务上采用多任务训练的方式,包括通用自监督任务+行业领域预训练任务。针对法务场景中的术语和专有名词,通过引入先验知识,构造法务行业分词词典。在行业预训练任务中,引入法务行业两个比较典型的任务:合同要素信息抽取和合规文本分类任务。在行业应用场景中,法务细分领域属于合同管理。在合同要素抽取、条款抽取、合同审查、合同文本比对、合同风险检测等都可以使用行业大模型来实现。
在这里考虑到我们的行业文档如法务合同是典型的长文档场景,动辄几十页的合同文本。为解决这个问题,后续也计划采用对于长文档/长文本更友好的Transformer结构——Longformer,提升在长序列方面建模的能力。Longformer,改进了Transformer传统的self-attention机制。对于这块的研究,清华大学刘知远老师团队也提出了一系列有意义的工作如LawFormer,用于理解司法域的长文档/长文本,包括像刑事和民事案件文档等。

文档天然具有多模态的特性,只考虑文本信息还是不够,所以我们也逐步引入布局信息(Layout),图像信息,是一个逐步迭代的过程。这块的思路还是借鉴了微软2020提出的layoutLM的思路,在这个方向上还是具有里程碑式的意义。
我们第一版的多模态文档理解预训练模型是基于文本+布局两个模态进行整合编码,模型输入层,包括文本embedding和布局embedding。2-D Position Embedding用于建模文档中的空间相对位置关系,通过对文档使用OCR工具,可以得到每个token的bounding box。预训练阶段有两个目标:Masked Visual-Language Model和Multi-label Document Classification。

在text+layout基础上,我们进一步引入了图像信息,分为text embeddings, layout embedding, visual embedding,将文本和图像嵌入被连接起来后,再加上布局嵌入,从而得到模型输入。通过将视觉特征信息融入到预训练过程中,提升模型在图像理解方面的能力。预训练任务方面:除了视觉掩码语言任务,还引入了新增引入文本和图像对齐任务(TIA, Text-Image Alignment),文本和图像匹配任务(TIM, Text-Image Matching)。

我们也在合同要素抽取和合同分类等任务上引入了多模态文档理解预训练模型,文档信息抽取任务中的实体识别和NLP中的NER类似,都是字符级别(token-wise)的分类,且是用BIO的标注形式进行标注与预测。依赖像 Faster R-CNN这样的目标检测模型来提取区域特征用于图像嵌入,这会使的模型有更多计算开销。所以在多模态文档理解预训练模型的选择上,我们也会基于不同任务的数据特性选择相应的模型,比如像三个模态联合建模的多模态文档理解预训练模型在单页的票据/收据的信息抽取等任务上有很不错的表现。

在SFT阶段,采用了法务域五大领域的领域数据,在SFT阶段梳理面向合同审查,要素抽取,合同分类,合同条款抽取的高质量法务行业标注数据,进行有监督微调SFT。同时我们也引入了开源数据,收集了丰富的法律问答数据,包括常见法律问题和相应的答案。这些问答数据涵盖了多个法律领域,如合同法、劳动法、知识产权等。通过使用这些数据,模型可以学习到常见法律问题的回答模式和解释能力。
在SFT之后,开始往后链路延伸,完成模型的PPO阶段,数据来自法务专员的多轮反馈迭代。在SFT阶段的数据,针对合同长文本的特征,基于检索增强的SFT数据输给大模型。以Query和在对应检索系统下返回的段落组成prompt,Answer作为模型的回答。

04
落地应用
最后介绍一些具体的落地应用,即企业数字化场景中文档智能的应用,以及基于文档智能和大模型在企业数字化方向,如何利用技术驱动业务模式和产品创新。

文档智能在企业是一个多业务领域,它在HR、行政、采购、财务、法务等都有不同程度的落地应用。文档智能对于企业数字化转型的意义可以从三方面进行探讨。第一层是相对低阶的,将占企业80%的非结构化数据结构化,实现数据的可查可看。第二层是对于文档数据里面的关键要素和知识沉淀,作为企业的数据资产。再上一层就是对于知识的落地应用,为企业的管理、决策做数据支撑。

首先介绍在法务领域的落地和实践。文档智能对于这一业务域数字化转型的意义包括以下几个方面。首先可以降低成本,通过合同解析、合同要素提取、法务智能问答这些技术能力可以辅助使用者,降低人工处理和答疑的成本。在提效方面,通过文本生成、文本分类、文本比对辅助法务人员的合同起草、分类、比对等任务,提升整体的处理效率。在风险管控方面,通过技术算法自动化方式,降低人工处理疏漏出错频率。最后是对于法务领域的资产沉淀,包括法务条款库、法务口径库、政策文档库等。

下面介绍一个细分领域,合同的全生命周期管理。从最开始的合同起草阶段,为专业的法务人员提供合同条款的检索,包括提供合同模板推荐,辅助合同的起草。接着是合同的提交阶段,可以通过合同解析、要素抽取、条款抽取,实现一些关键要素的结构化。在合同审批阶段,可以做各种类型的审查,比如金额大小写是否一致,审查是否有反垄断、限制竞争的条款等。到了最后的签署阶段,可以基于文档比对,避免出现一些类似于阴阳合同的情况。

通过大模型和文档智能技术,我们也做了一些创新的产品,比如合同对话chatContract。以问答交互方式取代原来相对复杂的交互,同时也能通过产品入口进行统一。通过对话可以实现合同要素抽取、条款抽取、合同审查、合同起草、合同摘要生成等任务。

文档智能的能力更多还是聚焦在前链路,包括对于法务文档的解析,对知识点抽取,形成一些 QA 知识库,对于长文本进行切分,构建向量索引等等。在此基础上,通过对用户发起查询请求的理解完成检索,将检索的结果和查询的提词给到法务大模型,其中通过相关性排序模型,提升输入到大模型的数据质量。

在面向企业的各种场景,都会面临业务定制的问题。如何提升业务的整体定制化能力,实现更多场景覆盖。针对这个问题,我们通过业务场景数据标注进行模型训练微调优化,到最后的部署实现全链路覆盖,从而更加贴近业务定制化需求,实现更多业务场景覆盖。
在整个企业数字化进程中,还有很多场景应用,比如简历文档解析、票据解析、智能问答等。通过多个业务领域的落地应用,为整个企业的数字化转型和升级助力。
最后,对于文档智能技术,还有许多问题需要攻克,比如长文本的多页跨页处理,文档的版面分析,少样本零样本的学习问题。实际业务中的低质量文档问题等都需要不断去提升技术能力来解决。

今天的分享就到这里,谢谢大家。


分享嘉宾

INTRODUCTION


王梦佳

阿里巴巴

高级算法专家


阿里巴巴企业智能高级算法专家,2015年浙江大学硕士毕业后加入阿里,先后在阿里云城市大脑,数据中台和阿里企业智能团队工作。阿里云城市大脑初创团队成员,参与杭州城市大脑项目,阿里云多个数据中台和行业算法解决方案的设计与落地。目前负责文档智能技术和行业大模型在企业数字化场景的技术落地和应用。


往期推荐


发动机铸造模具温度智能管理调节应用落地

懂车帝准实时指标体系架构及应用

华为盘古大模型微调实践

算法&大数据如何赋能?OPPO推荐领域降本增效指南

人工智能在跨境风控中的应用

小米 OLAP 引擎在 Trino 的应用实践

阿里飞猪供应链算法之推荐和选品模型

基于 StarRocks 和 Paimon 打造湖仓分析新范式

腾讯金融 AI 开发平台落地实践

大模型工具学习范式实践

生成式AI在育碧3A游戏图像生成的实践应用

京东电商知识图谱与AIGC应用方法论

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存