实战 | 人工智能数据集标准化与共享机制的探索
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 北京国家金融科技认证中心有限公司 李冬妮 张海燕 温昱晖
2017年《新一代人工智能发展规划》的发布,将人工智能发展提升为国家战略目标。一方面为金融创新带来了更多可能,另一方面人工智能应用面临的安全风险问题日益突出。第三方测评机构安全评价是有效分析和控制人工智能金融应用安全风险的重要手段。本文从第三方测评机构的视角,盘点金融行业人工智能应用存在的问题,提出金融行业人工智能标准数据集的建设方案,为人工智能金融应用的数据标准建设提供参考,探索数据开放共享的长效机制,促进人工智能在金融行业的良性发展。
人工智能标准数据集的设计思路
金融行业人工智能标准数据集的设计思路可采用自顶向下的设计方法,顶层通过标准化数据集元数据框架和元数据数据字典,统一数据集描述规范;向下通过细分金融应用场景和数据类型,分主题搭建标准数据集;最终形成满足金融行业人工智能应用需求的高质量测试数据集。
1.数据集主题
金融行业人工智能数据集主题的划分不应简单依照数据类型,还要结合场景分类,主题的划分应映射数据与场景的关系。如图1所示。目前,人工智能的金融应用主要集中在智能风控、智能客服、智能营销、智能投顾等领域,主要使用人脸识别、自然语言处理、语音识别等技术,数据类型主要有音视频、图片、文本等。
图1 金融行业人工智能数据使用参考
因此可将数据集主题按照层次划分,第一层按照数据集的数据类型分类,划分为图像、视频、音频、文本;第二层按照应用场景分类,划分为人脸识别、活体检测、文字识别、机器翻译、语音合成、声纹识别等。统一数据类型的数据集可对应多种场景分类,如一个音频数据集即可用于机器翻译又可用于语音合成,通过数据集主题的层次分类,最大程度地体现数据集特征、匹配数据集用途,如图2所示。
图2 数据集主题划分参考
2.元数据数据字典
元数据的数据字典规范了元数据数据结构,金融行业人工智能标准数据集的所有元数据均应按照统一的数据格式来描述。元数据数据字典包括数据中文名、数据英文名、数据类型、数据值域、数据定义、数据约束、备注等。
3.元数据框架
金融行业人工智能标准数据集元数据,主要用来描述数据集的数据属性。考虑金融行业人工智能技术应用场景丰富、任务类型多样、数据类型众多、规模庞大、数据质量要求高,为满足行业内交互与共享的需求,金融行业人工智能标准数据集元数据的内容框架可分为摘要元数据、主题元数据、实体元数据。
摘要元数据:概述数据集的基本描述信息,适用于所有数据集与应用场景,与数据类型无关。如数据集说明、数据集权属、数据集主题、数据集访问地址、数据集版本号及数据集发布时间等。
主题元数据:描述数据集所属主题的通用特征信息,突出数据类型及主题场景的通用特征。如图片主题数据集的采集对象、拍照设备、分辨率、图片数量等;语音数据集的语种、时长、录音设备等;文本数据集的语种、语料、是否格式化文本等。
内容元数据:描述数据集内容特征的描述信息及结构化数据集的数据字典元数据等。
摘要元数据统一提取金融行业人工智能标准数据集的概述信息;主题元数据突出不同数据集应用场景的共同特征,引导细分领域下数据集的适配;内容元数据详细地描述了数据集的结构化数据及非结构化数据特征,是对于数据集最详实的注解。
按照上述结构和组成发布数据集元数据,可提高数据集可读性和易读性,从而为高质量金融行业人工智能标准数据集的搭建以及数据验证、评价提供基础保障。
人工智能标准数据集共享机制
作为金融科技家族中的重要一员,人工智能技术的创新发展和应用离不开“开源”这个核心要素。人工智能产业生态链上游对基础软硬件及算力的需求,促进了人工智能基础设施服务能力的开放共享;中游核心技术的开源开放,促进了算法的迭代更新;下游通过数据共享的实践及业务机制的互联互通,将技术、应用与场景深度融合,合力打造人工智能产业生态链的可持续发展。在搭建人工智能测试数据集的过程中,也将秉持并实践“开放合作,共建共享”的理念。金融行业人工智能测试数据集的共享机制,可分为数据集开放式共享和数据集开放式评价两部分。
1.数据集开放式共享
建立基于元数据的金融行业人工智能测试数据集的开放式共享机制,一方面是为了给金融机构提供高质量、易获取的数据集;另一方面也是为了促进金融应用细分领域下的行业标准数据基线的形成,进而指导金融机构更好地对标人工智能应用效果。
首先,应明确数据集共享生命周期的定义及组成,并完善数据共享各阶段的管理机制,包括但不限于各阶段的参与人、角色、职责、权力等,以确保数据上传、授权、存储、下载、更新、验证及销毁等各环节的流畅运转。
其次,应建立数据开放式共享协议,明确数据共享的授权分类,管理数据活动范围,保护数据所有者的相关权利。数据开放式共享协议的建立可参考知识共享协议(Creative Commons License,以下简称CC协议)或开放数据库协议(Open Database Licence,以下简称ODbl协议)。CC协议适用对象是创作内容和数据(包括不限于照片、文本、数据等),规定了知识共享的适用范围,知识共享授权的6种组合(包括是否允许商业使用、是否要求署名等),且该协议已经完成了中国大陆地区的本地化,标志着该协议在中国大陆法律框架体系下的效力。ODbl协议适用对象是数据库,提供3种类型的开放数据共用授权许可。该协议是国际通用的许可协议,但还未完成中国大陆地区的本地化工作。
最后,应考虑数据共享的公正性与透明性,以充分调动共享机制参与者的积极性,最大程度地保障各方利益。在这方面可考虑将联盟链作为数据共享机制的载体,将数据集部署上链实现数据集的多节点存储备份,并利用区块链特性,实现数据流转记录的可追溯,增强数据共享机制的透明度,减少数据所有者对数据存储安全性与公正性的顾虑。
2.数据集开放式评价
金融行业人工智能测试数据集的开放共享不仅是简单的数据分享及数据获取,更应是数据流通与数据评价的开放共享,以数据为驱动引导人工智能模型的优化,充分释放数据的潜在价值,加速人工智能技术在金融行业的落地与推广。
数据集优劣的评价可以从两个层面入手:一方面,从数据本身出发通过分析数据的完整性、一致性、准确性、可用性等,评价数据集在数据质量上的好坏;另一方面,从数据集的应用与表现出发,测试通用开源人工智能模型(如Facenet、East等)在数据集上的应用效果反应数据质量的好坏(如对比准确率、召回率、R2值等人工智能模型评估指标),分析数据集的特征表现,具体参考可见表1。
表 1 数据集评价项参考
金融行业人工智能测试数据集的开放式共享机制的参与者,无论是数据贡献者还是数据获取者,都可公开、公平地对数据集的数据质量和应用质量,进行评价、对比,促进金融行业人工智能测试数据集的去芜存菁,形成良性循环。
人工智能标准数据集与
开放共享机制发展之路
着眼当前,落地金融行业人工智能标准数据集与开放共享机制还需诸多产业政策的扶持与行业各方的共建共治。
1.人工智能数据合规性的法律支持
环顾全球人工智能产业发展,人工智能数据的安全性及合规性成为制约人工智能发展的主要掣肘,各国都将该问题提升到国家战略高度,并积极通过立法防范人工智能带来的风险。
2021年4月21日,欧盟发布了人工智能立法提案。该提案从风险监管角度为欧盟人工智能发展设计了顶层法律框架,适用于人工智能产业生态链的所有参与者,明确了人工智能高风险的属性,从风险管理、合格评定、监督管理等多个维度对人工智能发展提出管理要求。其中,“第10条数据与数据治理”首次提出训练、验证和测试数据集应是有代表性且正确的,且应具有统计属性的管理要求;使用训练、验证和测试数据集前,应评估数据集的可用性、适用性、完整性及无偏性等,对人工智能数据集的数据质量提出了明确的评估要求。同时,“第15条准确性、鲁棒性和网络安全性”明确提出应对人工智能模型进行干扰数据集攻击预演,以确保模型具备适度鲁棒性,具备中毒漏洞的解决方案。该提案在多个章节提到了对人工智能训练、验证和测试数据的安全性要求,以及标准化要求等立法实践,足见欧盟对人工智能数据监管、数据保护及数据合规的高度重视。
与欧盟以高风险防控理念为指导的顶层立法框架设计不同,美国人工智能立法更寻求人工智能风险防控与技术创新的有效平衡。自2019年以来,美国各州陆续推出了一揽子人工智能立法草案,但时至今日大多数草案仍处于讨论阶段,尚未正式发布。
我国高度重视数据隐私保护和知识产权保护,已颁发《知识产权保护法》《消费者权益法》及《网络安全法》等多项法律法规。然而伴随人工智能技术的迭代更新,对传统法律法规的有效性带来了新挑战,厘清人工智能立法的法律主体、内容及特征,基于原有法律体系进行调整和适配,可加速人工智能数据合规的立法速度。
2.人工智能产业链的资源整合
金融行业人工智能标准数据集的建立与开放共享机制的形成,仅靠一方之力远远不够,需要人工智能产业链的多方共建。科技企业、金融机构、监管机构、三方测评机构,着眼于行业共同利益,认识到行业共享的本质不是价值的让步而是价值的再造,打破彼此壁垒,整合数据资源、科学技术与测评手段形成产业合力。
放眼未来,形成具有金融行业特色的人工智能测试数据集,面对金融机构提供测试数据的通用标准,拉平细分领域下测试数据的差异,指导人工智能金融应用模型的选型与评价,进一步可助力监管机构实现穿透式监管目标,促进人工智能金融应用生态圈的良性可持续发展。
结 语
综上所述,搭建金融行业人工智能标准数据集,为行业创新提供公共数据资源和试验土壤,建立人工智能数据集开放式共享机制,明确数据授权的分类和使用限制,有效控制数据共享安全风险促进数据合理化使用,从而形成统一的数据集发布和评价规范,不仅有助于激发人工智能模型检测方法和检测手段的创新,也有利于建立客观公平的评价体系,更有益于人工智能金融应用相关标准建设的推动。
(栏目编辑 :韩维蜜)
往期精选:
(点击查看精彩内容)
● 实战 | 广东农信基于软件功能点方法的小型需求排期优化策略及模型
● 实战 | 以数据驱动,高效运营——广发证券结算业务数字化转型之路
《金融电子化》新媒体部:主任 / 邝源 编辑 / 傅甜甜 潘婧