金融银行业目前在实际应用中有以下痛点:一是数据使用是否含敏感信息的选项依靠各环节人工判定,主观性较大;二是数据文件下发前缺少相关技术工具进行内容扫描,无法管控实际流出生产系统的数据文件;三是数据治理工作虽已为行内数据标准完成定级,为数据出口管理工作提供了重要依据,但两者缺乏便捷的对接渠道;四是数据安全管理办法发布后,暂时未有有效的系统载体承接和落实相关管控规定。
随着外部数据安全管理的要求逐渐增多,各大银行已加紧数据安全管控体系的建设。工行、农行、中行、招行等银行,皆加大自身资源投入、通过自研开发或与第三方合作,契合当前数字经济大浪潮下的安全管控变革的需求,建立数据安全管理系统以达到法律法规与外部监管要求。根据前期调研,相关同业为提升自身数据安全管理能力,均对核心和重要系统加紧安全技术防控,在数据分级管理、敏感数据识别、安全检查审计和技防能力提升等方面,逐步将数据安全体系建设向精细化、自动化和成熟化推进。
综上,为进一步加强数据出口的安全扎口管理,推动我行在数据安全治理、数据安全保障、数据安全体系建设能力不断增强,拟设计规划数据安全管控全方位升级的系统建设规划。交通银行建设数据安全管控系统升级项目,旨在以数据安全交换平台为基础,以整体数据安全运营为目标,建设全方位的安全管控系统功能。项目建成后拟达成以下效果:一是提升敏感数据认定识别的技术能力,通过人工和技术手段相结合,实现敏感数据的精准定位;二是应用数据分类分级和敏感数据定位,在数据出口、分析等重点数据场景中实现数据安全管控的精细化、便利化,提升数据出口流程与数据出口安全管控质效;三是建立数据安全评估、安全监督等管理功能,实现数据安全管理工作的系统化运行,实现对重点场景数据安全情况的整体管控。本规划项目可细分为五大模块,以安全管控引擎模块为技术支撑,拟建设安全监督、安全评估、成熟度评估管理、安全传输四部分内容。项目规划如图1所示。
来源:交通银行
图1 交通银行数据安全管控系统升级项目规划图
安全管控模块是数据安全评估和数据治理分类分级的重要应用渠道,主要有AI数据识别引擎、数据文件扫描模块,并与数据治理平台实现对接,在数据分类分级的结果上对传输数据完成数据的分类分级检测。AI数据识别引擎模块拟结合文本识别、知识图谱和AI模型等技术,对数据出口用数场景申请描述信息及附件进行内容扫描、字段识别、文本分析和关联匹配,对用数场景是否涉及提取敏感数据进行预判,为使用数据用数场景审核工作提供技术保障。数据文件扫描功能依据常见敏感字段清单和根据分类分级检测得出的扫描规则,对所有从生产环境上传,需要下载至办公环境的数据文件进行扫描。扫描结果若与用数场景敏感信息标签不一致,将触发新的提级审批流程。此外,系统可基于前期样本,利用机器学习能力,对规则模型进行持续的更新、优化。本项目计划在数据出口用数场景申请界面新增接口,通过下拉框选择和模糊搜索的方式匹配数据出口涉及字段和数据标准安全定级结果,以精准应用数据治理分类分级成果。安全监督模块拟对数据分析平台等重要数据应用场景中的数据行为进行事后评估和检查,排查数据活动合规性,防止数据外泄,及时修正与完善潜在漏洞及不足。相关功能如下:整合并抽取对接系统的安全管理日志,系统针对日志内容进行扫描,提取日志有效内容,在系统中以表格形式展示提取结果,并支持导出或加载至分析平台进行检查分析。通过文本识别、知识图谱或AI模型等技术,对提取的日志内容进行敏感信息扫描。若扫描识别出相关内容,则以表格形式展现,从而达到在线用户的实时/非实时监督效果。对接入系统日志内的元数据进行识别,将识别出的表格字段与数据分析平台样本进行关联,显示表格权限及脱敏情况,并将识别结果通过表格的形式在系统中展示,从而及时发现并修正表格脱敏漏洞。设定检查策略模板,可自定义设定监督和预警规则,对接入系统的场景和用户进行自动化预警任务推送,安全管理人员对推送任务进行日常管理和记录处理。安全评估模块包括安全评估、场景规则、分析管理、统计管理功能四个部分,实现对规定的场景事前进行数据权益保护影响评估并对相关处理情况进行记录、分析、统计、管理,并通过可视化展示等方式方便直观了解我行数据安全评估的管理状态。通过安全评估,推动落实数据安全管理的法律合规和外部监管要求,在事前检视数据安全威胁和风险,保障数据安全。对于符合数据安全评估要求的重点数据活动,数据申请方发起新建数据安全评估事项,填写相关信息并进行数据安全自评估,按照规定流程进行审批并归档,以表单流程作为主体功能,逐步优化评估要素和业务流程,通过自动化对接现有业务流程的方式扩大全行数据活动场景的安全评估覆盖面。建立场景规则库,设置不同数据活动的评估项、评估权重、评估模型等,并应用在相应的评估场景中。对于“监管要求”和“公检法调阅”等特殊场景,设立“自评估绿色通道”,提高评估效率和自动化能力。根据评估决策规则库和历史评估相似度分析,分析特定的数据处理活动是否会对信息主体合法权益产生影响及可能产生何种影响,并判断相应安全措施能否有效降低潜在影响。根据自动化落差分析结果,辅助审批及复审的评估决策。统计历史评估事项,管理场景规则库与决策规则库。可根据法律法规对“自评估绿色通道”及其他场景规则进行修改,满足不同维度的影响性评估结果统计分析,支持分析结果可视化展示、历史记录查询、人工维护、批量导出等功能。成熟度评估管理模块将汇总安全评估及成熟度评估结果,及时归档评估文档,确保评估过程有迹可循,评估结果有据可依,以便日后监管审计调阅。系统支持批量上传文件,批量导出,在线预览,模糊匹配,权限控制等功能,用户可根据评估内容对文档进行分类标签化管理,通过标签可以对同一对象实现多重分类的管理目标。用户对评估文档的操作将形成日志记录,日志将通过表格方式展现,并支持根据时间、操作内容等维度导出。现已实现的数据出口模块主要包括数据出口的审批流程及数据的安全传输通道,本项目拟在此模块基础上,扩大适用范围,覆盖境外行、村镇银行的数据出口场景。同时,根据安全管控模块的敏感数据识别结果,数据出口模块做安全管控的适应性改造,优化审批与传输流程,如图2所示。图 2 交通银行数据安全管控系统安全传输模块
核心引擎在逻辑层面主要分为两套。一套是人工自定义规则库和管理功能群,主要使用进行自定义规则的识别和安全策略输出;另外一套为AI智能,主要目的为基于人工自定义规则相关功能的基础上,提供辅助决策、数据分类训练和策略纠偏等功能。在功能层面主要包括数据标签识别、数据活动管理、业务场景管理、安全策略管理和AI工具几部分。核心引擎接受前置的文件解析模块工具,将传入的文件或数据转换为结构化的二维表,从中提取数据字段内容并支持样本预览,并将格式化数据的提取结果作为核心引擎的输入,结合数据活动和业务场景的参数,根据安全策略表内的配置,输出安全管理要求和策略。AI工具主要作为辅助模块存在,在人工规则运行一段时间后,接收管理系统内产生的相关数据作为训练集,成熟运行后可提升人工规则定义库的精确度。数据标签识别功能可以根据设定好的字段规则识别传入的字段名和字段内容,映射各字段和字段项下应挂钩的标签。传入的字段经规则识别后会显示与之挂钩的标签,根据字段标签、具体的业务场景和数据活动,系统会输出相应的安全策略或分类结果,最后一并交由人工复核。数据标签识别、数据活动管理、业务场景管理和安全策略管理等功能,是实现对于数据字段的规则、标签、安全策略、使用的业务场景及数据活动的增删查改操作,安全管理系统相关用户也可查看所有的策略输出结果及需求审批结果。对于需求申请者或用数场景发起者,只需上传需要的数据字段,填写需求内容或用数场景内容,包括但不限于场景概述、数据范围等,随后系统会根据设定好的规则标签分类打标,结合填写的业务场景,自动给出相应的安全策略,随后审批者会对结果进行人工复核,并将最终结果反馈给需求者。
对于数据安全管理系统的用户来说,其有权查看所有的用数场景结果及需求反馈结果,可以根据时间、发起人、标题等进行筛选并查看详细内容。除此之外,系统管理用户还可进行原子规则、标签识别规则、安全管理标签、数据活动、业务场景及安全策略的管理,具体各功能如下:
1)原子规则:指用于文本内容识别的基础逻辑,如文本长度、是否有浮点数等。管理系统用户可以增加、删除、查询、修改原子规则。一个或多个原子规则组合起来即为二级规则,可用于识别字段,如总长11位、以1开头、第二位是3-8的字段是手机号码,管理系统用户同样可以对二级规则进行增删查改等操作。管理系统用户首先通过设置二级规则识别字段名,随后可设定与字段挂钩的标签,每个字段可以设定多个标签,部分标签间相互冲突,如同级子标签不可共存。3)安全管理标签:指描述字段性质的标签,如分类等级、字段归属、是否公开等。安全管理标签包括信息主体标识、公开性标识、数据类型标识等,各级标签下又有子标签。管理系统用户可以增加或删除标签,修改标签内容或者查询使用该标签的规则。4)数据活动:指确定数据集为客体的具体行为活动,本质上是生命周期各环节的细化和拓展,包括出行、出境、查询、下载、与第三方合作建模、自动化决策等。系统管理用户可以管理数据活动项,如下载、出行等,每一数据活动的定义及其数据生命周期环节的归属皆可由系统管理用户设定。5)业务场景:指发生数据活动的具体应用场景,如监管报送、公检法调阅等。系统管理用户可以配置业务场景基本定义、场景要素,关联安全策略并添加额外要求。6)安全策略:指各类数据字段根据数据活动的不同,需申请人员或部门落实的具体安全管理策略。系统管理用户可根据数据字段标签及其数据活动的不同,设定不同的安全策略,如个人敏感数据查询需经授权并严禁下载。在原有安全交换流程基础上进行安全管理提升和出口管控,识别交换数据的敏感程度以及在数据活动、业务场景基础上的管理要求。数据借用等用数场景发起者填写用数场景申请书,在原有“借用场景、借用起止日期、借用方式”等输入字段的基础上,增加“数据活动、业务场景和数据识别后的标签情况”,作为输入参数通过核心引擎策略判断,文件解析模块解析数据字段,自动分类打标,结合填报的业务场景及数据活动给出安全策略反馈,如图3所示。安全管理系统用户相关角色对结果进行人工复核,确认是否字段打标错误或者给出了错误的安全策略,如无误则将反馈结果附于用数场景后传递给取数部门;如果结果有误,则以人工判定为准,将人工审核结果和原有引擎判断情况作为“正负样本进行留存”。同时管理系统用户需要在相对应的管理页面修改或删除错误的配置,优化和纠正识别规则等。图 3 交通银行数据安全管控系统核心策略引擎联动(一)数据安全影响性评估流程与数据借用流程类似,需求申请者填写需求申请单,包括需求应用目的、场景概述及相关评估场景的自评估情况,并上传拟申请下发的数据字段。需求申请如有个人敏感信息的出行、下载等,需要先进行数据安全影响性评估,在数管部审批节点交由系统核心引擎解析字段,分类打标,根据场景及数据活动那个的不同给出不同的安全策略,再进行人工复核,人工复核无误的才能交由业务部门会审,如图4所示。图4 交通银行数据安全管控系统核心策略引擎联动(二)数据内控监督涉及到分析平台数据的分类,判定各数据字段是否应脱敏,可以从数据分析平台直接传入分析数据,由核心引擎判别字段,分类打标,再根据标签结果判定字段敏感度,从而给出反馈说明是否需要脱敏,如图4所示。图4 交通银行数据安全管控系统核心策略引擎联动(三)主要用于统计纠偏识别规则,如规则在哪个模块内命中了多少次、场景下命中了多少次等。此部分主要统计字段标签的命中情况,即在一定单位时间内,不同业务场景下、不同的业务模块内系统自动匹配到了该标签多少次,并能展示所有使用了此标签的字段所在的需求或者用数场景。若系统自动打标与人工审核时的打标冲突,一般以人工打标为准,系统还能展示所有系统打标与人工审核相悖的用数场景或者需求,并可设定阈值,在同一字段标签人工审核与系统设定冲突达到一定次数时,提示审批者在标签识别规则页面删除或修改错误的标签识别规则,同时还可利用此模块的统计查询功能,定位受错误标签影响的用数场景或申请。
DSI金融工作组
DSI金融工作组目前共有27家成员单位,旨在促进金融行业数据安全技术交流,推广金融行业数据安全最佳实践,提升金融行业数据安全治理水平。2022年产出成果《金融行业数据安全治理案例汇编》,2023年DSI金融工作组将继续深耕行业研究,欢迎广大金融机构加入!
加入DSI金融工作组请联系:
姜铎 13521786562(微信同号)