汇业评论 | 大数据行业之数据缓存合规:玫瑰如何赠,余香能否留
对大数据行业而言,数据缓存不仅有利于提高数据查询/处理的效率和便利性,而且有利于扩大自有数据池、提高数据复用率,继而降低数据成本,长远来看更有利于拓展业务空间。因此,大数据公司有极大的利益驱动和诱惑去缓存数据。但是,自考拉征信、黑格数据、新颜科技、同盾科技等为代表的一系列大数据涉刑案件以来,大数据公司如何合规的“赠人玫瑰”(数据输出),能不能“手留余香”(数据缓存)等问题,成为业界普遍关注的重点合规难题。
本文中,汇业黄春林律师团队结合行业实践及类似项目经验,就业界普遍关注的能不能缓存、如何缓存以及能不能使用缓存数据等问题,简要分析如下:
一、场景实例
实例1:联网身份核验供应商
互联网金融、网络游戏、在线旅游等很多业务场景中,需要在账户注册时满足三要素或四要素身份核验合规要求。但是,这些行业几乎很难直接获得具备身份核验能力/资质的NCIIC、运营商、银行等的“一级”核验接口,因此,具备相应接口资源的“二级”大数据供应商就有了广阔的市场。
实例2:大数据风控供应商
电商、小贷、消金、保险等场景中,需要外部大数据供应商提供反欺诈、风控、信审等服务。而数据源的多样性、质量性、时效性又是衡量大数据供应商服务能力的重要指标,有时大数据供应商还要承担间接担保责任。因此,大数据供应商往往会从多个上游数据源获取数据,并通过算法模型实现数据融合及数据输出等大数据风控服务。
实例3:账户信息归集类应用
信用卡管理、生活记账、违章查询等场景中,为了方便用户“一站式”管理账户及信息,APP应用平台往往会从下游用户端归集账号及密码,从上游信息端查询、归集交易信息等。
实例4:健康医疗科技服务商
健康管理平台往往会从不同的渠道(如第三方可穿戴设备)采集用户的健康信息并推送给用户健康管理资讯;医保科技公司往往会从不同的政府平台、医疗机构采集患者就诊及入院等数据,推送给保险机构;AI辅助诊断供应商,往往会受医疗机构或患者委托处理大量医疗数据(例如CT片等)。
在上述几个实例中,这些供应商、平台都有一个基本特征:左手从上游获取数据,右手“倒卖”给下游终端客户,属于典型背靠背交易的“二道贩子”。为了提高服务效率、降低服务成本、拓展未来业务版图等目的,这些“二道贩子”就有极强的利益驱动去缓存数据。这时,“二道贩子”能否缓存上下游数据?如何缓存,以及能否二次使用?
二、能否缓存上下游数据
1. 大数据公司能否缓存上下游数据,首先看有没有协议授权或者协议限制
若上游接口/数据合作协议(或开放平台协议等类似名字)明确禁止落库、禁止缓存接口数据的,则大数据公司只能开展“通道业务”,不行形成“数据池”,此时大数据公司的核心价值,就在于接口资源、算法模型以及技术对接服务等。否则,轻则构成违约或不正当竞争,重则构成侵犯公民个人信息或非法获取计算机系统数据罪,如考拉征信及黑格科技案件。
另一方面,大数据公司还应当审查下游业务合作/服务协议中的授权是否充分、真实及有效。例如,需求方提交的三要素、四要素是否合法获取并经用户授权,征信查询请求是否真实且有场景;应用平台直接缓存用户终端账号密码等敏感信息的,是否以显著方式获得用户明示同意;等等。否则,轻则行政违规,重则构成侵犯公民个人信息罪,如北京华数互动公司、沈X等侵犯公民个人信息罪一案。
2. 大数据公司能否缓存上下游数据,其次看法律/标准是否有明确禁止性规定
金融、健康医疗等行业中,数据存储有严格的法律及标准性限制。汇业黄春林律师团队介绍,例如根据《非金融机构支付服务管理办法》等规定,电商平台、聚合支付机构等非支付持牌机构,不得过手支付业务信息(支付账号、收单信息等);根据《个人金融信息保护技术规范》等规定,金融科技公司等非持牌金融机构,不得存储C3、C2类个人金融信息;根据《医疗器械注册管理办法》等规定,AI辅助软件或系统,未依法注册为三类医疗器械,或者未办理医疗新技术备案的,不得处理、存储患者的诊疗信息;等等。
3. 大数据公司能否缓存上下游数据,最后看是否满足业务/技术必要性
在部分业务场景中,因技术局限性或业务安全性考虑,或者基于业务对账、交易审计或技术验证等目的,在充分论证合理性并遵从下文缓存合规要求的前提下,可以按照行业通行的惯例适度缓存。
三、数据如何缓存才合规
首先也是最重要的,需要确保缓存系统/设备的安全性及合规性。即:承担缓存任务的系统/设备符合《网络安全法》等规定的一般合规要求,例如CII\MLPS等合规要求;使用的密码技术还应当符合《密码法》等要求。
其次,如在实例2、4中,大数据公司尽量帮助客户私有化布置算法模型,即布置在外侧(数据源侧或者客户终端侧),通过前置机、堡垒机等形式,在算法模型端缓存数据,以保证数据不出库/塔内处理,避免将数据上传至公有云端或者下载至大数据公司本地服务器。
再次,如在实例3中,平台类APP尽量在客户端发起查询请求,并在客户端缓存数据,避免在服务端缓存数据。
此外,除非有明确的合同或法律依据,缓存数据的时间不宜超过48小时,超过期限后应当作删除或匿名化处理。汇业黄春林律师团队理解,基于专业论证的业务/技术之合理理由,需要继续缓存的,应当去标识化处理,且应当将标识符/索引码等与去标识化的数据分开存储。
最后,必须坚持权责一致原则。大数据公司一旦缓存了数据,应当制定相适应的数据安全管理制度及操作指引,建立数据安全影响评估机制,从严规范缓存数据的访问控制及权限管理,明确责任机制及责任人员,开展相应的安全教育培训,等等。
四、缓存数据能否使用
对于如前述实例中的通道类大数据业务而言,缓存数据必须坚持“当次用尽原则”。所谓当次用尽,即仅能基于当前业务的当次需求使用缓存数据,不能超范围、跨交易、跨主体使用缓存数据。
例如,在实例2中,在贷服、助贷等业务场景,大数据公司受指定机构委托,基于确定交易(确定金额、确定时间、确定资金端等)开展面向特定用户的大数据风控(一道风控,最终风控应当由持牌机构自行完成)时,授权获取的上游数据源,仅能用于对当前业务的当次需求(指定机构、确定交易、特定用户)。汇业黄春林律师团队理解,一旦当前业务的当次需求的任一要素发生变化的,原则上应当重新获取上游数据,这不仅是基于对政策/协议的遵从,更是对数据质量的负责。
当然,“当次用尽原则”并不是说缓存数据只能绝对用一次,否则就没有缓存的必要了。事实上,基于当次业务但多次使用缓存数据在实践中比较常见。例如,在征信报告使用中,央行征信中心原则上允许征信查询方缓存征信报告一段时间,以满足金融机构对借贷方在当次借贷业务存续期间的动态风控管理,部分机构还会利用动态风控数据训练、修正、迭代早期风控模型。
此外,在使用缓存的数据过程中,还应当满足法律法规的一般合规准则。例如,判断输出数据(例如标签化数据、特征数据)是否为个人信息,是否经数据主体充分有效授权,是否会被认定为实质从事征信服务,是否违反金融风控等核心业务禁止外包的规定,是否符合KYC及适当性合规要求,等等。
黄春林
汇业律师事务所高级合伙人
Ramon.huang@huiyelaw.com
黄春林律师,现为上海市律协互联网与信息技术专业委员会副主任,主要执业领域为网络与数据合规、高新技术及泛娱乐领域综合法律服务,常年为数十家境内外企业提供前瞻性法律服务解决方案,2019年在人民法院出版社出版专著《网络与数据法律实务:法律适用及合规落地》,多次被LegalBand、知产力等评为中国顶级律师之一。
作者往期文章推荐:
增值电信业务许可之告知承诺审批:羞答答的玫瑰静悄悄地开
带刺的玫瑰:上海自贸区离岸数据中心试点政策解读
中国央行数字货币DC/EP的十大法律猜想
《个人金融信息保护技术规范》解读:全生命周期的技术与管理二元合规控制
十余位网安及数据合规大牛热评新书《网络与数据法律实务:法律适用与合规落地》
十余位知名外企法务大咖热评新书《网络与数据法律实务:法律适用与合规落地》