沈艳:数据不用就安全了吗?
最近,一位在某大平台工作的师妹向我诉苦。她说,她的工作需要公司内另一个部门的数据支持,但是该部门拒绝了她们部门的请求。原因是,只要数据离开了本部门条线,即便是在同一公司内,也会担心数据使用导致的数据安全问题,而《数据安全法》提及的责任该部门承担不起,索性就不给了。她当然知道数据安全很重要,但她的苦恼是,没有数据,自己部门的业务怎么推进?
是不是不用数据,就能保护个人信息和数据安全?中国要发展数字经济,这个问题就不能回避。
数据要不要用起来?当然要用。中国的发展战略对这一问题的态度是明确的。2020年发布的《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》),明确了数据是新的生产要素。在过去数年间,全球数据量爆发式增长,而中国将成为世界上数据资源最丰富的国家。
根据Statista的统计,2016至2019年的全球数据量分别为18ZB、26ZB、33ZB、41ZB(1ZB等于10万亿亿字节);而国际数据公司(IDC)的白皮书认为,到2025年中国数据量将为全球最大,以48.6ZB的规模,占全球比重的27.8%。如果能将如此庞大的数据资源善加利用,其作为生产要素的价值与土地、资本相比将毫不逊色。
中央文件明确提出要加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值,这表明加快数据利用不仅是中国的优势,也带有紧迫性。
但是,使用数据这个硬币的另一面是,数据风险如影随形。
事实上,目前市值最大的苹果、微软、亚马逊、Alphabet(谷歌)、Meta(脸书),他们的发展历程中都不乏数据安全事件。例如,根据网站firewalltimes.com的统计,2021年8月,微软因第三方公司错误配置导致3800万条记录被泄露;2021年9月,一个名为Pegasus(飞马)的间谍软件感染了iPhone和其他苹果设备,该间谍软件会记录电话和信息,甚至在用户不知情的情况下打开设备的摄像头和麦克风;2021年10月,黑客将亚马逊旗下的流媒体平台Twitch上125GB的文件泄露给4chan,而此前数年亚马逊有多起员工售卖客户数据、以及第三方公司贿赂员工以获得数据或者打击竞争对手的事件;谷歌的数据安全问题主要是出在Google+上,如2018年11月的更新产生了一个API(应用程序编程接口)错误,暴露了5250万个Google+账户的数据;而脸书在2021年4月也发生逾5.3亿用户的个人资料在网上论坛泄露事件。
也就是说,数据安全和数据使用之间存在权衡,即便是技术先进的大公司,也没有办法完全避免数据相关风险。
那么,雪藏不用,是不是数据就最安全?事实上,为了保护数据安全而雪藏数据,反而可能是最不安全的安排。至少有如下几个原因:
第一,如果数据丰富的企业不使用数据,就无法了解数据特征,就不知道数据的缺点、弱点在哪里。孙子兵法所说的“知己知彼,百战不殆”,不使用数据,可能连“知己”都做不到,有效防范攻击也就无从谈起。
第二,不使用数据不利于发挥数据丰富企业的自身数据优势,甚至是放弃了核心竞争力。大数据的优势,不仅在数据量大,也在于维度丰富。数据丰富企业的核心竞争力在于通过整合共享不同维度的数据,实现大数据的高维优势。如果一家大企业内部对《数据安全法》的理解,都导致人为构筑企业内部不同部门之间数据的共通共享,那么大数据变得支离破碎,数据丰富企业不使用数据,属于“自废武功”。
第三,不使用数据难以“知彼”,无法通过实战学习应对攻击的措施,并作出有力防范。在“魔高一尺,道高一丈”的斗争过程中,无论是平台企业还是监管者,都需要通过处理各类安全事件来学习并获得经验,从而更能防范未来的安全事件。
例如,脸书5.3亿账户泄露事件的发现者Alon Gal披露了数据售卖过程:2020年初起就有犯罪分子以3万美元的售价出售5.3亿个账户数据;之后买家进一步以更低的价格转手卖出;这样价格越来越低,直至2021年变成免费泄露。追查数据泄露的原因发现,由于脸书没有对API实施适当的限制,脸书的联系人导入功能使黑客能够在每个API查询中导入多达5000个电话号码,并看到与查询的电话号码相对应的账户。这导致黑客通过列举世界上所有的电话号码对脸书数据库作查询的方法,获得了5.3亿用户的信息。
那么,为什么脸书的API会有这个疏漏呢?追究更深层次的原因发现,要让平台保持快速成长的态势,脸书就要尽量通过用户来获得更多他们的朋友的信息,而这为黑客获得更多信息提供了可趁之机。
上面的例子表明,数据风险也带来了宝贵的学习机会。无论是企业还是监管者,通过对数据风险事件的梳理,可以对数据被出售的方式、数据风险犯罪手法和企业发展策略等方面的问题均有更全面的了解。这些信息都是未来防范新的风险事件的抓手。
第四,即便不使用数据保障了数据安全,但有数据生产要素却不运用的代价是无法通过发展获取数字红利。如果企业内部、企业和企业之间、企业和政府相关部门之间无法有效共通共享数据,那么保护数据安全的初衷可能带来数据无法使用的结局。北京大学国发院副院长黄益平在《应加强而不是削弱平台经济创新能力》一文中列举的,印度新兴独角兽公司数量已经超越中国,成为仅次于美国的第二大国的现象,再次提醒我们,数据生产要素如果没有利用好,将不利于中国数字经济发展大局,并最终导致中国平台企业失去国际竞争力。
那么,到底应该怎么保障数据安全?
事实上,无论是《意见》还是《数据安全法》,指出的方向都是“以发展促安全”,而不是“为安全不发展”。
例如,《意见》强调了要“加强数据资源整合和安全保护”。通读之下可以看出在安全的基础上充分运用、从而充分盘活数据资源价值,是对待数据这一生产要素的大方向。
而《数据安全法》第十三条明确发展和数据安全之间的关系是“国家统筹发展和安全,坚持以数据开发利用和产业发展促进数据安全,以数据安全保障数据开发利用和产业发展”。第七条也明确,“国家保护个人、组织与数据有关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展。”
因此,对《意见》、对《数据安全法》的理解,都不应泛化成为不使用数据。
究竟应当如何实现以发展促安全呢?
培育市场、完善制度、发展风险可控的数据、开发共享工具是重点。当然,要系统化实现以发展促安全目标,可能需要成立一个高规格的数据治理委员会,统筹数据政策,包括制定数据生产要素的交易范围、算法治理和个人信息保护与数据安全等方面的指南;执行数据牌照的申请、审核、发放、限制使用和吊销,并知道相应数据安全问题的应对措施。
例如,数据安全中的常见问题是数据被泄露或者滥用。这一问题的产生与数据特征分不开。数据作为准公共品的非竞争性和部分排他性等特征,导致数据产品存在价格趋于零和确权难、交易不积极等问题;这让传统的先确权再交易的方式不完全适用于数据产品,从而存在数据供给不足的问题。
解决问题的一个途径,是推动公共数据有序开放共享和安全利用,使数据需求方无需或仅支付成本价格,从而降低交易成本和合规成本。目前,地方层面已在探索出台公共数据条例。增加更多公共数据,也能让《数据安全法》第三十二条“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”更容易落地。
又如,随着移动互联网和云计算技术的迅猛发展,越来越多的数据在云环境下进行存储、共享和计算,云环境下的数据安全问题也成为热点。从技术上解决安全问题,实现“数据可用不可见”,一种思路是采用基于密码算法及协议的隐私保护技术,另一种思路则是构建可信执行环境(Trusted execution environment,TEE),实现基于硬件安全的内存隔离的安全计算,以解决上述隐私保护计算的实现依赖于大量复杂计算的问题。
再如,数据安全和隐私保护的挑战中,防止用户数据被滥用甚至被出售的问题,可以通过推动算法审计来缓解。可以要求平台明确对不同利益相关方的由算法所体现的利益分配机制,并要求平台报告对算法训练和算法评估及选择中用到的数据来源和质量、算法预测或优化目标、算法使用的技术、算法运行效果等。通过对算法的评估,在风险到来之前对于平台企业算法的安全性有更全面的掌握。
视觉:李盼 浩然
监制:卜海森 李俊虎
来源:中新经纬