清华大学张超:
实现数据确权与保护,
数据密态渐成行业共识
作者:张超 清华大学网络研究院副教授、MITTR35 China获得者
近期,推动数字经济健康发展,成为了各方热议的话题。随着移动互联网、云计算、物联网、工业互联网等信息技术的快速发展和落地应用,网络空间积累了海量的数据,涉及现代社会运转的方方面面,包括个人信息及各行业生产流通数据等,蕴含着巨大的价值。而人工智能等技术的发展,进一步提升了从海量数据中提取价值的能力。在广泛的数据来源以及丰富的数据处理能力基础上,人类社会正在进入数字经济时代,数据成为新时代的“石油”。国家《“十四五”数字经济发展规划》指出,数字经济是继农业经济、工业经济之后的主要经济形态,是以数据资源为关键要素的新经济形态。推动生产要素数字化转型,充分开发和利用数据中的价值,是发展数字经济的重要途径。数据作为一种特殊的资源,具有所有权、使用权、运营权、收益权、隐私权等不同的权利属性,明确数据的权利所有者是实现数据流通及交易的前提,只有产权界定清晰、权责明确,数据才能共享流通,发挥其价值。同时,在数据的流通及交易过程中,必须确保数据的相关权利以及隐私性得以保护,才能支持数字经济的健康持续且高质量发展。
然而,不同于实体经济的石油,数字经济的数据资源具有独特的性质,为数据的确权、流通和交易带来了挑战。首先,数据具有可克隆性。明文的数据在流通过程中被克隆后,新数据与原来的数据无法区分;进一步,不同来源的数据可以融合为新的数据;而新数据经过分析处理之后可以进一步提炼为新的数据;导致数据的产权边界随着流通而变得模糊,为产权保护带来极大挑战。再者,数据存在隐私属性,通过数据分析可以提取数据所有者或者提供者的信息,包括个人隐私信息等。如何在开发利用数据价值的同时保护隐私,是数据流通及交易中需要解决的另外一个重大挑战。在早期的数据产业生态中,数据的使用简单粗暴,从用户侧未经授权直接采集数据,用明文直接传递数据,以明文形式存储敏感数据,带来了巨大的安全和隐私问题。数据明文形态给数据的确权、流通及交易带来了挑战,数据产权难以确定和验证,数据流通过程中隐私泄露风险高。今年1月,中国信通院组织的隐私计算合规白皮书座谈会上,蚂蚁集团副总裁韦韬提出:“个人信息的保护对社会、对企业的影响都是非常大的,我们将正式步入前所未有的数据密态时代。”这一技术洞察很好地反应了当前数据流通领域现状,现在看来,已然逐渐成为行业共识。在数据密态时代,数据将以密态形式在主体间流动和计算,密码学技术和隐私计算是关键手段。利用公钥密码等技术对数据进行加密,可以定义数据主体身份,明确密态数据的产权所有者为密钥拥有者,并可以向其他主体证明数据的所有权,且防止数据泄露,从而有效支撑数据确权等。推动数据确权,需要充分利用创新的技术手段。其中,多方安全计算等隐私计算技术,可以在不转移原始数据的前提下实现对数据的开发利用,推动数据所有权和使用权分离,实现数据“可用不可见”。不过隐私计算等数据匿名化技术在没有限定的开放环境下,仍存在数据被恢复识别的风险。针对这个问题,产业界的解决方案提供了很好的参考,例如蚂蚁集团提出的“可信隐私计算”能很好的满足对环境的管控、对使用场景的限定、以及对审计的支持,使合规性、数据权益管控达到好的平衡点。通过融合隐私计算与可信计算技术,可以有效解决匿名化后个人信息重新被识别的问题,实现“可算不可识”。密态数据的隐私计算技术,解决了数据确权与隐私保护的很多痛点,但是在实践落地中仍然存在挑战,需要进一步融合多种技术甚至与法规相配合,才能更好地推动密态数据的确权、流通与交易等商业应用的实用化落地。首先,隐私计算单一技术并非所有应用的最佳解决方案,例如在密态数据的登记与检索方面,与区块链技术相结合的隐私计算技术可以更高效地实现密态数据的确权登记、确权记录检索、交易登记、交易记录检索等。其次,当前的隐私计算计算面临着效率瓶颈,包括本地计算效率以及网络通信效率等,解决效率问题的技术途径包括针对隐私计算的专用芯片、优化的隐私计算算法等。第三,隐私计算系统也面临着传统的安全风险,在开放的网络与系统环境下,其逻辑和数据的完整性可能受到破坏,因而也需要硬件、系统、算法多维度的技术协同,确保隐私计算技术的底座安全性。最后,技术方案不能完全解决数据确权与合规的问题,需要标准、法规的支持与配合。当某个隐私计算方案失去了其承诺的数据保护能力时,需要通过行业标准、国家标准、法律法规的支持,让业界有规可循,才能实现其商业应用的合规。过去中国在很多技术的发展上都滞后于国际水平,但是数据安全领域还处在发展早期,以数据为要素的数字经济处于发力阶段,中国是有机会在世界范围内领先的。“数据密态”将成为整个数字领域的核心竞争力,也是行业发展的共同诉求。大力发展可信隐私计算等技术,有望推动数字经济高速发展,成为我国经济发展的下一轮强劲增长点。