7月4日,蚂蚁集团宣布面向全球开发者开源可信隐私计算框架“隐语”。这是蚂蚁集团经过6年多的研究打磨,推出的集成当前主流隐私计算技术的通用框架,具备安全可验证,对开发者和使用者友好易用的设计。“隐语”开源背后蚂蚁有什么思考?蚂蚁隐私计算对未来的预期是什么?蚂蚁集团副总裁兼首席技术安全官、隐语开源社区技术指导委员会主席韦韬博士在“隐语”开源发布会上做了分享。
国家信息中心的研究指出数据要素流通存在五大挑战:确权难、监管难、互信难、定价难、入场难。背后的技术根源之一是因为数据易复制,特别是数据以明文状态流通时容易因分发失控导致各种严重后果。韦韬认为,数据流通领域即将开启“数据密态时代”的新征程——数据将以密态形式流通,以保障其流转、计算、融合直到销毁的全链路安全可控。数据密态将数据要素持有权、使用权和运营权分离,从而支持数据要素产业安全健康的发展。在数据密态时代最有潜力的支撑性技术是可信隐私计算,隐语作为一个开源的可信隐私计算框架,致力于打造一个安全、易用、社区共建的数据密态时代技术基础设施。
以下是韦韬演讲内容整理:
2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据作为与土地、劳动力、资本、技术并列的生产要素,要求“加快培育数据要素市场”。近年以来,多部数据安全有关的法律法规实施,包括《网络安全法》、《个人信息保护法》、《密码法》、《数据安全法》以及《民法典》,形成了“四法一典”的较为完备的安全法律体系。这些布局也体现了习总书记在2014年明确指出的“网络安全与信息化是一体之两翼、驱动之双轮,必须统一谋划、统一部署、统一推进、统一实施”。在实践中,数据要素行业的发展还面临着诸多的挑战。如国家信息中心王建东、于施洋、黄倩倩的研究论文指出,现在数据要素发展面临的五大难点:确权难、监管难、互信难、定价难、入场难。目前这些难点在技术侧,都直接或间接与数据的一个重要特点相关:即数据易复制,特别是明文流通的数据容易在分发过程中被复制,导致分发失控,从而会直接对定价、互信、监管都产生巨大的冲击。数据确权是数据流通所有的开始。但业界发现,数据要素作为一种新的生产要素,跟之前的土地、厂房、知识产权等要素都有非常本质性的区别。行业主管机构做了很多的研究,确定了数据确权未来会集中在持有权、使用权和运营权上,为数据要素行业的健康发展奠定了重要基础。我们认为,2022年,无论从法规政策要求还是技术成熟度上,整个数据流通领域将告别数据明文时代,即将开启“数据密态时代”的新征程。
数据密态是指数据以密态形式流通,保障其流转、计算、融合直到销毁的全链路安全可控。数据密态的重要价值是将数据要素的持有权、使用权、运营权分离,以支撑数据要素产业安全健康的发展。自计算机诞生以来,数据一直是明文流通和应用。从明文流通切换成密态流通,变化非常之大,大家习以为常的数据获取、传输存储、计算分析、融合应用全部都将发生显著变化,甚至数据高精确度计算也是要付出额外的成本才能实现。迈向数据密态时代,全行业数据将主要以密态形式来流通。实现的前提是一定要有全新的技术支撑能力和相关技术基础设施。这样的技术基础设施在可靠性、性能、成本、适用性和安全性保证上都面临着前所未有的挑战,需要承载各行各业多种多样的数字化业务。欧美技术领域和数据行业也没有这样的先例。中国目前的政策与行业发展环境,让我们有一个很好的创新构建数据密态生态的机会。
近年来,行业内对可信隐私计算提得非常多,理念和定义也有不同。中科院李凤华老师提的隐私计算(PrivacyComputing),强调的是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。而产业界提得比较多的是隐私保护计算(Privacy-preservingComputation),是保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,实现数据在流通与融合过程中的“可用不可见”。二者各有侧重点,都非常重要。隐私计算(Privacy Computing)是在2016年左右提出,更多强调的是对隐私的保护。而隐私保护计算(Privacy-preservingComputation)这条线更多强调的是对数据的保护,这两条线一起对隐私数据提供了未来行业亟需的保护能力。
我们和行业专家深入讨论过后,认为隐私计算往下再演进一步,会融合多方关键要素并结合数据要素行业实际发展需求,成为可信隐私计算。“可信”的解释非常多。我们与行业专家们讨论后认为,对“可信”定义的解释,要回到最本原上。可信隐私计算即在应用过程中,其安全性、可用性和隐私保护能力等应符合设计声明预期,以满足数据需求方、数据提供方和监管方等各方的需求,一般包含安全可证、隐私保护、流程可控、高效稳定、开放普适等基本特征。
可信隐私计算从安全性评估、隐私合规挑战等多方面,对隐私计算提出了很多新的要求。对于数据密态和隐私计算来说,安全性是立身之本。如果安全性保障不住,所有在这样的数据安全和隐私保护的技术基础设施上流转的数据都可能会被击穿泄露,这将对全社会、对国家都会造成巨大的损失。所以一定要坚持加强实战牵引的标准测评和认证。隐私计算发展之初,汇聚了多种不同种类的技术,包括多方安全计算、联邦学习、可信执行环境、差分隐私、同态加密等等。对隐私技术安全性的评估也一直是全行业面临的非常大的挑战,之前隐私计算的安全性评估是根据某个单独技术来做。但作为要真正支撑住行业的技术基础设施,一定是融合多种技术,也一定会有很多技术创新,这样的安全评估是无法依据单个技术线的安全标准来实施的。行业也需要通用的安全分级评估准则,保障好行业安全水位。隐私合规也是一个全新的挑战。隐私合规在各个国家有不同的要求。如何对技术层面提隐私合规要求,业内也经过了很多讨论,因为法律合规要求本身在变,国际上不同国家的要求也各有差异。目前的共识是技术需要提供框架支撑能力。首先,第一个优先级是满足国内的合规要求,同时通过灵活的组合有效支撑国际范围内各种不同的合规要求。这对于整个中国技术生态走出国门与更多的合作伙伴一起往前发展是至关重要的。另外还有适用性和可靠性,要支撑好各行各业数据密态时代的发展需求,可信隐私计算技术基础设施必须要能够提供坚实的基础。更重要的是把在标准、测评、认证层面把相关要求强化、标准化。在“可信”的本源层面,就是产品设计实现要符合申明预期,同时行业供需与监管形成共识。只有把这件事情做好以后,才能更好地支撑全行业的发展。蚂蚁集团在隐私计算、可信计算等领域做了非常多的探索,涉及了多方面的技术。从下往上来看,蚂蚁可信隐私计算技术栈最底层是软硬件一体化,包括关键信创组件、硬件可信芯片、密态计算加速卡、机箱安全防拆等技术,这部分我们已经面向生态开放了隐私计算一体机的合作;往上一层是可信计算底座,包括Occlum通用TEE和HyperEnclave信创TEE等,目前Occlum已经开源,并成为国际范围内影响力最大的可信执行环境库操作系统之一,HyperEnclave也在开源计划中;最上一层的应用层,就是可信隐私计算框架,就是今天我们要开源的“隐语”。“隐语”是完整的可信隐私计算栈。从底层的数据与资源管理到分布式计算设备与原语,调度层、计算模式层、技术产品接入层,有比较细致的分层。这种设计的好处是便于社区贡献者、高校、行业、研究机构共同参与进来,面向开发者和使用者更加开放和通用。
蚂蚁集团探索隐私计算技术六年多来以来,深刻体会到做这件事情非常不容易,挑战非常多,涉及面非常多。总体上,对于“隐语”我们会关注两点,一个是安全性保障,一个是易用性。易用性是整个社区发展壮大最关键的一个要素,我们也非常欢迎加入社区的伙伴、合作伙伴们,给我们提出反馈和建议。蚂蚁集团和“隐语”的相关团队,也尽全力来做相关的安全验证,以及可靠性、稳定性保障工作。对于社区来说,需要更多专业的机构进来,我们正在非常努力地推动这件事情。安全可用对于可信隐私计算来说,要做到是非常难的。如何能保证产品的安全性?在此之前行业内没有特别深入的讨论。当前有挺多的合规性认证,但合规性以后安全性是否真的得到保障、是否能抵抗住攻击,业内对此依然比较担心。分析各种不同的隐私计算技术的安全性,这件事情对行业的挑战非常大,也逼迫大家回到原点来思考安全的本质。回归安全本源思考,隐私计算系统安全性度量的本质在于评估攻击者需要付出多大的努力、克服多大的不确定性来攻破给定的安全防护保障,产生信息泄露的后果或风险。一方面,产品不存在绝对的安全,大部分商业应用场景中,绝对安全的代价之高是难以承受的;另一方面,隐私计算的安全性需要结合性能、成本等因素综合考虑以满足场景的需求。在这个背景下,蚂蚁集团尝试对隐私计算实现的安全性进行了分级。我们将隐私计算系统的安全通用分级分为五类,并于抗疫措施做类比:蚂蚁隐私计算对自己的安全要求是第四级深度检验级的要求,部分组件达到五级要求。这个目标需要通过两个安全攻防的专业团队背靠背做一个月甚至以上的安全评估,而且不会发现中高级安全漏洞。达到这样的要求才能进入一个放心的面向行业推广应用的隐私计算平台。这个要求基本上大幅度超出了现在的商业测评认证强度。不过,以后全行业来做的时候,并不是说所有的技术都要通过这样的要求,因为这件事情代价非常高。我们认为,未来整个行业有不同场景的不同的分级安全需求,行业应该就安全分级要求与适用行业应用场景达成共识并给出指引,以推动数据要素行业安全健康的发展。蚂蚁开源项目实施的时候,在安全验证里会分三个阶段。首先不希望在开发阶段给大家太多的枷锁,否则整个社区没办法做创造和创新。这个阶段会有安全指导原则,相对来说会比较宽松。但是,进入到待验证发布阶段的时候,我们会做非常严格的流程保障。
首先是第一阶段的内部安全验证。这次“隐语”开源之前,内部有三支安全团队做了对要开源的代码做了独立安全验证。进入公测开源时进入第二阶段,会通过SRC对开源代码做漏洞悬赏,鼓励全社会来寻找开源问题,共同把安全能力保障起来。同时我们也做了定向邀请,来实现第三阶段要求的背靠背的专业安全团队测评。我们会坚定地把安全可验证这件事情完成,因为开源社区自己不是特别擅长来找深层次的安全漏洞,SRC全社会的众测悬赏有强项,但是对于比较复杂性的问题也不是特别擅长。所以我们会综合用三个不同方式来做这件事情。完全通过测评以后才进入正式版本发布。数据密态时代,数据要素是各个行业各种场景的血液。整个数据要素的应用非常复杂,技术要求也会有很大差异。隐私计算会根据不同的网络拓扑、不同的技术路线,有不同的性能、成本、可靠性和安全性保障能力。总体上来看,在一个场景中需要选择不同的隐私计算技术时,首先要考虑的是适用性,因为很多隐私计算技术和产品对于参与方或数据划分方式有其严格的适用条件。如果适用条件不满足,就无法保障对数据安全和隐私的保障。满足适用性以后,则要看该场景的行业安全要求是什么级别。安全不是免费的午餐,安全都是有成本的,需要根据安全级别选择相关的隐私计算技术。最后,在满足场景适用性要求和安全要求之下,可以根据具体需求在更高的性能或者更低的成本或者更方便的易用性中做出最终的技术选择判断。
我们将共同见证数据流通领域告别数据明文时代,开启“数据密态时代”的新征程。在这个过程中可信隐私计算将起到关键的作用,能够在应用过程中,保障安全性、可用性和隐私保护能力符合设计申明预期,满足数据需求方、数据提供方、和监管方等各方的场景分级需求。隐语可信隐私计算框架是蚂蚁集团在隐私计算领域6年多探索的结晶,后继也非常欢迎大家一起参与进来,共同打造一个安全、易用、社区共建的数据密态时代技术基础设施。谢谢大家!