隐私计算在科教卫生领域的应用

绿盟科技开放隐私计算 2024-01-09

2020年以来，伴随着隐私计算技术的不断成熟，国内外隐私计算产业化的步伐明显加快，目前主要在金融场景应用和落地较多，不过科教卫生行业也具备足够的想象空间。过去几年中，教育和卫生行业数字化获得了长足发展，众多学校、医院、科研机构、教育机构和医疗机构积累了大量数据，为隐私计算的落地提供了很好土壤。同时，医疗行业和教育行业所收集的数据具有较强的隐私属性，对隐私保护和数据安全的需求更为强烈。本文介绍由绿盟科技联合苏州市卫生计生统计信息中心、深圳大学共同撰写的《隐私计算在科教卫生领域应用白皮书》（以下简称白皮书）。白皮书不仅对隐私计算的背景、技术路线、安全风险、生态体系等做了详细介绍和分析，还着重介绍了科教卫生行业的数据安全现状以及隐私计算在科教卫生领域的一些应用实践。

公众号回复“20230215”获取此报告

01
隐私计算在科教卫生领域的时代背景

随着数字经济的蓬勃发展，数据已经成为新时代的重要生产要素，并成为国家基础性战略资源。在我国新基建全面展开、大规模实施的有力推动下，基础设施的不断完善，促进了我国数字经济的持续快速发展。随着数字化转型的不断推进与深入，数据安全与隐私问题越来越严峻，现代化的数据安全与隐私保护立法已成为全球趋势。

根据教育部发布的 2021年全国教育事业统计主要结果，全国共有各级各类学校 52.93万所，在校生 2.91 亿人，专任教师 1844.37 万人。随着教育行业信息化建设加速，越来越多的科研成果、学术资料、师生身份信息等数据被搜集、存储、汇聚，其中大量信息用于行业科研合作、数据交换和共享，成为支撑业务运营发展的重要资产。与此同时，随着学校及科研院所业务系统数据的互联互通，相关科研成果、课程资料、重要实验数据、学生个人信息等敏感信息极易发生泄密，数据资产正被不法组织所觊觎，数据安全管理内忧外患。

02
卫生健康行业隐私计算应用与实践

隐私计算赋能卫生健康行业

智慧医疗
智慧医疗指的是通过打造健康档案区域医疗信息平台，利用最先进的物联网技术，实现患者与医务人员、医疗机构和医疗设备之间的互动。随着信息化时代的深入和 5G 技术的完善，智慧医疗在智能诊疗、远程手术、智能电子病历、智慧机器人、移动医护等领域已有了多个典型的应用。
医学科研
通过利用隐私计算的技术，可以实现多个医学科研单位及医院数据的安全共享。国外联邦学习在医学科研的实际应用已经逐步展开。近年来，我国高度重视罕见病病例诊疗信息登记等相关工作，罕见病相关的政策也陆续发布。建立一个从罕见病诊疗登记、数据挖掘研究分析、科研价值和诊疗方案输出为一体的隐私计算解决方案，将极大程度满足医务工作者、政府职能部门、研究人员工作和科研的需求。对于全基因组关联分析（GWAS）等这类依赖大样本量的研究，通过隐私计算，也可以解决单一机构样本量不足，导致研究结果可信度下降的问题。
药物研发
隐私计算可以打破数据孤岛、高效利用数据的同时保证数据的安全。合理地利用隐私计算将大大缩短药物研发的时间，提高研发效率的同时降低研发的成本（辅助新药研发，进行药物疗效研究、药物市场分析、药物副作用研究监测等）。
医疗保险
面对医疗保险带来的挑战，隐私计算技术可以成为有效的技术解，合理地使用隐私计算技术也将大大有助于医保风控。通过隐私计算，医保局可以合法、安全地使用更多维度的医疗数据信息，从而全方面、全维度地丰富医保风控模型，更加准确地发现并预警欺诈骗保等不当行为

2.案例：脑卒中预测模型优化

近年来，得益于更强的危险因素复杂关系分析能力与不平衡数据处理能力，基于机器学习的脑卒中预测算法被证明效果优于传统分析方案。同时，研究者们注意到，在不同的数据规模下，同一机器学习算法会得到显著不同的卒中预测性能。受病例样本少、病人队列分布不均的客观限制，单医疗机构仅使用本地病例数据得到的预测模型准确性与泛化性较差；同时，受合规性要求，卫生健康数据不便出域，因而限制了机器学习方案的进一步提升。在保护病人隐私数据安全的同时，如何利用现有的病例数据优化预测模型，对提高地区医疗水平具有重要意义。

事实上，安全多方计算技术在机器学习训练过程中涉及的通信开销较高，实践中无法在有效时间内完成联合训练；而 TEE 技术涉及较新硬件，一些单位短期内没有采购硬件服务器的计划，无法部署完整基于 TEE 的隐私计算方案；而联邦学习只需进行模型参数交换，显著降低了通信的开销。因此在兼顾安全效率和部署现状的基础上，本案例中通过联邦学习技术保证在各医院病例数据不出域的基础上完成联合的脑卒中预测模型训练。

本方案涉及到的参与方主要有多家三甲医院和地区卫健委。由地区卫健委牵头并提供隐私计算平台，安全地利用地区各医院病例数据，基于横向联邦学习技术完成脑卒中预测模型的联合训练。其总体部署方案如上图所示。
卫健委在所有参与方侧部署隐私计算平台，由各参与医院自行接入其本地数据并协商模型；各参与方隐私计算平台发起联合任务并确保通信过程不泄露原始任务，其中卫健委作为协调方确保隐私计算过程的安全性；隐私计算平台中集成联盟链相关技术，保障计算过程的存证与溯源。

第一步：地区卫健委制作病例标准模板，包含用药、检验、症状等信息与脑卒中诊断结果，特别的，具体数值指标需给出标准化、归一化处理方案；非数值指标需给出建议类别；

第二步：各参与医院按照模板格式清洗本院数据，将标准格式的病例数据接入卫健委提供的隐私计算平台中，并选择联邦学习所用的机器学习模型方案；

第三步：医院侧发起横向联邦学习任务；各参与医院将使用的数据元信息、联邦学习任务的参数信息进行上报存证并等待审批；卫健委审批通过后，对实际计算中的关键通信数据进行存证；在联邦学习完成后，医院与卫健委侧都得到联合训练完成的预测模型，卫健委可进一步利用存证信息对各参与医疗机构实际任务贡献度进行评估。

通过联邦学习相关算法，医院侧只需传输本地计算得到的参数而非原始病例数据，同时最终诊断模型能够同时受益于各家医院的病例数据，为打破医疗孤岛、充分发挥医疗数据价值以提高地区临床科研水平提供了新的思路。

03
科教行业隐私计算应用与实践

隐私计算赋能科教行业

校园管理
通过利用隐私计算技术，可以在保证校园各部门敏感数据资源不外泄的前提下更充分地使用已有数据资源，可以减少资料收集、数据采集等重复的劳动时间和费用，将精力重点放在部门业务流程的优化上，更有利于教职工、学生和家长在信息管理系统中实现各类事务的“一网通办”。
智慧教育
通过利用隐私计算技术，可以在确保不同教育机构间原始数据不出本机构的前提下，实现不同教育机构间的数据安全共享，并能够促进不同教育机构间的数据深度分析挖掘，充分发挥数据的价值，进而推进智慧校园建设、提高教学水平。
科研数据共享
作为一种宝贵的财富，基于隐私计算技术，可以实现不同科研人员 / 机构间的数据安全共享。科研数据的安全共享可以带来超出数据本身原始用途的重要价值，为科研人员、学术界及整个社会带来巨大的效益。一方面，科研数据可以充分验证其科研成果，提高自身科研成果的可信度，并通过提高科研成果的引用率来提升其自身的科研影响力；另一方面，科研数据的安全共享降低了收集或创建类似数据的成本，促进了不同学科领域的交流与合作，提升了学术研究方法和思维的多样性。

2.案例：科研数据共享使用

某科研院所（以下用“科研机构 A”表示）在多年的科研过程中，积累了大约 300GB 的重要数据资源。国内另一国家部门（以下用“国家部门 B”表示）在对其部门所负责的数据样本进行检验时，需要利用科研机构A积累的数据资源进行协同计算，以提高检验结果准确性。出于保密需要，国家部门 B 数据样本中的原始信息不能让部门以外的其他机构获知；而科研机构 A 出于知识产权保护目的，也不愿意将自己积累的数据资源以明文方式向其他机构提供数据计算服务。
此时可以采用隐私计算来解决科研机构 A 与国家部门 B 之间的数据协同计算问题。由于两者间的协同计算过程均是统计、查询类服务，不涉及 AI 计算服务，因此理论上隐私计算中的安全多方计算技术和 TEE 技术均可以满足该需求。但是由于安全多方计算技术存在通信开销大的问题，且科研机构 A 的数据资源有 300GB，如果采用安全多方计算技术，巨大的通信开销将极大增加协同计算服务的时延，因此本案例采用 TEE 技术来解决科研机构 A 和国家部门 B 之间的数据协同计算问题。

方案如上图所示，该方案采用隐私计算中的 TEE 技术，首先将隐私计算平台部署于科研机构 A 的计算中心中的某台 TEE 设备上。

第一步：计算中心加载隐私计算平台，生成 TEE 证明，传送给科研机构 A 和国家部门 B进行验证。
第二步：科研机构 A 和国家部门 B 分别与隐私计算平台进行 DH 密钥交换，然后科研机构 A 将计算应用程序（简称应用）的容器镜像和数据均加密后，调用镜像管理 API 和数据管理 API 传送至隐私计算平台；国家部门 B 将数据加密后，调用数据管理 API 传送至隐私计算平台。

第三步：隐私计算平台在 TEE 环境内对收到的科研机构 A 和国家部门 B 的加密数据进行解密，并利用机密容器组件，在TEE环境内解密并加载收到的科研机构A的加密应用容器镜像，然后使用科研机构 A 的计算程序、数据资源以及国家部门 B 的数据进行计算，得到计算结果，并生成计算报告，加密后传送给国家部门 B。计算报告中，含有计算结果、用户计算的应用hash、数据 hash 及隐私计算平台签名。

最终国家部门 B 收到计算结果和报告后，利用签名验证算法对计算结果进行验证，验证通过则接受该计算结果。

04
总结与展望

隐私计算是网络数据安全领域的前沿研究方向，目前已在金融、医疗等部分场景进行小范围应用与落地， Gartner 预计到 2025 年隐私计算应用范围将覆盖全球一半的大型企业机构。在科教卫生领域，隐私计算正在积极布局和发展。

可以预见，未来几年将是隐私计算技术产品加速迭代，应用场景快速升级，产业生态逐步成熟的重要阶段，短期内资本仍将聚焦金融领域，不过科教卫生行业也具备足够的想象空间。过去几年中，教育和卫生行业数字化获得了长足发展，众多学校、医院、科研机构、教育机构和医疗机构积累了大量数据，为隐私计算的落地提供了很好土壤。同时，医疗行业和教育行业所收集的数据具有较强的隐私属性，对隐私保护和数据安全的需求更为强烈。科教行业数据的流通，可以促进智慧校园建设、推进教育发展、推动科研成果共享；而医疗数据的流通，则一方面可以推动智慧诊疗、医保自动化、新药研发等产业的发展，另一方面也可以促进现代化医学研究、公共卫生防疫以及临床医疗应用等生物科学技术的一些进步。基于此，科教卫生行业或将成为隐私计算应用的下一个市场竞争点与爆发点。不过在此之前，科教卫生行业需要在以下方面进行加强，才能更好地引导隐私计算技术在行业内加速落地。

白皮书全文如下：

公众号后台回复20230215可下载

来源：绿盟科技

END

往期推荐: