隐私计算技术是突破医疗数据应用难点的关键技术
01
背景简介
“十四五”期间,国家和各级政府分别在不同层面出台了总体发展规划、数字经济发展规划以及国家信息化规划的发展目标。其中公共服务规划和医疗信息化规划都明确提出要积极发展智慧医疗,进一步提高医疗机构信息化、智能化水平,支持健康医疗大数据资源开发利用。这些规划中强调的信息第一是明确了推动数据互通互联,将医疗和医疗信息化的建设体现的是公共利益的导向;第二是将医疗信息数据定义为一种数据要素资源,并且指出应该重视建设安全和隐私标准;第三是重点发挥云计算、大数据、物联网、人工智能、5G、区块链等新一代信息技术的作用。规划中重视医疗健康信息系统的基础设施建设,并强调建设数据整合、数据治理、数据共享和数据利用等基础能力是医疗信息化建设的前提和基础。
医疗健康数据的治理相对于其它应用来说,有其特殊性。医疗数据与个人利益、个人生物特征体现了无法分割的关联,并且不像金融数据那样可以迁移和改动。医疗信息数据的滥用对大部分人都会带来个人权益的长期损害。在尚未覆盖公共利益导向的全民医疗保险的社会,医疗信息泄露带来的损失不仅是伦理道德上的,也是经济利益上的。此外,医疗数据相当完备和具有实际意义,其可以直接被人解读和利用,而其它更依赖于计算机系统和软件产品的信息泄露则往往需要在特定系统内才能配合使用。
医疗数据如此重要,以至于在打通医疗数据互通共享时遇到了更大的阻力和成本。其成本高昂的另一个事实在于医疗信息处理的需求是基于现代医学的领域知识,这种领域知识的规模和难度都远远超出目前一般商业型企业内部的领域知识。即便是通过组织医学专家来试图建立一个覆盖医疗信息数据的领域知识都非常困难。在目前的企业数据治理上,恐怕一般的“tribal knowledge”也不能反映医学知识的复杂。
除去医疗数据本身的困难,另一个困难在于目前互联网平台的监管难题。目前,针对跨国巨型互联网平台公司表现出来对数据的统治力和掌控力已经在公共传媒、市场的公平性、中立性和透明性遭到了巨大的质疑。在个人数据隐私立法和公司数据治理立法的进程上,仍处于实验运行阶段,难以形成一致的监管共识。从公共利益出发,社会希望医疗数据运行于一个服务于公共利益的规则,而不是像公共传媒和在线市场的发展中表现出的“信息不对称”、“供应商锁定”等问题导致市场竞争失效。对公共商品而言,市场失效不仅有损经济效率,更有损社会人权和福祉。
02
数据要素商品化的概念模型
数据如何成为商品,对不了解数据处理技术的人而言是一个含混不清的问题,对非技术人员,特别是习惯于实物市场的人更是如此。出于对个人数据保护、数字税等问题的需要,社会已经开始广泛地思考和研究如何建立适用于信息系统内数据的新的市场。除了之前针对通信市场、电商平台市场上的研究以外,经济学对市场价格公平、供应商竞争方面都做出了很多研究。但仍然不能很好地适用于一般数据,对医疗数据更是困难。有一种观点可以帮助理解数据市场的资源属性以及公共属性。
来自公共经济学的普遍研究认为,对社会一般性信息的采集和供应服务是一种公共商品,如果缺乏对公共利益考虑不加治理,本应成为公共数据的服务也会遭遇“公地危机”。来自加拿大UBC大学法学院教授Cui Wei则提出了一种理论解释,他认为数字税征收类似于对资源征税。他将网络服务的用户解释为一种人口资源,对于一个跨国企业,如果它的服务因为本地用户资源产生了海外的收入,例如海外广告收入,那么可以理解为它使用了本地用户作为一种资源,用来出售给海外的付费买家。这种行为显然不符合本地的社会利益。
对于另一种场景,例如在医疗信息化的实践中,世界上绝大多数国家都认同,医疗信息数据是一种属于公共利益范畴的数据,国家相关机构有权利对其进行监管。但属于个人的电子病历类数据,按照数据权力或者个人权力,都应当提供给个人,并且不应限制其后续使用,例如,医院限制其病人的病历数据获取,限制病人转诊其它医院而实现了“绑定”,这显然是不符合人身权益、数据权益和市场原则的行为。对于医学研究而言,病历数据和诊疗信息数据尽管位于私人医疗机构内,但出于医学价值,只要经过伦理方面的管理,应当形成协作,特别是对于医药研发的实验,也是一种可以产生利益的共享协作的手段。最后,无论是对公共健康目的,还是对医疗保险的目的,对社会医疗统计数据的利用,都会获得良好的社会收益,例如决定哪些疾病覆盖入医疗保险计划,哪些治疗级别对于社会群体有明显收益等。
图: 数据资源和水资源的类比
因此,在一个社会环境中的患者的诊疗信息,以及记录这些信息的医疗信息数据库,是属于一种具备公共利益的资源,就如同社会共享着卫生环境、饮水、土地这些资源一样。为了将这些目前散布于各个医疗机构内部,尚未形成社会范围利用和交换的数据资源而言,有必要制定必要的治理框架,以便建设一个主要考虑公共利益的数据服务。例如,城市自来水是一种公共服务,为了保障自来水的供应质量和商品化,社会制定了水源保护和维系,自来水处理的工艺和质量标准,自来水生产和销售的公司实体以及对消费者服务覆盖、价格公平机制。确定了数据资源的资源本质和公共服务的特点,我们可以进而建立一个能够让更多人理解的市场模型,以便于能理解自来水作为商品和服务的人也能理解数据要素市场。
在探索企业数据内部治理的过程里,数据技术领域也出现了类似的用水的消费来类比数据的消费的概念。例如目前流行的数据湖的概念。James Dixon,Pentaho公司的CTO首先在blog上使用了数据湖的概念:
“If you think of adata mart as a store of bottled water, cleansed and packaged and structured foreasy consumption, the data lake is a large body of water in a more naturalstate. the contents of the data lake stream in from a source to fill the lake,and various users of the lake can come to examine, dive in, or take samples.”
这个描述以及后来数据湖业务的发展揭示了数据要素的商品化过程的有趣联想,如果用水的供应作为类比,数据要素化也离不开原始数据的处理,这种处理在商业概念上,是一种“生产加工”。数据从原始状态要进行处理,例如隐私信息消除、脏数据、无效数据的过滤等等。如果此类数据已经产生了标准,那么数据在进行销售前,还需要经过检验是否符合标准,以及商品承诺的品质要求。这些概念对数据处理的技术过程,赋予了商业语境下的经济价值。从另一个角度来说,随着数字化产业进程的成熟,不应当视作数据为一个信息系统、一个公司的内部事务,而应当成为社会公开事务。例如隐私数据的保护和处理,应当接受外部监督;公司间、特定市场内数据的流通和价值体现,也成为征收数字税的经济理论基础。
03
医疗数据处理技术现状
2022年2月8日,国家卫健委公布了去年的《对十三届全国人大四次会议第10294号提议的答复》文中称,卫健委正在研究建立全国统一的电子健康档案、电子病历等信息标准体系。从文中的信息以及现在的全球趋势,可以得出以下四点解读,第一是我国医疗健康领域实现该需求的基础条件已经初步具备,全国二级以上医院已经基本完成基础信息系统建设,大多数三级医院具备了远程医疗和院内影像诊断信息系统。第二是初步探索开发和互通,辽宁省、重庆市和湖南省都分别出现了一批局部区域跨医疗机构的共享形式或者统一平台方面的应用。第三是决心推进长期建设,引入互联网技术能力,统筹推进直到基层,提高医疗服务质量;第四是根据现有美欧的成熟标准和应用作为参考,后发优势可以降低风险提高速度。
北方数据中心就是这一趋势的代表,自2016年以来,卫健委多次调整全国医疗大数据统筹规划的方案,目前形成了1+5+x的三级架构。北方数据中心是最大的,也是五个区域中心之一,它的架构体现了显著的双边市场特点。目前参与方包括数据供应机构,供应机构信息运营商,中心平台,面向数据分析再加工的参与企业,以及最终受益方和患者。最新的进展是北方中心的隐私计算和数据碰撞中心,隐私计算就是一种软硬件多种技术方案来提高在数据环境中的隐私保护水平的,而数据碰撞是一种安全分析技术,本来用于信息安全风险管理乃至于大数据刑侦,在这里用来持续地测试隐私保护的有效性和运营水平。
亚马逊也基于这样的实施情况,提供了主要基于云建设的健康数据湖方案(AWS Health Lake),这个方案里主要提供了数据导入、存储、格式转化、查询以及沙盒计算分析的功能,该功能的机器学习实现主要依靠AWS云平台上的另一个机器学习可集成服务SageMaker。在主要的应用能力上,我们看到在沙盒计算里,主要包括医疗标准,机器学习在自然语言处理、知识图谱模型等贴合医疗实际需求的方面体现出深度发展。同时它基于云的架构可以供应给多个消费商。
这样的数据湖是如何组建的呢?一种ESB架构或者叫ELT工具可以用来从零建设不基于云的或者云的方案,都可以。它的核心思想是从不同平台不同功能上把数据传输到企业消息总线上。这样的技术有开源方案并支持HL7工业标准。例如Apache Camel是一个功能强大深度开源的数据集成框架,主要是基于企业数据集成模式和java语言特性的bean集成,最早于2007年启动。它的核心是一个路由引擎,允许自定义路由规则,从中决定来源接受消息并确定如何处理和发送这些消息到其它目的地。它的原则之一是没有做出假设需要处理的数据类型,因此适合数据湖这种面向任何数据格式集成的系统。它特别适合企业级开发,可以与Java语言的Spring、CDI、Blueprint和Guice等流行框架无缝集成,并且支持北美医疗数据的HL7 FHIR数据格式。它的开源特性也可以加入区块链协议和隐私保护协议进行二次开发和定制。
数据湖可以建设在公有云,也可以建设在混合云或者私有云环境内。一般来说企业内部管理平台会接入外部和联盟数据网络,内部为数据经理、数据管家、数据科学家、成品数据仓库(data warehouse)管理员以及业务用户(一般是医疗机构的业务操作员),数据湖的运营维护、研究、审计和部分商业协作服务都可以在这个内部界面内完成。
04
隐私计算是首要突破技术
医疗信息的大数据利用,在联盟数据湖的架构上,最大的挑战就是隐私计算。因为之前的ESB架构没有考虑企业的边界,数据在企业内部是自由而且安全的,可以直接传输利用,除非需要经过特别的安全和隐私方面的内控标准。对于医疗机构网络这种跨组织网络,其隐私处理工具需要满足特定的监管功能和要求,而且通常需要通过多头监管,例如NIST等一般信息安全标准。按照中国的标准,以北京数据交易所的数据”可用不可见、可控可计量“的描述而言,需要解决的是数据在隐私处理工具之后,进入安全可控的数据利用环境,并且给出可追溯可验证的计量信息,以便完成后续的数据交易所需要的计量定价和市场交易相关业务。
不仅数据要素交易流通的角度需要隐私保护工具,数据要素利用环节最大的研究课题也是隐私保护技术,这样的研究趋势在2020年后的增长非常明显。医疗信息联邦学习的一个回顾性研究表明,最多的研究课题是案例分析,占到30%,第二大的研究课题就是隐私和保密保证技术,占到了28%。近来越来越多的研究集中在探索数据聚集和密码学方法在联邦学习架构里的应用。在隐私和秘密保证研究方面,零信任(Zero Trust)模型是最多提到的方法。在一些研究中,GAN技术被用来被检验隐私处理后的数据能否可以重建隐私信息,以测试隐私处理的安全性能;而秘密分享(secret sharing)、同态加密(homomorphic encryption)技术也被提出来应用,并被初步估计了效能。
当隐私计算这个难点有了解决方案以后,机器学习就可以利用这些被整合的数据资源产生实用价值供数据消费场景使用。按照北美医疗信息服务的经验,这些消费价值可以分为两类,一个是治疗和基于疾病的目的,受医疗伦理监管,被称为健康医疗机构间交换(HIO-X),一个是其它商业的降本增效或者拓展利用的目的,受医学商业伦理监管(HIPAA)。我们希望后续的研究可以从不同的角度和需求出发,通过合理的研判确定隐私计算和区块链技术的合理方向,提高研发效率,高效促进技术转发的准确性和有效性。
来源:牛津(海南)区块链研究院
END
隐私计算头条周刊(2.27-3.5)
附赠书|隐私计算平台效率问题和加速策略
数字交易所要不要大家都来搞?政协委员争起来了
开放隐私计算
OpenMPC