其他
摘要:数据基础设施建设是数据要素价值释放的关键。在元数据基础设施、数据公共化基础设施和数据价值化基础设施的基础上,本文提出依托可信数据空间建设关联对象“数字空间”,建立数据相关主体的权益分配机制,从而构建起数据权益基础设施,保障数据主体价值权益,使数据要素价值释放既要体现效率,也要促进公平。关键词:数字空间;数据空间;关联对象;数据产品化;数据权益;数据基础设施。数据基础设施建设的指导原则是面向数据要素的价值释放,这必得是面向应用的,也就是说,必须围绕应用场景,即数据产品化来展开。1.物理世界的结构决定数据空间的结构[1]数据是从物理空间到数字空间(赛博空间)的映射。物理世界的元素映射到数字空间的数据。同一个物理元素的不同映射所得的不同数据的集合构成关于这个物理元素的数字空间。例如,对某个人的多种映射所得数据,其集合构成这个人的数字空间,这就是个人数字空间。同样,也有法人数字空间。个人、法人的数字空间我们统称为数据关联对象“数字空间”。由于不同的映射难以穷尽,这样的数字空间是多样化的,从多种角度对物理元素进行描述。各种物理元素对应的数字空间的并集构成数据空间。数据空间具有内部结构。物理世界的结构决定数据空间的结构。例如,根据物理空间元素属性对数据空间元素赋予范围结构,由此可以有行业数据空间、地域数据空间,等等;根据映射的业务逻辑关系对于数据空间赋予业务结构,由此可以有政务数据空间、地理数据空间、可信数据空间,等等……这些多重结构构成数据基础设施。带有多重结构的数据空间就是数据资源体系。物理世界的结构反映现实世界的各种关系,通过各种制度进行规制。对应于数据空间的结构,就意味着以数据基础制度对数据空间进行规制。2.现实世界的制度逻辑对数据结构的规制2.1元数据基础设施[2]2.1.1数据目录体系作为元数据基础设施的底层架构物理世界的元素属性以及赋予数据空间元素(即数据)的结构性质是对数据的说明和标示,可以据此形成数据字典(元数据)。元数据帮助数据能“找得到”,是数据基础设施的底层架构。以政务数据为例梳理元数据基础设施:依据公共机构的三定方案梳理其“职责目录”,代表了业务逻辑和业务结构,相应职责数据的映射需要信息系统和对应的业务数据来支撑,由此形成信息“系统目录”和业务“数据目录”。“三目录”体系作为政务数据空间的元数据,就是政务数据基础设施的底层架构。对任何范围或业务领域的数据空间而言,数据目录,特别是数据目录的标准化都是至关重要的,构成元数据基础设施的底层架构。2.1.2数据位阶等级作为元数据基础设施的顶层架构《数据安全法》为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,明确“开展数据处理活动,应当遵守法律、法规,尊重社会公德和伦理,遵守商业道德和职业道德,诚实守信,履行数据安全保护义务,承担社会责任,不得危害国家安全、公共利益,不得损害个人、组织的合法权益。”[3]这意味着:数据具有主权属性、人身属性、公共属性和价值属性,实现价值属性不得对抗前三种属性。数据四大属性的位阶等级顺序是:主权属性>人身属性>公共属性>价值属性。此即数据基础设施的顶层架构。首先,主权属性不可侵犯。依据主权属性,数据分类为核心数据、重要数据、一般数据等。特别是对于核心数据和重要数据,需要按照国家有关法规来规制数据处理行为。其次,人身属性是数据处理行为的前提。在主权不可碰之外,应当落实“数据以人为本”,即落实数据关联对象(即数据主体,或数据来源者,包括自然人、法人等)对数据的决定权,作为数据公共利用和价值释放的前提。[4]我们需要注意,《个人信息保护法》[5]明确:“个人对其个人信息的处理享有知情权、决定权,有权限制或者拒绝他人对其个人信息进行处理;法律、行政法规另有规定的除外。”“个人请求将个人信息转移至其指定的个人信息处理者,符合国家网信部门规定条件的,个人信息处理者应当提供转移的途径。”这意味着,一是个人“决定权”有权要求数据按照其意志进行共享、开放,这不仅针对公共机构,而是包括了所有个人信息处理者;二是个人“决定权”包含了个人数据“可携带权”;三是个人“决定权”高于数据处理者的数据资源持有权、数据加工使用权和数据产品经营权。质而言之,数据的人身属性意味着数据中包含了人格权,其在位阶上高于数据的价值权益。数据关联对象(个人、法人等)是作为数据主体,因而数据不能简单作为客体进行处理。只有在匿名化,数据非涉私的特殊条件下,数据才是非人格化的,才可以作为客体而对象化处理。再次,公共属性是数据价值化的前提。数据的主要价值在于社会交往和社会利用,即对公众有用。包括涉私数据(不等于隐私数据),其主要价值也在于社会交往的可识别性,是否普遍公开,是否只对特定对象公开,是否只授权特定信息处理者使用,由数据关联对象(数据主体)自决。总之,数据不是为了保护而存于世间,而是为了利用。[6]导航APP就是体现数据公共属性的好例子。人们在使用导航APP的同时,又作为导航APP的数据采集端,在并不泄露个体数据的情况下,众多使用者的位置、速度数据作为导航APP研判道路是否拥堵的依据,并为其他使用者规划出行路径提供帮助。这就是公共利用,并在公共利用中产生使用价值。最后,价值属性是数据要素化的依据。数据要素化在于使用,在于进入生产、流通过程,在于发掘其价值属性。数据价值化通过如下路径实现:数据产品开发者基于安全可信数据基础设施上的数据共享开放,利用来源数据,自然获得数据加工使用权,加工出数据产品;通过确权,数据产品开发者获得数据产品所有权(及其附带的数据产品经营权),数据产品成为数据资产;数据产品再反向赋予来源数据价值,来源数据成为数据资源,并使数源单位获得数据资源持有权。[7,8]发挥数据公共属性,释放数据要素价值,需要对来自各方面、各领域的数据进行开发利用,包括公共数据资源开发利用。数据价值化需要基于数据基础设施,不仅是元数据基础设施,还有基于数据位阶等级演绎出的数据公共化基础设施和数据价值化基础设施。2.2数据公共化基础设施[2]如果说前述元数据基础设施解决的核心问题是单位内或中心化的区域内的数据共享、开放及其价值释放,那么对于跨域的数据开发利用,就需要数据公共化基础设施。数据公共化基础设施的核心是解决数据如何从私有域走向公共域,破解“数据不出域”的矛盾,使数据“供得出、流得动”。这体现为以“数据产品超市”及其“可信数据空间”为基础的数据公共化基础设施,详见文献[2,9,10],兹不赘述。我们将数据产品超市模式形象比喻为“华强北+淘宝+云服务”模式,其实就是数据产品生产上的供应链集成+流通上的统一平台+软件即服务(SaaS)的一体化集成模式,基于数据公共化基础设施,可以概括为数据产品即服务(DPaaS)。2.3数据价值化基础设施[2]数据要素与其他传统生产要素不同,不能简单用土地、资金、技术要素比附。但是要实现数据的价值属性,即数据价值化,则意味着数据要素需要以某种形式嵌入到现行价值体系中。现行价值体系或经济运行体现在微观的财务体系和宏观财政体系中。如果说前述元数据基础设施解决的核心问题是单位内或中心化的区域内的数据共享、开放及其价值释放;数据公共化基础设施解决的核心问题是跨域的数据开发利用及其价值释放;那么数据价值化基础设施要解决的核心问题就是数据价值的确认和变现,从而让市场主体获得动力机制,即让数据权益相关主体包括数据产品开发者“做得值”。数据需要纳入财务体系,即需要“入表”。“入表”的前提条件是数据确权和数据资产化,即以数据产品化为基础的面向场景应用的数据产品化确权和数据产品资产化。最后,数据价值化通过数据产品确权、估值以及“入表”等行为实现。实现数据产品确权、估值以及“入表”的法规制度、支撑机构等就是数据价值化基础设施。详见文献[2,7,8,11],兹不赘述。3.嵌入数据产品的相关主体数据权益3.1数据产品化确权[4]鉴于数据关联对象(数据主体或数据来源者)的存在,关联对象还可能并非单一主体,而是多元化的,并且往往与数据生产主体、数据价值载体(均为数据处理者)相分离,因此,我们难以明确数据属于哪个主体。并非相关主体都能都对该数据进行占有、使用、收益、处分,每个主体对于这四方面权益都不能完整拥有。但是,不说清楚相关主体的权益边界,数据难以规模应用,或者就是出现强势主体对弱势主体的实际剥夺。这当然是数据生产关系的灾难,注定走不开或者走不远。数据的开发利用需要解决两个先决条件:其一是清晰界定相关主体的权益边界。这自然不是你也拥有我也拥有,也不是你也可以随便用我也可以随便用,更不是你也不能动我也不能动。清晰权益边界才能让相关主体各自依权益而动。拥有相应的权益,就拥有相应的动力机制。其二是相关权益要嵌入到现行法律法规制度体系中,质而言之,就是要嵌入到现行财务体系中,能够价值化而变现。一句话,数据需要通过某种形式进行确权。数据本身(主要是涉私数据)涉及多元主体难以确权,那我们就需要拿出可行的确权方法。这个方法就是数据产品化确权。涉私数据需要关联对象授权才能进行数据处理和使用,这要求明确具体使用场景、授权条件、授权范围、被授权主体等,并且《个人信息保护法》规定了这些场景、条件、范围、主体发生变化都需要重新授权、单独授权等,也就是说,原则上是一次使用一次授权。这要求相关使用主体应当让数据关联对象能够便利地进行知情、授权,让授权能够实时、在线实现,这只能是将数据做成针对具体使用场景的数据产品,即将涉及私权的数据嵌入到数据产品中,在使用数据产品的具体场景中由关联对象在线进行实时授权。这样,涉私数据依托数据产品才能在真实场景中在关联对象在线授权下安全使用,一次授权一次使用。授权行为是一种在获得使用便利的同时进行相应权益让渡的行为。通过权益让渡,可以实现多元的数据权益在数据产品中集中到单一主体,从而实现数据产品化确权。数据产品开发者通过购买数据生产者、载体提供者的数据要素持有权,获取数据加工使用权,开发数据产品,通过在具体场景的具体使用中关联对象对涉私数据在线实时授权(关联对象行使数据决定权并获得使用便利)获得关联对象的权益让渡——成千上万的使用者每次使用时各自授权让渡其数据关联者的权益——从而实现对数据产品的完整权益拥有,即获得数据产品所有权,从而也拥有了数据产品经营权。这就是数据产品的确权过程。3.2数据产品定义上述确权过程对数据产品的描述实际上已经给出了数据产品的界定。数据产品可以定义为:面向应用场景并且需要有数据嵌入才能提供服务的产品形式。这个数据产品定义的外延是非常广的,也是边界清晰的。业界通常将数据产品界定为是指对原始数据进行脱敏或者加工处理后形成的数据衍生产品,包括但不限于数据集、数据分析报告、算法模型、数据可视化产品、数据指数、数据接口等。这个界定并不清晰,加工深度不明确,基本可以理解为除了原始数据,只要有加工,就是数据产品。这没有抓住数据产品面向应用场景的特征,混淆了面向场景应用的(最终)数据产品和数据中间产品,后者意指将原始数据加工为便利(最终)数据产品利用的高质量数据集、数据接口等,例如逻辑真实数据。[12]数据产品有两大核心特征:一是面向应用场景;二是需要有数据嵌入才能提供服务。数据产品主要表现为软件产品,但不等于软件。操作系统、数据库、办公软件等不需要依赖于外来数据即可使用的软件不是数据产品。而很多软件其实需要调入外部数据才能使用的,就是数据产品,例如政务服务(需要用户提供办事相关数据),例如支付APP(需要用户账户信息等),例如大语言模型LLM(需要用户提问互动等)。数据产品和硬件也有交集。数据产品并不仅仅表现为软件,很可能需要相应硬件支撑,且不说上述数据产品需要相关终端,有的专用硬件本身就是数据产品,否则离开了数据嵌入就是废铁,例如政务服务自助终端(需要用户提供办事相关数据),例如门禁系统(需要用户刷卡数据或生物识别数据)。3.3相关主体数据权益的分配[8]一般来说,数据权益涉及到三方面主体:生产主体、关联对象(数据主体)、价值载体。关联对象即“数据二十条”[13]中所说的“数据来源者”;生产主体和价值载体则相当于“数据二十条”中所说的“数据处理者”。数据产品化,既是数据产品的确权过程,也是数据相关方价值权益的实现过程。我们梳理一下各数据相关主体的价值权益,其核心在于关联对象授权的同时进行了权益让渡。在具体使用场景中,单个关联对象单次地让渡了其对数据的决定权,授权数据处理者对数据进行处理。这是一种人格权的让渡,使得嵌入数据产品中的与该关联对象相关的数据单次地去人格化,成为单纯的价值权益,从而可以从物权的角度来进行处理。数据产品开发者通过成千上万的使用者各自在使用中的授权和让渡而获得物权意义上对数据产品的完整所有权。只有在具体使用场景中,在千万次的授权、让渡中,数据产品价值、权属才得以确定。换句话说,数据不是先天存在价值,而是在保障主权权益、人格权益、公共利益基础上,特别是在人格权益让渡之后,才获得干净、纯粹的价值权益。因此,数据价值是后天获得的。没有使用,就没有价值。使用者直接使用的是嵌入在数据产品中的数据,因此首先获得价值的是数据产品,并经由数据产品与数据相关方的合约关系,使得数据相关主体也获得相应的价值权益。具体说,数据权益的三方面主体(生产主体、关联对象、价值载体)加上数据产品开发者四方数据权益通过数据产品化而实现分配。首先,数据产品开发者获得数据产品所有权,即数据产品在具体使用场景中通过关联对象的授权和让渡使得数据产品开发者获得干净的数据产品所有权,包括了对数据产品的占有、使用、收益、处分的权益,并实现资产化,纳入财务体系。其次,形成数据产品的来源数据的提供方获得数据的用益物权,同样是借助于数据产品使用中关联对象的授权和让渡,通过数据产品作为价值中介,通过合约关系,反推出来源数据价值,使来源数据在具体使用中变身数据资源,从而实现资源化,并使来源数据提供方获得用益物权,进而纳入财务体系。这里,来源数据的提供方包括了数据生产主体、数据价值载体,后者也包括了提供可信数据空间的数据产品超市以及形形色色的数据交易中心等平台机构,只要其提供了来源数据。最后,关联对象(数据主体)的权益体现,一是人格权益的让渡;二是使用便利的获得,即获得服务;三是其权益让渡不仅有助于自身获得服务,也有助于数据产品公共价值的实现(如前述导航APP的例子),理应获得部分价值权益,还需要积极探索其实现途径,特别是助其实现的数据权益基础设施——后文将展开探讨。4.关联对象“数字空间”数据产品化以及数据相关方的权益分配均需依托于第2部分所搭建的数据基础设施。除此之外,数据基础实施还需要进一步深化。4.1依托关联对象“数字空间”实现数据“可携带权”前面对《个人信息保护法》的解释已经明确了个人对个人数据的“决定权”包含了个人数据“可携带权”。进一步说,就是关联对象对数据的“决定权”包含了关联对象的数据“可携带权”。对数据主体而言,自己的数据自己做主。但是现实地看,关联对象(数据主体)基本上是被动地被关联的,数据掌握在数据处理者手上。怎样让数据主体(关联对象)能够主动落实数据权益而不是仅仅被动关联,值得深究。数据主体(关联对象)要对自己的数据自己做主,首先需要有自己的载体,建立关联对象自己的“数字空间”。这并非是关联对象把自己相关数据都放在一起,装在一个u盘里。不是这样的。需要做的是基于统一的可信数据空间等数据基础设施,将关联对象的相关数据(分布在多个数据处理者)逻辑地集成在一起,由关联对象进行控制,落实其知情权、决定权,也就是落实关联对象的数据“可携带权”。这需要通过关联对象“数字空间”来实现。4.2关联对象“数字空间”让数据权益关联、解耦和实现关联对象“数字空间”需要依托数据公共化基础设施的“可信数据空间”来构建。首先,数据产品超市的可信数据空间依托政务数据管理平台的人口库、法人库,构建每个个体的个人数字空间、法人数字空间的基础信息,并公开涉及的数据目录。其次,各数据处理者对需要采集或处理的个体数据也列出目录,嵌入相关数据产品,方便关联对象授权其采集或调取相关数据。同时,这些被采集的个人/法人数据以目录形式纳入关联对象“数字空间”,并关联相应的采集者,以便后续应用时由关联对象自主决定调取。再次,以个人码和法人码的形式作为数据产品中的交互界面,方便关联对象和数据处理者利用。这样,数据处理者可以利用个人/法人数字空间中的个人/法人数据目录,将需要关联对象授权的数据以“码”的形式嵌入数据产品中,作为授权通道,关联对象可以利用嵌入在数据产品中的“码”,在需要数据产品提供服务之时,授权关联对象“数字空间”中的相关数据可以实时集成到数据产品中,快速验证,秒级验证,秒级授权,秒级集成和输出相关服务。最后,建立可信数字身份认证体系,作为身份可信的基础,对各数据处理者、各个个体进行身份可信认证。有人觉得网络身份认证、个人数字空间很可怕,万一泄露怎么办,万一被平台控制怎么办?所谓“可信数据空间”是否会成为“老大哥”的控制工具?其实,不用担心,没有“老大哥”。现实倒是有许许多多形形色色的“小大哥”。现在一些互联网平台、网站甚至一些APP,都在要求大家填写实名信息甚至人脸识别,而且都有相关法律条文依据要求实名认证或需要实名信息。这意味着,这些“小大哥”都既掌握用户的身份信息,也掌握用户的应用信息。不是一个“大哥”知道,是很多很多的“大哥”都知道。特别是一旦其中一些被黑客攻破,就可以通过用户的实名信息将几个数据库对齐,拼凑出一个用户的完整画像,然后把画像卖给诈骗、广告营销平台。避免出现这种情况的有效措施其实正是采取可信数字身份认证机制。这里的关键是“解耦”:各功能角色的解耦,认证和应用的解耦,数据和应用的解耦。一方面,可信数字身份认证平台只掌握个人/法人的身份信息,但不掌握个体的应用信息、业务信息等,其作为公共服务平台,只是在“小大哥”们(数据处理者)需要核对用户真实身份时,跳转到这个身份认证公共服务平台,平台生成一个随机128位或者256位的网络身份证号,这样“小大哥”就不知道用户是谁,但是知道是真实的个体(公共服务平台背书)——因此可信数字身份认证平台也不是什么“老大哥”,当然,它支持数字监管,在司法、执法机关依法办事时,例如执行庭需查询当事人财产信息,就可以向公共服务平台依法申请相关当事人在相关财产登记平台的网络身份证号,并获得查询结果——这已经是通行做法,欧美同样如此。另一方面,“小大哥”们(数据处理者)只了解各自服务范围内真实个体的数据,据此提供服务就好,但是具体是哪个个体并不清楚。即使被黑客攻破,拿到数据也看不懂、对不上。这更好地避免了个体的数据泄露。同时,对于“小大哥”来说,由于留存的数据不再属于个人信息——这些数据已经天然地匿名化——那就不需要那么高级别的安全防护策略,可以节省大量资金投入,只要安心给用户提供匿名服务就好了。同时,匿名化的数据更便利数据处理者直接利用,或提供其他数据处理者利用。将这套可信数字身份认证机制结合进数据基础设施之中,纳入数据产品超市的可信数据空间架构,这样,我们就可以建立起关联对象“数字空间”。再次强调,关联对象“数字空间”是以政务数据管理平台的人口库、法人库构建基础信息,将关联对象的相关数据(分布在多个数据处理者)逻辑地集成在一起,由关联对象进行控制。这些数据是分布式的,解耦的,但逻辑上又是集成的,可自主控制的。政务数据平台管理基础信息(这点古今中外概莫能外),对外公开逻辑集成的目录元数据;身份认证公共服务平台只掌握身份信息;数据处理者只掌握其服务单位的应用数据,并与身份信息脱钩;数据主体(关联对象)则在实际应用环节发挥主导作用,自己的哪个信息可以给哪个对象在什么时空范围进行多大程度的处理,由自己来行使决定权,在具体应用场景通过数据产品一次使用一次授权,而不是一揽子授权。因此,关联对象“数字空间”不仅是赋能可信身份认证,包括数据处理者和用户的身份互认,更重要的是发挥数据主体的决定权,也就是依托这套数据基础设施,通过嵌入在数据产品中的授权“码”,关联对象可以便利地行使数据决定权,从而真正落实数据主体的数据“可携带权”。附带提及,这套数据基础设施应充分利用密码学、区块链和隐私计算等技术,建立受严格保护的关联对象“数字空间”。对于数据基础设施的跨域,则同样按照公共化基础设施的做法,建立“确定性网络+联盟链+零信任”的机制,建立数字信任生态。[2,6,12]4.3依托关联对象“数字空间”建立数据托管机制关联对象“数字空间”的数据是分布式的,解耦的,逻辑上又是集成的,可自主控制的。通过这种解耦,数据主体可以在具体应用场景通过数据产品一次使用一次授权,而不是一揽子授权。数据主体(关联对象)在授权同时,除了通过权益让渡获得使用便利,是否可以通过权益让渡同时获得实际收益呢?这涉及到业界关注的所谓“数据托管”“数据信托”或者“数据银行”的概念,个人或法人将数据托管给数据信托机构,后者代为行使相关权利,并返给个人或法人部分利益。鉴于这种托管机制涉及到一揽子授权,根据“数据二十条”[13]对一揽子授权的限制,以及《个人信息保护法》[5]关于“单独授权”“重新授权”等要求,这种简单的数据托管做法仍然存在法理上的障碍。当然,“数据二十条”也提到了“对承载个人信息的数据,推动数据处理者按照个人授权范围依法依规采集、持有、托管和使用数据”。我们认为,“数据托管”可以依托关联对象“数字空间”来实现。具体说,首先,政务数据平台管理基础信息,对外公开逻辑集成的目录元数据,说天然的关联对象数据的托管机构。其次,政务数据平台通过公共数据授权运营方式可以授权运营机构具体管理目录元数据,并对数据进行调度;政务数据平台加强监管。再次,数据处理者实际上拥有关联对象的应用数据,在必要的时候,可以申请关联具体的对象。最后,也是最重要的,就是由关联对象来具体控制其数据在具体场景应用中的数据产品的每一次使用。可见,关联对象“数字空间”同时解决了数据托管机制问题。5.数据权益基础设施第2部分梳理了数据基础设施的三层架构,包括元数据基础设施、数据公共化基础设施、数据价值化基础设施,但是这还不够,要落实“数据以人为本”,要让数据要素真正顺畅流动起来,还需要补充数据权益基础设施,让数据相关权益方各得其所。5.1数据和应用的解耦与互动5.1.1数字化体系的分层和解耦众所周知,业界一般将数字化体系分解为多层结构,最底层是数字基础设施,之上是数据资源体系,再上面是平台层和应用层。数字基础设施包括云网边端等,对应云计算架构的部分就是IaaS层,对应端的部分又可以演化出感知体系、物联网,也可以加上区块链等基础设施。平台层对应云计算架构的PaaS层。应用层对应云计算架构的SaaS层,是各类应用系统。数据资源体系在中间,是数字化体系的核心。这一架构其实就意味着各层之间的解耦或者说松耦合,包括网络和数据之间、计算和存贮之间、数据和平台之间、数据和应用之间,等等。解耦是数字化技术的趋势,借此发挥各环节的专业化和高效率。第4部分我们专门研究了数据和应用的解耦,数据形成统一的数据资源体系,就给予了应用(各类数据产品)不竭的原料、素材和源泉。事实上,数据本身并不能完全脱离开应用,因为数据本身其实基本上就是通过应用系统(以及相应的物联网终端)采集的,但是借助于信息系统之间的数据开放共享体系,数据又可以脱离开系统,而纳入数据资源体系,用于其他系统的开发利用。5.1.2数据解耦的三种途径数据被解耦出来,“数联网”的概念就被提了出来。就像感知终端形成物联网一样,数据本身可以作为对象形成“数联网”。“数联网”目前有两条主流的技术路径,即链接数据(如万维网的发明人伯纳斯·李(Tim