查看原文
其他

如何设计数据交易市场?(上)

数治君 数据信任与治理 2022-03-29

本文编译自《数据的市场》(Markets for Data), 原文载于Industrial and Corporate Change 2020年第3期,作者Pantelis Koutroumpis, Aija Leiponen, Llewellyn D. W. Thomas。

为了阅读的流畅性,本文对正文及脚注部分略有删减。


1. 介绍

数据的规模和重要性正在日益增长,欧盟委员会将数据经济设想为数字单一市场政策框架的核心要素。然而,人们对数据如何共享和交易知之甚少。本文研究了不同类型的数据交易市场设计,探索数据经济的基础,以及可能导致市场效率低下的关键问题,以为新研究奠定基础。


本文中提到的数据市场包括(1)组织之间发生的数据的现货交易和关系交易,以及(2)由某种类型的价格机制提供信息。


数据商品有其独特特征,需要通过仔细关注市场设计来解决。其一,单凭数据本身很难产生价值,数据作为一种中间产品,其生产目的是合并和转换以创建其他基于内容的信息产品(如商业广告)。此外,数据是体验商品,甚至是信用商品,但体验商品的价值在消费前是无法观察到的,且信用商品的质量即使在消费后也很难评估,这给确定数据的质量和价值带来了挑战。同样,数据的质量和真实性只能通过将其统计特性与类似数据集进行比较来评估,而不是直接通过查看或使用数据来评估。


本文的贡献有以下三个方面:


首先,数据市场的运作方式与其他无形资产市场不同,通过建立大规模系统和开放的多边市场进行数据交易具有挑战性。


其次,数据市场需要建立严格的来源,从数据的起源处开始跟踪数据。验证的元数据可用于数据的交易,以评估数据的质量和合法性。


此外,数据控制权难以定义和强制执行。数据专有制度可执行性薄弱,知识产权也不利于控制数据的使用和传播,因此,在寻求合法数据交易(而非未经授权的交易)的市场中,全面的来源可以帮助澄清和核实交易方的合法权利。


再次,本文描述了主要的数据市场匹配机制并列举示例,本文定性说明了每种匹配机制的优缺点,得出通过每种机制可以完成的数据和交易类型。目前只可能实现几乎没有控制的大型市场或具有更大控制的小型市场。


下文简要回顾了数据交易的机制和历史,将数据市场与创意和专利市场进行了比较。其后通过Roth的市场设计理论视角来考虑数据市场。最后提出了未来的研究方向。


2. 数据交易的制度背景

数据长期以来一直被共享和交易。近年来,较低的数据收集成本和数字通信网络的采用极大地增加了收集的数据量。大部分被收集数据都是“耗尽数据”(exhaust data),即在线购物或社交等其他活动的副产品,而非专门用于分析目的。消费者的购买模式是第一个经历重大商业活动、引发了有关交易行为隐私问题的数据市场细分市场:美国联邦贸易委员会指出,这些个人数据市场几乎完全缺乏透明度,可能会通过侵犯隐私或实施不公平营销行为对消费者造成伤害。此外,盗用数据的市场一直在蓬勃发展。不断增长的数据量催生了极具争议的商业模型。


数据市场中的组织和机构正在迅速发展。《一般数据保护条例》(GDPR)和《加州消费者隐私法》(CCPA)等新法规已经实施。关于新型数据中介机构的设想已经浮现,它们要么将数据交易作为其核心活动,要么将其核心业务产生的数据进行交易。此类实体将允许第三方上传和维护数据集,其他方可以访问、操纵和使用数据,并通过不同许可模式进行监管。原则上,数据市场可以类似于多层平台,其中数据中介连接数据提供商、数据购买者和其他技术提供商。此类平台可以通过降低交易摩擦、提高资源配置效率和改善供需匹配为买家和卖家创造价值。


然而,在实践中,数据很少通过多边平台进行大规模交易。大伦敦管理局(Greater London Authority)建立的伦敦数据存储库(London Datastore)等大型开放式数据存储库并不出售数据。Acxiom、Bloomberg等商业数据“平台”作为中介机构通过双边和协商的合同关系买卖数据。此外也有大量失败的数据平台。建立通过开放市场进行数据交易的大规模系统具有挑战性。下文将详细调查数据市场的特征,以了解出现这种情况的原因。


2.1.数据市场与创意市场

数据市场表现出与创意和专利市场相似的特征。创意、专利和数据都是无形商品,在使用中基本上没有竞争对手。一个数字化的想法或数据点可能会被许多人使用,并以低边际成本复制。尽管其战略价值可能会因广泛传播而降低,但不会阻止多方面的应用和使用。此外,数据作为中间产品,需要经处理,与分析技术等补充投入结合才能成为最终产品,以提高效用或生产率。


创意市场在可充分保护知识产权时可能存在,这增加了卖家通过排除非法交易和使用、充分利用创意价值来证明投资正当性的可能性。然而有学者认为,多边专利数字市场并不可行,当商品的质量不完全可观察时,市场往往充斥着低质量的商品,而电子市场这类商品的拍卖功能可能特别差。有些公司为知识产权投资组合安排了公开和私人拍卖。


因此,对创意和专利市场的研究意味着,数据市场的启动可能需要特定的治理机制。安全交易、充分保护和交易商品的质量保证对于市场参与者至关重要。下文从可专有性和质量保证的角度来研究数据治理,并说明为何来源对数据市场至关重要。


2.2 专有制度

对想法和数据等无形商品收益的专有权可通过促进和保护控制权法律文书实现。但用于保护数据专有权的法律文书并不明确。版权对数据库的保护强度和程度有限且可变,通常只保护其结构和组织的空壳而非所包含的单个观测数据;且版权对数据库保护的前提是在将数据集组合在一起时有原创贡献。


这种薄弱的专有权制度因不同司法辖区的存在变得更为复杂:美国没有具体的数据库权利,澳大利亚版权法保护数据库,加拿大的做法折中。欧盟的《数据库指令》试图将保护范围扩大到数据库的不可复制方面,例如,当数据以不同的顺序或被操纵的格式提供时,甚至扩大到数据库种投入了大量投资进行编译的部分。在美国,很难阻止竞争对手从数据收集中获取大量资料,并将其用于竞争产品。为此,学者提出了有限的数据权,以防止在特定时间内未经授权的数据使用,但不能防止其复制或传播。该数据权利旨在保护和鼓励数据使用和实践创新之间取得平衡。


然而,设计数据保护很困难。欧洲数据库权利对数据库行业没有实质性影响。观测记录数据的跟踪和保护十分困难。数据库中传输或共享的数据来源难以检测:单个观察值或变量的顺序可能会发生实质性改变,之后数据就不再受版权保护。数据也可以通过统计分析进行转换,分析的结果也不受原始版权的约束。此外,除非法律允许对数据管理和分析程序进行审计,否则外部当事人可能无法证明哪些数据源是用于分析输出的。


因此,数据专有机制薄弱,通常通过贸易保密和合同手段加以保护。数据许可协议往往冗长而复杂,合同条款取决于特定司法辖区的法律法规等,试图明确定义数据的商业利用的条款在大规模多边环境下往往难以定义和执行。


2.3 质量控制

大多数无形商品都是体验商品或信用商品,其市场内质量保证通常通过市场中介机构提供的验证服务解决。研究表明,在线市场本身的声誉可以降低交易的感知风险。


当市场内交易的商品在形式和内容上存在异质性时,中介机构提供的验证服务往往侧重于卖方而非商品本身。而当商品具有均质的法律形式且内容异质时(如专利),中介机构可以进行专门考虑自身利益的验证过程。对于数据市场,可能需要由中介机构进行参与者层面的质量验证,因为这是在道德风险较高的情况下确保市场安全的有效手段。然而,考虑到数据形式和内容的巨大异质性,由中介机构进行验证更加困难。


一个关键的数据质量挑战是其法律地位。卖家也可能不知道自己数据的法律地位,数据包括个人信息时尤其如此。健康记录或手机记录等个人数据永久性地指向特定个人(“可识别性”),一旦整合多个此类数据流,通常即便通过匿名化处理后,计算机科学家可以轻易从数据中“重新识别”或“去匿名化”个体。如今,个人数据的保护主要通过法律规定。


然而,监管环境是复杂的。由于不同数据来源的法律框架、政策和指南之间的协调机制有限,一个管辖区内监管复杂性的挑战更为严重。


由于各司法辖区间缺乏全球互操作性,且立法结构、监管执法机构和判例存在差异,监管的复杂性进一步加剧。实现跨司法管辖区互操作性的努力(如1998年至2000年间制定的“安全港”)仅得到了部分实现。


综上所述,监管环境表明,来自特定来源、出于特定目的或跨越国际边界的数据销售的合法性并不明晰。此外,当数据被组合成混合数据集,可能无法定义混合数据集的法律地位。此时,侧重于参与者凭证的验证过程可能仅部分有效。此外,由于合并数据或组成数据来源的原始流程不透明,披露和筛选等数据级验证流程可能不可行,导致高昂的验证成本。


2.4 数据来源

由于薄弱的专有权制度和质量挑战,数据质量和合法性很大程度上取决于其来源。贸易伙伴通常依赖原始来源市场主体的声誉和法律责任,而非直接核实数据商品状态,他们可能会根据合同承诺纠正数据中发现的任何错误。


因此,数据需要有严格而全面的来源、特征和历史记录,数据价值很大程度上取决于这种关于其来源的互补“元数据”,数据和元数据在创造价值方面具有很强的互补性。然而,在披露与相关数据源和实践相关的基础元数据方面可能存在重大障碍。


虽然现已呼吁发展“部门特定和跨部门标准的元数据,校准,准确性和及时性,以提供一个坚实的和可信的基础数据采集,交易和再利用”,但几乎无人回应披露产生数据的来源和过程的必要性。令人鼓舞的是,用于监控数据消费者合同合规性的信任管理工具等来源机制设计方面有些技术进展。但目前数据来源通常是浅层的,即数据销售者声称来源,但一旦数据离开他们的控制,来源就会丢失。


3. 数据市场设计与匹配模型

接下来调查各种市场机制在多大程度上可以解决数据交易面临的挑战。本文回顾了Roth的市场设计原则,并研究了数据市场中可用的典型匹配机制如何适应这些原则。


数据市场通常基于交换访问和服务,而不是明确销售特定数据商品。将这些数据共享安排认定为“市场”的原因是,数据被用作商业交易中有价值的可交换资产。尽管可能不涉及特定技术的直接销售,交叉许可甚至合同共同开发安排都是“市场”的一部分。这种交易不是公平的、匿名的、以物易物的“市场”,往往在各种关系合同中发生,但在产业组织经济学中,此类交易确实构成了“市场”,因为它们涉及相互影响的(不完全)可替代商品或服务的价格。


3.1 市场设计原则

市场匹配买家和卖家根据约定的交换条款交换货物。市场需要从持续交易中获得明显的持续收益。为此,需要提供低交易成本和有效的交易安排支持参与者的参与,还需要向参与者保证其匹配算法的稳定性。


Roth的市场设计理论确定了与有效市场运作相关的若干要求:


首先,一个有效的市场需要提供“密度”(thickness,即“流动性”),使买家和卖家都有机会与广泛的潜在合作伙伴进行交易。缺乏流动性可能是导致数据市场效率低下的一个主要因素。


其次,虽然流动性是有效市场的必要先决条件,但受欢迎程度也会造成“拥挤”,“拥挤”会减慢交易时间和限制参与者的选择。因此,一个高效的市场需要快速交易来确保市场清算,但不能太快,以免个人在考虑报价时没有机会评估替代方案。在数字市场中,拥堵通常不是问题。


第三,“安全”市场是指参与者没有机会歪曲信息或采取其他可能降低效率的战略行动的市场。市场须能够排除影响其他参与者行为或偏好的行为。就数据而言,安全的市场将提供可靠的来源信息:无法评估数据的来源将加剧信息不对称,使市场效率低下。安全市场还要求排除外部人员来保护数据。


最后,市场需要尊重社会和道德规范。就数据而言,数据的隐私和保密影响可能会限制市场的增长。个人或社会团体可能会试图限制其合法性。公众及监管机构对数据、隐私和数据交易的社会影响和透明度等均愈发感兴趣。


本文下篇将分析当下数据交易市场的几种模型,并对未来研究提出建议,敬请期待


往期文章:

  1. 数据权属与数据治理之争
    如何实现大数据价值?(下)
    如何实现大数据价值?(上)
    政策制定者应密切关注数据治理(下)
    政策制定者应密切关注数据治理(上)
    当讨论数据所有权时,我们到底在讨论什么?
    没有人拥有数据?(下)
    没有人拥有数据(上)
    数据所有权:问题盘点与总结(上)
    数据所有权:问题盘点与总结(下)

    应该在欧盟引入数据生产者权利吗?(上)

    应该在欧盟引入数据生产者权利吗?(下)

      请扫描二维码获取该系列文章中英文原文:

   2.  欧盟数据治理模式
Gaia-X:下一代数据治理基础设施


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存