查看原文
其他

观点 | 数据产品交易的定价研究:进展评述与方法比较


内容提要:数据定价是数据交易中的一大难点问题,需要综合运用计算机科学、数据科学和管理学等方面的基础知识。本文选择计算机科学、数据科学和管理学视角下典型的数据产品定价方法进行综述,介绍了管理学视角的“基于人机协同的数据产品交易参考价格(区间)方法”。得出结论:现有方法均各自需要一定启动条件或是只针对特定的应用场景,具有一定的局限性。数据定价是基于多方之间的估值和均衡来决定的,不同的数据主体对数据产品有不同的估值。因此,数据产品定价需要系统地为数据市场中的各方,包括数据供方和数据需方等建立能够达成共识的价值评估原则。此外,通过数据价格向数据市场中的不同主体传递信号也很重要。
关键词:数据要素;数据交易;数据定价
作者:王今朝 窦一凡 黄丽华 李根 

复旦大学管理学院信息管理与商业智能系

数据产品定价是数据要素市场建设过程中至关重要的一个环节,是开启十万亿级市场的金钥匙。2022年12月,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》中明确提出:“结合数据要素特征,优化分配结构,构建公平、高效、激励与规范相结合的数据价值分配机制”。然而,数据定价也是当前数据交易过程中的一大难点问题。自2019年数据被增列为生产要素以来,我国陆续出台了多个政策,加快培育数据要素市场,各地也纷纷开启了建立数据交易中心的热潮。然而,超过50%的数据交易机构每年的数据交易量低于50笔,还有大量的机构成立不久就结束运行、停止业务或处于半停运状态。这反映了数据要素流通市场建设的艰巨性和复杂性。关于数据要素市场的发展困境,有学者总结了相关经营主体参与市场普遍存在“五难”困境,即确权难、定价难、互信难、入场难、监管难。其中,定价需要综合运用多学科领域的知识。因此,本文专注于从计算机科学、数据科学和管理学的视角出发,对当前数据产品的定价方法进行总结与比较。并从管理学视角出发,提出了基于人机协同的数据产品交易参考价格(区间)方法。该定价方法是基于数据交易实践进行的探索,虽然需要一定的启动条件,但在可操作性、可解释性和适用范围方面具有一定的优势,为数据产品的定价提供了一种新思路,对于进一步探索数据产品的定价方法具有重要意义。


一、相关研究文献评述


数据定价难的本质在于数据具有不同于传统生产要素的特征。例如,数据可以重复使用,数据对于不同买家带来的价值差异很大,数据的有用性很难先验验证,数据的组合价值常常会超过单一数据生产价值的总和,跨组织的数据交易面临逆向选择、道德风险及交易不确定性等三类交易成本。数据产品定价面临诸多问题,包括数据的复制成本极低甚至趋向于零,导致大多数数据无法通过拍卖方式定价;数据的价格形成机制无依据,即目前缺乏定价的标准。Liang等从数据的生命周期出发,总结数据产品定价面临的挑战,包括数据来源众多,很难对不同来源的数据形成统一评估标准;数据的管理和分析需要花费大量的成本,这个过程中的成本难以量化计入定价中。为了迎合不同需方的需求,同一原始数据会形成不同的数据产品,如何对这些不同形态或类型的数据产品评估定价也是一大难题。上述讨论大多基于数据的收集、分析、管理成本等影响数据定价的视角,目前更为普遍的一种观点是数据价格是由价值驱动的,而不是生产成本。数据产品与以往的信息产品(数字产品)相比具有一些相似的特征,最显著的一点是成本方面,包括搜索成本、生产成本、复制成本、运输成本、追踪和核查成本等方面的成本较低,这些特征与传统的实物产品具有很大的差别。因此,数据产品定价往往要基于价值而非成本。从价值驱动的视角出发,数据产品定价是基于数据为数据使用方带来的价值,依赖市场类型、参与人之间的关系和机制设计确定价格。此外,数据产品和数字产品在消费的单位、可聚合性、消费的方式、再次使用和再次销售等方面具有差别,数据价值依赖于需方的使用能力,因此,数据产品定价与以往的信息产品相比更为复杂。

已有关于数据产品定价的研究大多讨论数据的定价策略,包括免费、基于用户使用、套餐定价、订阅定价、捆绑定价、两部制定价等。有学者探索将版本划分的策略应用在数据产品定价中,例如,关系型数据集和查询数据库基于不同的查询内容,收取不同的费用。这是基于数据供方或者数据交易平台已经明确了数据产品基础价格的假设,而忽略了确定价格基准的过程。数据产品的定价方法可以分为基于任务的定价和基于经济模型的定价。基于经济模型的定价方式又包括基于成本的定价、基于消费者感知价值的定价、基于供需关系的定价、差别定价、动态定价、基于博弈论的定价、拍卖等。其中,基于博弈论的定价方式分为非合作式博弈、斯塔克尔伯格博弈和讨价还价。

关于影响数据产品定价的因素研究,Shen等研究了影响个人数据价值的数据属性,分析数据元组的价值如何随信息熵、权重值、数据参考指数、成本等因素的变化而变化,提出对个人数据实施正向评级和反向定价的方法。Liang等对数据市场的定价进行调研和总结,认为数据是数字化的商品,数据价格受到数据市场结构的影响。Tang等发表了数据要素市场的首篇案例研究,基于实证数据总结影响数据要素市场价格的关键因素,根据其重要性依次为数据的可观测量、数据维度的丰富程度、是否提供客户化服务、数据字典与描述、测试样本集、数据的排他性、数据的更新频率、最佳实践、数据源和提供商信息、平台手续费、定价机制的可信性、历史交易的情况、数据完整性、数据产权、专家建议、数据新鲜度、数据安全以及平台的再加工等18个因素。

此外,一些学者针对具体特定的数据交易场景讨论了数据定价方式。例如,针对个人数据,设计了基于信息熵的定价,基于差分隐私和查询定价的个人隐私数据价格框架。针对在线的数据库查询场景,设计了基于查询的定价方式,使得买方有充分的自由选择购买哪种查询,其本质仍是“版本划分”。针对物联网产生的数据,提出允许多个数据供方组成联盟的捆绑策略。针对用于机器学习的数据,基于数据带来的效用确定数据的定价。Cong等在机器学习的场景下,讨论原始数据的定价和数据标签的定价。总体来看,用于机器学习训练的数据,由于带来的效用容易度量和评估,因此数据库查询以及模型化的数据应用场景是目前数据定价研究讨论较多的场景。

已有文献研究分析了数据产品定价难的原因,讨论数据产品定价的策略,探究了影响数据产品定价的因素。然而,关于数据产品定价方法,已有研究大多针对具体的数据交易或数据应用场景提出对应的定价方法,缺乏系统性的梳理和对比。因此,本文对当前数据产品的定价方法进行梳理和对比,并从管理学的视角,基于数据交易实践提出了一种适用场景更广的数据产品定价方法。

二、数据产品定价的方法比较

由于数据产品定价涉及计算机科学等多学科领域知识,本文将分别从计算机科学、数据科学和管理学的视角出发,选取典型的数据定价方法进行介绍和对比。其中,管理学方向基于人机协同的数据产品交易参考价格(区间)方法是本文研究团队创新提出的一种数据定价方法。

(一)计算机科学方向的研究

数据常见的一大应用场景是机器学习等模型化场景,基于机器学习模型进行数据分析是商业中常见的应用。从计算机科学的视角来看,常见的数据定价方式包括基于模型的定价和基于隐私补偿的定价。

基于模型的定价主要是针对机器学习等应用场景的定价方式。其以姚期智老师所在团队为代表,开发数据资产图谱技术,解析数据贡献度,给出数据经济价值的计算方法。该方法考虑数据用于建模的情境,使用数据的经营主体借助数据分析进行更有效的决策,进而获得经济价值。因此,需要依据经济价值的目标抽象出功效函数,例如基于模型精度的提升确定经济价值。同时,在数据价值链的视角下,沿着数据生产链条进行价值回溯,并在多方数据合作博弈的框架下,建立分配算法,根据数据的贡献度公平地分配价值。

基于公平性和有效性原则,林常乐和赵公正证明了公平有效的唯一收益分配理论解的存在性,并基于与企业合作的实践,开发了对应的技术,用于解析在数据生产使用的链条上各参与方的数据贡献度,进而得到数据在各项经济活动中的收益值。第一,数据的提供方和使用方,可以被视为“数据协作方”,这样数据供需双方处于平等的地位,形成公平性的基础。第二,为了度量数据价值,需要确定数据在具体业务场景应用中带来的经济价值。业务场景分为模型化和非模型化两类。在模型化场景下,可以定义出具体的效用函数。例如,基于合作博弈分支下的Shapley算法,通过逐步移除数据得到模型准确率的变化,根据数据对于模型准确度的提升,量化评估数据的贡献度,进而确定与模型贡献度相匹配的收入分配机制。而在非模型化场景下,依赖宏观统计模型核算要素的投入产出,进而归因数据带来的经济贡献。林常乐和赵公正提出的数据定价方法只针对模型化的数据应用场景。用数据对模型的贡献度乘以经济价值的总额,可以得到该部分数据带来的经济价值,进而作为数据定价的基础。

在数据应用的实践中,数据需要经过采集、清洗、加工、分析等一系列流程才能被最终应用于模型中。基于价值链视角的数据定价机制也是常见的定价思路,即明确数据价值创造过程中的各主体,对数据价值链上各主体创造的贡献进行分解,基于数据产品的使用效益,进而确定数据价格。林常乐和赵公正也正是基于此思路,开发了数据资产图谱,回溯和清分数据的价值。

此外,在数据用于联合建模预测的情景下,特别是当数据共享存在限制。例如,只能共享汇总聚集的数据而不能共享个人水平的数据时,联合多方高维数据进行综合分析、预测建模具有很大的挑战,Cai等、Liu等针对此情景提出了不依赖于个体水平数据对高维数据进行检测的方法。在计算数据价值方面,Liu等提出一种新的方法,不仅基于公平分享收益的Shapley value,而且基于数据供方对隐私敏感程度(privacy sensitivity)。

然而,正如林常乐和赵公正在与大型机构合作中发现的,约20%的数据使用场景是模型化的,目前仍有大量的数据应用场景是非模型化的。因此,计算机科学视角出发的数据定价方法主要存在以下两个方面的缺点:一是该方法的针对性过强,不适用于非模型化的场景;二是该方法往往基于Shapley value 计算数据的重要性,将其作为数据定价的基础,而使用 Shapley value 的一大缺点是计算的复杂性。

此外,在计算机科学视角下,针对个人数据交易,学者提出了基于隐私补偿的数据定价方法。隐私保护是行业以及个体关注的焦点,因此。该定价方法从个人隐私出发,通过给予个人数据主体一定的隐私补偿,激励卖家出售个人数据。Li 等提出了一个理论框架,将收入分配给因隐私损失而应得到赔偿的数据主体。而在隐私损失的度量方法上,主要有差分隐私和信息熵方法。

(二)数据科学方向的研究

Pei从数据科学的视角讨论了数据定价应遵循的基础准则,总结了常见的数据定价方法。首先,版本划分是信息产品定价中常见的机制。其次,在确定数据定价模型中遵循的原则包括真实性、收益最大化、公平性、无套利定价、隐私保护、计算效率等。最后,常用的数据定价方法包括无套利定价、利润最大化定价等。

在基于查询许可的数据交易模式的定价模型中,无套利是最基本的特性。在无套利定价的机制下,数据需方无法通过组合两个不同的查询以用更低的价格获取所需要的数据。然而,基于查询的定价方式过于简单,难以用于复杂的数据分析场景。

利润最大化定价是数据定价中较少被讨论的一种方法,可能是因为数据定价中包括套利在内的其他问题更为突出。当然,也有学者就基于查询许可的数据定价,提出了三种定价函数以实现无套利收入最大化。在该方法下,假设所有买家都是一心一意(single-minded)且数据供应是无限的,定价方式包括统一捆绑定价、附加定价以及分次数定价。然而,在当前的数据交易市场下,追求利润最大化并不是数据供方最迫切的需求。正如尹文怡等实证研究得出的结论,一旦高价数据出现替代品和二手交易,数据价格就会降低,数据的权威卖方会因无法获得理想的利润,缺乏参与市场的动力而离开市场。

(三)管理学方向的研究

在数据要素市场流通的实践中,尤其是在数据应用于非模型化的场景下,上述数据产品的定价方法均面临挑战。本文的研究团队基于前期对数据市场的调研成果,以“基于数据自身因素的数据定价模型”为主要思路,采用“类比历史类似数据交易+关键因素评分”的思路,提出人机协同完成的数据产品交易参考价格区间的制定方式。

对于市场交易的数据产品而言,简单的成本加成定价法是不合适的,因为数据产品流通大都是伴随着商业服务由计算机系统自动产生,成本较难分摊计算:收益法也不合适,因为收益法适用于企业长期持有的、具有超额收益值、经营风险稳定可测的数据,且需要在具体应用场景下进行具体分析,不是一个对于所有数据都通用的评价方法。在实践中,数据产品的价值是不确定的,与数据使用方的应用场景、数据分析能力和商业模式直接相关。市场法仅仅适用于数据市场发展相对成熟、可提供参考案例比较丰富,且可交易的数据类型多样,能够支持企业各类数据全面估值的情形,在刚刚起步的数据交易市场上并不可行。

本文的调研结果表明:数据供方在定价过程中考虑的主要因素有相关成本和可供参考的历史成交价格;数据需方在看待价格时希望更多地了解数据的独特之处、匹配程度和实际应用过程中创造价值的潜力。由于买卖双方关注点的明显差异,也很容易导致在交易价格形成过程中买卖双方存在严重的分歧。例如,供方可能认为自身提供的数据价格应该与历史上其他供方的数据价格能够类比,一旦降价则会导致后续交易都无法盈利;而需方则认为该数据所带来的商业价值尚有不确定性。这样的分歧往往导致无法达成交易。

为了同时满足上述数据供需双方对于数据价格的主要诉求,既需要依赖专家的知识研判具体业务场景中买卖双方的需求特征,又需要充分利用已有的历史交易数据形成对于未来交易的参考,同时还希望专家的研判不会受到供方数据的影响,避免专家“又当裁判员又当运动员”。因此,本文提出了基于人机协同的数据产品交易参考价格(区间)方法,即通过加权计算机器对数据在影响定价的各维度上的评估及人工对各维度相对权重的打分,得到数据价值的估计,进而类比历史交易数据,最终得到数据产品价格的参考区间。具体而言,该定价方法的工作逻辑如下:

首先,根据相关理论及调研结果构建数据价值的评估指标体系。Tang等提出了数据的可观测量、数据维度的丰富度等18个影响数据交易的因素。尹文怡等基于上海数据交易中心的平台交易历史数据开展了实证研究,验证了数据产品的独特性与数据权威性对数据价格的影响。本文研究以数据价值评估的目标和范围为指导,遵循SMART原则(明确的、可衡量的、可达成的、相关的、有时间要求的),最终确定包括“赋值因素”“采集因素”“内容因素”和“时间因素”在内的四种数据评估要素,并进一步制定其子要素(可被测度要素)。同时,需要保证各个子要素的打分互相独立、对数据价值贡献有效并且完全可量化。以广告和征信领域为例,使用“样本规模”与“维度数量”这两个指标测度“赋值因素”,“厂商权威性”这一指标度量“采集因素”,“卖家数量”这一指标测度“内容因素”,“更新速度”这一指标测度“时间因素”。

然后,由机器对上述五个指标进行打分。具体而言,“样本规模”由数据产品供方生成样本后机器读取样本容量(行数 * 列数)获得;“维度数量”经过机器自动判别是否重复并删除无意义重复列后得出最终维度数量;“更新速度”主要由数据产品需方输入,如“X天进行一次更新”。对于这三个指标以及“卖家数量”,机器根据同类数据的市场平均水平调整得分,正态化至0-5分内。“厂商权威性”由系统中认定的权威厂商判断生成“是”或“否”,“是”则得5分,“否”则得0 分。考虑到机器评分存在数据供方人为操纵数据的可能性,如蓄意增加样本规模、无意义重复维度、伪造数据、蓄意虚报更新速度等情况,该方法在机器评分的同时仍可采用卖方/买方对相关分数申诉后交由专家判断(各个维度的满分都分别为5分)以避免这些情况的产生。

在机器完成了对于不同数据维度的打分之后,即进入到专家评分环节,专家仅针对各个维度在例如信贷、保险、交通等不同业务场景下的重要性进行权重评分,而并不接触数据本身。本文方法基于层次分析法(即Analytic Hierarchy Process方法,简称AHP)的思路,由专家团队集体决策各指标的相对权重。具体而言,可以针对不同数据交易的领域,选择该领域的专家对于不同维度间的关系进行评分,并基于AHP方法进行权重计算。权重越高代表该要素越重要,对该场景下的参考定价背后的数据价值的贡献值也越大。专家针对具体交易场景下的数据重要性,给出不同指标之间的比较值,构造判断矩阵。为了保证判断矩阵具有大体的一致性,需要进行一致性检验。

当同时具备了机器计算的单维度得分和专家集体决策的权重分数之后,就可以通过数值计算(得分矩阵与权重矩阵的(点)乘积)得到数据价值的最终量化值以作为数据参考定价的比较标准。这个分数既能帮助供应商确定数据的参考价格,也有助于买家了解数据的应用潜力和价值。图1仅作为示例,加权计算机器部分和人工部分的打分可以估算出数据的得分为3.5。

最后,基于上述评分确定数据的参考价格区间。我们对历史交易的数据产品进行上述打分,并得到各不同分数段的历史市场成交价格。通过对不同数据产品进行分类,得到了同类数据(如征信、营销)及各分数段的成交价格分布(如图 2左图所示)。将产品得分与历史产品得分进行比较后,获得过去相似得分产品的定价分布并根据其最小最大定价得到参考定价区间。图2右图中左侧一列展示了类似评分数据定价,例如,当类似数据的价值评估得分为3.0时,类似数据的价格为4.5;右侧一列展示了同类所有数据定价。这个区间可以同时展示给供方和买方,增加市场的透明性,从而大大加快买卖双方对于价格形成共识的过程,并加快形成稳定均衡的价格的节奏。

上述方法具有如下优点:一是不依赖于特定模型,整体的解释逻辑较为清晰,并且能够伴随不同商业场景及时调整;二是实现了专家评分和机器评分的分离和协作,专家主要基于自身的专业知识判断不同维度的重要性,而机器则主要针对数据在不同的单一维度上的表现进行评价(例如分位数、偏离度等),充分发挥了各自的主要优势。但缺点也较为明显:一方面,要求有数据交易的积累,依赖于同类历史数据的历史成交价格。在数据交易平台发展的初期,数据交易不活跃,难以为新数据找到匹配的同类数据,出现“冷启动”的问题;另一方面,关于刻画数据的维度选择,目前选取的几个维度主要来自具体的应用场景及前期的企业调研。但整体而言,该定价方法是基于数据交易实践进行的探索,在不依赖于复杂模型的前提下,寻找一种能被买卖双方理解和认可的操作性强的定价方式,为数据定价提供了一种新的思路和方向。

表1总结了上述从三个学科视角出发,不同的数据定价方法的理论基础、适用场景、原则、计算过程及局限性。
三、结论与启示

数据要素市场是一个全新的领域,目前尚未有成熟的理论提供指导。数据定价是数据市场建设过程中关键的一步,也是当前数据市场面临的一大难题。由于数据具有不同于传统生产要素的特征,传统的产品定价方式不一定适用于数据定价。本文从计算机科学、数据科学和管理学的视角出发,对当前数据产品的定价方法进行了综述和对比,各种方法需要满足一定的条件,并满足特定的场景。本文从管理学视角出发,提出了基于人机协同的数据产品交易参考价格(区间)方法,并采用案例进行分析,具有一定的合理性和可行性。据此,得到如下启示:

1.当前已有的数据定价方法往往局限于特定的场景。在模型化的数据应用场景下,例如基于人工智能算法建模,可以采用基于模型的定价方法;在个人数据交易情景下,可以采用基于隐私补偿的定价;在一些简单的数据交易模式下,例如用户基于数据库查询数据,可以采用基于无套利或利润最大化的定价方法。在上述特定的情景下,本文总结的定价方法对于指导数据交易过程中的数据定价具有重要的价值。

2.基于人机协同的数据产品交易参考价格(区间)方法为数据产品定价提供了新思路。基于人机协同的数据产品交易参考价格(区间)的定价方法虽然需要初始的数据成交历史积累,以及面临如何选择评估数据的维度这一挑战,但不局限于特定的数据应用或数据交易的场景,对于指导数据交易过程中的数据定价具有重要的价值。

3.数据产品的定价方法需要更多的探索。数据定价是基于多方之间的估值和均衡的结果。不同的数据主体对数据产品有不同的估值。因此,数据定价重要的是系统地为数据市场中的各方,包括数据供方和数据需方等建立价值评估原则。此外,通过数据价格向数据市场中的不同主体传递信号是很重要的。迄今为止,对数据价值的评估以及数据市场中各方之间的谈判等,基本没有进行详细的分析。未来可以在此方向上进行更多的探索。

伴随着数据要素市场在我国的加速发展,越来越多的企业积极投身其中,数据作为交易的标的物也越来越成熟和多样,从而给数据产品的交易定价不断地带来新的挑战。目前在已有的数据要素市场实践中已经能够看到的趋势包括三大方面:一是数据供方的目标和动机更加多元,例如基于公共数据的数据产品提供方(例如地图服务)和商业数据产品提供方在参与的目标上可能存在差异;二是数据产品化的程度差异在不断拉大,例如天眼查、启信宝、万得等数据产品的运营管理已经非常成熟,而许多刚刚尝试进入数据要素市场的企业甚至对于这个产品的发展目标仍不明确;三是数据产品流通可依托的技术体系在日新月异的发展,从最初的中心化平台和云设施,到目前去中心化的区块链技术等,不同的技术在帮助市场构建信任机制和完善流通体系方面也有各自不同的优劣势。这些趋势的影响,无论是交易目标、运营能力还是支撑技术,最终都会不同程度地反映到价格当中。由此来看,数据产品交易定价的相关研究,还有待在未来更加深入地开展,从相对广泛的概念层面的讨论逐渐细化到不同业务场景、数据产品形态和交易支撑技术的情形中去。


来源:《价格理论与实践》

END


# 好文推荐 #


数据要素信息参考(06.12-06.18)

【数据需求动态05期】信贷数据、消费数据、旅游数据…

诚邀参与 | 《数据要素统一大市场产业图谱》研究计划正式启动!

数据资产化与数字中国建设:数据投行建设的赋能作用


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存