在《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)指导下,我国正在快速建设数据要素市场。本文从“数据二十条”对数据收益的指导原则出发,基于公平性与有效性原则,构建数据定价与数据资产价值评估的理论基础,并以与央企、互联网集团和金融机构的合作为基础,开发相关计算技术。理论证明:在满足公平性与有效性原则的情形下,在任一经济活动中的参与贡献数据要素,存在一个唯一、公平有效的收益分配理论解。进一步,开发数据资产图谱技术,用以解析数据生产使用链条上下游数据的贡献度,并可不断自动化盘点数据在各项经济活动中的收益值,为数据资产价值评估提供参数依据。2022年12月,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”),这是关于数据要素市场全局发展的战略性指导意见。该意见确立了数据要素作为一个新的生产要素的重要战略地位,涵盖了相应制度安排和发展方向等具体内容。其中,数据定价及收益分配问题被认为是至关重要的一个环节。“数据二十条”明确提出:“建立体现效率、促进公平的数据要素收益分配制度”,并指出“健全数据要素由市场评价贡献、按贡献决定报酬机制。结合数据要素特征,优化分配结构,构建公平、高效、激励与规范相结合的数据价值分配机制”。同时,国家数据局的成立也将为数据要素市场的制度建设提供有力基础保障。然而,目前数据定价和收益分配是亟需解决的难题。数字经济的发展需要核心技术为基础,在核心技术层面,应当进一步增加数据交易类技术、数据流通审计技术、数据建模与模型治理等底层技术的投入,并以这些底层技术“新基建”为引领,加快实现数据要素市场化配置、合理分配数据要素收益等。不论是市场参与者还是政策制定者都需要客观了解数据与场景、数据与数据之间的价值关系,从而形成与数据要素价值和贡献相适应的收入分配机制,进而驱动企业内部的独立核算、企业间的数据共享,形成数据要素市场。本文专注于从经济学与数据科学的交叉维度,讨论数据实际的经济价值并给出客观的计算方法。数据定价为什么难,本质上是因为数据有不同于其他要素的特殊价值特征:也就是姚期智(2022)指出的特异性、协同性与无限可用性。首先,数据价值具有特异性特征:同一数据对于不同场景的价值是不同的,对于同一场景不同数据的可用性与价值也是不同的。例如:某种电力数据,可以应用在电力定价、调度优化等场景实现经济价值;也可以与金融场景结合对企业金融服务参与信用评价产生经济价值;还可以用于地区经济的统计分析、规划决策的模型中。可见,对于不同使用场景,同一个数据产生的贡献与经济价值是不同的。其次,数据价值具有协同性特征:在使用数据的时候经常会发现多种数据的组合对某个场景的应用产生超过单一数据生产价值的总和,这种“1+1>2”的现象也是数据科学非常有魅力的地方。多维度的数据可以更精准地帮助分析、预测、决策等关键经济活动中的动作,不像传统要素一样,数据价值的加总不能是线性的简单相加。最后,数据价值具有无限可复用性:这也是数据要素具有的独特特征。不同于传统的生产要素,如土地(盖了房子就不能盖停车场,盖停车场就不能盖商城)同一时间单一使用场景的限制,数据可以在同一时间被不同主体调用参与多种经济活动(当然,在安全合规使用的前提下),在这个过程中数据产生了经济价值倍增的效应。
因此,数据对不同场景的价值关系形成了一个客观的图谱,数据与数据之间的协同关系也形成了一个客观的图谱。数据参与到无限可复用的各种场景下形成了潜在数据价值的广阔图谱,数据的价值本身形成了一个广阔而丰富的网络化图景,这也就是建设数据要素市场所追寻的星辰大海。如果能开发数据资产网络图谱相关理论和技术,就可以解决一系列关键问题:如交易中数据定价难的问题,数据资产入表的价值核算问题;数据收益分配的问题,大集团多主体数据交叉应用时如何合理分配权益激励使用问题;数据与场景的价值关系即供需关系的分析问题,基于供需关系的大量解析与积累就能解决数据交易使用撮合效率低的问题等等。在姚期智院士的指导下,交叉信息核心技术研究院团队与国家发展改革委价格监测中心紧密合作,为解决数据定价难、数据交易效率低提供了全新思路。(一)基于经济场景的数据定价理论基础
目前国内外对于数据定价与价值管理的研究仍旧处于初期,还未形成一套切实可用的体系。数据定价的研究容易陷入了一种“非对称性”陷阱,即将数据提供方和数据使用方处于“不对等” “非对称”的地位,这种设置就使得数据定价成为甲乙双方各执一词的讨价还价场景,容易陷入主观维度、主观指标的争执,失去了客观性的准绳。
如何能建立客观的数据定价理论基础呢?实际上,中央文件已给出高瞻远瞩的指示。根据“数据要素二十条”的要求,公平性与有效性是数据价值分配机制的基础。首先,本文给数据定价问题一个更通用的设置:参与方可以是多方,大家使用数据共同完成某项经济活动。无论是数据的提供方还是数据的使用方,都将其定义为“数据协作方”,这样大家的地位是平等的,形成了公平性的基础,问题的设置也形成了一个对称性问题。即使是买卖两方也符合这一更通用的设置,即存在两个数据协作方,一方提供的数据量必须不为零(卖方),另一方用在这项经济活动中的数据量可以为零(买方),两个数据协作方即对应传统概念中的“供需双方”。根据这两项原则,基于信息经济学、博弈论、计算经济学和计算复杂性等交叉学科理论,构建形成在某项经济场景中数据定价的理论基础:首先,利用信息经济学中信息价值的相关理论,建立各个业务场景中经济价值与数据应用之间的映射关系①,从而将经济价值转化为对数据应用精度与风险的度量。在这一过程中需要将场景中数据使用者的价值度量,即经济学中应用的效用函数与数据应用的决策过程耦合起来。因此,这是纯粹意义上数据的经济价值;在此基础之上,运用合作博弈的理论基础,对参与数据应用的所有数据都可以进行公平有效的价值分配,由此建立数据与某项经济活动的价值关联。这样,就可以建立某项数据与某项经济场景之间的定价理论。(二)数据要素价值实现路径与风险治理
1.数据价值实现路径。数据要素的价值发挥,离不开业务场景,而通过各式各样的数据,结合数据模型,设定优化/预测等决策目标,搭建数据模型,进一步通过模型输出结果,提取出信息,实现对业务生产过程的决策辅助指导,这是数据发挥价值的实现路径。目前,数据价值实现的路径有些是模型化的(例如利用人工智能算法建模),有些是非模型化的(例如通过商业智能展示和数据报表供决策人分析)。对于非模型化的应用场景,可以利用宏观的统计模型核算要素的投入产出以归因数据要素的经济贡献;对于模型化的数据应用场景,由于已经完成了可独立量化评估的数据贡献,可以用更精细化的方法进行计算,在一些场景里,我们已与行业专家定义了具体的效用函数,利用自动化程序计算各颗粒度的数据定价。我们在大型机构中发现约20%的数据使用场景已经是模型化的,其余是非模型化的。模型化数据应用场景随着人工智能的发展,尤其是现今大模型的飞速发展会呈显著上升趋势。因此,本文专门讨论一下模型的评估与治理。2.数据模型评估及其潜在风险控制。在数据模型使用过程中,需要充分考虑模型的评估以及潜在风险控制。而数据作为模型的输入端,同样影响着模型的评估与潜在风险控制这两方面。——数据模型的评估。数据进入生产后,依赖于模型结果,即当用算法建立模型后,使得数据进行自动化生产。比如,个人信用评估模型、个性化推荐模型等等,这些数据通过模型形成数据产品,再与人的决策和运营产生经济价值。而这些进入各个生产活动中的数据模型,也需要通过在各个场景进行评测,才能建立“数据—经济价值”的映射关系。通常情况下,数据模型的精度越高,决策效率越高,产生的经济价值就会越大。因此,数据模型的精度与模型价值息息相关。随着数据的大规模应用,人工智能算法的不断演进,模型算法的评测和治理也成为重要的一个环节。模型评测的技术可以揭示数据模型的价值与实际经济价值的关联关系,这对数据定价是一个重要的基础。——数据模型的风险。与数据模型精度相对应的是模型的风险,也就是人工智能应用的风险。这些风险来源于以下方面:一是数据模型本身误差的风险,比如金融行业的产品定价模型、风控模型等都有可能产生误差,这些误差会直接导致业务损失。有些时候随着风险积累还会产生系统性风险,比如2008年全球金融危机的导火索就是金融衍生品的定价模型误差。对于模型误差带来的风险需要进行合理的评估和治理;二是模型的结果在应用中会产生虚假或错误信息。当前,人工智能模型合成的数据和信息有可能是错误或虚假的,但这种情况下人类无法辨别这类信息的虚实。因此,需要算法来监管这些模型,避免产生虚假或错误信息的生成;三是人工智能模型有可能会产生歧视和不公平的结果,这种现象有可能是由数据本身自带的偏差造成,也有可能是算法设计存在缺陷。现实生活中常见的例子有价格歧视、大数据杀熟等,即平台算法有可能面对不同的人对于同样的产品展示不同的价格。金融领域也有可能出现放贷审批模型对不同的人群有所偏差,使得本应合格的申请人由于因为处于某个群体而遭到拒绝。监管模型、测试重要的公平性指标是减少这类问题的关键。以上是数据模型治理方面需要重点关注的方向,模型治理既是技术问题,又是制度问题。通过逐步推动人工智能模型治理的技术发展和制度安排,将更有助于利用数据资产构建智能化的人工智能模型,使得各领域的数据集合于人工智能大模型,实现生产力的倍增。(三)数据资产总价值的评估
数据资产评价与估值是数据资产运营的有效举措。通过对数据资产的管理、使用情况进行全面评估,运用科学的方法和适用的原则,以货币为计算权益的统一尺度,对在一定时点上的数据资产进行价值评估,从而实现以数据价值为导向的持续运营能力提升。目前全球对数据资产价值评估和数据资产定价都有一定的探索,但还未到成熟可全面推广应用的阶段,相关的理论、技术和模型等还有待进一步研究和开发。国家标准《信息技术 大数据 数据资产价值评估(征求意见稿)》中明确列举收益法、成本法、市场法等相关评估方法。同时,指出在对数据资产进行价值评估时,应分析数据资产的基本属性和基本特征。基于评估资料选择适用的评估方法,对数据资产的价值进行评估。由于前文中提到的数据资产特殊性,数据资产与其他资产类别在估值定价方面存在相似的方法论,也有明显差异。对于金融资产或实物资产,其估值定价通常是通过未来现金流折现加总等传统方法计算。土地作为一种资产常常被用于与数据资产进行比较:在对土地进行估值时,从金融学的角度出发,土地本质为一种实物期权。这种实物期权只能在同一时间应用于一项特定的活动中,比如土地可以用于建造写字楼或停车场。建成写字楼后,可以通过出租办公室或出售写字楼获得现金流,而停车场则可以通过出租停车位获得现金流。因此,土地资产的估值取决于各项经济活动的市场价格,投资者会根据这个市场价格进行决策,以获取最大经济价值。
然而,数据资产具有无限可复用性,在同一时间可应用在多个经济活动和场景中,其价值应该是所有潜在的经济活动分配权益的加总。因此,需要图谱化的规范统计,汇总收益信息和成本信息,或者是与市场可比的数据协同信息,就可以对各类的场景中产生的经济价值进行公平、合理的核算和加总,完成数据资产的完整估值。基于对某个场景数据定价的客观计算,可以为数据资产的价值评估提供参数依据,下文将具体介绍。(四)数据要素定价体系框架总体设计
基于前述数据本身的特征与数据应用模型的评估风险特性,数据作为资产与其他资产有全然不同的本质特性与价值发挥模式。因此,数据定价理论研究需要充分考虑上述方面,形成一套特殊的结合数据实际情况的解决思路;基于前述数据资产化需要的成本信息以及收益信息等价值评估重要参数估计,数据作为资产其生产与价值发挥链路错综复杂,需要考虑图谱化建设。基于此,本文设计了一套数据要素定价体系,以数据要素定价方法为核心技术出发,结合数据资产图谱,实现了一套通用合理的技术框架。
综合前述,我们搭建了一个理论框架用来处理数据在某一项经济活动中产生的价值,实现公平、合理的计算。如果要对数据的总价值进行计算,则需要结合以上提及的数据要素三个特征。
首先,需要将理论与实际场景相结合,建立业务价值与数据模型之间的映射关系。这个具象化的过程需要考虑数据的使用者及其对经济学意义上的效用函数和数据使用价值产生耦合关系的明确定义。我们将此算法在一系列具体场景中实现,例如,银行信贷和推荐领域,通过大规模数据应用和模型自动化展示,实现了对效用函数和数据价值的自动化计算,实现在业务开展的同时,计算数据在该场景中产生的经济价值。在其他场景中,一方面,我们致力于实现不断迭代此结合场景的经济价值与数据模型的耦合公式;另一方面,与各行业各领域的专家一起明确定义这些效用函数,进而形成行业标准。在行业实践中,算法落地需要理解数据使用者的经济目标,如最大化生产收益、最小化生产成本、最小化仓存储成本等,并在不同业务场景中定义这些目标,以实现自动化数据价值计算。此外,对于一些数据应用仍未完全智能化的场景,需要适用于基于宏观要素投入产出计算的方法论,用以计算数据价值。本文以某银行合作落地个人信贷场景的数据价值利益分配算法模型为例。个人信贷数据使用场景主要解决的业务问题是基于各个数据提供方的个人信贷相关数据,通过识别良好/不良信用的客户,预测客户贷款违约倾向,从而辅助银行控制信贷风险。这是一个典型的机器学习监督学习数据应用模型,其中模型使用逻辑回归二分类模型,模型评测标准为准确率。在这个数据模型应用场景下,入模数据来源于不同数据提供机构。需要研究解决的问题是对不同数据提供方分配合理的数据利益价值。监督学习的核心要素包括训练数据集、模型以及模型评测标准。评估此模型下的数据价值对模型的贡献度,就需要充分考量不同数据源对模型准确率的贡献情况。收益分配问题本质上可以理解成一种权重分配机制。本文定价算法基于合作博弈理论,可以建立与模型贡献相匹配的收入分配机制。其基本原理是:基于各方数据的贡献值进行数据提供方的利益分配。这种分配方式体现了各成员对总目标的贡献程度,避免了分配上的平均主义。比任何一种仅按资源投入价值、资源配置效率及将二者相结合的分配方式都更具合理性和公平性,也体现了各盟员相互博弈的过程。从这个原理出发,本文定价模式将不同来源的数据集当作联盟成员,计算各方数据对模型的贡献程度,以此为标准,实现收益分配(各方数据定价)。利用合作博弈分支下的Shapley算法,得到每个数据参与方的贡献度(计算过程略去)。通过模型贡献度的计算可得出一些有意思的结论:提供样本量多的机构,有时贡献值偏低;有些样本量较少的机构,反而贡献值较高。
当前全行业数字化转型加速,数据是底层基础要素,一定程度支撑着上层业务化模型的表现。随着包括人工智能模型、业务上云、物联网、区块链等新技术的落地,数据将会继续呈指数级增长,成为全社会最有价值的资产之一。可以预见,全行业亟需对数据资产化价值管理。这就需要对整个数据生产与价值发挥链条做出价值解析。
在产业中数据的应用层面,数据生产本身会形成一个上下游的关系:从原始的数据资源,经过数据治理的过程,完成数据的归集、清洗、整理,再到数据的分析建模,以及建模后的模型应用。整个链条最终会与业务场景相结合,产生价值。因此,在数据的价值计算中,沿着数据生产链条进行价值回溯是一个与实际结合、行之有效的解决思路,可以实现参与各个场景的每个数据元素价值的精确计算。由此,基于合作博弈理论,提出将数据产生的业务价值公平有效地分给任意单元参与经济任务的数据源的重要算法,研发了数据资产图谱技术,实现自动化盘点、计算和解析数据资产与各个场景的价值关联关系,穿透数据间的价值关联关系。在数据生产过程中,数据需要经过一系列的加工处理才能形成萃取层数据,发挥其价值。其中,上游数据的价值可以通过价值回溯的方法进行计算。为了实现这一点,需要对数据生产链条进行解析,以便清楚地了解数据的信息流转过程。更确切地说,对在实际数据包括生产、使用、创造价值的全生命周期中,追溯数据资产之间的生产与业务价值关系,对数据生产过程实行结构化、知识化的管理,通过完整地刻画数据生产流程,实现数据合规、高效生产和使用。例如,在经济活动中涉及的某个关键数据生产节点,其参与了最终的经济活动。该数据是由上游的其他数据进行加工处理得到的,这种情况下需要将数据生产的上一步和下一步的生产关系进行解析,以便对数据价值进行回溯和清分。计算出数据节点的价值后,通过前面所述的数据收益分配算法, 将其在某项经济活动中产生的价值一步一步地往前回溯到生产环节中的每一个节点。最终,使用数据资产图谱技术不断清点数据的价值,记录数据在各个场景中产生的价值以及数据与数据之间的价值关联关系。如前述提到数据要素的三个特征:特异性、协同性、无限可复用性,正是其导致了数据对于不同场景的价值关联关系是不同的,数据和数据之间的价值协同关系也是不一样的。加之数据可以无限复用,这些导致了数据价值特征形成了一个网状结构,数据资产图谱即是这个网状结构的事实性体现。通过不断记录、更新所有数据资产在各个场景中产生的价值以及数据与数据之间的价值,数据资产图谱形成了数据定价的坚实基础。更确切地讲,数据资产图谱是一个可以无限扩展的工具。在发现某项数据对某个场景有价值时,可以使用数据资产图谱的技术进行解析和价值回溯。在不断使用和发掘数据价值的过程中,数据资产图谱也会不断盘点和扩展数据价值。有了数据资产图谱,就可以对数据资产本身的价值进行评估。如上文中提到,国家标准《信息技术 大数据 数据资产价值评估(征求意见稿)》中明确列举了收益法、成本法等相关评估方法。其中,收益法需要通过测算数据资产的所有未来收益并折现加总;市场法需要可比数据的比较与估值;而成本法需要重置成本信息。利用数据资产图谱可以帮助评估人员得到这些参数的估计值,同时也需要领域估值专家对场景界定与效用函数(经济价值)的具象化,以及确权专家对权益归属的界定。例如,收益法需要数据的各项收益加权求和,这些信息可以利用数据资产图谱里数据对不同场景直接或通过下游间接产生的收益分配为依据;市场法需要输入可比数据价格,可以利用图谱信息把待估数据的信息量依据分配算法拆解映射到一些已有市场价格的数据上;使用成本法时也可以利用数据资产图谱中上下游生产信息和可比数据集进行成本核算。数据定价算法相当于在实际计算落地指导层面给出了一个通用的框架,对于任意经济活动中的数据都可以实现公平有效的价值计算。同时,借助数据资产图谱技术,能够对数据生产链条中的所有数据进行合理的价值分配。基于数据资产定价与数据资产图谱技术两项理论和技术基础,可以实现在探索数据应用场景的过程中,不断扩大数据资产图谱积累的信息,还原数据形成的广阔而丰富的价值网络全貌,从而进行数据资产的估值计算。在数据资产估值的过程中,一方面,依赖于数据定价算法计算,不同场景中每项参与的数据应该分配到公平合理的价值;另一方面,通过数据资产图谱,可以对不同场景下数据产生的收益进行加总,实现总价值的评估。然而,实际上,若将所有微观数据都进行细致计算,工作量将十分庞大,所需信息也受限于现实环境,存在可得性有限的问题——这时可以通过构建“数据价格指数”作为辅助解决路径,对某类数据在某个场景产生的价值进行宏观指标核算。(三)数据资产图谱的应用前景分析
依托数据资产图谱,首先,可以基本直接实现不同数据使用场景下的收益定价。其次,可以实现数据资产的评估验证。未来,数据资产图谱中会包含越来越多的数据、场景的价值信息以及数据之间的价值协同关系——这些信息可以对数据资产评估进行验证。如果评估结果与其他可比结果相比过高或过低,就可通过在数据资产图谱中找到依据作为参考。最后,可以实现数据交易的智能撮合。因为数据资产图谱中积累了很多数据的供需关系信息,可以基于数据资产图谱中的信息指导下一次的数据交易,对数据供给方和需求方进行智能撮合。数据资产图谱在未来行业发展中有广泛的应用场景。比如,数据经济建设通过数据定价与模型治理,作为数据要素流通市场的基础设施,畅通数据交易流动,可以将全产业链数据图谱应用在金融机构与地方政府对实体经济的支持。同时,在企业集团内部不同部门,不同法人主体之间可以建设以数据资产图谱为支撑的数据要素流动与定价平台,推动数据共享与收益核算分配,推动数据资产计价、核算与审计;在行业内部建立“监管沙盒”先行先试。尤其是通过在集团内部打造智能化模型,利用银行与产业集团的数据,在保护隐私的环境下进行联合建模,产生各类生产模型:如智能营销、智能推荐、智能信贷风险模型等。在联合建模的同时,依托数据定价算法以及数据资产图谱在集团不同法人主体、不同部门之间根据数据的贡献度进行经济价值的分配、部门贡献的独立核算,用市场化的力量将整个集团的资源协调起来进行数字经济的建设,形成“以产助融,以融助产”的产融协同模式,将集团内部的应用推广至全行业,促进全行业数字化产能提升。在全球进入数字经济时代的今天,数据是发展数字经济的基础性与关键性资源。2022年3月,国家发展改革委发布的《“十四五”数字经济发展规划》指出:数据要素是数字经济深化发展的核心引擎。并明确了未来发展目标,要实现“数据确权、定价、交易有序开展,探索建立与数据要素价值和贡献相适应的收入分配机制,激发市场主体创新活力”。通过制定公平合理的数据定价方法,以及数据资产图谱核心技术追溯数据应用价值本源参数,形成一套数据定价体系,可以有效解决数据要素流通的关键问题,赋能数据资产化之路,也是解决数据要素市场培育、交易,形成“标准化”产品的必要前提。通过建立公平合理的数据定价模型,以及构建数据资产图谱技术在数据生产链路里追溯数据价值,形成一套数据定价体系,可以有效解决数据要素流通的关键定价问题,从理论与技术层面助力“健全数据要素由市场评价贡献、按贡献决定报酬机制。结合数据要素特征,优化分配结构,构建公平、高效、激励与规范相结合的数据价值分配机制”,对于数据资产价值评估与数据资产入表、快速提升数据与场景的撮合效率等研究也具有重要意义
来源:《价格理论与实践》2023年第3期
作者:林常乐 清华大学交叉信息院,赵公正 国家发展改革委价格监测中心