查看原文
其他

观点 | 新一代人工智能领域数据要素定价的困境与出路


内容提要:以大语言模型(LLM)、生成式预训练转换模型(GPT)等为代表的新一代人工智能(AI)方兴未艾,数据将是AI大模型的关键竞争要素之一。建立健全人工智能领域数据要素定价机制,是通过市场化手段提供高质量、大规模、多样性数据集的关键环节。在综述数据要素定价研究文献的基础上,本文系统梳理新一代人工智能领域数据定价面临的一般性和特殊性困难。从新一代人工智能技术所需数据的角度,本文创新性地提出“质量基准、贡献增值、场景定制和动态溢价”相结合的综合定价模型的思路,并从市场建设、定价标准、价格结构和定价环境等维度提出对策建议。
关键词:数据要素定价;新一代人工智能;大语言模型;生成式预训练模型
作者:鞠雪楠 欧阳日辉 
中央财经大学中国互联网经济研究院

随着人工智能技术的快速发展和经济效用的逐步体现,算力、算法、数据作为人工智能核心三要素的重要性日渐凸显,各国对新一代人工智能愈发重视。在新一代人工智能领域中,数据不再仅仅是算法模型训练的“原料”,而在数据的类型、质量、获取难易程度等方面产生明显差异,特别是高质量、大规模、多样性的数据集,直接影响了以大语言模型(LLM)、生成式预训练转换模型(GPT)为代表的新一代人工智能模型的效率和研发水平。因此,数据将成为新一代人工智能领域中差异化竞争的重要力量。从业界实践来看,大模型的线性优化通常需要数据供给的指数级增长。研发主体自身积累的数据量、公开数据已不能满足新一代人工智能大模型的开发和优化,利用爬虫技术获取数据存在巨大隐患,数据购买成为训练人工智能的数据来源之一。然而,采购数据常常面临着定价难的问题,这无形中增加了数据的获取成本,也阻碍了数据的顺畅流通。加之,数据交易伴随着质量参差不齐、存在合规风险等不确定性挑战,使得定价模式更加难以确定。因此,探讨新一代人工智能领域数据要素定价面临的挑战及相关对策,既有助于充分释放数据要素价值,也是推动我国新一代人工智能产业发展、参与国际竞争的重要议题。


一、相关研究文献评述


大模型是参数维数极大的模型,这些参数需要大量增加用于训练或估计的数据规模,以提高其泛化能力。在人工智能企业本身数据不足的情形下,必须通过市场配置数据资源。在市场化配置中,定价是数据要素市场机制的核心,也是数据要素价值体现的重要环节。从研究前沿来看,新一代人工智能领域数据要素的相关研究集中在数据安全、数据治理、数据属性的讨论,对于该领域数据定价的研究处于起步阶段。与此同时,数据要素定价相关的研究日益丰富,可为本文提供理论参考。从经济学的角度出发,目前关于数据要素定价的研究可分为以下四类:

一是数据要素定价特征与挑战的研究。从数据本身的特征来看,刘金钊和汪寿阳提出,数据的价值实现方式不确定、效果不直观,应用场景也较为复杂,有可能存在先行者优势,价值难以清晰判定和准确估计,也较难使用统一标准定价。陈蕾等认为,从数据交易来看,受限于交易细则不明确、运营机制不完善、交易激励不充分等原因,数据交易规模并不理想,导致公开竞价形成市场公允价格的定价机制难以充分发挥信息披露、供需调节等功能。同时,也有研究关注数据定价过程中的隐私安全以及资产化过程中定价面临的挑战及应对措施。

二是数据要素定价机制的研究。欧阳日辉和杜青青系统地研究了数据要素定价的对象、影响机制和主要原则。Pei、Meierhofer等认为,数据定价的对象是能够产生经济效益的数据产品。Spiekermann提出:数据要素定价的主要参与者包括数据提供商、数据需求方和数据中介三类市场主体。在影响因素方面,Bajari等研究发现:数据要素的价值与数据的完整性和准确性成正比,也与数据产品/服务的技术含量和稀缺性正相关。在定价原则方面,Riazi等、Xu等认为,数据要素的定价应遵循收益最大化、公平性和匹配性等一般性原则,也应注重数据安全、隐私保护等特定性原则。

三是数据要素价格形成机制的研究。黄倩倩等提出,首先由数据供给方提出初步的报价,再由第三方机构对该报价水平进行评估,最后数据买卖双方商议确定最终成交价的“报价—估价—议价”模式,并设计了相应的数据价值评估指标体系。特别是在数据质量维度,将数据质量的评估标准细分为规范性、一致性、完整性、时效性、稀缺性、准确性、多维性、有效性、安全性等指标,与成本、价值、品牌等维度并列成为评判数据价值的参照体系。同时,李标等提出,建立健全由均衡价格参照机制、询价竞价机制和公允估价机制构成的数据要素价格生成机制,使数据要素市场交易定价更加科学。

四是数据要素定价模式与策略研究。于施洋等提出,根据数据交易“双向不确定性”和“非标准化”两个特征,对数据价值变现的不同层面进行分类,采用相对应的定价模式。具体而言,对于原生数据的资源化处理,采用成本法定价:对于衍生数据的资产化处理,采用收益法定价;对于数据权益的资本化处理,采用市场法定价。张平文和邱泽奇提出:在定价的具体策略上,目前数据产业主要采取渗透定价策略(数据商品以一个较低的价格打入市场,以牺牲短期的经济利润获得市场占有率)、差别定价策略(以两种或者多种价格销售同一商品或者服务)和捆绑定价策略(将数据商品用捆绑打包的形式以统一的价格进行销售)。由于数据要素的高度场景化特征,也有文献对不同行业(如电力)、不同类型(如应急数据)等数据的价值评估开展深入研究。

通过对已有文献的梳理可知,目前对数据要素定价的研究内容日益丰富,对数据要素定价的特征和痛点、价格形成机制和定价模型、定价模式和具体策略都展开了较为深入的探讨。从现有研究进展来看,对于数据定价的一般性讨论较多,聚焦特定场景、特定环节的定价研究还可进一步发掘,特别是围绕新一代人工智能领域的数据要素定价研究几乎空白,尚有较为广阔的拓展空间。具体而言,在以大模型研发为重心的新一代人工智能领域,数据定价究竟面临何种挑战、针对痛点难点如何构建合理的定价模型、对产业实践和政策研究有哪些启示和建议,这些问题都尚未开展研究。通过对已有文献的梳理可知,目前对数据要素定价的研究内容日益丰富,对数据要素定价的特征和痛点、价格形成机制和定价模型、定价模式和具体策略都展开了较为深入的探讨。从现有研究进展来看,对于数据定价的一般性讨论较多,聚焦特定场景、特定环节的定价研究还可进一步发掘,特别是围绕新一代人工智能领域的数据要素定价研究几乎空白,尚有较为广阔的拓展空间。具体而言,在以大模型研发为重心的新一代人工智能领域,数据定价究竟面临何种挑战、针对痛点难点如何构建合理的定价模型、对产业实践和政策研究有哪些启示和建议,这些问题都尚未开展研究。

我国正处于大数据、大科技、大模型的时代,加上中国超大人口规模和超大经济规模给人工智能技术带来了广阔的应用场景。与此同时,大模型更新迭代的速度之快、数据在该领域发挥的作用之强,都是近期产业发展的创新趋势,却也普遍面临着对于数据流通和合理定价模式的迫切需求,亟需学术研究迅速跟进。综上,本文试图基于新一代人工智能领域数据定价面临的挑战进行系统分析,探索切合该领域特征的定价模型和实践建议,以期为新一代人工智能领域的健康发展提供理论参考。

二、新一代人工智能领域中数据定价实践探索及面临的挑战

在新一代人工智能领域,关于数据要素和数据定价有两个基本现状:一是从全球范围来看,科学研究、科技研发和国际交流等仍以英语为主流语言,英文语料库在数据规模上占据显著的领先优势。由于开源较少,数据无法在市场上自由流通,目前中文优质数据集相对稀缺。二是尽管人工智能发展迅速、需要的数据量巨大,但现实中并没有针对人工智能需要的数据建立专门要素市场和定价模式。

(一)新一代人工智能领域定价实践的积极探索

人工智能发展的突破得益于高质量数据的发展。人工智能研发需要的数据资源有很多种,常见的数据源有:公开数据集;政府、世界银行等国际组织、非营利组织、开源组织提供的公开数据;互联网巨头研究部门提供的API或数据产品;谷歌学术、PubMed、arXiv等学术数据库、多种类型机构合作提供的研究数据。国外的人工智能公司主要利用国外积累丰富的开源高质量数据集,国内互联网头部企业主要基于公开数据及自身特有数据差异化训练大模型。比如,从GPT-1到LLaMA的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他开源数据集。中国大语言模型的预训练数据集主要来自互联网抓取数据、网络百科全书、书籍、已有的高质量开源数据集等。

相关研究指出,AI大模型需要高质量、大规模、多样性的数据集。具体来说,(1)高质量:高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,即减少训练时长。(2)大规模:OpenAI在《Scaling Laws for Neural Language Models》中提出LLM模型所遵循的“伸缩法则”,即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。(3)丰富性:数据丰富性能够提高模型泛化能力,过于单一的数据非常容易让模型过于拟合训练数据。

随着大模型研发和训练对于数据流通交易的需求旧益旺盛,对新一代人工智能领域的定价实践也进行了积极探索,在数据治理、流通技术和市场化进程等方面取得了开拓性创新。一是数据治理逐步优化,为数据定价提供了良好的基础。新一代人工智能需要的数据量和训练精度日益提升,对数据标注、分类等数据质量提出了更高要求。目前产业逐步分工细化,数据产业链上游出现专注于数据治理业务的主体,通过对数据的初步分类、标注等治理工作,显著提高了人工智能领域的数据质量,为数据定价提供了良好的基础。二是新一代人工智能下数据流通交易技术取得长足进展,数据在大模型优化中的价值和贡献更加清晰。随着隐私计算、联邦学习等技术的进步,数据流通交易的环境日益朝着可信、可控、可量化的方向发展,数据在采集加工、流通交易等环节中发挥的价值和贡献也逐渐清晰,数据定价的依据更加明确。三是数据市场化进程持续推进,数据定价经验积累日益丰富。在制度构建、流通实践和市场培育等合力下,新一代人工智能领域的数据市场化进程在持续推进,数据流通交易规模和频率也呈现出增长趋势。加之,数据交易所等交易机构通过提供供需匹配、议价撮合等服务,促进了数据定价的经验积累,并不断丰富数据定价的模式创新。

然而,由于新一代人工智能领域对于数据流通的需求与日俱增,对于数据定价的理论和实践不能满足目前行业快速发展的需要必将影响人工智能发展。具体而言,新一代人工智能领域的数据流通尚未形成行之有效的定价模式,对数据价格的结构和定价水平也未达成行业共识,数据定价依然处于探索阶段,既面临着数据要素定价的一般性挑战,也面临着新一代人工智能领域特有的行业性挑战。

(二)新一代人工智能领域中数据定价面临的挑战

1.数据要素定价面临的一般性挑战。

数据要素既有劳动、资本等传统生产要素所具有的一般性特征,如要素需求的引致性和相互依赖性,还具有不同于传统生产要素的非竞争性、规模报酬递增、可再生、可复制共享性、无形资产性和高度异质性,导致数据要素的定价远比传统生产要素定价复杂。

一是阿罗悖论是数据要素定价面临的普遍性问题之一,这与数据商品的“先验性”相关,即需求方无法在使用之前准确判断数据的价值,只有通过获取和评估数据并进一步对其开发利用,才能获得充分的判定依据。然而,需求方一旦在获取或使用过程中获得需要的信息,可能就不会产生后续的交易。由于数据要素“阿罗悖论”的存在,很难对其做出合理的定价,交易成本也随之增加,影响了数据要素市场化进程。

二是数据质量参差不齐,影响数据定价的清晰度和准确度。数据来源多样、标准和口径不一,不同主体的数据治理水平也存在差异,导致数据质量参差不齐。与此同时,由于数据要素涉及众多领域,而每一单位的数据要素都是独特的,要给涉及领域众多、异质性高的数据要素定价,无论是技术难度、还是工作量,对大模型的研发和运营而言,都需要较高水平的投入。

三是不确定性导致数据价格与价值对应难度高。一方面,数据要素的生产方式各不相同,采集方式多种多样,获取难易程度也不易量化,而且数据要素蕴含的价值与数据生成方式通常没有直接关联,其价值很大程度上由其使用者决定。因此,若按照生产投入成本计算不合理。另一方面,从数据要素市场购买的数据要素并非最终产品,其必须经过分析和处理才能用于改善业务流程或产品质量,最终实现收入增长,但如何量化数据在其中发挥的作用,使用收益法对数据要素定价也较难实现。数据要素的场景化特征导致即使是同一组数据可能对一些主体有宝贵价值的同时,对其他主体而言收效甚微。因此,在数据要素的市场化过程中,如何对数据要素进行合理且标准的定价难度较高。

四是合规审查、制度风险等提升了数据要素定价的外部性难度。数据是高度场景化的要素,有些场景中涉及的行业合规审查严(如跨境),有些场景中行业合规审查周期长(如医疗),很难满足数据交易时效。因此,这也为数据定价造成了外部性困难。整体而言,数据要素市场化建设仍处于培育阶段,数据的开发应用和流通交易都伴随着风险,需要严格的合规处置和审慎的监管措施。因此,数据定价的难度愈发突出。

2.新一代人工智能领域数据要素定价的特殊挑战。

一是中文数据规模小,较难为定价机制提供足够参考。在新一代人工智能领域,训练模型需要的数据绝大部分依然是英文数据。以通用型聊天大模型的第三版本(ChatGPT3)为例,用于模型训练的英文数据占比高达92.6%,中文数据占比不到0.1%。ChatGPT是由国外机构(OpenAI)研发,英文数据占比高也比较合理。与此同时,国内也有诸多机构快速跟进,开发出国内版本的生成式人工智能大模型。然而,在国内的大模型研发中,投入训练的中文数据占比也仅在十分之一左右。中文数据规模不足带来两个问题:一是影响中文模型训练的效果;二是数据交易低迷,不足以为数据的市场化定价提供合理参考。

二是数据技术及成本门槛较高,定价评估较难。新一代人工智能领域的模型研发和应用都具有较高的技术门槛,海量数据的获取同样也面临着成本壁垒与技术壁垒。因此,对所需数据进行准确判断和估值的能力较为稀缺。以数据接入方式为例,为保障数据安全,通常采取API接口,以及隐私计算、联邦计算等“可用不可见”模式,这些数据安全保障对技术要求高,无论是对数据供给方还是需求方而言,都会产生一定的成本。评估技术应用以及相应成本如何客观反映到定价水平上,也是目前大模型领域面临的痛点。一方面,供需双方都需在安全可信的环境中才能实现数据流通;另一方面,安全保障技术尚未普及,均摊下来每一次流通的成本较高,没有成熟的参考体系,将技术因素纳入定价考虑是必然选择,但却不易量化。

三是新一代人工智能领域的数据具有定制属性,较难形成标准化定价。大语言模型(LLM)、生成式预训练转换模型(GPT)等新一代人工智能领域的数据多具有定制属性,尤其是为开发训练某一特定模型而采集的数据集,较难形成标准化定价。且由于大模型培训所需要的数据涉及诸多场景,而每个场景所需要的数据单元又具有多样化属性,较难形成标准化的定价参考。新一代人工智能领域所需数据在交易过程中涉及持有权转移。然而,在实践中同一组数据会卖给不同的模型研发主体。因此,基于持有权的定价模式也不能妥善形成标准化的定价模式。

四是新一代人工智能领域数据更新快,数据定价的动态性、波动性高。数据是时效性较高的要素。由于新一代人工智能大模型的更新迭代速度快,对数据时效性的要求也随之提高。通常来说,数据商品会随着时间的推移或拥有者的增多而丧失其部分价值,数据商品在时间尺度上的有效性也成为其定价的一个重要因素。同时,用于大模型训练也会根据需求场景和实践反馈适时调整,导致数据定价时常面临着动态性波动的环境,为客观、准确的定价提出了较大挑战。

三、设计新一代人工智能产业数据综合定价模式的思路

通过市场购买数据,定价机制和模式是关键。一般而言,数据要素的定价机制包括但不限于由市场供求决定的定价方法、策略和模型,其是买卖双方在制度、场景和技术等多种约束条件下进行数据交易价格确定的制度安排。实践中的数据定价模式十分复杂,针对人工智能领域主要采用的数据集,数据定价模式可以考虑以下思路:

(一)构建以数据质量为基准的指导定价模式

随着算力、算法上的差距日渐缩小,数据作为人工智能的“原料”,逐渐成为大模型竞争的重点。由于数据质量直接影响大模型的效率和表现,高质量数据逐渐成为新一代人工智能领域中的重要引擎。从产业实践来看,虽然人工智能领域存在海量数据,然而,很大部分是未经清洗、标注的原始数据不能直接用于大模型训练。同时,与海量的数据规模相比,大模型训练研发需要的高质量数据更为稀缺。在目前定价结构中,并未有效反映数据质量。因此,新一代人工智能领域的数据定价,要以数据质量为基本参照。对不同的数据质量进行分级分类,构建以数据质量为基准的指导定价,数据质量评估体系的客观性、可比性,制定统一的质量评价标准,是破解数据要素定价无据可依、模糊不清的重要抓手。

(二)基于数据价值和贡献的增值定价模式

数据质量是对数据本身价值的评估和判断。然而,考虑到数据具有较强的场景化特征,在不同主体、不同场景、不同交易中的价值和贡献并不是一成不变的。因此,在确定数据质量基础指导定价后,根据其具体的价值和贡献确定其增值价值。欧阳日辉和龚伟提出:“数据要素市场评价贡献”的内涵是数据要素在市场评价和交易中测算贡献、形成价格,有市场评价的数据要素参与生产经营活动产生的价值增值,可直接或间接量化数据产品价值。本文认为,新一代人工智能领域的数据定价应在数据质量的基础上,进一步体现数据价值和贡献所产生的增值效用。亦即:应以数据质量作为基础定价因素,同时充分考量数据在不同场景中发挥的不同作用,经市场评价和交易实践判定数据的增值价值,从而确定基础价格之外的增值价格。

(三)基于细分场景实践的定制化定价

由于新一代人工智能领域有诸多细分场景,数据在不同场景中发挥的作用也不尽相同。因此,在指导价的基础上,根据每个特定场景及其所形成的细分市场中的供需关系,数据价格反映出定制化场景中的增值效用和价值。新一代人工智能领域核心场景的定价实践各具特色,不同的大模型在教育、医疗、智能助手、机器人、在线客服等细分场景中都需要投入不同的数据加以训练。因此,在数据质量和价值贡献的定价基础上,需要根据细分场景进行定制化的定价,并通过实践积累,在该细分场景逐步形成定制化定价的规则和标准,为后续的数据交易提供参考。

(四)加入时序、风险等动态变量调节定价溢价

以大语言模型(LLM)、生成式预训练转换模型(GPT)为代表的新一代人工智能处于快速发展期,迭代周期短、创新速度快。以ChatGPT为例,自2022年11月底发布至今,已经更新了四代,并陆续开通第三方插件、手机客户端(iOS)等应用拓展,数据定价也应随之反映时序变迁和规模效应,同时根据模型迭代所需不同特征,建立调节变量,动态反映各版本模型所需要数据的价格变化,从而推动人工智能领域数据定价的合理化和动态化。与此同时,在开发实践中,数据在投入大模型训练时常常面临研发失败、数据泄露等风险。高风险虽然可能伴随着高收益,但也伴随着管理风险、应对泄露等付出的成本。因此,大模型中数据估值应考虑到风险溢价,并合理地反映到新一代人工智能领域的定价结构中。

四、优化新一代人工智能领域数据要素定价的建议

2018年以来,大语言模型训练使用的数据集规模持续增长。近期,以大语言模型(LLM)、生成式预训练转换模型(GPT)等为代表的大模型研发创新方兴未艾,国际竞争日益激烈。由于数据来源及数据处理等方面的限制,中文基础训练数据集以及高质量的预训练中文语料库成为我国新一代人工智能领域发展的关键问题。未来中小型模型训练企业,更多地考虑直接从交易所购买各行业的数据产品,这将极大地提升大模型训练数据的可获得性,缓解国内优质数据集不足的问题。针对人工智能领域的数据要素定价,提出以下建议:

(一)在积极推动数据交易所建设中探索大模型训练数据的定价机制

积极加快建设数据交易所,为各行业、各企业提供更多数据,是缓解国内优质数据集不足问题的基础工作。大力培育面向人工智能发展的数据服务商,提供更加多样化的数据产品,是提升国内大模型训练数据质量的重要途径。积极探索人工智能领域多种数据定价方式,通用类型数据按照采集数据包的大小及数据类别进行基础包加增量包的方式定价,行业数据结合具体场景和用户差异化定价。

(二)探索新一代人工智能领域的数据质量标准体系及数据资产定价机制

探索构建高质量数据指数和指标体系,制定基于数据质量的定价规则。优化高质量数据资源供给,建设新一代人工智能领域数据共享开放平台,推动大模型及相关数据企业加强数据采集、标注、清洗、存储、传输、应用等全生命周期价值管理。在大语言模型、生成式预训练转换模型等关键场景中发挥高质量数据供应商的作用,建设数据训练基地、数据预处理众包平台等吸引汇聚数据商,为高质量数据供给和数据商培育提供环境和机遇。探索新一代人工智能领域的数据质量标准体系,建立相应的数据资产定价机制,推动数据定价模型创新及实践推广。

(三)优化新一代人工智能领域数据资源配置及综合价格体系构建

鼓励行业、地方和企业推进数据分类分级定价,以数据质量为基准指导、价值贡献为增值标准,并根据场景、时效、风险等要素构建动态评估的综合价格体系,优化数据资源配置、探索客观可信的数据价格结构。通过典型场景中数据交易形成的价格记录,形成一批可复制、可推广的行业内数据价格指导方案。通过减少定价环节的信息不对称降低交易成本,实现新一代人工智能领域数据优化配置,促进数据要素在大模型等新兴场景中发挥更高水平的价值创造。

(四)打造新一代人工智能领域数据定价的安全可信环境与行业协作机制

打造新一代人工智能领域数据定价安全可信环境,以《个人信息保护法》《数据安全法》《网络安全法》《生成式人工智能服务管理办法(征求意见稿)》等为基本指引,从数字技术、制度保障、合规监管等方面共同发力,打造安全可信的定价环境。建立健全数据定价行业内协作机制,在行业内探索建立由市场评价贡献、按贡献决定价格的数据要素定价模式。在研发应用中深入挖掘、深度学习、神经网络、自然语言处理等行业数据的需求场景,在行业协作实践中探索建立安全和效率兼顾的新一代人工智能数据定价机制。


来源:《价格理论与实践》

END


# 好文推荐 #


数据要素信息参考(06.12-06.18)

【数据需求动态05期】信贷数据、消费数据、旅游数据…

诚邀参与 | 《数据要素统一大市场产业图谱》研究计划正式启动!

数据资产化与数字中国建设:数据投行建设的赋能作用


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存