邹传伟:AI大模型时代的数据要素市场
一、从AI大模型看数据要素市场的重要性
AI大模型对训练数据集的要求很高。根据华泰证券黄乐平博士团队2023年5月11日《AI大模型需要什么样的数据》,大模型训练使用的数据集规模持续增长,比如2018年GPT-1数据集约4.6GB,2020年GPT-3数据集达到了753GB,而2021年Gopher数据集已达10550GB(见下表)。
黄乐平博士团队引用的Villalobos等2022年《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》预测,语言数据将于2030-2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽,而视觉数据将于2030-2060年耗尽。合成数据或将弥补未来数据的不足。根据Gartner的预测,2024年用于训练大模型的数据中有 60%将是合成数据,到 2030年大模型使用的绝大部分数据将由人工智能合成。
在这个背景下,数据要素市场对AI大模型发展至关重要。不仅如此,数据要素市场是数字经济和数字金融发展的关键。数据要素市场还是理解个人隐私保护、平台经济竞争、大科技公司监管和金融科技发展等问题的关键。在各种类型的数据中,个人数据最受关注,但非人格数据也越来越受关注, 比如来自工业领域、物联网设备、市政网络和交通网络等的数据。
二、我国在数据要素市场方面的工作
2020年4月,中共中央、国务院《关于构建更加完善的要素市场化配置体制机制的意见》提出加快培育数据要素市场。
2021年6月,全国人大常委会通过《数据安全法》。8月,全国人大常委会通过《个人信息保护法》。这两部法律与2016年通过的《网络安全法》构成了我国的“数据三法”。
2022年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”),重点确立了数据产权制度(数据资源持有权、数据加工使用权、数据产品经营权三权分置),流通交易制度(重点培育数据商和第三方服务机构两类主体),收益分配制度(初次分配按“谁投入、谁贡献、谁受益”原则),以及安全治理制度。
2023年2月,党中央、国务院印发《数字中国建设整体布局规划》,提出畅通数据资源大循环:构建国家数据管理体制机制,健全各级数据统筹管理机构;推动公共数据汇聚利用,建设公共卫生、科技、教育等重要领域国家数据资源库;释放商业数据价值潜能,加快建立数据产权制度,开展数据资产计价研究,建立数据要素按价值贡献参与分配机制。2023年3月,国家数据管理局成立。
地方政府根据中央政府政策精神积极参与数据要素市场建设,主要体现为3方面工作。第一,制定地方政策文件。比如,2023年7月,广州和上海分别就《广州市数据条例》、《上海市促进浦东新区数据流通交易若干规定(草案)》公开征求意见。第二,成立数据交易平台。基于公开信息的检索表明,截至2023年2月,贵州、北京、深圳、上海、广州、天津、重庆、河北、黑龙江、吉林、江苏、浙江、福建、江西、山东、河南、湖北、湖南、广西、海南、四川、陕西和宁夏等均成立了数据交易场所。第三,组建地方性数据集团公司。基于公开信息的检索表明,截至2023年6月,上海、福建、河南和湖北组建省级数据集团公司,成都、武汉和南京组建市级数据集团公司。
三、数据要素市场的关键问题
当前数据要素市场面临以下关键问题:第一,数据要素的确权问题。第二,数据要素市场的组织形式。第三,个人数据的隐私保护问题,以及如何在保护隐私的前提下促进数据要素的有效流通。第四,数据要素的估值和计价问题。第五,数据要素的价值贡献和收益分配。因时间限制,接下来聚焦于第一至三个问题。对第四和五个问题,我曾提出DataRank估值框架[1]。
(一)数据权利
联合国贸易与发展会议2021年《数字经济报告》,数据权利指访问、控制和使用数据的权利。
为什么淡化数据所有权?我认为主要有两方面原因。第一,很多数据难以界定所有权,特别对个人数据。比如,用户在互联网服务平台上“自愿”披露并被观察的数据。第二,数据要素市场成立的前提是对数据的有效控制:控制谁(Who)能在何种条件下(What)以何种方式(How)使用数据。
数据要素确权的关键是界定数据主体与数据控制者之间的权利义务关系。比如,欧盟《通用数据保护条例》(简称GDPR,2018年实施)对个人数据引入访问权利、修改权利、删除或被遗忘权利、可携带权利、有限授权和最小化采集原则、个人数据跨境传输条件以及数据控制者的告知义务等。
此外,对公共数据,要鼓励以多种形式向社会提供不涉及个人信息、不影响公共安全的公共数据。可验证计算、同态加密和安全多方计算等密码学技术,使数据“可用不可见”。
(二)数据要素市场的组织形式
尽管数据价值链长且复杂,但从供给和需求角度看,数据要素市场主要有三类参与者。第一,供给方是数据控制者,是收集、存储数据并行使控制权的人或机构。第二,需求方是数据使用者,他们接受或处理由数据提供者分享的关于数据主体的数据,并将这些数据作为输入以提供服务。第三,数据主体(包括个人、消费者和法人组织),指通过线上或线下活动产生数据并拥有相关权利的人或机构。数据控制者和数据使用者分别对应着金融市场的资金供给方和需求方。数据要素市场之所以重视数据主体(特别是个人数据主体),一是隐私保护的要求,二是为促进数据收益的公平分配。“数据二十条”强调,充分保护数据来源者合法权益,推动基于知情同意或存在法定事由的数据流通使用模式。
数据要素市场与金融市场之间存在同构关系。目前讨论的数据要素市场的主要组织形式,基本都能在金融市场的直接融资和间接融资模式中找到对应者(见下表):
数据要素市场 | 金融系统 | |
流通的要素 | 数据 | 资金 |
要素供给者 | 数据提供者(数据控制者) | 存款者和投资者 |
数据主体 | ||
要素需求者 | 数据使用者 | 融资者 |
要素市场组织形式 | 开放银行,数据信托,数据交易所 | 直接融资和间接融资 |
数据要素市场有3种组织形式值得关注。第一,开放银行。在开放银行模式下,银行在用户允许的情况下通过应用编程接口(API)将用户数据分享给第三方机构以开发应用和服务,包括实时支付、帮助用户更好地管理金融账户、市场营销和交叉销售机会等。开放银行强调用户对自己数据的权利,允许用户在其他服务场景中使用银行服务,从而创新性地将银行功能模块和非银行功能模块融合在一起,体现了用户第一、以用户为中心提供产品和服务的原则。
第二,数据信托。数据信托借鉴了金融信托的理念和架构。在数据信托中,收集并持有数据的机构(即委托人),允许一个独立机构(即受托人)来决定如何为一个事先确定的目标(特别是受益人的利益)而使用和分享数据。受托人有权决定如何使用和分享数据以释放数据中蕴含的价值,但要确保它的决定符合数据信托的设立目标以及受益人的利益。
第三,数据交易所。全球范围内不存在流动性好的数据场内交易所,但针对替代数据(Alternative data)的场外交易一直在发生。比如,以Robinhood为代表的Pay for order flow模式。根据“数据二十条”国家规范引导场外交易,培育壮大场内交易;除了数据交易以外,数据还可以通过共享、开放、数据服务等方式实现流通。
(三)个人数据流通的特殊性
欧盟《通用数据保护条例》对个人数据引入的一系列权利在实践中集中体现为“告知-同意”机制,但面临如下挑战。第一,信息服务提供者一般在用户参与活动之初寻求用户对使用和转移数据的同意。用户的同意是事前且 “一揽子式的”,而此时用户很可能不清楚他们数据的真实价值。第二,用户数据由不同机构按不兼容的格式来收集和存储。用户即使能访问与自己有关的数据,也很难有效地将这些数据合并起来加以使用。数据“孤岛”对数据主体和全社会构成了显著成本。
个人拥有自己数据的收益权在理论上很美,在实践中很难操作。首先,单独来看,个人数据的价值不高。个人数据的价值主要来自被集中起来后(即“衍生数据”)。其次,个人数据市场本质上意味着将隐私从一项人权变为一个可以出售的商品,可能造成伦理上的问题。
四、数据要素市场的前沿趋势
从世界范围看,欧盟走在了数据立法的前列。比如,我国《个人信息保护法》在一定程度上借鉴了欧盟《通用数据保护条例》。2022年6月,欧盟《数据治理法》生效,以规范公共部门持有个人数据的流通。2023年6月,欧盟议会和欧盟理事会就《数据法案》达成协议,以规范非人格化数据的流通。这两个法规代表了数据要素市场的前沿趋势,现摘要介绍如下。
(一)公共部门持有个人数据的流通
第一,个人数据重用(Re-use)。公共部门应该用匿名化、差别隐私、概括化、抑制和随机化、使用合成数据或类似方法以及其他最先进的隐私保护方法处理个人数据,以保证数据重用的环境是安全的。为了既有效地保障个人数据安全又便捷地促进数据重用,公共部门应采取“设计与默认的开放” 措施,并提倡数据以匿名化的状态由数据使用者采购。
第二,数据中介。数据中介以“商业关系”为目的,以实现数据在不特定数据主体、数据提供者与数据使用者之间分享。欧盟计划对功能符合要求、具备独立性并且采取欧盟认可的数据保护措施的数据中介,发放通用认可标识,并建立欧盟层面的标识认证体系。
第三,数据利他主义。针对的情景包括数据主体向公益性质的科学研究分享个人数据。欧盟计划设立一系列认定标准,对符合要求的“数据利他”实体进行备案登记,颁发“欧盟认可的利他主义组织”标准,并对“数据利他”组织的后续运营设定了专门的合规监管要求。
(二)非人格化数据的流通
欧盟《数据法案》针对非人格化数据的使用,涵盖各种智能设备、自动化生产线、自动驾驶汽车等产生的数据,目标是提供公平的访问和共享框架,明确B2B和B2G的数据流通措施,同时确定数据处理服务提供商的义务。
欧盟《数据法案》规定,每个用户,不管是个人还是法人组织,都应该有权访问其促成产生的数据。因此,使用联网智能产品的用户可以访问由其产生的数据(通常由制造商采集)并可以向第三方分享。相应的,联网产品和相关服务应默认以可访问的方式向用户提供数据。用户还有权选择在不同的云数据处理服务提供商之间切换,以实现数据的自主转移,而大科技公司及其掌控的平台应该予以配合。
五、数据基础设施
数据基础设施由3部分组成。第一,数据要素市场。第二,数据分析方法(Data analytics)。第三,算力。数据要素市场针对数据的收集、流转和配置等,前文已介绍相关进展,但这需要结合数据分析方法和算力,才能看到数据基础设施的全貌。
(一)数据分析方法
数据分析方法在技术层面体现为AI和大数据分析。AI分为解释型AI和生成型AI。生成型AI近期因为ChatGPT而备受关注。2023年7月,国家网信办等七部门联合发布《生成式人工智能服务管理暂行办法》。但实际上,解释型AI在金融领域应用更为广泛,体现为人脸识别、用户画像、信用评估和保险精算等。AI应用于金融领域,面临着模型可解释性、信贷公平性和金融伦理等方面的问题。
(二)算力
算力在技术层面体现为云计算、专用芯片和边缘计算等。目前,算力已经大宗商品化,出现了高效的算力交易市场。2022年2月,全国一体化大数据中心体系完成8大国家算力枢纽节点,10个国家数据中心集群的总体布局设计,“东数西算”工程正式全面启动。
(本文系作者2023年7月19日在皖港科技联合创新合作交易活动上的发言。)
[1]邹传伟,《数据要素市场的组织形式和估值框架》,《大数据》2021年第4期。