大数据市场调查连载(五) | 数据交易方案、平台及相关问题
导 读
它山之石,可以攻玉。为了帮助各界人士学习国外先进经验,进一步了解大数据市场的定价、交易与保护,国脉战略研究院专家杨冰之、林渠,带来了《大数据市场调查:定价、交易与保护》的翻译文章,相信会给大家以思想的碰撞、灵感的启迪,促进大家思考,从而为我国推进数据要素市场化配置改革,贡献国脉战略研究院的智慧。本文为《大数据市场调查:定价、交易与保护》连载系列文章第五篇。
数据定价和数据交易是互补的过程。由于数据具有商业价格,数据市场和数据交易方案成为辅助数据定价和共享过程的有效方式。此外,数据的价值推动了许多研究,如设计数据交易技术,以确保数据交易过程公平、安全和高效。在此,我们系统地研究了数据交易方案和平台以及相关问题。
由于数据量正在大幅增加,物联网技术也在以类似的速度发展,具有全面内容和具体细节的海量数据集变得越来越有价值。大数据交易的主要目的或好处可以分为两个方面。一方面,数据交易过程应最大限度地提高数据所有者的利益。另一方面,该过程还应满足消费者对海量数据的需求。消费者可以进一步利用这些数据集来改进其产品或服务。这无疑是一个对所有者和消费者都有利的过程。
对于数据所有者:大数据是下一代生产力解决方案的基础:数据技术(Data Technology)。Facebook、谷歌、亚马逊、腾讯和阿里巴巴等数据所有者通过他们提供的服务收集海量数据。显然,通过机器学习和数据挖掘技术支持的大数据分析技术,这些数据集为公司创造了巨大的价值。例如,借助机器学习和数据挖掘技术,电子商务公司能够将商品推送到消费者的愿望清单或浏览历史记录上。基于位置的服务提供商能够为客户区分家庭或工作地点,并在适当的时间提供最佳路线。尽管如此,并不是所有的公司都有能力收集高要求的数据,因为收集庞大而全面的数据集需要大量的基础设施投资和长期持续努力。在提供服务、提高生产率和最大化数据价值方面,数据所有者强烈希望与他人交换自己的数据集。
对于数据使用者:在竞争激烈的环境中,信息是公司发现新业务机会、价值观和客户的关键。尽管如此,巨大的挑战是消费者如何获得必要的数据集,因为他们自己没有能力收集数据。为此,数据消费者强烈希望从市场上购买数据,并使用这些有价值的数据集改进其服务或产品。例如,有了充分的信息,制造商能够最大限度地将不同消费者的需求与产品差异化相匹配,服务提供商能够完善其服务计划,以改进并针对其客户提供服务。因此,数据交易是满足这些需求的一种可行方法。
如果没有数据交易,数据仍然是静态的,并形成单独的信息孤岛。因此,数据交易将数据作为一个动态流推动,实现数据的商业价值,并建立一个双赢的市场。事实上,数据交易是管理大数据的总趋势,也是大数据时代扩张的关键。此外,数据交易可以刺激由机器学习、数据挖掘和其他技术支持的数据分析,并为所有者和消费者带来利益。在下文中,我们首先概述大数据交易的关键问题,然后介绍具有支持平台和交易技术的大数据市场。
大数据交易涉及通过信息通信技术进行的资源交易和分配。已有大量的研究调查集中于资源交易和分配,并利用各种算法或博弈论方案优化交易过程。然而一些问题仍然没有解决,包括如何确保多个供应商的利润最大化,如何确保交易的真实性,如何保护供应商和消费者的隐私,以及如何建立一个可信的交易平台。下面,我们将详细讨论这些问题。
大多数与数据交易相关的研究都有局限性,即只考虑单个数据所有者。尽管如此,在现实世界中,数据市场中有许多数据所有者。挑战在于如何定量分析每个所有者的所有权。当有多个所有者时,他们处于竞争中。例如,如果某个数据集有两个所有者,则两个所有者都希望通过自己的市场销售该数据集。虽然需求是恒定的,但竞争出现了。因此,很难设计数学模型来描述这些复杂的需求。此外,正如我们提到的,数据商品的维护成本是总成本的另一个重要组成部分。大数据通常上传并存储在云端,更新、维护和修改的工作很难量化。因此,确定和考量每个所有者的维护成本至关重要。
与传统商品交易一样,最重要的关注点是公平和真实,这是所有交易流程的基本要求。公平和真实有两个主要方面。第一种是在供应商和消费者之间,另一种是在供应商、消费者和交易组织之间。这两个方面对数据和数字商品交易都是挑战,因为所有交易的商品都是虚拟商品,所有交易过程都是通过网络进行的,这对所有供应商和消费者来说都是“盲目的”。为了解决这个问题,有一些研究集中在建立公平交易平台,而另一些研究集中在基于密码技术的数据商品。尽管如此,这些提议的方案都有一些局限性。例如,德尔加多·塞古拉(Delgado Segura)等人提出了具有公平协议的公平交易市场,交易过程可以随时完成或终止,以确保供应商和消费者都不会蒙受损失。尽管如此,该平台不能辨别虚假信息,一次只考虑一个交易过程。
隐私对于供应商和消费者来说都是一个重要因素。在数据交易过程中,对消费者的一些个人信息应该进行隐私保护。同样,对于数据商品,隐私显然也很重要。一般来说,人们使用法律监督和技术保护,如版权法、水印、加密许可证等。然而,版权法只注重保护所有者的合法权利,不能直接保护数据的隐私。此外,水印技术只能作为调查中确定滥用的证据。这两种保护方案都是无功的。关于数据加密技术,需要花费越来越多的计算资源来确保更高的隐私要求。一些研究集中在隐私保护方面。例如,有学者提出了最小化设计策略。该策略的原则是通过在每个时间间隔提供最少的数据量来降低隐私泄露的风险,并进一步提高较大的数据包的价格。通常用基于密码技术的技术进行隐私保护,也有研究者提出了隐藏设计策略来加密和隐藏来自原始源的部分数据。加密过程可以使用不同的高效加密技术,在所有者将数据上传到云/边缘存储节点时对数据进行加密。
随着数据交易需求的增加,数据所有者很难建立自己的交易平台,因此,第三方交易平台成为实现这一目标的可行途径。数据所有者委托第三方交易平台向消费者销售数据商品,类似于在在线市场上交易传统商品。然而平台的可靠性是一个很大的问题,因为数据商品的复制成本几乎为零。许多研究提出了一些方案以避免第三方交易平台通过单独出售许可证和内容窃取数据商品或泄露信息。典型的是,所有者加密数据商品并将其上传到交易平台,然后将密钥出售给消费者。因此只有购买许可证的消费者才能解密数据商品。
与传统商品交易的主要传统市场类似,数据交易也需要数据市场来支持数据交易。请注意,数据是一个虚拟项目/数字商品,具有自己的特点。因此,为了公平、安全地在市场上交易数据,建立数据市场至关重要。现有许多关于数据市场平台和支持机制的研究成果。下面,我们将详细讨论数据市场。
一个成功的数据市场需要为供应商和消费者提供最佳的销售和购买体验,还需要保护数据商品和个人信息的隐私。为了满足这些要求,我们查看了一些现有的计划。
a:交易查询
在客户决定购买数据集之前,有许多查询过程用于搜索。不过查询操作并不是免费的。例如,Microsoft Azure Marketplace的全球历史天气是每100次“交易”支付12美元。因此,市场应该有一个高效的查询系统,以最大限度地降低消费者的成本。为了优化这些查询,提出了一种大数据学习方案。该方案需要丰富的数据统计。然而由于数据商品不同于传统商品,数据市场中的统计记录较少(即没有购买历史记录、无价值分配),只有数据集的大小和属性等基本信息可用,这显然是不够的。
为了找到这个问题的最佳解决方案,有学者提出了一种基于学习的优化方案。这种优化方案可以通过设计有效的算法来减少中间数据量,从而减少购买过程中的查询次数。该方案包括解析器、优化器和执行引擎。具体来说,解析器首先在消费者注册数据市场时获取本地表信息。然后,优化器通过加载本地数据表中的参考数据和数据市场信息的统计信息来优化查询。最后,将结果发送到执行引擎。方案经过优化,可以避免部分数据市场的接入,为消费者降低成本。
b:动态交易
现有的数据市场通常有两个局限性。首先,数据市场通常只销售整个数据集,而不是面向需求的子集,并且不支持任意查询,正如我们前面提到的。第二,数据市场通常不支持数据更新和维护,因为原始数据集由所有者上传,数据商品是静态的。尽管如此,数据商品需要频繁更新,因为数据是动态的。刘(Liu)和哈西古穆斯(Hacigümüs)提出了一个动态数据市场框架来解决这个问题。在该框架中使用了在线共享计划,选择算法来确保数据商品视图的维护效率。然后通过维护数据商品的视图,商品不断更新。
在另一项研究中,作者提出了一种分布式算法,其概念来自匹配博弈论,即按需销售数据。该方案比较供应商和消费者的偏好函数,捕捉消费者的需求,找到数据商品的匹配部分,然后将匹配部分出售给消费者。该方案支持将所有参与者自组织到一个匹配表中,并确保匹配过程和结果动态地适应消费者的需求。结果表明,通过模拟,使用提出的方案,每个消费者的平均效用增加了25%到50%。
c:隐私保护
数据交易过程中的一个关键问题是如何信任供应商和消费者的交易平台。供应商和消费者都不想相互暴露敏感的个人信息。一般来说,加密技术是保护敏感信息的一种有效方法,许多研究集中于使用基于加密技术的方案进行交易数据。例如,牛(Niu)等人提出了数据市场中的真实性和隐私保护(TPDM)机制。特别是,TPDM采用了带有签名的同态加密(身份识别)。它保护隐私和数据机密性,同时改进批量验证和数据交易流程。与传统的加密方案不同,基于身份的签名组件在密文空间中处理数据。此外,来自数据所有者和消费者的所有签名都是他们的真实身份,它可以防止所有恶意供应商或对手。
最流行的数据交易机制之一是通过拍卖过程。一般来说,拍卖是一种经济驱动方案,旨在通过买方和卖方的投标过程分配商品并确定相应的价格。拍卖理论已在多个领域(经济、电力市场、移动市场和其他领域)得到了很好的探索。由于能够确保公平和效率,拍卖机制在解决大数据交易问题方面显示出巨大潜力。在详细回顾大数据市场拍卖理论的相关工作之前,我们先介绍拍卖机制的基本概念如下:
投标人:在拍卖过程中,投标人是提交投标书并打算在市场上购买商品的人。在大数据市场中,投标人通常是数据消费者。
拍卖人:拍卖师扮演着代理人的角色,负责运行拍卖流程、确定获胜者、进行付款和分配。在大数据市场中,拍卖商可以是云中的代理。
卖方:卖方是投标和出售商品的所有人。在大数据市场中,这包括从不同平台和设备生成、收集和存储大规模数据以供进一步销售的组织(谷歌、Facebook等)。
估价:在拍卖过程中,买方和卖方均对其要求或出售的每一单个商品进行估价。此外,估价可以高于或低于最终结算价格,最终结算价格由拍卖师在拍卖过程中确定。
结算价格:在拍卖过程中,卖方和买方提交请求和出价。询价单表示要出售商品的要价,而投标单表示所需商品的投标价。清算价格将由拍卖人根据优化目标(如社会利益最大化)确定。换句话说,结算价格是买卖双方达成交易的价格。
a. 数据拍卖模型
最近,人们对拍卖机制进行了大量研究,并对其应用进行了测试,其中许多已经被应用到大数据交易中,并越来越受欢迎。我们在此介绍一些典型的拍卖类型,这些拍卖类型已经在大数据交易中使用,或者有可能解决大数据市场固有的交易问题。图4展示了基于拍卖的大数据交易流程的典型框架。
(图4. 基于拍卖的大数据交易流程框架)
单边拍卖:单边拍卖包括正向和反向拍卖。远期拍卖也被称为卖方拍卖,在这类拍卖中,买方竞争卖方的商品。例如,为了在数据生产者和数据用户之间实现有效的数据流通,安(An)等人提出了多轮防伪前向拍卖(MFPA)机制,旨在最大化数据所有者和消费者的社会利益。为了抵御假名竞价攻击,数据量在MFPA中以捆绑大小进行交易。作者进行了理论分析,以证明投标人可以实现最大效用,当且仅当他们的投标和要求是真实提交时。在反向拍卖的情况下,卖家竞相向买家出售商品。一般来说,在大数据市场中,反向拍卖机制适用于多个数据所有者将数据出售给一个数据消费者或数据采集者的情况。
双重拍卖:双重拍卖是现实世界实践中最常用的拍卖之一,在纽约证券交易所、智能电网和移动市场中得到了广泛应用。在双重拍卖过程中,多个买家和多个卖家向拍卖师提交出价和请求。图5显示了买家和卖家的出价和要求的典型曲线[。在这里,黑色和红色曲线分别表示卖方请求的升序和买方出价的降序。在收集了竞买人的资料后,拍卖师根据结算价格以及买家向卖家支付的款项匹配这些出价和要求。关于设计大数据交易市场中的双重拍卖机制已经开展了相关的探索工作。
(图5.双拍卖中的出价和出价曲线)
例如,为了防止自私行为导致的低交易效率,曹(Cao)等人提出了一种迭代拍卖机制。这种拍卖机制可以避免自私行为,防止直接访问私人信息。迭代拍卖的过程包括四个步骤。在第一步中,拍卖师向所有消费者公布数据商品的分配、定价和拍卖规则。在第二步中,每个消费者计算投标价格,以使公用事业最大化。在第三步中,拍卖师收到投标价格,并根据规则和价格宣布结果。这三个步骤也存在于常见的拍卖过程中。他们提议的拍卖机制的独特之处是第四步,基于先前的拍卖过程。在此步骤中,拍卖师可以调整并重新宣布新的起始价格和拍卖规则,以开始全新的拍卖。这种迭代拍卖过程鼓励消费者在拍卖过程中列出合理的价格。此外,在二级移动市场中,苏珊托(Susanto)等人提出了一种基于McAfee的双重拍卖机制,以实现异构动态环境中的移动数据交易。他们的理论分析证明了所提出的双重拍卖方案能够实现纳什均衡和真实性。
印章竞投:在密封投标拍卖中,买家在不知道其他买家的投标信息的情况下私下向拍卖师提交其投标。与传统拍卖不同,印章竞价拍卖是一次性拍卖,会导致买家的非公开竞争。印章竞价拍卖已经得到了很好的探索,典型的例子包括kth价格拍卖、VCG拍卖和McAfee拍卖。第kth价格拍卖可分为第一价格拍卖和第二价格拍卖。在第一价格拍卖中,中标人是提交最高投标价格并因此支付最高价格以赢得拍卖的投标人。在第二价格拍卖(也称为Vickrey拍卖)中,中标人是提交最高投标价格的投标人,而中标人将支付第二高价格以赢得拍卖。请注意,第一价格拍卖确保了卖方的最大利润,而第二价格拍卖诱导买方如实报告,确保了拍卖方案的公平性。Vickrey Clarke Groves(VCG)拍卖似乎是Vickrey拍卖的一种广义形式。关于McAfee拍卖,这是Vickrey拍卖的延伸。具体而言,买家和卖家向拍卖师提交私人出价,其中买家(卖家)的出价高于(低于)阈值价格,而获胜者将支付未赢得拍卖的最高价格。在大数据市场中,已经研究了一些密封竞标方案。例如,焦(Jiao)等人提出了一个基于贝叶斯优化机制的最优价格密封竞标市场模型。首先,数据源分为三组:众感数据、社会数据和感知数据。然后,定义了成本函数、满意度函数和数据效用函数。根据这些函数,确定数据商品的起始价格。在贝叶斯利润最大化拍卖过程中,计算了估值分布函数,在此函数基础上确定了最优价格点和次优价格点。同时,确定了从这些收集器获取的最佳数据大小。不过,这项拍卖计划只考虑一轮拍卖。
组合拍卖:在大数据交易市场中,买方对数据的需求和卖方对数据的供应总是多种多样的。因此,在应用上述拍卖方案时,买卖双方都不能通过简单地将数据放在一起进行交易而感到满意。组合拍卖就是针对这种情况设计的。在组合拍卖中,市场上的竞买人可以对商品的组合和捆绑进行竞价。特别是,投标人提交的标书包含多种商品的组合和组合价格。然后拍卖商根据竞拍者的出价和要求,为竞拍者做出最佳分配。
b. 数据拍卖模型中的隐私保护
一个有效的拍卖方案倾向于诱导投标人如实提交投标资料,以确保公平性,并实现社会利益最大化,这是经策略证明的特性。此外,作为虚拟商品,在拍卖过程中,数据只能通过互联网进行交易。因此投标人的行为将使其面临发布私人信息的风险。这些私人信息与投标人对数据类型的偏好、投标人的活动时间、经济状况甚至地理位置有关。此类信息的发布不仅会造成投标人的经济损失,还会威胁到投标人的人身安全。例如,如果用户感兴趣的数据类型被发布,卖方可能会提高其估值,投标人将在未来遭受恶意投标,其利益将受到损害。此外,如果投标人的活动时间或位置被公布,其人身安全将受到竞争对手或其他恶意行为者的严重威胁。总之,隐私保护仍然是大数据拍卖市场的关键问题。然而在这一领域开展的研究工作很少。
大量而广泛的研究集中于在其他类型的拍卖市场中设计保护隐私的拍卖方案,如频谱市场、移动人群感应、云计算市场和电动汽车(EV)充电市场。一般来说,拍卖方案中的隐私保护方法可分为三个方面:匿名性、密码系统和扰动,这三个方面在大数据交易市场中的隐私保护方面具有扩展潜力。
具体而言,匿名性提供了有效的方法来保护投标人的隐私不受公众的影响。不过这种方法只是将公共信息的敏感部分匿名化。在应用匿名方法时,隐私将通过攻击(链接攻击等)释放。密码系统能够防止对手入侵拍卖系统获取隐私信息。密码系统中最常用的方法之一是同态加密系统,它在拍卖系统中添加一个代理以帮助拍卖过程,并确保拍卖系统的每个部分都不能保存投标人的所有私人信息。当对手试图通过比较多个类似出价产生的拍卖结果来推断投标人的个人资料时,可以应用包括差异隐私的扰动法。差分隐私方案将随机噪声添加到拍卖结果中,并确保相同投标人的档案不会产生相同的拍卖结果。因此对手无法推断出投标人的确切情况。
c. 第三方拍卖平台
基于数据拍卖的增长,数据所有者将发现很难建立自己的拍卖平台。因此第三方拍卖平台正在成为数据拍卖领域的主要竞争者。安全性和真实性对于第三方拍卖平台尤为重要。有少数研究工作集中在拍卖平台策略。设计了一种基于同态加密的隐私保护大数据拍卖方案。特别是拍卖平台的设计基于同态加密的概念,以满足隐私保护的需要。在这项工作中,整个系统由两个相互独立的实体组成:拍卖商(AC)和中间平台(IP)。所有敏感投标均使用Paillier密码系统进行加密,并辅之以一次性密钥。在这种结构下,中间平台首先接收使用Paillier加密的密文形式的投标。这些出价将在发送给拍卖商之前用便笺簿伪装。此外,此设计使目标拍卖数据只能由拍卖的获胜者访问。最后,应用Paillier密码系统的数字签名功能,以确保数据在传输过程中,免受拍卖商或平台操纵。此设计解决了与不受信任的第三方拍卖商进行数据拍卖时的隐私保护问题。拍卖的获胜者可以通过使用加密的出价来确定,但卖家和竞拍者都不必担心敏感信息的泄露。流程和算法设计良好,总体时间复杂度为O(log n),允许大规模部署。同时该结构已被证明是安全的,可以抵御参与者所关心的不同类型的攻击,包括虚假出价和平台受损的情况。
总之,在本章节,我们首先从数据所有者和数据消费者的角度讨论了大数据交易的主要目的。然后,我们概述了大数据交易在多所有者数据交易、交易公平性和真实性、隐私保护和第三方交易平台方面的问题。此外,我们还全面讲述了大数据市场平台和数据拍卖模型。尽管如此,为大数据交易设计有效的交易平台和拍卖模型仍然是一个具有挑战性的问题。需要进一步研究支持大数据交易,包括设计安全的第三方交易平台,创建有效的拍卖模型以确保多个数据所有者和消费者之间的真实交易,以及开发确保敏感信息无法被对手等推断的隐私保护机制。
敬请关注下期文章《大数据市场调查连载(六) | 大数据生命周期重要阶段数据保护》
译者:林渠、杨冰之、朱娟英
单位:国脉战略研究院
来源:IEEE ACCESS
相关链接
大数据市场调查连载(一) | 定价、交易与保护介绍
大数据市场调查连载(二) | 大数据的基本概念
大数据市场调查连载(三) | 大数据生命周期
大数据市场调查连载(四) | 数据定价模型及特点
国脉业务体系
首席数据官系列专题
洞察 | 首席数据官——数据时代价值发掘者的使命和成长之道(之一)
洞察 | 首席数据官——数据时代价值发掘者的使命和成长之道(之二)
重磅 | 《广州市推行首席数据官制度试点实施方案》发布(全文+图解)
文件 | 《深圳市首席数据官制度试点实施方案》(全文)
政策丨珠海市人民政府办公室关于印发珠海市首席数据官制度试点实施方案的通知
图解 | 一图读懂《佛山市首席数据官制度试点工作实施方案》
图解 | 《肇庆市首席数据官制度试点实施方案》(全文+图解)
文件 | 江苏省企业首席数据官制度建设指南(试行)
重点推荐
系列培训认证研修班:
联系人:刘丹
电 话:13269683561(微信)
邮 箱:liudan@govmade.cn