大数据市场调查连载(六) | 大数据生命周期重要阶段数据保护
导 读
它山之石,可以攻玉。为了帮助各界人士学习国外先进经验,进一步了解大数据市场的定价、交易与保护,国脉战略研究院专家杨冰之、林渠,带来了《大数据市场调查:定价、交易与保护》的翻译文章,相信会给大家以思想的碰撞、灵感的启迪,促进大家思考,从而为我国推进数据要素市场化配置改革,贡献国脉战略研究院的智慧。本文为《大数据市场调查:定价、交易与保护》连载系列文章第六篇,也是最后一篇。
随着传统媒体日益数字化,内容越来越多地存储在数字卷中,而不是传统内容(电影、报纸、设计图纸、客户信息、办公室文档等)。换言之,商品正在从实用物品转变为虚拟物品。这样,内容很容易分发和复制。因此,数据保护成为确保数据所有权的关键条款。数据定价、数据交易和数据保护构成了一个相互影响的三维闭环。为了实现数据所有者的最大利润和数据的最大价值,数据保护是不可分割的一部分。下面,我们将讨论大数据生命周期的最后一个重要阶段,即数据保护。
建立数字版权管理(DRM)是为了防止数字内容被故意复制、共享和窃取,更重要的是作为数字版权保护发展的指导方针。2001年初,W3C成立了第一个DRM集团,作为参与全球数字版权管理的标准组织。实现DRM的解决方案多种多样,包括XrML版权表达语言、Microsoft DRM、Apple HLS DRM、Adobe Flash access DRM、RealNetworks Helix DRM和OMA DRM规范。
所有这些DRM解决方案都需要五个关键组件:(i)安全性。它着重于内容的加密以及为数字内容创建哈希、水印和数字签名;(ii)访问控制。它负责身份和访问管理,并为需要访问受保护数字内容的用户提供凭据。此外,该组件监视授权用户的行为,并为不同用户设置不同的访问权限;(iii)使用控制。它监视每个授权用户的使用情况,并将使用情况记录为历史记录;(iv)许可证管理。它向授权用户发布许可证(密钥、XrML文件、身份验证代码),并控制和检查许可证的生命周期(有效期);(v) 付款管理。此组件与使用控制一起工作,并计算用户需要支付的费用。这是数字商务的主要目标。
我们以Microsoft DRM为例来解释DRM的工作原理。如图7所示,匿名用户尝试访问内容服务器(content server)以播放或下载某些内容,这些内容受DRM服务器保护。他或她首先向个性化服务器发送请求。然后服务器检查个性化客户端设备上的应用程序。如果有应用程序正在运行,应用程序将向DRM服务器发送许可证要求。个性化应用程序是一个客户端DRM软件,称为个性化黑盒(IBX)。如果没有此软件,DRM服务器将无法释放解密内容的许可证。为了满足IBX的要求,DRM服务器释放加密的许可证。当用户试图解密许可证时,IBX保护敏感信息,这种过程称为个性化。释放许可证后,DRM服务器将检查用户状态。如果这是第一次访问服务器,DRM将要求用户加入域。不同的域区分特定用户的内容和权限。这就是DRM实现访问控制的方式。最后,允许用户访问内容服务器(content server),内容服务器会发回内容。
(图7. Microsoft数字版权管理工作流)
根据不同的数字内容,我们将DRM模型分为以下三类:(i)基于软件的DRM,(ii)基于多媒体的DRM,以及(iii)基于非结构化数据的DRM。
最常见的DRM是基于软件的DRM,因为软件是计算机上使用最广泛的应用程序。软件属于数字商品,易于复制和重新制作,成本为零。因此,软件开发公司通常设计保护版权和防止盗版入侵的机制。最佳的DRM机制可以记录安装时间和PC标识信息,并支持多个安装和主机。
涉及的主要方法有两种:在线身份验证和离线身份验证。对于在线身份验证,当用户开始安装过程时,软件首先检查Internet连接。如果存在Internet连接,软件将向DRM服务器发送身份验证请求,如上面讨论的常见DRM策略中所述。否则,安装将在没有Internet连接时停止,或者只安装SoftwareDemo。脱机身份验证比联机身份验证更重要。如果不支持脱机DRM,本地许可证文件将很弱,并且很容易解密。许多研究工作集中于离线身份验证。例如,Reavis Conner和Rumelt提出了一个成本函数来衡量解密的复杂性。如果解密成本大于此函数确定的价格,则软件是安全的。Barapatre等人提出了一种结构,以增加解密许可证文件的复杂性。该模型使用静态和动态代码的代码注入和软件版权保护(SCP)技术对许可证文件进行加密,以保护原始软件。在软件层和许可证层(许可证文件、硬件令牌管理文件、库文件等)之间引入了保护动态链接库(DLL)层。因此,用户不能直接访问认证信息。
多媒体是数字商品最重要的组成部分。超过80%的互联网流量专用于视频内容。因此,带来的巨大的挑战是如何妥善保护多媒体内容的版权。一般来说,加密和水印技术就是在这个方向上使用的。软件和多媒体(视频和音频)的最大区别在于在线流媒体。在线视频和音频支持实时协议(RTP)/实时流协议(RTSP),以实现在线流,并且在某些情况下,需要支持组域身份验证(家庭成员、企业用户等)。通常,对手会在主机上运行恶意客户端来中断和监视流,以分析加密密钥。为了解决这个问题,大卫(David)和扎登伯格(Zaidenberg)提出了一种使用选择性视频解密的方案,以确保内容的安全性,同时减少加密时间。此外,选择性解密是高效视频加密的一种变体,并且所提出的算法仅对变换参数的符号位进行操作。它不需要额外的空间,并且由该算法加密的流产生H.264比特流。同时,该方案通过限制访问状态将加密过程推进到一个安全的环境中。例如,用户要么处于加密状态,要么处于解密状态,但不能同时处于两种状态,这是禁止的。
此外,水印技术已广泛应用于视频和音频DRM中。将水印嵌入视频内容需要对视频内容进行完全解码。这是一个关键问题,因为这一过程需要大量计算资源,并降低了视频质量。为了避免随着视频比特率的增加而增加嵌入水印的复杂性,提出了一种基于H.264编解码器标准的盲水印算法。请注意,H.264是基于运动补偿的高质量编解码器标准。H.264标准使用几个宏块以及每个宏块的亮度和色度(Cb和Cr)来表示帧,。水印算法扫描宏块并选择最优预测模型。因此,根据H.264的特点,盲水印算法将水印权利嵌入到所选宏块中,防止共谋攻击,并在解码过程中保持视频质量。
有研究提出了另一种水印算法,该算法适用于基于深度图像渲染(DIBR)的三维视频内容。传统的水印系统要么会破坏三维视频,造成不可逆的变形,要么容易受到攻击,而本文提出的综合Duns水印算法克服了这些问题。所设计的算法基于伪三维离散余弦变换(3D-DCT)和量化索引调制(QIM)将水印嵌入深度图中,提高了水印的鲁棒性,避免了对视频内容的破坏。值得注意的是,图像也被视为多媒体内容,类似于视频和音频内容,水印技术是保护版权的最常用方法。对于基于图像的水印系统,通常使用离散小波变换(DWT)、最小有效位(LSB)和离散余弦变换(DCT)算法将水印嵌入到安全密钥中。此外,可以在一幅图像中嵌入多个水印。此外,水印方案已被用于追踪匿名互联网恶意流量,以识别恶意来源,用于取证。
非结构化数据,如Microsoft Word文档、PDF文档、各种数据库、源代码等,都是可以方便地传播和存储的数字化数据。尽管如此,它是脆弱的,并且很难防止故意复制和篡改非结构化数据。此外,非结构化数据通常具有很高的商业价值,并且包含敏感信息,这些信息的泄漏将导致数据所有者的严重损失。因此,非结构化数据保护是当今的一个热门话题,也称为数据泄漏保护(DLP)。非结构化数据DRM与其他类型的DRM完全不同,因为数据易于操作和损坏。因此,加密作为一种最安全的方法,通常用于保护非结构化数据。尽管如此,随着数据规模的不断扩大,加密过程的成本将继续增加。例如,史(Shi)等人提出了一种基于概率数据结构(Bloom Filter)的保护方案。该方案将状态记录到带有正标记或属位标记的矩阵Bloom过滤器中。该方案包括一个分析器,用于分析和扫描内容。与加密方案相比,该方案具有更好的性能。
总之,在本章节,我们阐述了三种数字版权管理模式,并讨论了每种模式的现有相关方法。不同类型的数字内容管理,即基于软件的数字版权管理、基于多媒体的数字版权管理和基于非结构化数据的数字版权管理,已经有了很好的探索。可以看到,数字管理技术是保护大数据不被窃取和复制的关键方法。尽管如此,随着数字内容的快速增长和大数据的交易属性,现有数据保护方案和更先进技术的可行性有待进一步研究。
七、 结论
本文讨论了大数据交易的问题。具体而言,我们首先讲述了与大数据相关的现有研究,并确定了数据交易的大数据生命周期,包括数据收集、数据分析、数据定价、数据交易和数据保护。然后,讲述了与大数据定价相关的现有工作。关于数据定价,阐明了它的重要性,对不同的市场结构、数据定价策略和数据定价模型进行了分类,然后列出了每种类型的优势和局限性。对于数据交易流程,我们概述了与数据交易相关的关键问题及其可能的解决方案。我们进一步研究了拍卖策略,详细说明了不同的方案、交易平台和相关问题。最后,研究了作为大数据生命周期最后阶段的数据保护。对现有版权保护方案进行了分类,并概述了大数据版权保护面临的挑战。本次调查的主要目的是对大数据交易有一个清晰而深入的了解。我们概述了与数据定价、数据交易和数据保护相关的广泛主题,并强调了尚未解决的领域,以进一步促进大数据的研究和开发。
译者:林渠、杨冰之、朱娟英
单位:国脉战略研究院
来源:IEEE ACCESS
相关链接
国脉业务体系
首席数据官系列专题
洞察 | 首席数据官——数据时代价值发掘者的使命和成长之道(之一)
洞察 | 首席数据官——数据时代价值发掘者的使命和成长之道(之二)
重磅 | 《广州市推行首席数据官制度试点实施方案》发布(全文+图解)
文件 | 《深圳市首席数据官制度试点实施方案》(全文)
政策丨珠海市人民政府办公室关于印发珠海市首席数据官制度试点实施方案的通知
图解 | 一图读懂《佛山市首席数据官制度试点工作实施方案》
图解 | 《肇庆市首席数据官制度试点实施方案》(全文+图解)
文件 | 江苏省企业首席数据官制度建设指南(试行)
重点推荐
系列培训认证研修班:
联系人:刘丹
电 话:13269683561(微信)
邮 箱:liudan@govmade.cn