ReUsability(可重用性),构建多元公共数据要素化流通的关键
公共数据,其具备着经济价值,但更涉及公共利益。从开放数据中国的定位出发,我们高度关注公共数据的供给制度的设计和实践,并试图确保其体现开放原则:最小限制、促进协作、包容参与。
这是我们 #公共数据 专题的第9篇内容,前述内容目录如下:
作者:高丰
邮箱: gaofeng@opendatachina.org
公共数据市场,应以数据的「可重用性」为标尺,多层次「要素化数据资源」和「产品化数据资源」,从而满足「不确定」的下游场景需要。
近日,「中国数字经济50人论坛」所举办的「数据要素资产化」专题研讨会活动上,50人论坛主任委员梅宏院士专门提及了公共数据的流通问题,其指出:
公共数据开放是必须的,这是创新的源泉;数据开放共享与安全,必须走多元化路线。
公众号:中国数字经济50人论坛CCF中国数字经济50人论坛成功举办“数据要素资产化”专题研讨会
而梅宏院士在今年数博会上所做的「十问数据要素化」的演讲中,也就「如何实现公共数据的真正开放?」抛出了他的观点:
...... 我一直觉得公共数据的真正开放应该是原始数据的开放,现在20条规定是可用不可见,是授权开放。
不管怎么样已经很好地走出一步了,我觉得挺好,但是还是应该是原始数据开放。为什么这么说?公共数据取之于民,理应用之于民,我们把敏感数据剔除掉以后,来进行运用。很多数据应用的创新绝不是坐在办公室想出来的,是民间需求刺激。我们看到很多民间依托数据去创新运用的例子,还有很长的路要走。
梅宏,公众号:信息化协同创新专委会中国科学院院士梅宏十问数据要素化
事实上,在「数据二十条」和数据安全法的框架下,「原始数据」面向社会流动已基本不再被提倡,而结合现实的复杂因素(政治因素、技术因素等),也很难落地实践。但笔者认为,对于「原始数据」流动(无论是否是开放)的本质需要,其内核所指是在数据流动过程中如何保持数据的高度「可重用性」(ReUsability)。
在笔者前述所写的《高丰:厘清公共数据授权运营》一文中对数据的「直接利用」(Use)v.s. 和「再利用」(即可重用,ReUse)给出了形象的对比案例:
笔者认为初级和高级的二元分类在一定程度上回应了数据开放利用和再利用的双重目的,即初级数据产品服务的是再利用目的(供第三方进一步加工开发利用),而高级数据产品服务的是利用目的(供第三方直接消化信息和辅助决策)。若作一个通俗类比,视数据为蔬菜(如土豆),则初级数据产品可以是土豆丝、土豆片等经过粗加工的土豆,主要供第三方进一步加工为菜品。而高级数据产品则是由土豆直接制成的薯条、凉拌土豆丝、土豆泥等成品土豆食品,主要供消费者直接食用
高丰,公众号:开放数据中国高丰:厘清公共数据授权运营
笔者这里给出一个更为学术化的定义,即:
数据的可重用性,其表征了数据被加工处理后,多大程度上其原本所蕴含信息(维度及颗粒度等)发生了损耗,从而是否仍可满足下游的「不确定」场景的「多元化」的加工、开发、利用的需要。
笔者认为,数据的「可重用」,本质是回应数据流转过程中,上下游多级需求方因业务需求不一致而造成的对数据二次加工需求的不一致。在数据领域,一项基本共识是,对于数据原始的采集方而言,其采集数据的目的,往往和数据下游的利用方的业务目标并非完全一致。这一现象一般被称为数据的Re-Purpose(意译即应用场景的迁移)。而当数据原始持有方和终端利用方间还夹杂着多级中间加工方(产品运营方)时,同样数据加工方应当意识到,其为了某一假定的业务场景目标对数据所做的加工,很可能无法匹配满足其下游利用数据的目标。因而,如何在数据加工过程中,确保下游对流转到手的数据(或数据产品和服务)拥有一定灵活性、可以再二次加工进行关键信息提炼、或信息组合融合等,成为了数据流通的关键。
在《数据说|要素市场与产品市场不能混为一谈》一文中,作者指出:
要素市场是指提供生产要素的市场,是企业以自有资源作为交换对象的市场,重点在于资源的供求平衡,由企业与相关资源提供者直接对接交易,来满足其生产产品的间接需求。(这一点可解释场外数据交易比场内活跃的原因,是企业间直接对接交易,交易链条短)
产品市场是指任何经营企业都可以提供或销售具有品牌竞争优势的产品给最终消费者,以获得利润的活动场所,重点在于营销,以满足最终消费者的直接需求。(这一点启示:数据产品的提供或销售,既可依托现有成熟的销售渠道,也可在新建的数据交易场所进行交易,而不应强行指定任何一种销售方式)
傅建平,公众号:娄攵手居数据说|要素市场与产品市场不能混为一谈
笔者以为,数据的要素化本质服务于数据的二次生产,而产品化则服务于终端消费或决策。因此数据(或数据产品或服务)是否具备「可重用性」,是判断数据是否「要素化」,还是「产品化」的关键标准。
在前不久笔者所写的《纷杂的地方公共数据供给正创造新的数据孤岛?》一文中,以普惠金融场景需要为案例,上海、北京等地对相关公共数据的供给,就体现了要素化思维,无论采用API或是安全计算环境等,都是为了保持数据的可重用性,从而满足下游使用方的不确定的个性化业务需要;而广州、苍南的则是产品化思维,是将数据围绕确定的业务规则,形成不再可被(重用)二次加工的计算结果。
而进一步,数据「要素化思维」v.s.「产品化思维」也决定了公共数据授权运营的思路和本质。笔者认为,当前的公共数据授权运营是多种不同诉求和模式混杂下的一个概念,而为了真正服务于数据要素市场的建立和健康运作,我们应当需要的是加速公共数据要素化的授权运营,而非仅仅推动数据产品化的授权运营。
而所谓加速公共数据要素化的授权运营,就意味着其运营的重心不应是产出确定场景下的数据产品(即产品化),而恰恰是通过其运营能力广泛挖掘多元的场景需要,并汇聚凝练共性的二次加工需求,从而能够将数据成功的要素化供给,满足市场对公共数据的「可重用性」需求,这也将推动数据市场真正形成多级的供应链。