查看原文
其他

纷杂的地方公共数据供给正创造新的数据孤岛?

高丰 开放数据中国 2024-01-09

# 写在前面

本文为开放数据中国围绕公共数据治理所开展的系列工作,基于阶段观察和思考而成,相应的观察仅基于公开报道尚未有更深入的实地调研访谈等,因此有其片面性;而思考也在不断地演进中,因此相应的观点有一定的时效性。请读者阅读时了解上述局限性。


# 本文建议引用格式
高丰,纷杂的地方公共数据供给正创造新的数据孤岛?,开放数据中国公众号


作者:高丰


我们可能正面临新一轮的数据孤岛危机

近两年来,各地在数字中国建设战略的推动下,纷纷建立数据交易所,以及成立国资的大数据运营公司,其中主要的一项工作是试图盘活公共数据,使其得以发挥价值,加速整体数据要素市场的建设进程。

在这个过程中,就开放数据中国的观察:各地通过公共数据开放、公共数据授权运营、公共数据实验室、公共数据入市产品等各类名目所运作的公共数据供给模式似乎正走向互不相通、形态各异、没有标准的境地,从而可能导致公共数据市场更为割裂而走向孤岛化

本文中,我们针对近年最为热门的“普惠金融”场景,调研了较有代表性的上海、北京、广州及温州苍南县,是如何供给公共数据满足金融机构普惠金融业务需求的,并从中对比差异,和提出对未来发展的疑问。

一、地方案例:普惠金融场景下的公共数据供给

01

上海

上海市在2019年即启动了“上海市公共数据开放普惠金融行业应用”[1]的工作,由上海市大数据中心统一牵头,通过与各银行机构上海分行签订《上海市公共数据开放普惠金融应用数据利用协议》的模式 [2],允许签约银行通过数据接口 API [3] 以及(可能的)隐私计算等安全计算环境(注:此处未找到明确的公开信息源证实)访问并开发利用中小微企业信息(数据),包括但不限于注册信息、司法信息、处罚信息、经营状况等,从而实现在金融机构端自主融合上述数据后开发对应的数据产品支撑普惠金融业务决策

图1 上海市公共数据开放普惠金融行业应用所提供中小微企业信息一览(引自官网)

值得注意的是,在上海模式下,签约的金融机构是可以触碰到原始数据(注:或经一定匿名化或去敏感性信息加工的数据,但保留其二次融合和加工的可能性)从而结合自身业务需求开发自身数据产品的。且这一过程中,是支持应用程式接口方式给予了金融机构足够的二次加工灵活性

当然,自2022年上海数据集团成立后,其经上海市政府授权运营公共数据,是否会改变上述普惠金融数据和金融机构的合作模式,尚未有进一步的公开信息披露。同时,上海也基于共性的需求,提供了一批基于数据生产的数据产品,用于校验(如法人核验)、信息推送(如风险预警推送)等。

02

北京

图2 北京市金融公共数据专区——京云征信平台

而北京,则通过公共数据授权运营模式,经由北京市政府授权北京金控集团旗下金融大数据公司运营金融专区,“(金融大数据公司)将金融专区建成涵盖基础设施层、数据层、平台能力层、业务支撑层和应用层的金融科技基础设施,结合联邦学习等隐私计算算法,实现了在‘原始数据不出域’的前提下,支撑金融创新应用开展。” [4] ,进一步援引和讯网报道:“与商业银行合作建设金融数据操作间,利用多方安全计算、数据可用不可见等新技术,探索银行机构数据与公共数据加密情况下联合建模、联合授信的新方式。”[5]

可见,北京市的金融专区在支持第三方金融机构开发利用相关公共数据时,采用的是安全计算的方式,需要双方在人员、技术栈等方面开展技术上、业务上和流程上的配合 (这种双方的配合,即是上述参考链接报道中所提及的「联合开发」来印证,也通过北京银行的公开招标可印证 [6],其招标中提及数据访问「接入需支持隐私计算方式对接」),从而共创数据产品。而金融大数据公司作为被授权运营的单位,同步也自主对所授权数据资源做了自主产品化,即京信平台,并且也基于京信平台对第三方企业提供数据应用接口、数据报告等结果性数据服务(注:而结果性服务一般不适用于二次开发需要)。

03

广州市及温州苍南县

最后,引起我们注意的是近期媒体报道的两个不同层级政府所做的公共数据入市交易产品:广州所推出的“企业经营健康指数”[7] 以及浙江省温州市下辖的苍南县所推出的“金融信用评价指数”[8],两者的共同点都是以一个计算指标的结果值作为面向社会需求方市场化流动的产品

两者产品的诞生,似乎都是政府和需求方代表企业合作的产物。例如,苍南县从制度上,建立了“县公共大数据实验室”,通过该实验室平台,“苍南大数据中心、苍南数发公司、苍南农商银行签订了三方战略合作协议”[9],经由“政府提供数据,企业提供计算公式”[8]的模式,产出了“金融信用评价指数”。但值得注意的是,报道中[8]提及“金融机构需要通过密钥获取这个信用分数,且只能看见不同类别数据的比例,却不能看见详细信息”,因此该计算公式本身的透明性和普适性决定了其是否可满足广泛市场需求方的不同业务逻辑需要

而广州方面,据报道也类似于上诉苍南的例子:“省、市政务服务数据管理部门等数源单位作为数据资源持有者,负责向公共数据运营机构提供经安全计算技术处理后的密文“计算因子”;公共数据运营机构则以密文“计算因子”为基础,结合特定算法进行融合计算,获得输出计算结果的新数据持有权;数据商将上述新数据进一步开发成进场交易的普惠金融数据产品,获得最终数据产品经营权”。不过上述公开报道中,并未明确所谓“特定算法”是否直接来自于某一家企业,还是行业共识,又或是运营机构/政府自身设定

二、三种模式:“市场平台” v.s “公共厨房” v.s “预制菜品”

在本文讨论中,我们核心关注的是:支撑社会需求方融合和利用公共数据从而开发自主产品的公共数据供给制度异同

在进一步基于我们上述案例总结模式和开展讨论前,我们需要明确两个讨论前提:

一是,我们关注长期有效的制度建设而非短期实验性过程。我们意识到,在公共机构探索公共数据利用时,一般可以认为会存在两个不同的阶段:探索期和成熟期。「探索期」过程中,作为公共数据供给方的政府或被授权单位,可能会和个别典型需求方(有时也可能是某些基础设施如隐私计算的提供方)共同围绕目标创新产品,从而基于目标产品厘清数据资源需求、数据质量需求、数据标准需求等(但是否这些需求仅是单个企业需求又或是行业共性则未能取决于实践)并紧密合作共创终端产品等,这一「探索期」过程由于是双方共同探索,因此带有高度的灵活性和实验性而所谓「成熟期」,我们指的是政府或被授权单位,针对社会潜在的需求方,所构建的稳定的、长期有效的供给制度,其应该对任何主体适用而不会轻易有所变化

二是,我们关注公共数据的二次开发可能。在我们接下来的讨论中,我们重点针对的是社会需求方对数据资源做二次加工、融合的行为可能。因而我们考量的是公共数据供给的模式多大程度上给与社会需求方以尽可能灵活的方式接入访问到尽可能原始的数据资源

在我们的讨论中,我们主要基于上述地方案例,考察其逐步形成的「成熟期」机制,因为其才是事关更广大要素市场潜在消费者(需求方)利益的。而「探索期」过程的本质,决定了其过程中的任何灵活性未必在成熟期仍旧适用。也因此,我们基于上述案例,对应归纳了下列三种模式:


平台市场模式

公共厨房模式

预制菜品模式

案例代表

上海

北京

广州、温州苍南县

逻辑支撑

公共数据开放

公共数据授权运营

公共数据资产化运营(交易)

优点

  • 对于需求方二次开发利用提供了最大可能性的灵活性

  • 相较而言平衡了数据持有方的安全需求和数据需求方的灵活开发需要

  • 高度安全

  • 强市场化

    可能存在的问题

    • 相较而言取决于数据本身的敏感性,API接口在某些情境下的安全性弱于安全计算环境。

    • 「协议性约束」的准入控制模式决定了准入资质的高门槛性

    • 相较于直接的接口访问,开发灵活性上稍弱

    • 安全计算环境对需求方的技术要求可能带来一定的技术性资格壁垒 / 成本壁垒 (可能公共研发环境和算力需要同步配套供给)

    • 计算公式是否存在普适性或行业认可性?

    • 计算公式的透明性和二次开发的解释性如何保证?

    • 缺乏底层数据访问,不利于自主灵活的二次创新


    三、一些思考与问题

    正如开篇所提,是否目前各地纷杂的公用数据供给探索,最终会导致数据进一步孤岛化

    事实上,围绕着普惠金融这一案例,我们在新闻报道中已观察到:同一国有银行的不同分行,就需要在不同地方配合地方的公共数据供给制度探索。而当前不同地方的供给模式不同,就意味着地方分行的经验转移和复制就成为了挑战。而对于其他更小规模的商业银行、地方银行、以及其他金融业务的市场主体,如希望开展全国性业务,就需要应对各地不同规则、不同形态的供给模式,而这将会带来高昂的学习成本和时间成本

    同时,我们注意到上海、北京均为直辖市,广州则是省会城市,而苍南则为地级市下辖的县,那么我们的公共数据供给究竟应该止步于哪一行政层级?我们真的需要县级公共数据运营吗?当我们的公共数据被不同层级政府碎片式供给,最终又将会给需求方带来过重的成本

    而在具体供给模式的选择上,我们认为,上述三种模式并非一个单选题,而应当根据不同的场景、行业业务模式、数据管理模式,以及结合供给的发展阶段,从而挑选适当的模式以及可能的模式组合事实上,如果行业共性需求就是一个指数结果,那么基于行业共识的、规则透明的计算公式所产出的指数型产品可能是最符合需求方需要。此时,「预制品」模式既能满足数据源安全规定,也能最大化整体数据要素市场化建设诉求。

    而为了达成行业共识、形成规则透明的计算公式,我们可能又需要先采用「公共厨房」或「市场平台」模式,去提炼出共性需求或促成共性产品的诞生。所以本身可能的一种发展模式是,通过「公共厨房」或「市场平台」模式和企业共同探索各自个性化产品,过程中总结提炼共性的公共数据预制品需求,而最终有需要的通过「预制菜品」模式,替代掉「公共厨房」或「市场平台」模式。而在此类共性需求经过探索,无法达成时,那么也不应过度大跨步去提供「预制菜品」,而应当考虑撤回采用「公共厨房」或「市场平台」的模式满足需求方的个性化、创新化需要。

    当然,共性产品未必是一个类似「预制菜品」这样的精加工产品,也可能是中间「备菜品」。就像我们可以将土豆按需求准备切成条状,分别制成炸薯条、地三鲜等不同菜品一样,公共数据资源在对外供给时,可能更能平衡安全和满足广泛二次开发需求的是提供中间态的预制品。而这也也是我们在此前论述公共数据授权运营[10]时,认为被授权运营方应该做的核心工作,即以产出中间态数据产品为其核心任务

    最后,我们也认识到,当前是全国数据要素市场建设的「探索期」,各级政府的纷杂尝试自是这一时期的自然产物,但似乎我们当前缺乏一个「总指挥」,去更好的组织和协调试点,而不至于走向混乱而无法回归统一标准的建设;去更好从实验中汲取经验,并转化为可复刻和标准的实践;去更好基于场景共性需求梳理,确定公共数据供给形态和供给层级;这个总指挥是否会是国家数据局?我们虽有期待 [11],但并无明确答案,唯有拭目以待

    参考链接

    [1] 上海市公共数据开放普惠金融行业应用,上海市公共数据开放平台,https://data.sh.gov.cn/view/pilot/index.html

    [2] 上海市公共数据开放普惠金融应用正式上线运行,中国证券报,https://finance.eastmoney.com/a/201912231333431525.html

    [3] 上海深化政府采购公共数据开放应用 助力优化普惠金融服务,上海市财政局政府采购管理处,http://www.ccgp.gov.cn/zcdt/202208/t20220830_18554636.htm

    [4] 新数据观下的数据权属制度实践与思考,唐建国,法学杂志,2022年第5期 

    [5] 北京小微金服平台、北京金融公共数据专区与北京市银企对接系统开展全面战略合作,和讯网,http://stock.hexun.com/2020-12-05/202560492.html

    [6]北京市金融公共数据专区政务数据采购项目招标公告,中国招标投标公共服务平台, https://bulletin.cebpubservice.com/biddingBulletin/2023-02-01/9146941.html

    [7] 广州首个公共数据运营产品完成交易,意味着什么?,羊城晚报,https://baijiahao.baidu.com/s?id=1765604038176028786&wfr=spider&for=pc

    [8] 苍南试点上线公共数据产品,温州日报,https://www.wenzhou.gov.cn/art/2023/6/5/art_1217834_59206959.htm

    [9] 提升“用数”能力让数据“动起来”,今日苍南,http://jrcn.cnxw.com.cn/Article/index/aid/7645940.html

    [10] 高丰. 厘清公共数据授权运营:定位与内涵[J]. 大数据, 2023, 9(2): 16-32.http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2023017

    [11] 高丰,打造公共数据治理的中国方案——论国家数据局成立对公共数据治理的影响,《专家笔谈:国家数据局组建对大数据未来的影响》,图书知识情报


    继续滑动看下一个

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存