宋洁:数据价值分析与应用丨北大创新评论
编 辑|诸葛德明
正文:4100字 预计阅读时间:11分钟
2023 INNO CHINA 中国产业创新大会——北大创新评论春季论坛于2023年5月9日在北京成功召开,本文为北京大学工学院党委书记、长江学者特聘教授宋洁老师创新发言实录节选。
北京大学工学院党委书记、长江学者特聘教授宋洁
2023 INNO CHINA 中国产业创新大会——北大创新评论春季论坛于2023年5月9日在北京成功召开,宋洁老师分享主题为《数据价值分析与应用》的报告,介绍了数据要素市场构建过程中的基础性研究问题和实践探索,包括数据在不同生命周期和应用模式中如何进行价值评估、数据如何进入市场进行交易以及需要考虑的因素、数据如何赋能不同实体行业,并以能源电力领域为例介绍了构建信息物理系统模型,通过机理和数据的融合建模来实现细分场景的数据定价模型研发和计算求解。
数据要素与价值
我的研究专注在数据驱动的优化与服务智能决策研究。近年随着国家战略关于数据要素的发展,也促使我们更多的去探索数据的价值内涵以及如何赋能行业。近年国家出台的多个指导意见,倡导数据基础治理、发挥数据要素的作用,目前对于数据的理解如何从产权、交易流通、收益分配、安全治理等方面得到各行各业的关注。
如何理解数据的价值赋能这个问题?我们需要通过数据要素典型特征以及如何跟行业结合、实现价值增长来进行理解。
前期我们在北大交叉团队,包括不同学科,有经济管理、工程、理科、人文社科、法律的团队提出了数据要素五论,全面的阐述了数据如何转换成信息、如何理解数据权属,实现安全交互,发挥数据价值。在这个研究中我们理解到,数据要素本质是权属的交易,如何实现交易呢?是基于供需双方达成价值增长,另外一方面安全是让数据安全交易的保障。同时研究发现如何构建一个好的数据要素市场是需要理论和实践相结合共同推进的。
早在1989年来自美国宾州的教授提出了DIKW模型,数据、信息、知识、决策,这也是数据价值变化的流程。数据通过加工、处理、挖掘到应用的流程,它的价值会不断发生变化,同时安全风险也会不断递增。结合这个发现在数据的全生命周期链条中它在数据价值转换过程有两个方面,一是形成数据产品,这是产品化的交易过程。另一方面,数据跟实体经济结合,形成资本化、资产化赋能,理解数据在不同应用行业和部门之间的价值变化,发现对于数据很重要的一点要发挥的价值,需要跟场景、目标进行紧密的结合。
其实这就是我们在做数字化研究过程中的范式,我们的经济实体和场景目标和数据的联动进行相互促进,提高数字化转型效率,这都是未来对于构建数据要素市场非常有帮助的方面。
再看一下刚才谈到的如何更好理解数据的特征,其实数据相对于其他的资产或者产品有很多典型的特点。如果从市场交易视角,会发现它可能有些外部性和规模经济性特点,这样影响数据进入市场的价值。如果从数据本身特点来看,它有可复制性,不完全排他性等特点,这会影响数据未来作为资产评估的定价。另外刚才谈到数据具备全生命周期的典型特点,这是区别于其他生产要素很重要的特征,有着非常强的产品时效性。
数据多维度的特征都将影响到未来如何更好理解它的价值评估和赋能行业。因此我们在整个研究过程当中会基于不同的维度,以全生命周期视角更好地理解数据的价值是什么。如果从全生命周期理解数据,它包括收集、挖掘和应用,这个过程当中如果要理解它的价值评估,比如数据收集阶段更多基于传感器等等设备,理解它的成本核算,在企业内部多会依赖成本法核算不同的数据价值。数据在挖掘和应用过程当中,如果跟业务部门结合,形成一些数据产品,未来可能进入市场形成数据交易,这个过程当中我们更多倾向于基于市场机制、市场测算方法理解它的价值。另外一方面随着产业数字化推进,数据会形成跨行业新的数据资产,它赋能于不同的行业,这个过程当中收入法是合理的测量方式。因此可以看到传统对于经济测算的不同方法,结合数据本身特点,在不同生命周期和不同应用场景它将采用不同的方法进行核算。
数据估值与定价
而在数据挖掘阶段,数据对数字产业化和产业数字化带来的资产化和产品化不同而需要差异化的价值评估技术。数据资产化过程当中更多关注数据拟合成信息,降低一些不确定性等带来的增益,这个过程当中更多是和大模型相结合,从数据到模型带来增益的测量方式。如果进入市场形成产品化,更多要基于评估方式实现数据产品估值方法,这都是前期谈到的具体测算方式和模型。
另外一方面未来构建数据要素市场包括数据交易,我们该如何进行探索呢?刚才谈到数据本身产品的估值,是基于数据本身的特征来进行的,比如说不同应用过程当中数据质量差别,它带来的信息不确定性以及使用的频率差异对估值的影响。基于这些特征,可以构建数据资产的定价函数,来体现数据特征的基础价值,如果进入市场交易,我们将根据供需动态调节来实现市场的定价。这就是我们理解的数据从产品估值到进入市场实现产品定价它们之间的关联关系。当然可以想象未来进入数据交易市场,它就像现在平台服务一样,会根据用户不同的供需差异,来实现一些动态定价等研究,这些都是非常有意思、有前瞻性的方向。
对于数据价值评估,很重要一点还要关注它的风险,也就是说对于数据治理需要从价值和风险两手一块进行抓。这块已经有理论研究,比如基于风险隐私量化进行数据安全保护,如何在这样的前提下进行数据价值提升,构建多维度数据要素市场,这块也得到国家自然科学基金的资助,作为前沿探索性研究目前在进行当中。
对于数据定价的探索,尤其是现在结合人工智能的方法,其实我们也提出了很多数据定价方法,比如基于合作博弈的思想,对于不同的数据贡献方基于边际贡献来定义数据定价,这可以在稳定的数据环境下进行测算。但是现在很多场景非常多变,甚至状态多变,某些领域有些存量数据,其他领域可能只有增量数据。面对数据状况多变的状态下,我们如何进行迁移学习方法实现全量数据和增量数据新的数据价值评估,这也是比较前沿的研究。
信息物理系统建模与应用案例
上面是在这块做的基础性研究,结合行业应用现在非常关注的是一些能源电力领域数据的应用,其实我们知道对于电力和能源来说它是非常交叉融合的领域,比如现在能源跟气象、交通、通讯、工业有了很多不同行业跨界的交流,在这个过程当中很重要的是数据流通来实现行业之间的赋能和价值的增长,比如传统对于能源的理解,数据贯通在能源从生产、传输、转化、消费的全过程。
在这个过程当中我们如何更好地理解数据在不同的行业和过程当中的价值增长呢?比如以新能源预测为例,对于传统新能源预测它可能受的影响因素包括光强、风速、温度、压强、湿度等等很多类型的特征。以前我们做这块研究把这些不同的特征放在机器学习的黑盒进行训练,预测新能源精度。其实以前的研究缺乏对一个很重要的问题回答,我们并不能知道在新能源预测过程当中,这些不同维度的数据发挥了什么样的价值,我们更多把它融合在一起放在黑箱进行模拟。如果通过对于数据价值的研究,可以进一步理解不同特征数据对于预测的影响,以及数据变量之间的交互影响。
通过这个工作,更好地理解了不同特征维度的数据对于输出目标的影响,这样会也可以指导不同因素传感器布局资源优化配置问题。基于这样的思路,未来对于能源行业基础设施的布局都会有些更加精细化的影响。这个过程当中我们提出了信息物理系统,比如对于数据它是进入感知、传送、计算、使用的流程,而对于能源本身它的物理过程是发电、输电、配电、使用过程。基于这样一个信息物理系统的构建,我们想研究一下如果提高了新能源预测,对于未来电力系统的调度会有如何的影响?
传统能源建模有很多机理模型,比如观测数据传输对于整个建模精准度的影响,以及在整个电力系统里面能量传输该如何建模。也就是说我们做这类研究一定要关注数据本身和我们面向的对象机理融合建模。进行这样的建模之后可以基于信息物理系统模型,计算数据对于以新能源为代表、绿色精度提升的定价函数。而在这个信息物理系统模型中,数据质量对于定价函数是有影响的,如何结合机理模型更好理解从数据到信息转化当中信息熵的提升,也体现了流通过程中数据质量的影响。有了这样一个模型相当于在线下环境中构造不同维度数据对于预测精度影响定价的函数,可以理解为如果精度提升越高相当于数据使用治理更好,更好实现了价值增长。
但是如果能够线下训练好定价函数,未来在在线环境过程中,随着数据不断更新到,我们可以基于离线和在线结合方式,为未来不同数据行业融合,实现数据交易与价值增长提供一些技术场景。这是这块研究的思路。我们结合在新疆、云南、内蒙等地数据做了一些预测,可以看出预测精度随着数据治理它的效率提升。另外一方面可以看到对于数据价值越大,可能带来的电力系统经济性也是更好的。不同的学习模型在计算效率和计算收益当中也是有些差异的,我们同时发现数据价值有很强的场景依赖性,它取决于数据样本、数据特征以及模型选择,这都对未来更好的融合行业、理解数据的特征、实现价值增长有着很重要的帮助。
目前我们也和一些大数据交易所进行合作,进行数据到能源、其他行业的赋能,希望通过示范性项目落地去探索数据定价函数和数据定价模型的构建、应用。
总结
我们可以看出整个数据要素市场构建过程当中有很多基础性研究问题需要探讨。另外一方面很重要的是随着具体行业推进,其实数据它未来能够做一个流通的载体,把以前传统物理世界的模型和数字化虚拟模型进行了流动,如何更好把这两者之间结合数据感知、数据在线监测以及行业知识挖掘,来实现这样一个物理世界和数字世界互相理解和融合,我相信这对于不同行业高质量发展和内涵式发展以及行业之间的融合、升级发展都是有非常重要的促进作用。
人物介绍
宋洁,北京大学工学院党委书记,北京大学长沙计算与数字经济研究院副院长,教育部 “长江学者奖励计划”特聘教授。研究方向是随机优化建模和算法设计,及其应用于以医疗服务,能源管理和国家战略储备等复杂服务系统的资源优化配置与运营管理研究。研究获得多次国际重要期刊的最佳论文奖。
原创声明:北大创新评论
*本文系北大创新评论原创(ID:PKUCXPL),经北大创新评论授权发布,版权归原作者所有。申请文章授权请后台回复“转载”,联系相关运营人员,违规转载法律必究。