学术视界 | 大数据情境下的数据完备化：挑战与对策

数字经济与商业模式 2023-03-28

The following article is from 管理世界杂志 Author 陈松蹊等

大数据情境下的数据完备化：挑战与对策

文章来源

作者：

陈松蹊（北京大学光华管理学院、北京大学统计科学中心）

毛晓军（上海交通大学数学科学学院）

王聪（北京大学光华管理学院）

文章刊发：《管理世界》2022年第1期

文章主要内容

摘要：随着数字经济时代的到来，数据作为一种重要的生产要素，深刻改变了管理决策范式。对具有超规模、跨领域、流信息的大数据的分析利用成为了赋能管理实践的重要因素，其中数据的质量与完备性是影响后续数据价值提炼的重要前提。然而受限于数据采集方式与过程、被采集主体行为模式特点等因素，数据常常呈现超高缺失率的特点。超高数据缺失会严重影响数据分析及所承载的管理决策效果。因而，预先对大数据进行有效完备化对保证后续分析决策效果具有重要意义。本文对大数据情境下的数据完备化问题进行了系统梳理，重点给出在超高维度、多源异构、时空关联的情境下的大数据完备化问题的主要挑战、求解思路及其对管理学研究的启示，以期为大数据完备化及赋能管理决策奠定理论和方法学基础。

关键词：数据完备化超高维度多源异构时空关联管理决策

一、本文研究背景与意义

随着移动互联环境下新兴技术的快速发展，来自公共管理、电子商务、金融服务、医疗健康等应用领域的大数据不断涌现，深刻地改变了社会经济生活的面貌，推动我们所处的社会与经济向数字经济时代迈进。随着移动互联技术的深入、数据采集和存贮技术的飞跃发展，具有超大规模、超高维度、多源异构、流式产生特点的大数据日益可测可获，基于数据的管理决策逐渐成为科学研究和应用的主流，催生了大数据决策范式的诞生。

数据作为大数据决策范式下的重要生产要素，其本身的完备与质量关乎后续决策效果。通过多种渠道采集而成的大数据尽管体量很大，但往往具有非常高的缺失比例，从而对利用其进行管理决策提出了新的挑战。如在线购物场景中，推荐系统常用于为用户推荐其感兴趣的商品或服务，以辅助其后续购物决策。用户历史评分数据常被用作推荐系统的输入，用于预测消费者对尚未购买商品的评分。然而，由于商品数量众多而用户接触到的商品非常有限，用户历史评分数据呈现高度缺失的特点。若直接使用具有超高缺失比例的数据训练推荐系统，难以对用户的真实偏好做出准确的预测，甚至会产生严重有偏差的推荐结果。这不仅会误导用户的购物决策，长此以往还会破坏用户对平台的信任。如能将该评分矩阵有效地进行补充，尽可能地恢复数据的原貌和内在结构，就可将该完整评分数据作为推荐系统模型的输入，进而为构建实时推荐系统、深层分析提供有效的准备。

超大规模的数据缺失问题，也给统计学研究带来了新的挑战。大量缺失数据的存在使得数据整体的不确定性增加，确定性成分更难把握。在小规模数据缺失的场景中，常对缺失数据进行删除处理，然而缺失数据往往伴随选择偏差或隐性偏差，直接删除缺失数据，会造成数据资源的浪费，更可能加重由上述选择偏差导致的估计偏差。而对于超大规模缺失的大数据而言，数据删除方法会导致90%以上的数据被删除，显然是不可行的。因而，对大数据中的缺失数据进行完备化，尽可能地还原其固有的结构是大数据分析及进一步在其基础上进行管理决策的一个重要步骤。

尽管缺失数据填补是近30年统计学一个活跃的研究方向，形成了一套相关方法。但这些方法所能处理的缺失率鲜有能随着数据维度的变化而变化的，无法处理超大规模量级的缺失数据。此外，由于大数据具有超高维度、多源异质、流式产生等特点，对大数据完备化方法设计提出了挑战。因此，在对缺失数据进行完备化过程中，需充分考虑数据情境特点及其中的数据缺失机制，以设计简洁有效的数据完备化方法。

二、主要内容

本文首先聚焦于矩阵数据完备化问题，即如何根据较少的观测值精确地对原始矩阵进行还原。该问题可以视为一个带有结构性假设的优化问题。本文给出了矩阵数据完备化问题的一般形式，即通过最小化损失函数及正则化项之和而对矩阵进行完备化。进而从大数据的3个典型特点（即超高维度、多源异质、时空关联）出发，讨论在这3种情境下数据完备化问题的特点及对应的挑战，阐述相关的领域情境、概念内涵、问题建模、求解路径以及管理决策意义。

超高维度是大数据的一个突出特点。如在电子商务环境中，常常包括上亿级别的用户及商品，从而使得用户商品评分矩阵呈现超高维度的特点。而用户所接触及评论的商品数量非常有限，从而产生大量缺失的点评数据。为实现超高维度缺失数据的完备化工作，常对数据结构采用低秩假设，并需对数据缺失机制进行分析以具体化优化问题中损失函数及惩罚项的设置。研究中总结了完全随机缺失机制、随机缺失机制、非随机缺失机制这3类常见缺失机制下的常用损失函数形式。

多源异质是大数据的另一突出特点。体量庞大的大数据通常由多种来源的数据汇集而成，不同源的数据的概率分布或模型通常是不同的，因而汇集而成的大数据呈现了异质性的特点。如在智慧城市监测过程中，由于传感器记录时间粒度不够精细、仪器故障等问题，常常会出现数据缺失问题。而且由于数据是由多地部署的传感器采集汇集而成，数据具有很强的多源异质特点，在处理其数据缺失时应格外关注。具体而言，数据的多源异质性既包含数据分布相同但参数不同的情形，也包括数据分布不同的情形，其所对应的损失函数及惩罚项各不相同。

流式产生是大数据的另一突出特点，即大数据以一定的时间颗粒度产生及被记录下来，若在此情境下发生数据缺失问题将具有强时空关联性的特点。如在金融大数据领域，常见的数据来源包括股价、交易记录、高频交易信息、分析师预测、新闻、社交媒体用户情绪数据等。而机构/散户对于某一公司/股票的关注情况常常并不连续，造成大量信息缺失。但这些缺失信息之间呈现出强时序性的特点。在设计相关数据完备化方法时，为实现对时空维度的刻画，通常在二维矩阵表示的数据形态中引入新的用于表征时间或空间的维度，从而形成张量数据，并相应地设计张量完备化方法。

三、主要结论与政策建议

本文立足于大数据超高缺失比例给统计学、管理学带来的挑战，提出将数据完备化问题形式化为一个优化问题。针对大数据时代数据所呈现的超高维度、多源异质、时空关联的3类典型情境，分别总结了其情境特点、数据完备化挑战、求解思路及管理意义。此外，本文总结了如何根据数据缺失机制、维度、来源异质化程度等特征选择不同的数据完备化方法的经验性方法。进而探讨了如何在完备化后的数据上进行后续数据分析。

在数字经济时代，对数据完备化问题的重视和解决程度关系着数据要素价值的有效释放，也影响着后续管理决策的效果。因而，相关领域学者、业界管理者及政策制定者应充分重视数据完备化相关方法，将其作为大数据决策范式的重要一环，促进基于数据完备化的使能创新。

四、边际贡献与未来拓展

本文在系列工作的基础上对大数据情境下数据完备化问题进行了系统梳理，在以下三方面对相关文献和管理实践形成了边际贡献。首先，本文提出了一个统一且易于扩展的优化问题描述框架对数据完备化问题进行了系统梳理。其次，本文系统总结了各类前沿数据化完备方法及其适用性、优缺点，为相关学者和管理者提供了很好的参考。最后，数据完备化方法的有效运用可为数据分析及后续管理决策的制定实施提供助力。后续研究可进一步探索融合多种情境特点的大数据完备化问题的建模形式、求解路径，并进一步思考相关方法在管理实践中的具体应用及价值测算，提升管理决策和价值创造水平。

文章刊发：

陈松蹊、毛晓军、王聪：《大数据情境下的数据完备化：挑战与对策》，《管理世界》，2022年第1期，第196~206页。

。END。

点击下方链接，查看更多往期文章

课题组专家介绍

数字经济与商业模式课题组主要成员|专家介绍

数字经济热点

习近平心中的“数字中国”

政策动态|国务院印发《“十四五”数字经济发展规划》