“数实融合”,我国大数据产业迈向高质量发展
数据作为新型生产要素,深刻改变着生产方式、生活方式和社会治理方式。
大数据这一术语产生于21世纪全球数据爆炸增长的背景下。对大多数人而言,大数据这个词已经不陌生。
当前,数据作为新型生产要素,成为整个社会数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。
认识“大数据”
我们使用网络进行在线购物,我们使用公交卡、银行卡、电卡等各种卡支付公共服务,我们的电话、机票、信用卡记录把我们日常的行为以数据的形式记录下来。一旦掌握了这些数据,我们每个人都几乎变得“透明”。
“大数据”正是在这样的背景下热起来——过去,人类的行为难以用数据进行量化描述,网络技术尤其是社交网络出现后,网络上的交往活动基本上与现实社会交往趋向一致,网上的数据也就更能反映现实世界的情况。
有人认为,所谓“大数据”就是海量数据处理,实际上两者并不等同。
研究者认为,海量数据是商业自动化导致海量数据存储(以交易销售数据为代表),“大数据”则是伴随社会化数据(以社交网络为代表)出现的大量的在线文本、图片、流媒体数据等,主要为了应对非结构化和半结构化的数据。
简而言之,大数据与海量数据区别就在于前者是以非结构化和半结构化数据为主,后者偏向结构化的交易数据为主。
“大数据”的“大”并不在于数据量的多少,而是一种“以数据为大”的方法论。我们的生活中会产生海量的数据,但海量数据本身并没有太大价值。
“大数据”通过对个体行为的数据挖掘,使用关系分析、文本挖掘、社会计算、情感分析、时间线预测以及社会网络分析等方法来寻找有价值的信息,帮助人们更好地认识用户需求,寻找市场。
“大数据”与“小数据”
无论大数据或小数据,有价值的就是好数据;其次,“大数据”这个词,更多是一种思维方式和一个时代标志。
实际的场景中使用的数据往往是有限的,真正有用的是“小数据”。兵法上讲,“伤其十指不如断其一指”,大数据是一样的道理,要用力在关键的“一指”上,不必追求“十指”面面俱到。
用户源源不断地产生数据,目前对于企业来说,数据的收集和存储能力并不构成障碍。症结在于,90%的数据没有被真正利用起来,成了“废数据”。
主观上,这与机构的数据思维文化有关,客观上,则与数据的相关度有关。
比如一名用户10年前的互联网数据,对于分析当下或预测未来并没有太多的作用,时间序列上的弱相关度,大大减弱了数据的效力。
相关数据,特别要强调与特定场景的相关度。现在,人工智能的应用针对的是某个具体任务或具体目标,需要的数据类型不尽相同。
比如,传媒、金融、医疗等各行业需要的细分数据不同,具体到同一行业的子领域也不同。比如,在医疗领域,心血管疾病和癌症诊断所要的细分数据就不一样。
大部分人工智能的应用场景,都是针对一个具体的任务。比如,个人信贷鉴别申请者的信用风险,餐饮外卖确定最优的派送路线,资讯信息流做精准的个性化推荐……具体的场景中,起作用的主要是相关度高的数据。
相对大数据来说,能直接用起来的相关数据,往往是一种特定的小数据。这里的小数据,指的是使用场景单一、对应算法简单、及时性较高、数量规模较少的数据。
可以说,大数据是宏观、全面的分析,小数据则是针对特定任务的具体分析,当然,在大数据时代,小数据的内涵也会发生延展。比如,围绕个体的全方位数据更加重要。
这里的“个体”不只是自然人的个体,也包括社会组织,如商店、企业、社会团体等。掌握全方位的个体数据,一个直接的好处就是可以精准推送个性化服务。
大数据产业存在的问题
实际上大数据从概念产生到应用成熟,中间横亘着一道又一道的障碍。
一是数据应用能力不足。数据分析挖掘与业务深度耦合,需要分析人员既懂数据又懂业务,当前这类人才极度缺乏。大多数企业尚未建立流程化和规范化的算法建模能力,导致分析效率低下。
二是数据治理挑战较大。数据治理涉及多个部门和主体,是一项重要的基础性工作,企业数据治理存在跨部门沟通难、资源投入不足、深度落地工作量大等挑战,导致数据的可获得性、可用性较差。
三是数据流通不畅。从企业单一视角来看,一个企业的数据相对来说是不足的,巧妇难为无米之炊,缺少数据,就会严重影响数据分析的深度和广度。数据的内外部流通不畅严重制约了大数据产业的发展,数据的权属、权益分配、安全保障是数据流通核心议题。
四是数据安全亟需提升。数据价值发挥的底线是保障好数据安全,随着《数据安全法》《个人信息保护法》的发布实施,数据安全进入强监管时代。
而当前很多企业数据安全能力建设刚刚起步,面临谁来建、怎么建的困惑,急需要好的方法论和最佳实践来指引方向。
大数据产业未来发展
不过好在我国在大数据领域布局早、布局深,主要分为三个阶段。
一是酝酿阶段(2014年-2015年):2014年大数据首次写入政府工作报告, 2015年国务院发布大数据发展行动纲,明确“数据是国家基础性战略资源”。
二是落地阶段(2016年-2020年):大数据“十三五”规划发布实施,提出五大发展目标、七大重点任务和八项重点工程,经过五年发展,大数据产业快速向前迈进。
深化阶段(2021年-至今): “十四五”规划全面布局大数据发展,提出五大目标、六大任务和六项行动,产业将步入集成创新、快速发展、深度应用、结构优化新阶段。
一是数据技术不断推陈出新,创新热点正在从效率优先向安全流通转变。据不完全统计,目前国内以隐私计算为代表的数据流通类产品已达120多款、相关企业超过100家,比去年翻了一番,发展势头迅猛。
二是数智化转型进入新阶段,数据应用的系统化、精细化、敏捷化成为关键特征。构建数据驱动的智能化决策能力,是数字化转型的核心。
数据应用急需从目前的单点、粗放、低效的传统模式,向系统化、精细化和敏捷化的DataOps模式转型,组织架构、业务流程和技术体系也要加速变革。
三是大数据安全规则体系日渐清晰,数据安全合规进入细化实施新阶段。随着《数据安全法》和《个人信息保护法》的颁布实施,数据安全顶层框架和责任体系基本确立。
长期来看,企业需要从组织架构、制度流程、技术工具、人员能力等四个维度出发,构建完善的数据安全治理体系,来满足外部监管要求和内部数据安全需求。
责编:孙浪
监制:李红梅
参考资料:
1.《“数实融合”,我国大数据产业迈向高质量发展》中国信通院
2.《<“十四五”大数据产业发展规划>解读》工业和信息化部网站
3.《<互联网信息服务算法推荐管理规定>系列专家解读(二)》网信中国
4.《中国统计》2021年第5期文章