社计文库 | 大数据为何是智能社会的“石油”?
点击蓝字 关注我们
社计者说
大数据是被称为智能社会的“石油”。大数据是什么?与传统数据有何种区别?为何与智能社会紧密相连?
人工智能算法与一般算法的不同之处在于,一般算法的输入与输出之间的路径是明确的,由具体的指令组成的,而人工智能算法首先需要观察样本数据,通过数据本身找到进行预测、产生输出的根据,机器部分取代了人类来完成算法。但实际生活中的对象要成为人工智能可以学习的数据,就必须先将对象数据化,再将数据结构化(而不是简单的特征工程(feature engineering))。前一个过程在定量地描述现实世界,而后一个过程则使数据能够用于具体的人工智能算法当中,而这种对现实的描述和转换往往离不开人的参与,从这个角度看来,人工智能是置于数据之上的一面“镜子”。这不仅表示基于数据尤其是结构性数据的人工智能会继承和反映数据产生中的取向和误差,而且似乎暗示,这种人工智能缺乏向强人工智能发展的先天条件。
乔姆斯基认为,深度学习当前都在学习大量的例子,没有对本质进行探寻。从算法到人工智能,学者面临着算法专利保护的“制度性黑箱”与理解和解释机器学习算法的“意义黑箱”。要试图理解智能社会的两个黑箱,我们不得不重新回到大数据何以作为生产要素的基本命题中来。本期从大数据入手,理解人工智能。
大数据是什么?
甘道夫与海德尔指出,大数据的特质并不只局限于其海量性,多样性与 高速性同样是其重要特征。三个特质互相影响,指标随数据所属公司的大小、位置、行业变化,没有决定性的定义。目前,大数据规模取决于存储数据的能力与数据类型,通常以太子节或拍子节为单位。多样性指大数据分为结构化数据、半结构化数据与非结构化数据。随着社交媒体与传感器的发展,文字、图像、视频等非结构性数据越来越多。数据管理技术与分析方法的诞生也赋予了数据全新的商业价值,为大小商户带来了新机遇。同时,智能手机与传感器的普及让数据诞生与传播的速度变得史无前例,实时分析在大数据时代以成为必然。除上述特征以外,大数据还具有低价值密度、传播速度多变性、来源复杂性、不确定性等特征。
大数据如何分析?
文本分析将大量人类生产的文本转变为有意义的概要。它通过提取信息、总结文本、回答问题、分析情绪四种手段为商业决策提供依据。音频分析通过大词汇量连续语音识别系统与基于音位的系统,帮助客服热线中心提升客户体验、评价客服表现、增加销售周转率、洞察客户行为、了解产品问题。同时,音频分析还能通过分析患者的交流方式,支持某些疾病的诊断与治疗。视频分析多用于自动监控系统、视频搜索或是商业营销、销售与运营方面。通过分析监控视频中顾客的基本信息、购物时间、活动规律、排队时长等信息,商家可以对其商业模式进行适当调整以获得更丰厚的利润。社交媒体分析分为内容分析与社交网络分析。两者的主要应用领域是市场营销。内容分析让商家了解顾客对产品的态度。社交网络通过寻找社群、分析社交影响、预测社交链接的方式提升产品推荐系统与品牌形象。预测分析研究历史及当前数据,以预测未来的结果。有些技术通过寻找过去的规律预测未来,有些则通过分析变量间的关系做出预判。预测分析通常运用传统的统计方式,然而大数据的部分特性使其急需新的统计方法。来自统计效率的挑战、统计显著性的不相关与大数据本身噪音多、伪相关、异质性等特质都使得传统的统计手段不适用于新型的预测分析。
大数据时代的到来让原本并不现实的分析方式成为可能。在未来,仍会有更多分析方式与应用的诞生,潜移默化中影响人们生产生活的方式。
作者:
黄渊凝 纽约大学数学系
李凌浩 中国社会科学院大学社会学系
参考文献
Gandomi, A., & Haider, M. (2015). Beyond the Hype: Big Data Concepts, Methods, and Analytics. International Journal of Information Management, 35(2), 137-144.
往期推荐:
社计未来
欢迎关注我们!