大数据在社会领域应用的四大步骤
虽然大数据技术在全球范围内已经发展多年,并在众多行业和国家中得到广泛应用,但其在社会领域的应用仍然存在诸多不足和挑战。十年前发布的本文深入探讨了这些挑战,指出了数据基础设施薄弱、数据质量不可靠以及数据治理标准缺乏等方面的问题,在今天来看依然不过时。为了改善大数据在社会领域中的应用,作者结合具体案例提出了四项建议:建立全球数据银行应对关键问题、推动集体参与和公众科学、培养数据管理和分析人才、以及壮大虚拟实验平台。这些建议不仅在十年前具有前瞻性,而且在当前大数据快速发展的背景下,依然具有重要的指导和借鉴价值。通过加强数据治理和创新,大数据不仅能够广泛应用于商业和技术领域,也能够为社会带来正向变化。
插图:尼克·怀特(Nick White)
根据IBM的数据,全球每天大约有2.5千万亿字节的数据被创造出来,足以填满大约57.5亿台32GB的iPad。这些数据中,一部分是由测量全球风速、温度和海流的科学仪器收集的。其他数据是由跟踪债券销售、股票交易和银行存款的计算机捕获的。还有一些数据是由警察、缓刑监督官(probation officers)和福利管理人员输入的。然而,所有数据在被分析和用于决策——例如,下周的天气如何?哪些投资机会最具盈利性?哪些社区应该获得更多的社会服务?——之前,都仅仅只是数据而已。
“大数据”(big data)这个术语用于描述数据的快速增长,以及我们对其有效利用能力的不断提高。科学领域已经开展了各种大数据项目。例如在2012年,制药公司默克(Merck)通过数据分析发现,由于 2013年3月和4月的异常寒冷天气,过敏原在此期间可能保持休眠。然而5月气温的突然回暖使得花粉释放速度超于平常,这可能会增加对默克公司 Claritin 过敏药物的需求。默克公司随后调整了营销策略,以抓住人们对缓解过敏症状的药物大量需求。通过与沃尔玛的合作,他们基于邮政编码数据(即地理位置)创建了个性化的促销活动,将Claritin推广到受花粉影响严重的地区,从而实现了营收的增加。
商业界也一直是大数据的重度使用者。每个月,奈飞(Netflix)收集数十亿小时的用户数据来分析标题、类型、观看时间和视频配色方案(video color schemes),以了解客户偏好,从而持续更新其推荐算法和编程,为客户提供最佳的观影体验。1 2013年,奈飞推出了第一部原创剧集《纸牌屋》(House of Cards),在很大程度上利用了客户行为数据和分析来构建剧情。奈飞在没有试播或进行焦点小组调研的情况下,直接投入了1亿美元制作这部剧集。他们的信心来自于之前BBC同名剧集在英国政治题材上的成功,以及奈飞对自身4400万用户偏好的深入了解。2《纸牌屋》取得了巨大成功,吸引了200万新订阅用户。
数据驱动的智能(data-driven intelligence)已经在技术和商业领域取得成功,但在社会领域的情况却大不相同。在这里,数据驱动信息的潜力与其在帮助解决社会问题的实际应用之间存在巨大差距。一些社会问题可以通过大数据轻松解决,比如利用交通数据缓解高速公路拥堵或使用气象数据预测下一次飓风。但是,如果我们期望使用数据来帮助解决最亟须解决的社会问题,如无家可归、人口拐卖和教育,并希望以可持续的方式解决这些问题,那将会是一个完全不同的情况。
社会问题通常被称为“抗解问题”(“wicked”problems)。它们不仅比技术问题更加复杂,而且由于涉及众多利益相关者以及各组成部分之间存在许多反馈循环,使得它们更加动态和复杂。许多政府机构和非营利组织都在参与解决这些问题,但它们之间的合作和数据共享非常有限。与在硬科学(hard sciences)领域从事技术问题的同行或可以轻松获取财务、产品和客户信息的商业组织相比,非营利组织的信息技术资源往往更为匮乏。
除了社会领域大数据使用者所面临的基础设施障碍外,数据本身也可能构成问题。数据有时会存在缺失和不完整的情况,或者被存储在信息孤岛中,亦或者以无法被自动化处理的形式存在。此外,还需要面对政策和监管方面的挑战,比如建立数据共享协议、确保数据的隐私和保密性,以及在处理相同类型问题的各方利益相关者之间建立协作机制。
诚然,非营利组织、政府和其他组织将继续在大数据技术和项目上进行投资。然而,这些投资最终能否带来预期收益,目前尚不确定。尽管大数据在解决复杂技术和商业问题方面的价值主张已经非常明确,但它在应对复杂社会问题上的有效性还仍待验证。
▍数据何以为大?
数据,或者说独立的信息片段,在历史上一直被收集和使用。近期数字技术的进步显著提高了我们收集、存储和分析数据的能力。以美国人口普查局为例,在1880年,美国进行了一次涵盖5000万人的全国人口普查,收集了年龄、性别、家庭人数、种族、出生日期、婚姻状况、职业、健康状况、识字率和出生地等人口信息。所有这些信息都是手写记录的,然后拍摄成缩微胶片,存放在各州的档案馆、图书馆和大学。在首次收集普查数据后,需要花七到八年的时间才将其正确地汇总为表格。
1890年,美国人口普查局采用了可由机器读取的打孔卡,简化了其数据收集方法,使得数据可以在一年内完成汇总。在2010年进行的最新一次人口普查中,美国人口普查局采用了一系列新兴技术,包括地理信息系统、社交媒体、视频、智能字符识别系统以及复杂的数据处理软件。
如今,所谓的大数据是指超出单一数据存储库(databases or data warehouses,数据库或数据仓库)的范畴,其规模和复杂性已经超出了传统数据库管理和处理工具的处理能力。大数据可以涵盖交易记录、社交媒体内容、企业信息、传感器数据和移动设备数据等。
大数据有多个维度,可以概括为以下七个“V”:
1.体量(Volume):指生成和收集的数据量。
2.高速性(Velocity):指分析数据的速度。
3.多样性(Variety):指收集数据类型的多样性。
4.粘性(Viscosity):衡量数据流动的阻力。
5.可变性/变异性(Variability):衡量数据流量和类型的不可预测性。
6.准确性(Veracity):衡量数据集中的准确性,包括数据的偏差、噪音、异常值和整体信度。
7.易变性(Volatility):指数据有效期及应存储的时长。
尽管大数据的七个维度都在增长,但它们的增长程度和速度并不相同。以体量(Volume)为例,全球数据集的存量正以18个月为周期翻一倍,而这为公共和私营部门提供了将信息转化为洞见的新机遇。随着数据量的增加,以及我们倾向于在不同设备多次存储相同数据的习惯,信息搜索和检索的科学将需要不断进步和发展。
多样性(Variety)是大多数组织面临的最大挑战。 许多组织已经建立了信息系统来处理特定类别的数据元素。然而,关键的挑战在于如何以经济高效的方式整合这些异构数据集,同时还能让新的数据来源(源头和类型)与现有系统兼容。在这个过程中,确保收集的数据具有足够的可信度(Veracity)也至关重要。如今,由于社交网络和社交媒体的普及,被收集的许多数据在用于决策之前都需要进行深入分析,因为这些数据可能会被轻易操纵。
▍未能有效利用大数据
在考虑社会问题背景下的大数据时,我们会得出一个令人灰心的结论:在大多数情况下,所谓的大数据其实并不存在!当涉及社会问题时,现有数据的结构化程度很低,而且大多仅限于数字数据,而不是其他类型的数据。以人口拐卖为例,这是一个规模高达320亿美元的全球性产业,每年约有3000万人深受其害。虽然社会上对解决这一问题的势头很足,但真正尝试利用大数据来应对的举措却寥寥无几。
随着技术的发展,拐卖者越来越多地利用手机、社交媒体、在线分类广告和其他互联网平台来进行他们的非法活动。这些技术产生的数据如果被妥善收集和利用,本可以成为识别、追踪和起诉拐卖者的强大工具。然而,一些严峻的现实挑战依然存在:人口拐卖的非法性使得收集原始数据变得困难重重、一些组织收集的原始数据可能不可靠、我们缺乏可靠的指标来衡量反拐计划和政策的成功。此外,大多数关于人口拐卖的信息存储方式仅能满足组织自身的需求,而非全球性的需求。同时,由于数据隐私和安全的问题,各组织很少以原始形式共享其数据,这限制了创建全球性大规模数据集的可能性。
更糟糕的是,致力于打击拐卖的机构经常为了稀缺的资源(无论是捐赠资金和物资,还是来自媒体和社区的认可)而相互竞争。这种竞争导致机构之间,甚至机构与公众之间的数据共享变得极为罕见。以北极星项目(Polaris Project)为例,它一直在采取综合方法来打击人口拐卖,包括倡导、客户服务、技术培训和援助、全球项目以及全国性资源热线。2003年至2006年期间,“北极星项目”为人口拐卖幸存者提供了热线服务。2007年,美国卫生和公众服务部将其选为美国首个全国性人口拐卖资源热线。多年来,“北极星项目”据信已记录了超过75,000个电话,然而,对这些数据的访问是受到限制的,很少有人知道其可靠性和来源。
设想一下,如果“北极星项目”的信息能够向公众开放,并与经济指标、交通线路、教育统计数据以及受害者服务等其他数据源进行整合,那么其潜在的影响力是巨大的。只有将数据与其他数据汇总、分析、可视化,并支持众多利益相关者访问时,这些数据的收集才会真正具有价值。只有这样,小数据(small data)才有机会变成为大数据,进而帮助我们有效地打击人口拐卖。
一个令人鼓舞的迹象是,2012年Google Giving项目向“北极星项目”和另外两家国际反拐机构提供了300万美元的资助,用于整合他们三条热线收集的数据,并将其扩展为一个国际热线。这些组织共同成立了全球人口拐卖热线网络(Global Human Trafficking Hotline Network)。这是一个积极的标志,但这项合作的成果如何,还有待进一步观察。
▍创建和使用大数据的障碍
能帮助解决社会问题的结构化大数据相对缺乏,主要有四个原因:数据被埋没在行政系统中、缺乏数据治理标准、数据往往不可靠以及数据可能导致意想不到的后果。
数据被埋没在行政系统中 | 大多数组织为了满足运营需求而收集数据,而这些数据通常被埋没在组织的行政系统中。为了解决这个问题,许多组织正试图寻找方法来构建可以更广泛使用的大型数据集。在考虑跨组织连接数据集之前,我们必须首先克服这一障碍。以美国医疗保健行业为例,由于大数据管理效率低下,该行业每年要承担高达1000亿至1500亿美元的行政成本。医疗保健行业最大的问题是医疗和保险计划的数量庞大,医疗服务提供者需要与之签约并谈判以获得报酬。每个医疗或保险计划都有自己的承保系统、理赔管理、医疗服务提供者网络合同和经纪人网络管理系统,这使得数据以多种格式存储在不同地方。据麦肯锡全球研究所(McKinsey Global Institute)估计,如果美国医疗保健行业能够转变利用大数据的方式,提高效率和质量,该行业每年可创造超过3000亿美元的价值。
缺乏数据治理标准 | 我们利用大数据解决社会问题的第二个挑战是缺乏适当的数据治理标准,这些标准规定了数据的采集、存储和监管方式。这一不足导致数据之间存在大量不一致性,并且所捕获的数据通常不直接适用于分析。在许多情况下,数据需要转换才能使用,而转换过程的成本是昂贵的。分析人员常常在整合不同的数据集时遇到困难,因为他们缺乏良好的元数据(用于描述数据的数据)以及数据质量较差。一个例子是美国政府在2009年启动的“data.gov计划”,该计划旨在向公众提供大量数据,以便非营利组织、企业和其他组织能够利用这些数据进行创新。然而,由于难以确保数据格式的可用性,这一计划受到了阻碍。并且,数据质量在不同机构之间存在很大差异,有些机构(如环保局)定期发布机器可读格式的数据,而其他机构则以难以操作的PDF格式或旧文件格式发布数据。3 尽管政府公开的数据集数量激增,但只有少部分得到使用。那些得到使用的数据集之所以被使用,原因很简单,它们有良好的元数据、易于访问和易操作。
数据往往不可靠 | 大量数据的存在为试图理解和解决社会问题的研究人员提供了巨大机会,但不幸的是,很多数据都是不可靠的。仅仅拥有大量数据并不意味着这些数据就具有代表性和可靠性。例如,在2011年,奥巴马政府提出了Keystone XL输油管道项目,以将加拿大阿尔伯塔省的油砂原油(tar sands oil)运输到德克萨斯州。这个提议引起了拟建管道沿线地区的地主、农民、牧场主和环保人士的担忧。尽管存在这些担忧,但美国石油协会(American Petroleum Institute)及其石油行业盟友却能够通过社交媒体操纵公众情绪,展示对该项目的支持。他们通过Twitter发送大量推文来表示支持这个项目,但这并没有真实反映广泛的公众意见。雨林行动网络(The Rainforest Action Network,简称RAN,美国环保组织)揭露了这种欺骗行为(有14个账户在三分钟内突然激增推文),批评石油公司使用虚假账户来表示对输油管道项目的支持。“雨林行动网络”收集的证据表明,在15个账户中有14个是虚假的,推文是由自动化程序生成的。
数据可能导致意想不到的后果 | 在利用大数据时,大数据用户可能会发现,如果不考虑数据质量、合法性、数据含义的差异和处理过程的质量,就有可能会面临意想不到的后果。4纽约的公共机构和一家报社就因公布枪支持有者的信息而受到审查。在康涅狄格州校园枪击案后,来自纽约白原市《新闻日报》(The Journal News)的一组记者利用《信息自由法》(Freedom of Information Act)获取了位于韦斯特彻斯特、罗克兰和普特南县郊区的持枪者的信息。记者们发表了一篇关于这些持枪者所居住的街区的文章,并发布了一个交互式可视化地图,提供了个别持枪者的姓名和地址。公布这些信息是为了让公众了解谁拥有枪支,但这些信息也可能会帮助犯罪分子,他们可能会利用这些信息将目标锁定在没有枪支的弱势房主身上,或者将目标瞄准到拥有枪支的房主,以窃取枪支。5
▍手机的前景
手机,是非营利组织开始利用大数据的一个领域。2010年,全球有超过50亿部手机在使用,其中80%以上在发展中国家。6 撒哈拉以南非洲地区拥有手机的人口比例从2008年的32.1%上升到2012年的57.1%,预计到2016年将达到75.4%。7这种增长为发展中国家的人们提供了改善生活质量的更好机会。
例如,来自南非的组织Cell Life开发了一项名为Communicate的大众短信移动服务,它可以提醒患者服药,连接患者与诊所,并提供同伴支持服务,如咨询和监测。8 Cell Life还研发了Capture服务,使医疗工作者能够在现场使用手机收集和保存数字形式的信息。
移动和互联网使用的快速普及,使得前所未有的大量信息得以被收集。大多数现代手机都配备了全球定位系统(GPS)技术,能够确定手机的地理位置。除了位置数据,手机还记录了通话记录、短信和社交媒体帖子等丰富信息。一部手机就像是一个个人传感器,它可以从周围环境收集相关信息。当所收集的信息与数百万部其他手机的数据汇总并分析后,就能发现重要信息,这些信息随后可以通过手机反馈给用户。
例如,研究人员正在研究灾害后的人口迁移模式,以更好地了解传染病的传播路径。哈佛大学流行病学家卡罗琳·布基(Caroline Buckee)及其团队利用手机定位数据来分析肯尼亚人的移动模式,从而帮助遏制疟疾和其他疾病的传播。
肯尼亚西部高地配备了数千座手机信号塔,这些塔用于传输个人通话和短信活动的数据。研究人员发现,从某个信号塔发出通话和短信的人,离开该地区的次数比平时高出16倍,大部分活动集中在维多利亚湖这个疟疾高发区域。通过手机使用情况收集到的人员移动模式信息,正被用于开发预测模型,以进一步防治该地区的疟疾。9
▍提高大数据利用率的步骤
大数据无疑拥有巨大的潜力,能够为决策提供支持,从而帮助我们应对全球最棘手的社会问题。然而,要实现这一目标,我们必须首先解决数据收集、组织和分析方面的问题。以下是四项建议,它们有助于创建基于证据的决策的数据集:
建立全球数据银行应对关键问题| 全球社区需要创建关于人口拐卖、全球饥饿和贫困等复杂问题的大型数据库。这些数据库应具备容纳不同数据类型和描述数据集的元数据的能力。要实现这一点,需要建立跨部门联盟,以促进在特定主题上的数据共享。在2012年G8峰会上,世界最大经济体的领导人和四位非洲国家元首汇聚一堂,讨论并承诺开启一个打击饥饿和粮食不安全的新阶段。这次讨论催生了“新食品与营养安全联盟”(New Alliance for Food and Nutrition Security),该联盟的目标是通过持续的农业增长,在接下来的十年内帮助5000万人摆脱贫困。作为该计划的一部分,新联盟启动了多项基于技术和数据的举措,其中一项是“种子和其他技术扩展伙伴关系”(Scaling and Seeds and Other Technologies Partnership),旨在推动改善种子品种的技术商业化、分销和采用。美国通过“未来粮食保障”计划(Feed the Future initiative)和网站记录了其对新联盟的贡献,并坚持联盟的数据共享立场,建立了Agrilinks.org这一持续更新的数据共享平台。农民可以通过访问Agrilinks.org了解新的农业实践,或通过手机实时发布推文向农业专家提问。美国一家相关机构提供了“未来粮食保障”计划的开放数据,这些数据包括从孟加拉国综合家庭调查数据集中提取的基线数据10,以及在加纳进行的近5000户家庭的基线调查数据,这些调查捕捉了“未来粮食保障”计划11和“妇女农业赋权指数”(Women’s Empowerment in Agriculture)所概述的指标12。
集体参与和公众科学 | 大数据不仅是专业人士的专属领域。公众也可以被动员来帮助创建和分析这些数据集。随着开放数据平台数据的普及,越来越多的公众正在通过被称作“公众科学”的方式参与到创新和产品开发中。2010年,伦敦市政府通过开放“伦敦数据储存库”(London Datastore),向人们提供了政府数据。由大伦敦市政府(Greater London Authority)管理的这个数据库,为市民提供了查看和使用市政机构和公务员发布的原始数据的机会。发布的信息包括犯罪和经济数据,以及公共交通系统的实时数据。网络开发者马修·索默维尔(Matthew Somerville)由此创建了一个伦敦地铁的在线地图应用程序,该应用在几天内就有超过25万次访问。同样,电子工程师兼自行车手本·巴克(Ben Barker)也利用这个数据库的数据创建了一张自行车地图。13
培养数据管理和分析人才 | 如今,我们不仅缺乏能够处理社会问题的数据的管理员和分析人员,而且现有人员接受必要培训和提升能力的渠道也非常有限。很大程度上,我们把数据科学留给了科学和商业领域。社会科学通常只为学生提供统计学的基础知识,如果要充分利用大数据,这是远远不够的。我们需要为学生和分析人员提供必要的技能,以便他们能够整理数据,创建大型数据集。这些技能通常可以在信息学和传统的信息科学和图书馆科学课程中获得。在这些课程中,学生学习数据的组织、保存、可视化、搜索和检索以及使用等技能。这些技能的价值远远超出了简单的网络信息搜索。除了这些技能,增强分析人员对数据可能性的思考能力也是非常重要的。思考数据集之间的网络关系,以及如何发现数据集中的潜在模式,都是需要培养的能力。
壮大虚拟实验平台 | 为了加深我们对如何利用大数据解决社会问题的理解,我们需要开展更多的实验。虚拟实验平台提供了一个环境,让个人能够分享想法、与他人的想法互动,并通过协作找到问题解决方案或抓住机遇。这些平台可以将感兴趣的各方聚集在一起,创建大型数据集、开发创新的算法来分析和可视化数据,并生成新的知识。一个例子是Kaggle,这是一个举办数据分析竞赛的网站。遗憾的是,那些致力于解决社会问题的组织很少参与这些平台。虚拟实验平台对于推动大数据在解决社会挑战中的应用非常关键。最初,这些平台应该激发竞赛,创建各种问题的大型数据集。竞赛能够生成重要的大型数据集,这对于社会部门认识到其运营中存在的挑战至关重要。一旦创建了几个数据集,我们就可以启动关注预测分析和发现新模式的竞赛。使用像百科和讨论小组这样的开放论坛,可以帮助社区共享经验教训、进行协作,并推进新的解决方案。
▍大数据的未来
商业和科学已经充分证明了大数据的价值。现在,社会领域的组织也需要探索如何将这种决策能力整合到他们的运作中。尽管存在增长和创新的潜力,但同时也面临着需要克服的重大障碍。社会部门处理的问题在很多方面比商业或科学领域更为复杂,这使得大数据的应用变得更加困难。此外,还需要更多地关注其服务对象的权利、隐私和尊严。
尽管存在这些障碍,但我们也看到了进展。公共部门机构已经明确表示,数据是社会创新的重要组成部分。诸如美国政府和世界银行等机构已经向公众开放了他们的数据,供人们挖掘和进一步使用。个人也正在利用这些数据创造创新,尤其是应用程序,以解决特定的社会问题。
为了更有效地利用大数据解决社会问题,一些组织已经成立。例如,DataKind将科学家和统计学家与非营利组织相匹配,进行提供免费的专业数据服务的数据工作,以帮助缓解能够处理大数据项目的技术人才短缺问题。在全球范围内,各方正在努力以创新和协作的方式利用开放数据(open data)和大数据来开发解决社会问题的方案。虽然已经取得了一些进展,但仍需跨越巨大的鸿沟。这是一个值得我们面对和克服的挑战。
注释:
1.Phil Simon, “Big Data Lessons from Netflix,” Wired.com, Mar. 11, 2014. http://www.wired.com/insights/2014/03/big-data-lessons-netflix/
2.Mark Sweney, “Netflix Gathers Detailed Viewer Data to guide its Search for the Next
Hit,” TheGuardian.com, Feb. 23, 2014. http://www.theguardian.com/media/2014/feb/23/netflix-viewer-data-house-of-cards
3.Joseph Marks, “Data Dreams,” Government Executive, Feb. 1, 2012. http://www.govexec.com/magazine/nextgov/2012/02/data-dreams/40992/
4.Marcus R. Wigan & Roger Clarke, “Big Data’s Big Unintended Consequences,”
Computer, vol. 46, no. 6, June 2013, pp. 46-53.
5.Unkown, “White Plains Police Investigate Possible Link between Burglary, Journal
News Gun Permit Map,” NewYork.CBSLocal.com, Jan. 14, 2013. http://newyork.cbslocal.com/2013/01/14/white-plains-police-investigate-possible-link-between-burglary-journal-news-gun-permit-map/
6.EmmanuelLetouzé, “Big Data for Development: Challenges & Opportunities UN
Global Pulse,” UNGlobalPulse.org, May 2012. http://www.unglobalpulse.org/sites/default/files/BigDataforDevelopment-UNGlobalPulseJune2012.pdf
7.Madanmohan Rao, “Mobile Africa Report 2012: Sustainable Innovation Ecosystems,”
MobileMonday.net. http://www.mobilemonday.net/reports/MobileAfrica_2012.pdf
8.http://www.cell-life.org/systems/communicate/
9.David Talbot, “Big Data from Cheap Phones,”MITTechnology Review.com, April 23,
2013. http://m.technologyreview.com/featuredstory/513721/big-data-from-cheapphones/
10.The Feed the Future Bangladesh Integrated Household Survey dataset, Data
from 2011-2012, USAID.gov, April 23,2013. http://www.usaid.gov/developer/FTFBangladesh
11.Ghana Feed the Future Baseline Survey Dataset, Data from 2011, USAID.gov, April
23, 2013. http://www.usaid.gov/developer/FTFGhana
12.Feed the Future: Women’s Empowerment Agricultural Index, Data from 2011-2012,
USAID.gov, April 23, 2013. http://www.usaid.gov/developer/WEAI
13.Mark Halper, “London: Turning Access into Apps,” Time.com, Jan. 6, 2011.
凯文·C·德索扎是亚利桑那州立大学(Arizona State University)公共项目学院负责研究的副院长、公共事务学院的副教授以及知识企业发展办公室决策剧场(DecisionTheater)的临时主任。