期刊精粹 | 基于社交大数据挖掘的城市灾害分析——纽约市桑迪飓风的案例【2018.4期】
文末有专家精彩点评,走过路过不要错过哦
考虑到手机端阅读的特点,我们特地邀请作者撰写了文章精华版,与全文一起推出,方便读者在较短时间内了解文章内容。对该主题感兴趣的读者,可进一步阅读全文。在此感谢在百忙中抽出时间撰写精华版的作者,你们的努力让学术论文的阅读体验变得更好。
——精华版 ——
2018年7月15日晚间开始,北京遭遇了持续近50个小时的强降雨。这场强降雨给城市基础设施和居民生活造成了非常大的影响。通过有效的手段和措施提升城市防灾减灾能力再一次引起了社会的广泛关注。通过社交媒体发布的消息因其快速、自发、实时,以及蕴含丰富信息量等特征,在描述和应对城市灾害中的作用不容小视。然而,因受制于用户、媒介以及灾害特征等因素的影响,社交媒体的数据在描述和解释灾害中也存在着一些偏差和局限。当前我国学界对于社交媒体信息在城市灾害中的影响缺乏充分的讨论。
本文回顾了社交媒体数据在灾情感知、检测、救援与评估中的作用,并以2012年给纽约市造成严重影响的桑迪飓风为例,对与桑迪飓风相关主题推特信息的数量、内容、时空特征及其相关影响因素进行了分析和解释。希望通过本文的讨论,能够更加全面地认识并理解与灾害相关的社交媒体信息,从而为城市防灾减灾提供支持。
桑迪飓风后的纽约
图片来源:https://kirstiebarnescartoon.weebly.com/hurricane-sandy.html
对于社交媒体数据在防灾减灾中的研究分为四个方面,包括态势感知和信息编码,事件检测与跟踪,救灾救援,以及损害评估。在纽约的案例中,通过聚类得到的社交媒体数据信息在这四个方面均有所体现。在灾害随时间发展的四个阶段,即预备期、响应期、影响期,以及恢复期中,社交信息主题又有所差异。在桑迪袭击纽约市之前的两天,与备灾相关的推文出现峰值;飓风到来之后的一段时间,受灾及响应的推文达到非常高的数量;飓风过境之后,灾后恢复成了热门的讨论主题。
此外,信息数量和内容随灾情位置和冲击程度的不同也有所差异。受飓风中心的移动和破坏性程度的影响,曼哈顿中、下城以及布鲁克林沿哈德逊河周边地区的推文数量高于其他地区,而在受灾极其严重的地区推文数量又有所下降。人口密度高的地区和重要的公共场所也产生了大量的推特信息。在一些特定地点,推文的内容产生了差异。比如在机场,对于航班延误和飞机受损的报告就明显高于其他推文;而在公园中或主要交通节点中,相应的主题又会变为树木折断或道路(隧道)封闭。
基于MMAS(即人口数量,灾害严重程度,社交媒体的使用能力,以及使用动机)的泊松回归模型,发现人口数量和受淹地区比例与当地推文数量呈现正向相关性,而社会经济因素则在其中表现出更加复杂的影响。比如年轻人、中等收入者,以及受过良好教育的人的推文数量相比其他人群要多。流动性强的人人口,比如游客和非当地居民也有可能在常住人口较少的地区发送较多的推文,典型的地点包括中央公园和拉瓜迪亚机场等地。
社交媒体数据在通报灾情和辅助救灾等方面有其自身的优势,然而通过对于目前的应用和案例的研究也发现了一些缺陷,比如单纯依据与灾情相关数量来评估灾害情况存在偏差;又如社交媒体的使用人群和动机受社会经济及实际情况的影响存在着局限性等。
在中国城市的防灾减灾中应该重视对于社交媒体数据在灾害的时空特征、基础设施、影响人口等方面的潜在解释及效用,从而进一步提升城市管控灾害风险,减轻灾害损失的能力。
——全文 ——
【摘要】在城市灾害频发的背景下,社交媒体大数据在灾害分析中所能够发挥的作用得到了越来越多的关注。对于社交大数据的挖掘和使用,主要体现在诸如灾情感知、信息编码、事件跟踪、灾难救援以及损失评估等领域。本文以2012年在美国多地特别是纽约市造成了严重影响的桑迪飓风为例,基于社交媒体网站推特(Twitter)以及相关数据库的信息,通过信息编码、分类以及空间网络的对接等方式,研究发现灾前准备、灾害发生、灾害响应和灾后应对等主题随时间、空间发展的趋势等特征。本文通过构建回归模型描述并讨论了与灾情相关的解释性变量同推文数量间的关系。与此同时,本文参照MMAM理论【MMAM:Mass(人口),Material(设施、场所),Acceess(可达性),Motivation(动机)】讨论了推文灾情与真实情况的误差产生原因。研究结果表明,推特信息的数量与人口规模和著名的地标性区域显著相关,个人属性如教育程度、年龄、性别等也对推特信息数量产生影响。本文希望通过对信息化背景下社交媒体大数据信息的挖掘和分析,从社交媒体信息发布特征的角度认识灾害发生、发展的过程。
引言
在自然和人为灾害日趋多发,恐怖活动频繁的背景下,城市安全在全球城市发展中越发受到关注。在信息时代的背景下,大数据在灾害的分析和促进城市安全方面所发挥的作用被赋予了新的含义。而来源于社交媒体的大数据以其丰富且持续的数据源成为了大数据研究中不容忽略的领域。事实上,在灾难来临之时,人们总是希望先从群体中得到灾情的确认,然后再展开自救。通过社交媒体的信息甄别、辨析、筛选和分析,可以获得相关信息,从而成为监测灾害事件的新手段。并且,随着全球安全形势的发展,共同对抗恐怖组织潜在的威胁也成为世界各国的关注热点。相对于自然灾害,恐怖袭击的危害更大、影响更广。运用社交媒体大数据对可能或已经发生的恐怖袭击进行信息监测、特征分析或许能够成为指导防灾减灾行动的行之有效的手段。
在重要信息获取和应对策略制定的过程中,政府和民众很大程度上依靠的是来源于社交媒体的数据。而在应对突发自然或人为灾害的过程中,社交媒体所起的作用和潜在的功能同样不容忽视。通过社交媒体大数据对于恐怖活动进行分析和特征提取从而支持和帮助政府做出防灾减灾决策再次引发了研究者的注意。
在思考应对新型灾害的过程中,越来越多的研究者在评估从社交媒体大数据中进行有用信息挖掘的可能性。从可持续的城市防灾减灾系统全过程来看,基于社交大数据的灾害信息分析虽然不能直接转化为灾后规划政策,然而却对快速、准确获得灾害信息,判断援救规模、地点和区位,以及针对不同受灾状况定制重建与恢复规划方案有着重要帮助。因而,社交大数据在灾害分析中的应用,成为安全城市体系构建中的重要一环。事实上,世界大城市都十分注重运用新方法、新数据、新手段来对于灾害进行分析。目前已经出现的大数据工具、分析手段和技术依旧有待进一步发展。本文以2012年纽约市通过挖掘社交媒体数据分析桑迪飓风灾害的案例,系统介绍了针对社交媒体数据挖掘在城市灾害分析中的应用。
1 文献综述
1.1 信息反馈在防灾减灾中的重要性
充分的信息获取和反馈能够及时、有效地反映灾害信息,从而对于灾害的预防起到基础性的指导作用。美国联邦政府和联邦紧急事务管理局(FEMA: Federal Emergency Management Agency)自20世纪90年代开始便通过制定培训计划和防灾手册来提升城市的灾害防灾能力。1988年,美国通过了罗伯特·斯塔福德灾害紧急援助法案(Robert T. Stafford Disaster Relief and Emergency Assistance Act),其主要做法是将灾后援助与受灾地区的减灾行动联系起来。法案实施初期效果并不理想,原因就在于地方政府往往将规划编制当作接受联邦救灾援助的要求,并没有基于辖区内灾害风险和灾害脆弱度进行有效评估。在灾害发生后,规划也并没有依据受灾情况的变化进行必要的修改和调整。
灾难的表现与特征随时间推移会产生改变,掌握更多的数据信息可以减少在救灾、减灾中因时间推移而产生的问题。在灾害发生之后,由于对于灾情的不了解或者政府资源有限,灾后援助的力度和范围很难照顾到绝大多数受灾群众。此外,救灾的公平性、力度与时效性也往往不能兼顾。及时、准确、有效的信息收集和管理在灾难来临时非常重要。为此,美国在多个州制定了相关的法律政策来将灾害风险降到最低。虽然在美国安全防灾体系中,灾前制定灾后复建规划的思想还没有在地方层面广泛推行,然而,这种方法的优势却已经得到了广泛的认同。这种方式不但可以减轻时间的压力,还可以提高震后决策的准确性和灾民的自发行动能力。在规划的制定过程中,多元互动的合作模式得到了充分的关注,这种方式能够充分发挥企业和非政府组织的互动,在拓展融资渠道方面有其优势。同时,公众信息即时获取也成为了救灾与恢复规划过程中的必要环节。灾害美国—综合灾害灾损评估系统(HAZUS-MH)是美国联邦紧急事务管理委员会于1992年开始设计的系统,其作用是预测在各种灾害发生的情景下的灾害破坏和可能的经济和社会损失。HAZUS-MH系统充分认识到信息反馈在防灾减灾中的重要作用,用户可以选择更新系统内置的数据库或改变灾损评估模型中的多项参数以适用于特定区域的实际情况。其中,地方政府根据实际情况的信息反馈及时更新数据库并修改灾损评估参数是提高评估模型在小地理范围准确性的关键。
信息的获取并非单纯反映现状,而是可以根据受灾情况差异、灾民分布等信息,制定有针对性的政策,减少因政策不合理而导致的问题。如果忽视这样的数据信息分析,将会在灾难过后的重建过程中产生消极的影响。中国的灾后援救与规划长期是由政府主导并且以建筑重建为核心。这种自上而下的,以物质规划为主的救灾模式在特定时期有其特有的优势,比如短时间内集中资源,采取一致行动等——但灾前预防、灾后整体性恢复能力仍有待提升。在唐山大地震震后重建与恢复过程中,规划最初采取了异地重建的规划模式,然而当地居民和企业单位对这种模式并不认可;由于资金的滞后和建设工期的拖延,人们开始在路边建设违反规划的半永久性的简易楼,占用公共设施和工业用地的同时引发后期二次拆迁的问题;盲目追求速度,同一张图纸反复使用导致城市建筑千篇一律,失去地方特色。个人和社区的参与和合作缺位导致灾害信息不全面,对灾后恢复和重建非常不利。
1.2 大数据的趋势和在城市安全方面的应用
以海量的数据规模,快速的数据流转移,多样的数据类型以及价值密度低为基本特征的大数据在当今的社会中扮演了越来越重要的角色。社交媒体大数据在促进城市安全方面,相较于传统的数据采集手段具有诸多优点:(1)信息本身即包括空间属性,因此无需二次地理定位处理;(2)信息的产生具有自发性,提供了源源不断的信息,研究者可以直接收集而不需要额外进行传统的调查;(3)信息更新更迅速,有利于抓住灾后反应的黄金时期。相比传统的电话访谈、面谈、调研等方式,这种方式能够更快速地得到灾害情况的反馈。此外,各种灾害在不同阶段之间的转变通常是未知的,四个灾害管理阶段并不总是单独发生或顺序发生,它们之间通常出现周期重叠并且各阶段的时间长度取决于灾难的严重性。而社交媒体数据可以提供实时的信息,为管理者了解灾害发生的转变提供可靠的依据,并且帮助管理者在不同的阶段做出有效的决策。
例如,在2013年4月15日发生的波士顿马拉松爆炸中,谷歌针对此次事件重启了此前在日本海啸中帮助了很多人寻找亲友的“谷歌寻人”(Google Person Finder)页面。以这种方式来使人们了解失踪及伤亡信息,同时也方便个人提供亲友失踪及伤亡情况,实现了线上灾难信息的共享。又如,在2010年发生的海地地震中,当地的志愿者团体利用成员分布的地理位置以及伤亡情况信息,在底图上对于这些信息进行了标注,并且发布在了网络上,这有效地实现了公众信息地图的产生,并且为灾难救助提供了及时有效的信息。
1.3 基于社交媒体的数据挖掘应用
社交媒体在灾难发生的前、中、后期都可以起到加强沟通的作用。近几年来,社交媒体已经由被动地信息收集工具发展为紧急情况下的灾难管理工具,从而兼具传播实时的预警信息、接受协助的请求、建立在特定情况下的响应等多重功能。对社交媒体的数据挖掘应用,主要包括以下四个方面。
1.3.1 灾情感知和信息编码
灾情感知(situational awareness)描述了在包含多种行为主体以及变量的事件中,了解特定受影响的区域究竟发生了什么的过程。在研究中,通常突出地理为灾情感知(geographic situational awareness)的概念,即“在特定空间中究竟发生了什么”。
社交媒体使用者借助互动互联网终端,可以发布具有地理位置坐标的信息,从而及时报告他们所正在经历或目击的事件。比如桥梁、道路受阻,安置点或者捐助网站的关闭等。在所发布的消息中显示的有关位置与地名的信息,可以被用来识别基础设施遭到破坏的程度,群众受灾程度,以及辨析疏散区域和资源紧缺地区等。
通过社交媒体网络传播和共享的信息具有多样性,因此有必要在灾情感知以及创建反应灾情的地图前将消息分成不同的类别。例如,在台风“宝霞”(Bopha)发生期间,有人自发地通过一个微型的危机处理平台将发布的推特信息划分成了不同主题,比如人员伤亡、车辆损坏、建筑损坏和洪水等。而反应灾情的地图正是依据这些信息建立并且被用于后期援助的;与此同时,有关备源频道(Backchannel)的信息沟通概念也被提出。在这些信息中,关于伤亡人数、捐助方式以及灾难预警等信息非常有可能被用于提升实时事态感知能力,从而帮助从灾难响应及恢复过程中提取可靠的数据。然而,这些编码方式的局限在于,对于灾难发生前和发生后的事件可能并不能提供足够的信息。
1.3.2 事件检测与跟踪
社交媒体的网络传播以其特有的低成本优势而成为了非常具有竞争力的信息获取方式。例如,推特拥有超过1.9亿注册用户,每天有超过5500万条信息发布在上面。在2013年7月6日从韩国首尔起飞的韩亚航空214在旧金山国际机场坠毁的案例中,目击者将含有浓浓黑烟的图片发布到了网上,使这条灾难信息在社交媒体上迅速传播,而立即被全世界所知。
社交媒体传播信息的快捷性、时效性,使其被广泛地应用于事件的检测过程之中,其主要功能包括:获得空间信息,获得可靠灾害来源,以及聚焦灾害对特定人群的影响。
例如,推特上发布的信息动态与地震灾害之间有相关性,该研究通过回归分析找到事件发生的中心和发展位置轨迹,并构建出时空间模型。又如,通过对于推特信息的跟踪,研究者还能够得到民众对于猪流感疫情态度的转变趋势,并可以以此测算病毒的传播特征。研究从推特用户中得到的流感病例数量,准确地评价了传染病的发病水平,这表明社交媒体的信息可以作为维护公共利益或促进公共健康的手段。也有案例通过收集并整理多个社交网络中的有关于某火灾的信息,采用回归分析的方法推演可能受到影响的社区。另一案例中,对于飓风艾琳的研究表明,推特消息数量与事件的峰值、事件发生的位置以及用户性别有关系。该项研究发现,女性对于危机更加关注。
1.3.3 救灾救援
在灾难发生时,救援人员难免滞后于受影响的灾民到达事发地点,这就导致了当地的群众成为了最为活跃的信息提供者。事实上,目击者或受灾群众对于救援的贡献已被广泛承认,例如,人道主义救援和减灾组织(HADR: Humanitarian Aid and Disaster Relief)开始从社交媒体的数据信息中提取宝贵的资料。
这使人们对于社交媒体数据在救灾的关注程度日趋增加。为了更好地帮助该组织进行跟踪、分析和监测推特上的信息,库玛开发了功能强大的数据分析和可视化的新手段——如实时状态、数据压缩以及历史回顾等,并希望由此提升灾害响应的能力。高晖吉对于社交媒体在救灾应用的优点和缺点进行了综述,并且阐述了这种模式在加强救灾协调性、准确性和安全性的过程中所面临的挑战。
最近的研究结果还表明,可操作性的数据也可以从社交媒体信息中提取,这对帮助紧急救援人员迅速采取行动十分有效。例如,阿什特拉比引入了“Tweedr”这样一种信息挖掘工具,它可以帮助灾害救援人员提取有用的信息用于救援。该系统由三个主要部分组成:分类(classification),聚类(clustering)以及提取(extraction)。又如,普鲁西特提出了一套检测方法来自动识别和匹配需求,以实现供求双方对于物资、服务的关联与匹配。
因而,在灾害援救中,可以通过社交媒体数据分析和可视化,在自动识别灾害发生时间、地点、灾害程度和受灾对象等几个方面提供有效的帮助和支持。
1.3.4 损害评估
对于城市遭遇灾害和紧急事件的地区,首要的工作就是评估人员伤亡和财产损失,精准的灾害评估有助于接下来协调疏散和救援行动的展开。目前,因为遥感卫星能够收集大量动态、具有时空信息的数据,成为灾害评估的常用手段。然而,受制于仪器或平台,基于遥感的海量数据可能并不能充分发挥作用。因此,自发性地理数据(VGI: Volunteered Geographic Information)可以作为传统的遥感数据的有益补充。例如,运用该工具可以估算因为洪水而影响的道路。在这些工作中,各种非官方的多源数据,如微博、谷歌带有地理信息的街景照片、监控探头中交通流量的信息,Youtube和新闻等都可以用来辅助评估灾害程度。此外,社交媒体数据还可以帮助人们了解社会舆论或情绪走向,提取有用信息以协助灾害救援。灾害评估本身需要很长的时间、大量的人力和物力来进行。在灾害发生之后,人们不得不在速度和准确性之间进行取舍,这就使社交大数据的优势得到充分体现——收集和分析这些数据所需的代价,比传统数据低很多。如果能够实现科学的分类与归纳,将能够有效辅助灾害救援的展开。
2 数据与案例
本文以2012年在美国纽约市发生的桑迪飓风(Hurricane Sandy)为案例,探讨基于推特的社交媒体信息在灾害分析过程中的应用。桑迪飓风是自20世纪以来袭击美国的第二大的飓风,造成了Brigantine地区的山体滑坡,并导致了东北部地区巨大的破坏。桑迪飓风所造成的直接经济损失估计达到五百亿美元,共72人在本次灾难中丧生。桑迪飓风对纽约市的影响尤为严重(图1),风暴造成约两百万当地居民电力中断。在受损最为严重的地区,电力系统在若干月后才得以恢复。纽约的地铁系统遭受了百年来最严重的雨水倒灌;而机场、隧道以及其他的交通设施同样遭受严重的破坏——两周以后大部分的受损设施才得以恢复运行。风暴同样导致了数千居民流离失所,近620户居民的房屋遭到破坏,8500户的基本生活受到影响,临时性住房和安置点的服务需求量激增。根据纽约市政府的统计,大约6800名受风暴影响的居民被安置在了73处临时安置点中,其余的灾民选择借住于朋友或亲属家中。
图1 桑迪飓风对于纽约市的影响
值得注意的是,在本次灾害的处置过程中纽约市政府除了依靠传统媒体,还通过新型社交媒体发布了诸多重要信息,其中包括了推特以及YouTube等。政府在灾难期间通过推特发布了超过2000条信息并获得了多于17.5万个关注。根据以上信息,可以建立基于社交大数据的灾害分析研究框架(图2)。
图2 利用推特数据进行灾害分析的研究框架
在研究框架中,基于推特上关于飓风桑迪对于纽约市造成影响的相关信息,通过标准制定、信息分类和空间网络连接等三个部分,分别对接大数据背景下社交媒体在灾害管理中的应用。首先,通过对于飓风桑迪过境前后时间节点的控制,将若干条与灾难有关的信息纳入空间数据库。其次,通过对于信息主题的检验筛选出有效信息,并依据灾难发生的时间节点将信息主题分为47个类别,并通过对于数据的统计与处理得到了分类的信息。最后,将包含时空信息的推特内容在底图上进行标识并进行实时状态演示,并通过回归分析对于信息在空间网络上的连接做出评估和结论验证,从而得出研究结论。
3 分析结果
3.1 信息主题的时间发展趋势
实证研究发现,社交数据信息的发布与灾害发生自身周期紧密相关——根据准备、防灾、援救、恢复等灾害四个阶段划分,人们上传社交信息的性质也是不同的。具体来说,推特用户在灾难初期主要发布备灾相关的内容,而灾难后主要发布与恢复相关的内容,因此有必要随着时间的推移比较不同的灾难时期的主题。
推特信息发布量的数据显示,在灾害的不同阶段发布信息主题的特征也不尽相同(图3)。不难发现,在10月24日灾害发生之前以及11月21日灾害基本恢复之后,只有少量的推特信息与灾难相关。而在飓风桑迪袭击纽约市的前几天,新闻媒体广泛而持续地报道了风雨和洪水将可能在10月29日晚袭击城市。
图3 推文数量在不同灾难期的变化情况
在10月28日当美国总统奥巴马宣布纽约市进入紧急状态后,有关灾前准备工作的信息数量达到顶峰。推特信息显示,通过媒体提醒,民众开始为即将到来的风暴做好了准备——诸如为手机充电,在零售店中购买应急工具包、蜡烛、手电筒、发电机及备用电源等物资等。研究同时发现,在10月29日之前信息发布的主题主要以准备工作为主,而没有关于灾难应急响应有关的信息。而这些以备灾为主的信息在11月29日达到顶峰(图3)。
而受灾相关的信息,主要集中在10月29日—11月3日之间。有关飓风过境有关影响的话题数量在10月30日达到最大值,而这一天恰好是在桑迪离开纽约之后的一天;另一方面,当飓风减弱后,可以发现有越来越多的推特信息与灾后恢复主题有关。特别是在次年1月2日以后,恢复重建成为了主要的讨论话题。
在灾后恢复信息方面,推特信息的发布数量出现了几个波峰(图3)。第一次是在10月30日桑迪袭击了纽约市之后一天;而第二次高峰集中在被桑迪袭击之后的第一个周六,许多人选择这一天捐款。而在11月10日另一次小高潮中,推特上的信息更关注志愿服务和灾后重建。
3.2 信息主题的空间分布特征
不同类型的信息在空间分布上也不尽相同,这反映了不同个体属性的人群或不同场所中的人群对灾害的反映差异。
通过可视化的方式,可以展现市民在社交媒体上的空间差异。通过关注三个灾难发生阶段不同地理分布位置的推特信息的特征,可以发现某些场所公众发布灾难的信息更为踊跃(图4)。例如,很多推特报灾信息都来自曼哈顿南部社区,比如在哈德逊河西岸受飓风和洪水严重破坏的霍博肯(Hoboken)市以及东岸的布鲁克林区。这说明在受灾严重地区的推特用户,更有可能提供指导救灾的信息。
图4 不同灾难阶段灾难相关推文的地理分布情况
此外,更高的人口密度和便捷的网络连接,也为大量信息发布提供了良好的基础。例如,在曼哈顿岛产生的大量信息(图4f)中,很多信息来源于公共场所,比如中央公园、肯尼迪国际机场和拉瓜迪亚机场等。
研究同时发现,在灾难的不同阶段机场的信息发布内容也呈现多样化的特点。人们会在飓风来临之前发布有关离开纽约的信息,在飓风来袭之中报告航班取消或受损的情况,也会分享机场恢复运作的相关消息。研究还发现大量推特信息来自东北部的海湾地区,这是因为推特也包含了另外一个社交媒体网站Foursquare的信息。在这个版块内,包括了相关的照片、受灾更新的信息和来自东北部海湾地区用户的信息提示。
此外,从推特发送信息的位置和内容关联来看,从中央公园所发布的推特信息数量庞大,人们会发布树木折断或公园关闭的信息。哈得逊河沿岸地区则关注林肯隧道和荷兰隧道的关闭——这可能是由于这个地方的居民必须经由两个隧道到曼哈顿岛。因而这些居民更关注隧道内积水的涨退、隧道的封闭与开启等情况,这些信息对于灾后的恢复具有重要的意义。
3.3 信息数据的影响因素及有效性
上述理论研究和实证分析描述出了社交媒体数据与飓风过境时空存在关联的可能性。在下面的章节中,本研究采用逻辑回归的方式讨论哪些因素可能影响推文数量。模型引入的变量包括人口规模(X1)、受淹地区面积(X2)、种族(X3)、年龄(X4)、性别(X5)、房价(X6)、教育水平(X7)、房屋价格中位数(X8)等。
为了检验这些变量能在多大程度上影响用户发推文的数量,研究比较了以下四组模型:
模型1 TweetNum=α+β1X1+e
模型2在模型1的基础上,增加了受淹地区所占比例及其平方,重点分析区域受灾程度与发推特数量的关系。
TweetNum=α+β1X1+β2%X2+β3%X22+e
模型3在模型1的基础上,增加了白人所占比例、年龄中位数、性别比率、大学以上学历人数、收入及其平方、房屋价格中位数及其平方等变量,强调个体差异对于发推特数量的影响。
TweetNum=α+β1X3+β2X4+β3X5+β4%X6+β5X7+β6X72+β7X8+ β8X82+e
模型4在模型1的基础上,既考虑了受灾情况变量,又考虑了个体属性特征,是模型2与模型3的加总。
TweetNum=α+β1X1+β2%X3+β3X4+β4X5+β5%X6+β6X7+β7X72+ β8X8+β9X82+β10%X2+β11%X22+e
公式中,α为常量,βi为相应变量的参数向量,ε为误差。
模型发现,人口密度和位于受淹地区对于信息发布数量有着显著正向的影响,而其他个人属性的影响呈现出更加复杂的作用。在回归分析中排除了包含著名景点、公园和其他绿地的数据以排除游客的影响。此外,研究的局限性在于,不能将推特信息与使用者的居住地点和人口特征完全匹配。如果用MMAM模型来解释发布推特信息数量与人口规模、素材、网络可达性以及动机之间的关系,则发现人口规模是灾害信息发布数量影响的关键变量;而年龄、收入、教育程度对发推文数量呈现倒U型曲线的关系。总体来看,年轻人、中等收入者以及受过良好教育的人发推文的数量较多(表1)。
表1 以推特发文数量为因变量的泊松回归结果
首先,回归模型显示推特发布的数量与人口规模显著相关,而网络可达性很大程度上决定了发推特信息的数量。依据经验,特定区域内人口规模越大则发布推文的数量就会越多。然而,在对误差进行讨论时发现在地标性地段,如机场、大型公园和绿色空间可能没有或者只有少量的人口,但发布推特的数量却非常多(图5)。不难发现,大量的游客和非常驻人口是造成信息量巨大的原因,游客相较于真正受灾的人可能有更多的时间发布信息。因而在借助社交媒体信息的分析过程中,识别真正需要援救的对象非常重要,区分本地居民和外来游客是社交大数据分析面临的难点和重点。
图5 不同灾难阶段灾难相关推特数量的地理分布情况
其次,分析表明,受灾程度、年龄、收入、教育程度等个人属性与推特信息发布数量呈现倒U型曲线关系。数据表明,最高数量的推特发布数量集中在被风暴淹没34.6%~40.3%面积的地区。在受影响地区的面积比例从0%上升至34.6%~40.3%的过程中,发布与桑迪飓风有关的推特数量也在增加——这可能是由于更多的受损信息发布,比如折断的树木、交通牌或者等待加油的队伍等导致的。但是随着受影响地区面积进一步增加,更严重的破坏却导致了越来越少的推特发布数量,这可能是因为严重的灾害已经导致人们流离失所,没有基本生活保障而失去发布信息的动力。
同时,研究也证实了信息不对称以及数字鸿沟(Digital Gap)理论。调查结果发现:年轻群体、男性以及受教育程度高的人群更容易发布推特信息。研究还发现发推特信息数量与平均收入和平均住房价格之间的“倒U”型关系。随着财富的增加,人们有更多的机会接触手机等移动终端设备,社交媒体的参与程度随之增加。而峰值过后,社交媒体的参与程度随着财富的增加而逐渐降低,这可能归因于最顶层的富人缺乏在社交媒体发声的动力。
值得关注的是,与受损程度和人口规模的影响相比,社会经济状况在解释发推文数量中更为关键。如果希望使用社交媒体传播实时信息或关注紧急状态下的反馈,有必要考虑不同社会群体之间从网络获取信息的能力。此外,社交媒体信息与实际灾害的真实情况不完全相似,利用社交大数据还需要对这些自发性数据进行筛选、分析和识别,才能真正对防灾减灾过程提供助力。还可以将研究结果与以传统的调研方式所得到的信息进行整合与对照,从而提升灾害信息的可信度。
4 总结
基于推特信息在桑迪飓风中所体现出的时间、空间分布特征,本研究在认识灾害的发生及受灾程度分析等方面做出了积极的探索。社交媒体信息以其海量性、时效性、自发性为特征成为了城市防灾减灾中极具应用潜力的数据源。上述纽约市的案例研究,显示了通过构建基于社交媒体数据的研究框架,通过标准制定、信息分类和空间网络链接等三个过程,分析发布信息随着灾害发生周期在时间、空间上的变化规律。分析显示:针对准备、受灾、恢复和响应等四个主题的信息分别在灾前、灾中和灾后达到高峰后逐渐衰减。研究还发现,在地标性公共场所,受灾严重程度和年龄、教育程度、收入等个人属性对发信息数量的影响呈现出倒U型曲线特征。
纽约的案例显示了通过甄别、辨析、筛选和分析社交媒体大数据,可以为促进城市安全和防灾减灾提供有用信息,并成为灾害监测和恢复的新手段。然而,社交媒体大数据在城市防灾减灾方面的应用也有其局限。特别是在网络信息与实情不符的情况下,尤其需要通过常规渠道报告的灾情信息进行补充。同时,如何针对不同收入阶层的群体,借助社交媒体平台的信息发布有效信息和进行援助,将成为未来借助互联网的灾害恢复工作中值得关注的方向。
目前,中国互联网和社交媒体正在以前所未有的速度普及,城市安全和防灾减灾工作可以更好地与社交媒体数据发掘相结合。无论在自然还是人为灾害中,通过网络信息判断生命、财产损失的区位和程度,并据此制定灾后恢复规划十分重要。总体而言,社交媒体大数据在城市防灾减灾领域的应用上,有着快速反应、自发反馈、获取成本低等优势。对于移动互联网用户快速增长的中国城市,在传统的灾害探测手段之外,社交媒体大数据可以成为收集、反馈城市灾害信息的重要辅助手段。虽然社交媒体数据并不能直接应用于灾后重建规划的编制环节之中,然而通过挖掘社交媒体数据可以快速、准确获得受灾地点、受灾程度、受灾人群特征等信息,这对于灾后快速应对、制定援救计划和灾后恢复规划提供了重要的基础信息,是城市安全系统构建和防灾减灾规划中不可缺少的环节。在我国构建更为安全,可持续城市的过程中,可以借鉴美国社交媒体大数据应用的案例,将来源于社交媒体的大数据运用于灾前预警、灾中救援、灾后恢复等各个环节中,作为传统信息获取渠道的有益补充,从而建立丰富、立体、全方位的灾害信息数据库,帮助决策者和规划者为编制重建规划提供依据。本文借鉴美国纽约市利用推特数据对抗桑迪飓风的案例,讨论了社交媒体数据在防灾减灾中的作用,这将为提升中国城市安全,并不断提升城市防灾减灾能力提供借鉴。
专家评审意见
本文以2012年在美国多地特别是纽约市造成了严重影响的桑迪飓风为例,探讨基于社交媒体网站推特(Twitter)以及相关数据库的信息挖掘。选题视角独特、案例具体、内容有趣。
作者:王森,美国北卡罗来纳大学教堂山分校,硕士研究生。senwang@live.unc.edu
肖渝,博士,美国波特兰州立大学,副教授。yuxiao99@gmail.com
黄群英,博士,美国威斯康辛大学麦迪逊分校,副教授。qhuang46@wisc.edu
张纯,博士,北京交通大学,副教授,副系主任。zhangc@bjtu.edu.cn
编辑:张祎娴
排版:赵大伟
本文为本订阅号原创
欢迎在朋友圈转发,转载将自动受到“原创”保护
点击下方“阅读原文”查看更多