查看原文
其他

当突发事件遇上Twitter│社交媒体与洪灾后的恢复

Engineering 中国工程院院刊 2021-06-17


社交媒体数据挖掘是一种新兴技术,可以帮助人们将社区和基础设施的恢复能力与灾难联系起来。它有不同形式和多种结构,将社交互动与广泛协作和分散的社区网络联系起来。

 

社交媒体将内容消费者变成内容制作者。从用户位置的内容、社区内的个人与更广泛的世界(表达和文字)之间的交互作用以及用户在不同位置的时间中可以推导出关键的信息。

 

为了解社交媒体如何将社区与基础设施恢复能力联系起来,研究人员使用了2015年金奈洪水的Twitter数据,每条推文由144个字符和一个Twitter ID组成。每条推文都包含一组文本数据,显示与文本、地理空间数据和公开可用的时间标记相关的信息,由此

  • 确定了受影响基础设施的位置;

  • 了解灾害的严重程度;

  • 了解如何使用信息来解释基础设施的恢复能力(仅使用社交媒体数据)。


金奈洪水

印度金奈一年一度的季风总是淹没城市并严重影响其人口和经济的发展。金奈2015年的洪水造成的损失比以前更大,金奈官员报道,该市至少有57 000户家庭遭受结构性破坏,它影响了53%的区域环境、25%的农业和15%的区域健康。


由于化工厂和发电厂的泄漏,洪水还污染了重要的水利基础设施、地下水和河水。由于缺乏扩大防洪设施的计划,政府与当地居民之间缺乏沟通以及互联基础设施(如手机基站和道路)之间缺乏沟通,灾后恢复的进程十分缓慢。

☝  雨后的金奈


Why Twitter?

在灾后恢复期间,大部分社交媒体帖子由金奈居民发布。社交媒体在整个灾难中成为一种强有力的工具,它被用来了解受影响的居民,并成为重要的应急通信工具。洪水切断了许多城市的电源,许多手机基站失去了电力。


Facebook、Twitter和WhatsApp是洪水期间使用最频繁的社交媒体平台,它们帮助居民更新他们的城镇和地区的现状,并使得他们可以相互沟通。


其中,Twitter标签被用来为居民定位食物和资源的位置,并被用来帮助灾民筹集资金,同时,Twitter还能提供其应用程序编程接口(API)以供用户收集数据。


研究和分析方法

研究团队将现有的文本挖掘软件与手动数据挖掘方法相结合来对文本和元数据进行分析。他们进行了以下工作:

  1. 分析并提出了文本和元数据的主题和次主题;

  2. 减少并从中选择了一些对研究目标重要的主题和子主题;

  3. 建立了与目标相关的主题或代码的层次结构;

  4. 将这些主题与概念联系起来。


研究小组使用Twitter Streaming API收集了在金奈洪水期间发布的推文。从收集的数据中选取了包含有地理位置标记元数据的推文子集,并使用元数据来推测推文被发送时发送人所处的位置。然后这些位置在谷歌地图上显示出来。


按照城市所遭遇的基础设施问题和城市中的各类问题对推文进行分组,尤其是道路、电力、水坝和电话网络的问题。通过关键词进行过滤筛选。


Twitter用户发布内容中所包含的地理信息具有一定的特征,可以通过技术进行提取。

☝  社交媒体在2015年金奈洪水中的作用

(a)在洪水期间人们发送的推文;

(b)洪水救援志愿者使用的标签;

(c)暴雨天气图;(d)洪泛区。

通过对以上特征数据进行提取,进一步开发:

☝  常用道路问题词汇的云集合


☝  (a)推文发送地点的航拍图;(b)洪泛区的航拍图。


初步分析

超过70%的推文是从金奈市中心发出的。(a)推文发送地点航拍图中显示的位置代表了收到并发送推文的手机基站的位置。这些位置并不是事件发生的实际位置或推文发送的地点。事件发生的位置和与事件相关的基础设施的确切位置必须根据推文中使用的词汇来进行推断。


由于金奈的一些地方电力短缺,造成一些手机基站无法正常运行。有些手机只能通过其他仍可以正常运行的手机基站接收信号、发送了推文,这可以帮助我们了解了不同位置的手机基站的运行模式和电源的供应情况。相比位置较低的手机基站,确定正常运转的手机基站的位置对于抵御洪水更有帮助。


在洪水期间,当太多的信息到达手机基站时,信息和信号的处理时间将增加。许多Twitter用户不得不等待电力恢复供应,他们发送的推文总是会被延迟。


由于多达95%的推文被延迟,推文发送的确切时间难以确定,延迟时间范围从几秒到一天不等。因此,Twitter的时间标记并不可信,因为它们不能反映事件或事故发生的实际的时间。



地点、事件和问题


(a)推文发送地点的航拍图清晰地展示出,推文内容主要与市中心的道路情况相关,超过70%的推文是从城区中发出的。虽然有许多道路、电线和城市边界以外的房屋也被淹没在水中,却很少有人发送含有这些内容的推文。


(b)洪泛区的航拍图显示了受洪水影响的地区范围。


(a)、(b)中的框图显示了金奈的城市洪泛区范围。通过两图的对比,可得出:

①手机基站仍在运行的地区可能比没有运行的地区具有更强的抗洪能力;

②比起市中心以外的地区,金奈市中心可能需要更多的努力使其具有更好的恢复能力;

③人口密度高的地区比人口密度低的地区需要更强的恢复能力。



文本分析


推文中使用的主要单词或文本是使用TagCrowd编译的。


研究者侧重于分析与基础设施相关的关键词(如通勤、路线和安全),例如,图片常用道路问题词汇的云合集展示的关键词,图中每个单词的字号与推文中出现的单词的频率成正比。


通过文本分析发现以下结论:


  1. 尽管名词可以更好地描述居民的状况,但是它只能模糊地反映道路的状况。即使人们发布的Twitter和路况有关,他们所用的词语也不能使道路工程师更好、更准确地了解当地的道路状况。


  2. 推文中经常使用“开裂部分”这一短语,用于描述金奈城区内不同区域的不同路况。尽管有些道路在结构上是健全的,可它们仍被描述为具有“开裂的部分”,而其他被这种方式所描述的道路则严重受损。可见,推文发送人的判断具有很大的差异性。


这说明这项研究仍然需要做更多的分析,利用更强大的工具来识别、辨认描述道路状况的低频词,同时还需要了解金奈和印度一般词汇使用情境。

初步的分析表明,包括文本和地理位置标记在内的社交媒体数据为确定基础设施和社区的恢复能力提供了可能。


这些结果可用于找到发生洪水时手机基站和电力线具有更好的恢复能力的位置。这些地理位置还可用于帮助人们找到重要的基础设施的位置,如需要提高恢复能力的紧急存储区域。

改编 | 赵莎莎


参考文献

Wai K. Chong,Hariharan Naganathan,Huan Liu, et al. Understanding Infrastructure Resiliency in Chennai, India Using Twitter’s Geotags and Texts: A Preliminary Study[J]. Engineering, 2018, 4(2): 218-223.


点击页末“阅读原文”可免费获取参考文献全文


点击图片阅读丨海平面的高度谁说了算?


点击图片阅读丨前沿研究:我们的城市是否可能永续存在?


「中国工程院院刊」志愿者招募中


改编写作、案例分享、翻译、公众号编辑

                                                               

感兴趣请联系Engineering@cae.cn


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存