数据福利|有关COVID-19的全国新浪微博与全球Twitter数据集
1
Weibo-COV数据
数据下载地址:
https://github.com/nghuyong/weibo-public-opinion-datasets
论文地址:
https://arxiv.org/abs/2005.09174
Weibo-COV: A Large-Scale COVID-19 Social Media Dataset from Weibo
Yong Hu, Heyan Huang, Anfan Chen, Xian-Ling Mao
2
covid19_dataset
数据下载地址:
https://github.com/sociocom/covid19_dataset
论文地址:
https://arxiv.org/abs/2004.08145
NAIST COVID: Multilingual COVID-19 Twitter and Weibo Dataset
Zhiwei Gao, Shuntaro Yada, Shoko Wakamiya, Eiji Aramaki
3
文本挖掘研究
我在GIS领域了解到的文本挖掘NLP研究主要有灾害文本分析,例如下面的数据集:2018成都洪涝灾害多源时空数据集(2018年7月成都市新浪微博数据,数据为Shapefile格式,存储于weibo. rar压缩包中)
http://www.csdata.org/p/267/
基于社交媒体的海南风灾监测数据集(本数据集以受台风影响较重的海南岛为研究区域,基于社交媒体平台收集和整理了2010–2018共8年间的严重侵袭海南岛的14个台风的相关数据,旨在从公众观测视角对台风进行监测,以弥补传统监测手段的不足,从而为及时、高效的减灾服务提供重要的数据支持。本数据集主要包括台风的属性信息、涉灾社交媒体的描述性文本以及图片等3种数据形式。)
http://www.csdata.org/p/284/
旅游文本分析
基于社交媒体的海南旅游景区评价数据集(本文从社交媒体中采集并处理了2012–2018年海南所有4A及5A级景区的评论数据构建了海南旅游景区评价数据集。本数据集旨在用于对海南旅游景区的质量评估、景区的容量管理、景区传播效果评价、景区网络舆情监测预警、景区网络口碑管理、景区形象管理、景区个性化推荐等研究。同时,结合多源化数据,本数据集可为研究海南省旅游发展提供数据支持。)
http://www.csdata.org/p/281/
除了以上数据集,公众号还分享了以下数据
全球森林观测项目(内含各种福利数据下载,自然保护区,生物栖息地,人口密度等)
欢迎关注 小猿猴GISer 公众号