查看原文
其他

使用SPSS清洗社交媒体数据

小猿猴GISer 小猿猴GISer 2021-09-19

社交媒体数据例如Flickr,一般包含如下几个字段,例如用户id、签到时间、签到位置坐标。Flickr地理标记照片除了照片内容数据外,通常都包含对于照片本身的描述信息,即元数据,包括照片的编号(Pid)、拍摄者(Oid)、拍摄时间(P_date)、经度(Lon)、纬度(Lat)、照片标签(Tag)和用户信息(User_info)等附属信息。

清洗规则

使用SPSS打开Flickr元数据的txt文件,打开文本文件。

分隔符常见的为空格、逗号或者其他字符

数据清洗步骤,以去除照片id相同相同的为例

单击工具栏数据——标识重复个案,SPSS将会把重复数据自动保留一个

选择需要对比的字段,例如游客id

运行后会出现计算结果,即重复数据个数。

若数据重复,则标记为0,此时我们就可以把这一列是1的数据导出就可以了

数据选择个案,可以导出

其他清洗条件类似

如果位置、时间都相同,则为不同用户错误数据,选择相应的字段。

如果位置、用户id、时间都相同,则为同一用户错误数据,选择相应的字段。

将每一步剩下的数据导出,最后就是完全清洗后的数据


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存