其他
使用SPSS清洗社交媒体数据
社交媒体数据例如Flickr,一般包含如下几个字段,例如用户id、签到时间、签到位置坐标。Flickr地理标记照片除了照片内容数据外,通常都包含对于照片本身的描述信息,即元数据,包括照片的编号(Pid)、拍摄者(Oid)、拍摄时间(P_date)、经度(Lon)、纬度(Lat)、照片标签(Tag)和用户信息(User_info)等附属信息。
清洗规则
使用SPSS打开Flickr元数据的txt文件,打开文本文件。
分隔符常见的为空格、逗号或者其他字符
数据清洗步骤,以去除照片id相同相同的为例
单击工具栏数据——标识重复个案,SPSS将会把重复数据自动保留一个
选择需要对比的字段,例如游客id
运行后会出现计算结果,即重复数据个数。
若数据重复,则标记为0,此时我们就可以把这一列是1的数据导出就可以了
数据选择个案,可以导出
其他清洗条件类似
如果位置、时间都相同,则为不同用户错误数据,选择相应的字段。
如果位置、用户id、时间都相同,则为同一用户错误数据,选择相应的字段。
将每一步剩下的数据导出,最后就是完全清洗后的数据