其他
pandas库读取csv文件
很高兴能给大家分享我学python的经历,今晚的直播很感动。自己在直播前准备还是不够充分,导致讲课后半部分很没逻辑。但大家都很鼓励我,让我很感动。现在先附上大家的鼓励,永远留作纪念。
更有大家的给力支持,今年大家发发发
问题说明
csv文件读取比较人性化的库就是pandas,我之前一直在mac上用,确实让人爱不释手。但昨天直播前将代码放到window时候,代码就这样神奇的报错了。直播完后立马有朋友告诉我解决办法,特此连夜分享,方便大家将爬到的微博csv文件数据进行分析。
本文只是为了解决csv在windows读取问题而写,内容不多。对pandas感兴趣的可以看文档或者去百度下常用方法。文章末尾附上数据及脚本,大家可以照着本文敲打运行下。
Mac上读取csv文件的代码
import pandas as pd
import os
path = os.getcwd()+'/局座哭了.csv'
data = pd.read_csv(path)
print(data)
Win上读取csv文件的代码
在window系统上其实也不难,多写一行代码,pandas库也可以读取csv文件
import pandas as pd
import os
path = os.getcwd()+'\\局座哭了.csv'
f = open(path, encoding='utf-8')
data = pd.read_csv(f)
print(data)
现在win/mac一样了,都能正确运行不报错了。
数据统计
describe统计下数据量、标准值、平均值、最大值等
print(data.describe())
运行效果
verified_type review_id like_counts
count 8880.000000 8.880000e+03 8880.000000
mean 9.778716 4.100745e+15 0.831194
std 47.350776 4.675363e+09 70.209162
min -1.000000 4.100740e+15 0.000000
25% -1.000000 4.100741e+15 0.000000
50% -1.000000 4.100744e+15 0.000000
75% -1.000000 4.100749e+15 0.000000
max 220.000000 4.100754e+15 6616.000000
读取csv前几行
#读取文件前5行
headdata = data.head(5)
print(headdata)
运行效果,返回前5行所有数据。列明有username、verigied、verified_type、review_id、like_counts、image、date、comment。
username verified verified_type \
0 Helens中国 True 2
1 胥渡一笙 False -1
2 u迷茫i False -1
3 溺海_31872 False -1
4 哟西米修米修L False -1
profile_url source \
0 http://m.weibo.cn/u/2461865374?uid=2461865374&... 微博搜索
1 http://m.weibo.cn/u/5054279221?uid=5054279221&... 直播消息系统
2 http://m.weibo.cn/u/5678068465?uid=5678068465&... 直播消息系统
3 http://m.weibo.cn/u/5526813723?uid=5526813723&... 直播消息系统
4 http://m.weibo.cn/u/5730331054?uid=5730331054&... 直播消息系统
review_id like_counts \
0 4100754376196397 0
1 4100754371474129 0
2 4100754366955470 0
3 4100754363331280 0
4 4100754359394899 0
image date \
0 https://tva2.sinaimg.cn/crop.87.1.670.670.180/... 1分钟前
1 https://tva2.sinaimg.cn/crop.0.0.1080.1080.180... 1分钟前
2 https://tva3.sinaimg.cn/crop.0.0.664.664.180/0... 1分钟前
3 https://tva3.sinaimg.cn/crop.0.0.100.100.180/0... 1分钟前
4 https://tva2.sinaimg.cn/crop.0.0.664.664.180/0... 1分钟前
comment
0 呐,这么开心的事情,必须要喝酒,要庆祝🍺🍺🍺走,今晚女士之夜,海伦寺喝一个!
1 哈
2 安徽人民发来贺电
3 666
4 来啦
某行-所有列
#第一行所有数据
print(data.ix[0, :])
运行返回
username Helens中国
verified True
verified_type 2
profile_url http://m.weibo.cn/u/2461865374?uid=2461865374&...
source 微博搜索
review_id 4100754376196397
like_counts 0
image https://tva2.sinaimg.cn/crop.87.1.670.670.180/...
date 1分钟前
comment 呐,这么开心的事情,必须要喝酒,要庆祝🍺🍺🍺走,今晚女士之夜,海伦寺喝一个!
Name: 0, dtype: object
某几行-所有列
#获取第2/4/6行的数据
print(data.ix[[1,3,5],:])
运行
username verified verified_type \
1 胥渡一笙 False -1
3 溺海_31872 False -1
5 邓马马宝宝 False -1
profile_url source \
1 http://m.weibo.cn/u/5054279221?uid=5054279221&... 直播消息系统
3 http://m.weibo.cn/u/5526813723?uid=5526813723&... 直播消息系统
5 http://m.weibo.cn/u/5498729683?uid=5498729683&... 直播消息系统
review_id like_counts \
1 4100754371474129 0
3 4100754363331280 0
5 4100754354924466 0
image date comment
1 https://tva2.sinaimg.cn/crop.0.0.1080.1080.180... 1分钟前 哈
3 https://tva3.sinaimg.cn/crop.0.0.100.100.180/0... 1分钟前 666
5 https://tva1.sinaimg.cn/crop.0.0.996.996.180/0... 1分钟前 常德
所有行-所有列
获取所有行所有列
print(data.ix[:, :])
运行效果
username verified verified_type \
0 Helens中国 True 2
1 胥渡一笙 False -1
2 u迷茫i False -1
3 溺海_31872 False -1
4 哟西米修米修L False -1
5 邓马马宝宝 False -1
6 邓马马宝宝 False -1
7 北遥男孩 False -1
8 福如东海20150920 False -1
... ... ... ...
8871 张轩博_zxb False -1
8872 眼镜控的常青大侠 False -1
8873 车喇叭 True 2
8874 独橦 False -1
8875 川瑜V劢 False -1
8876 hey丶张星星 False -1
8877 顺和小霸王 False -1
8878 Lakers源哥哥 True 0
8879 风雨漫漫任独行 False -1
profile_url source \
0 http://m.weibo.cn/u/2461865374?uid=2461865374&... 微博搜索
1 http://m.weibo.cn/u/5054279221?uid=5054279221&... 直播消息系统
2 http://m.weibo.cn/u/5678068465?uid=5678068465&... 直播消息系统
3 http://m.weibo.cn/u/5526813723?uid=5526813723&... 直播消息系统
4 http://m.weibo.cn/u/5730331054?uid=5730331054&... 直播消息系统
5 http://m.weibo.cn/u/5498729683?uid=5498729683&... 直播消息系统
6 http://m.weibo.cn/u/5498729683?uid=5498729683&... 直播消息系统
7 http://m.weibo.cn/u/5633581423?uid=5633581423&... 直播消息系统
8 http://m.weibo.cn/u/5902693721?uid=5902693721&... 直播消息系统
... ... ...
8871 http://m.weibo.cn/u/3018064337?uid=3018064337&... 直播消息系统
8872 http://m.weibo.cn/u/2710844860?uid=2710844860&... 直播消息系统
8873 http://m.weibo.cn/u/5581008951?uid=5581008951&... 微博搜索
8874 http://m.weibo.cn/u/5352489937?uid=5352489937&... 直播消息系统
8875 http://m.weibo.cn/u/3168352533?uid=3168352533&... 直播消息系统
8876 http://m.weibo.cn/u/2127831030?uid=2127831030&... 直播消息系统
8877 http://m.weibo.cn/u/3502642052?uid=3502642052&... 直播消息系统
8878 http://m.weibo.cn/u/3956374988?uid=3956374988&... 直播消息系统
8879 http://m.weibo.cn/u/1662439694?uid=1662439694&... 微博搜索
review_id like_counts \
0 4100754376196397 0
1 4100754371474129 0
2 4100754366955470 0
3 4100754363331280 0
4 4100754359394899 0
5 4100754354924466 0
6 4100754354924466 0
7 4100754350726288 0
8 4100754350465861 0
... ... ...
8871 4100739544490998 0
8872 4100739544488029 0
8873 4100739544327915 0
8874 4100739544326939 0
8875 4100739544326923 0
8876 4100739540768095 0
8877 4100739536571142 0
8878 4100739536570921 0
8879 4100739536568977 0
image date \
0 https://tva2.sinaimg.cn/crop.87.1.670.670.180/... 1分钟前
1 https://tva2.sinaimg.cn/crop.0.0.1080.1080.180... 1分钟前
2 https://tva3.sinaimg.cn/crop.0.0.664.664.180/0... 1分钟前
3 https://tva3.sinaimg.cn/crop.0.0.100.100.180/0... 1分钟前
4 https://tva2.sinaimg.cn/crop.0.0.664.664.180/0... 1分钟前
5 https://tva1.sinaimg.cn/crop.0.0.996.996.180/0... 1分钟前
6 https://tva1.sinaimg.cn/crop.0.0.996.996.180/0... 1分钟前
7 https://tvax1.sinaimg.cn/crop.0.0.996.996.180/... 1分钟前
8 https://tva4.sinaimg.cn/crop.0.0.664.664.180/0... 1分钟前
... ... ...
8871 https://tva3.sinaimg.cn/crop.0.0.996.996.180/b... 今天 11:05
8872 https://tva1.sinaimg.cn/crop.0.0.1440.1440.180... 今天 11:05
8873 https://tvax1.sinaimg.cn/crop.40.51.320.320.18... 今天 11:05
8874 https://tva4.sinaimg.cn/crop.210.0.540.540.180... 今天 11:05
8875 https://tva1.sinaimg.cn/crop.0.0.1068.1068.180... 今天 11:05
8876 https://tvax3.sinaimg.cn/crop.0.0.512.512.180/... 今天 11:05
8877 https://tva4.sinaimg.cn/crop.10.0.492.492.180/... 今天 11:05
8878 https://tvax4.sinaimg.cn/crop.14.0.721.721.180... 今天 11:05
8879 https://tva2.sinaimg.cn/crop.0.0.180.180.180/6... 今天 11:05
comment
0 呐,这么开心的事情,必须要喝酒,要庆祝🍺🍺🍺走,今晚女士之夜,海伦寺喝一个!
1 哈
2 安徽人民发来贺电
3 666
4 来啦
5 常德
6 常德
7 江苏人民发来贺电
8 我就只能现在看了,还有吗?
... ...
8871 瓦格良发来贺电
8872 江西南昌人民发来贺电
8873 车喇叭网发来贺电<span class="url-icon"><img src="//h5....
8874 天津石油职业技术学院D148发来贺电
8875 叫什么名字
8876 高玉良发来贺电
8877 西南科技大学发来贺电
8878 西安人民发来贺电
8879 一生二,二生三,三生一万艘
[8880 rows x 10 columns]
某列-所有行
读取username列所有的数据
print(data.ix[:, 'username'])
运行效果
0 Helens中国
1 胥渡一笙
2 u迷茫i
3 溺海_31872
4 哟西米修米修L
5 邓马马宝宝
6 邓马马宝宝
7 北遥男孩
8 福如东海20150920
...
8871 张轩博_zxb
8872 眼镜控的常青大侠
8873 车喇叭
8874 独橦
8875 川瑜V劢
8876 hey丶张星星
8877 顺和小霸王
8878 Lakers源哥哥
8879 风雨漫漫任独行
Name: username, dtype: object
某几列-某几行
读取第1、3、5行,列名为username、verified_type、comment的数据
print(data.ix[[1,3,5], ['username','verified_type','comment']])
运行效果
username verified_type comment
1 胥渡一笙 -1 哈
3 溺海_31872 -1 666
5 邓马马宝宝 -1 常德
数据及脚本链接
https://pan.baidu.com/s/1eSwySYA 密码: fibb
iphone用户支持通道
更多内容
文本分析
神奇的python
爬虫
【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”
【视频】快来get新技能--抓包+cookie,爬微博不再是梦