查看原文
其他

千里挑一的我乎妹子大V排行榜

2017-10-15 yea yee Python爱好者社区

作者:yea yee

1024M Tunnel 攻城狮™

知乎专栏:https://www.zhihu.com/people/yeayee/activities


项目背景

无聊刷首页点到一个哥们签名:

关注一万个高颜值的知乎妹子!

然后看到他已经关注了一千多,

随机抽样几个,颜值真的还不错。

于是想知道我乎的妹子大V都有哪些?


具体操作

撸一个虫虫,

随意选择一个时尚专栏,

迭代获取url_token,

单线程,从凌晨挂机采集,

早上收获15391 rows × 7 columns


数据初探




结论:勤能补拙是良训

建议知乎以上面的三项指标,

和相亲节目联合作为硬性指标,

也就不会坑到我们程序员啦~啦~


签名云图,相似度,行业匹配,颜值识别?

稍后慢慢奉上~~~


有图有真相,

直接上图进行解说:

解说:一万五的知乎妹子的名字进行词频统计,看看你熟悉的谁中招了?

另外,经不完全统计,除了个人真实图像以外,用猫作为图像的占比很大!

解说:一万五的知乎妹子的签名进行词频统计,没错,很多都是运营高手!

‘微信’、‘公众号’作为签名位居榜首;‘喜欢、爱好者’表明特长也无可厚非;

但实在不明白‘一个’、‘人’、‘爱’、‘狗’、‘好’、‘做’这样的高频词代表了神马?


高能预警

解说:以粉丝数/(文章数+回答数)进行排行,可以看出影响力?


别以为这就完了,更厉害登场

解说: 零回答、零文章也可以在我乎玩的这么任性!

这些人虽然没有回答和文章,但是人家提问题多啊,或者已经是DAV。

嚯嚯,小伙伴们有啥问题赶紧用知乎体发问哈!!!

还想知道更多分析?

稍后一一奉上~~~


自己挖的坑,接上一弹留下的作业:


过程实现:

1.根据抓取的url本地存储图片;

2.用face_recognition筛选出人脸,阿猫阿狗的删除;

3.用pillow打上妹子的知乎ID;

4.人工剔除部分动画类妹子图片(可以省略);

5.处理华南理工大学数据集中的妹子颜值评分;

6.继续用face_recognition库中的face_distance获取图片的相似度(L2范数)。

原本是计划用face_recognition提取面部特征矩阵,

然后用Sklearn进行聚类分析,但是face_distance也可以做个大概判断。

PS:这个face_recognition很强大


http://link.zhihu.com/?target=https%3A//github.com/ageitgey/face_recognition/tree/master/examples


找到照片中的人脸Find faces in a photograph

https://github.com/ageitgey/face_recognition/blob/master/examples/find_faces_in_picture.py


 识别照片中的面部特征Identify specific facial features in a photograph

https://github.com/ageitgey/face_recognition/blob/master/examples/find_facial_features_in_picture.py

def face_distance(face_encodings, face_to_compare):    """    Given a list of face encodings, compare them to a known face encoding and get a euclidean distance    for each comparison face. The distance tells you how similar the faces are.    :param faces: List of face encodings to compare    :param face_to_compare: A face encoding to compare against    :return: A numpy ndarray with the distance for each face in the same order as the 'faces' array    """    if len(face_encodings) == 0:        return np.empty((0))    return np.linalg.norm(face_encodings - face_to_compare, axis=1)

试验结果:

1.共提取了3600多张颜值较高的妹子图片;

2.用随机1000张生成照片墙,结果太大,我乎不能上传;

3.文中插图为照片墙的部分截图,另完整一千妹子照片墙下载:

https://pan.baidu.com/s/1dFaVyCx


(17.1M)

4.需要原始数据(大图及华南理工数据集)可以站内私信。


作者详细介绍:

if civil:    print("国家注册岩土工程师,隧道高级工程师,岩土论坛分版主;熟悉岩土及隧道数值分析,伪BIMer。") else:    print("代表作网站intumu.com,微信小程序海豹战队。掌握爬虫;熟悉Flask,MongoDB,Pandas,Bokeh;了解Sklearn,XGboost,Pytorch,NLP。") while Wx_name:    print("微信:nemoon")


Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复“课程”即可获取:

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存