如何用 60 行代码爬取知乎神回复?
作者 | 强哥
责编 | 郭芮
知乎上经常会有很多令人忍俊不禁的神回复,初看之下拍案叫绝,细思之下更是回味无穷。本文就来介绍下如何爬取知乎的神回复,揭晓其背后的原理。
知乎神回复都有些什么特点呢?我们先来观察一下:
大家看出什么规律了么?短小精辟有没有?赞同很多有没有?所以爬取知乎神回复我们只要爬取那些赞同多又字数少的回答就可以。简单的两个步骤就能实现,第一步爬取知乎回答,第二部筛选回答。是不是很easy?
爬取知乎回答
第一步我们爬取知乎上的回答。知乎上的回答太多了,一下子爬取所有的回答会很费时,我们可以选定几个话题,爬取这几个话题里的内容。
下面的函数用于爬取某一个指定话题的内容:
def get_answers_by_page(topic_id, page_no):
offset = page_no * 10
url = <topic_url> # topic_url是这个话题对应的url
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
}
r = requests.get(url, verify=False, headers=headers)
content = r.content.decode("utf-8")
data = json.loads(content)
is_end = data["paging"]["is_end"]
items = data["data"]
client = pymongo.MongoClient()
db = client["zhihu"]
if len(items) > 0:
db.answers.insert_many(items)
db.saved_topics.insert({"topic_id": topic_id, "page_no": page_no})
return is_end
get_answers_by_page函数有两个参数,第一个参数是话题的id,第二个参数表示爬的是第几页的内容。
爬下来的内容当中有几个需要注意的字段,下图中用黄框高亮出来了:
这几个字段的含义如下:
question.title - 问题的标题;
content - 回答的内容;
voteup_count - 赞同的数量。
这些字段在下一步筛选回答的时候会用到。
筛选回答
爬完数据后,我们来筛选一下结果。
我们用MongoDB中的聚合管道对回答做筛选(关于MongoDB的聚合管道的用法可以参考Aggregation Pipeline Quick Reference这篇文章,https://docs.mongodb.com/manual/meta/aggregation-quick-reference/),代码如下:
client = pymongo.MongoClient()
db = client["zhihu"]
items = db.answers.aggregate([
{"$match": {"target.type": "answer"}},
{"$match": {"target.voteup_count": {"$gte": 1000}}},
{"$addFields": {"answer_len": {"$strLenCP": "$target.content"}}},
{"$match": {"answer_len": {"$lte": 50}}},])
上面的代码会筛选所有赞同大于1000、字数小于50的回答,筛选出来的结果就是短小精辟的神回复。
以上是核心代码,完整代码已上传GitHub:https://github.com/pythonml/answer。
知乎神回复
代码写完了,我们来运行下看看。恰好前两天是程序员节,我们就来筛选一下和程序员有关的神回复。一些好玩的结果如下:
1、
Q:码农们最常说的「谎言」有哪些?
A://TODO
2、
Q:在 GitHub 上保持 365 天全绿是怎样一种体验?
A:曾经保持了200多天全绿,但是冷落了女朋友,一直绿到现在。
3、
Q:突然想开一家程序员主题的餐馆,名字就叫程序员的菜,菜名就叫各种语言中的关键字,各位指点一下,有前途没?
A:进门一个大大的 hello world,招牌菜叫“红烧产品经理”,一定会爆满的。
4、
Q:什么是递归?
A:「不宜公开讨论的政治内容」的定义和范畴本身也属于「不宜公开讨论的政治内容」。
5、
Q:编程最基本的术语 “bug” 该怎么翻译?
A:幺蛾子,你的程序又出幺蛾子了。
6、
Q:编程的乐趣是什么?
A:人的成就感来源于两样东西,创造和毁灭。
7、
Q:作为程序员,你在编程时吃了哪些数学的亏?
A:看论文时候一个"显然"推了我一下午。
8、
Q:土豪程序员的设备都有啥?
A:女朋友。
9、
Q:祈求代码不出 bug 该拜哪个神仙?
A:拜雍正,专治八阿哥。
10、
Q:考上好大学学 IT 是不是当今中国穷人家孩子晋级中产唯一的出路?
A:对,就4条路。写代码,搞金融,在代码圈搞金融,在金融圈写代码。
11、
Q:为什么程序员无论到哪儿都喜欢背电脑包,哪怕里面没有装电脑?
A:因为他们没有别的包。
12、
Q:为什么程序员的女朋友或老婆颜值普遍要高于男方很多?还是说程序员已经算是婚恋市场的优质股了?
A:程序员女朋友颜值高,我是服的,因为随便问十个程序员他的女朋友是谁,有九个回答是新垣结衣。
13、
Q:程序员夫妻结婚戒指刻什么字好?
A:0 error 0 warning.
14、
Q:IT 工程师被叫「码农」时是否会不舒服?
A:我们好歹还是人,产品和设计已经是狗了……
15、
Q:怎么找到喜欢程序员的妹子做女友?
A:看缘分,知乎上这么多用户,你关注到我就是缘分。
16、
Q:程序员女朋友如何给程序员男朋友过生日?
A:告诉他,接口已经准备好了。
17、
Q:哪些话可以惹火程序员?
A:路过他电脑前时说一句,呦,又在写bug呢!
18、
Q:我的一位老师说,Java 适用于大型软件而 C# 适用中小型软件。这是真的么?
A:Java有项天赋,就是能把中小型软件写成大型的。
19、
Q:为什么程序员薪资那么高?
A:时薪又不高。
20、
Q:是不是大部分程序员都在抱怨工资低?
A:谁、谁在抱怨工资高?
21、
Q:单身程序狗解决了一个技术难题后没有妹子可以炫耀或夸一下自己怎么办?
A:现在你明白了吧,为什么那么多程序员要写技术博客。
22、
Q:中国程序员是否偏爱「冲锋衣+牛仔裤+运动鞋」的衣着?如果是,为何会形成这样的潮流?
A:穿那么好看给程序看吗?
23、
Q:为什么我认为程序员似乎大多不善言辞?
A:你就当是我们情商低就好了,这样你开心,我们也开心。
24、
Q:在中国,年龄最大的程序员不过40岁左右,请问中国的程序员未来还可以做什么?
A:这跟为什么90后没人活过30岁是同一个原理。
25、
Q:如何回复程序员发来的短信:「Hello world」?
A:hello nerd.
26、
Q:为什么程序员不应该会修电脑?
A:范冰冰需要会修电视机吗?
27、
Q:同事说自己 C++ 水平全中国第一,怎么让他意识到自己没那么厉害?
A:实不相瞒,我也不是装逼:我的 C++ 水平全国第 0。
28、
Q:为什么 iPhone 删软件时,所有图标都要抖?
A:第三方软件是吓得,系统自带软件是嘚瑟。
29、
Q:iPhone 处理器的性能按照现在每年翻一倍的节奏,是不是很快就能赶上甚至超过台式电脑的处理器?
A:小时候我总觉得过两年我就能和大我两岁的哥哥一样大了。
30、
Q:有哪些反人类的科技发明或设计?
A:电脑连不上网,诊断以后它提示我要联网解决。
31、
Q:既然思想是我的,那么为什么有时候我控制不了我的负面情绪?
A:操作系统不会允许用户访问、修改及删除核心系统文件,因为这会损坏系统,导致运行异常。
32、
Q:如何看待某些人下载软件喜欢到官网的偏好?
A:同学你没中过百度全家桶吧?
33、
Q:为什么很多人买笔记本打游戏,而不用性能更好的台式机?
A:因为买不起房子......
34、
Q:Chrome 真的很费电吗?
A:不费电,我现在就在用Chrome,用到现在这么久,笔记本电量还有50%,我估讠
35、
Q:MacBook 上安装 Windows 后的使用体验如何?
A:像突然间有了软肋,并且还失去了铠甲。
36、
Q:为什么有人愿意花几千元买 iPhone ,却不愿意花几十元买正版 iPhone 软件和游戏?
A:因为他们下载不到iPhone。
37、
Q:有什么 App 取的名字特别惊艳?
A:水表助手…是查快递的…
38、
Q:如何用 iPad 遥控 PC 关机?
A:瞄准PC电源键扔过去。
39、
Q:如何评价 Internet Explorer?
A:下载其他浏览器的浏览器
-----一年后-----
IE8以下好烂,做前端想哭的节奏。
40、
Q:一个完整的 PPT 做下来,最让你头疼的是什么?
A:怎样向领导隐藏自己的实力。
41、
Q:什么是 Vim 可以做而 Emacs 做不到的?
A:帮助乌干达的可怜儿童……
42、
Q:苹果用户为什么选择苹果?
A:因为不用苹果的用户不是苹果用户。
43、
Q:有线鼠标会被无线鼠标取代吗?
A:我觉得在网吧有线鼠标就不会被取代。
44、
Q:计算机世界里有哪些经典谣言?
A:我已阅读并同意该条款。
45、
Q:计算机系的学生都有哪些口头禅?
A:我电脑上运行得好好的啊⋯⋯
46、
Q:如何看待百度官博公开辟谣涉李彦宏家事传闻?
A:「中国人对隐私没那么敏感,愿意用隐私换取便利。」——李彦宏
47、
Q:在飞机上遇到了马云该怎么聊天?
A:Hello Jack, my name is Jackson.
48、
Q:如何看待百度在魏则西事件过去之后又悄悄的把承诺整改的广告提示颜色调淡了?
A:请大家不要黑百度,我是做前端开发的,这是时间久了,网页CSS掉色了。
作者:强哥,资深Python程序员,先后供职于Morgan Stanley和ebay,擅长爬虫、web开发、数据分析。
声明:本文首发于作者个人公众号Python与数据分析,为作者投稿,版权归其个人所有。
微信改版了,
想快速看到CSDN的热乎文章,
赶快把CSDN公众号设为星标吧,
打开公众号,点击“设为星标”就可以啦!
“征稿啦”
CSDN 公众号秉持着「与千万技术人共成长」理念,不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件,更有「技术头条」专栏,深度解读行业内的热门技术与场景应用,让所有的开发者紧跟技术潮流,保持警醒的技术嗅觉,对行业趋势、技术有更为全面的认知。
如果你有优质的文章,或是行业热点事件、技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(guorui_1118,请备注投稿+姓名+公司职位),邮箱(guorui@csdn.net)。
推荐阅读: