查看原文
其他

Python爬取起点中文网小说排行榜信息(上海线下培训作业)

2017-11-26 天善智能 Python爱好者社区


上周末两天的天善智能上海线下培训已经结束啦~

小编带大家从爬虫零基础到进阶飞飞飞

以下是部分课程内容和学员成果展示

1课程内容


2课堂实景

大家都在听小编讲课【听的好认真啊】



学员课堂实际操作时间【学一点就要及时动手操作一下】


小编在课上给学员答疑【有问题要及时解决】


助教知己在给学员答疑【小编的好朋友哈】



学员们相互帮助解决问题【好有爱啊啊啊】



最后的合影【有好多小姐姐也来学爬虫技术】


3学员群答疑和反馈

课前准备工作


课前准备工作



必须让每个学员都学到东西


学员不仅学到技能,还认识了新朋友


课后答疑


学员来交作业啦【好有成就感啊】


4学员作业风采欣赏

第二天最后留下的作业是爬取起点小说排行榜信息

作业要求如下:




以下是部分学员完成情况:


01


作者:柳东

原文链接:https://ask.hellobi.com/blog/ld634/10455


两天的爬虫线下培训结束了,感谢大伟老师和工作人员们的辛苦付出,以下为本次作业的简述:


一、先处理单页信息的爬取:




输出结果后发现网页被重定向至其他网页,并非需要爬取的排行榜,于是加入代理及异常机制尝试:




输出结果正常:




接着,加入解析器,通过循环,把需要的信息先放入字典,再将全部信息分类汇总入列表:




引入pandas,将信息转化为DataFrame:



输出结果第一页所需信息:




至此,单页爬取完成。


二、爬取前200名的信息:


单页爬取成功,加入循环,实现多页爬取,并输出结果,以下为完整代码:




以下为完整输出结果:





如有发现问题,欢迎各位老师同学的批评指正。

再次感谢大伟老师,各位天善的工作人员及各位同学!


02


作者:走马兰台

原文链接:https://ask.hellobi.com/blog/ysfyb/10484


周末两天的培训结束了,非常感谢这段时间老师的热情指导,现对起点小说排名信息的爬取已完成,具体思路如下:


第一步:首先选取起点的网站网址:https://www.qidian.com/rank/hotsales,先尝试用代理和cookies进入网址,发现得到的界面源代码都没有问题,然后去掉代理和cookies发现也能爬取信息


使用代理和headers运行程序:




不使用代理运行程序结果:




第二步:查看起点排行榜多个界面,发现只是后面的page=不同,取出所有的源代码信息,发现所有内容都在class=book-mid-info的a标签上,然后用BS4来对整个网页内容的提取,使用find_all和css的select方法都可以得到结果,结果如下:


find_all方法:




select方法:




第三步:在这里使用css的select方法提取数据,然后把数据转变为pandas的DataFrame格式,因为数据都是在同一列,需要对数据进行切片及去掉原有索引,然后用pandas的concat把书名、作者等信息进行合并


数据传入DataFrame结果:



用pandas的concat把作者等信息进行合并运行后的结果:



最后就是保存在csv中,因为格式不同,需要对数据使用gbk格式写入


下图即是所有的代码:



03


作者:Zexuan

原文链接:https://ask.hellobi.com/blog/Kacey/10551


上周末在上海进行了2天的python爬虫培训,感谢天善智能感谢王大伟老师,要开始入坑啦!


上课基本能听懂,但是回来自己码代码就会发现各种问题~~~~(>_<)~~~~


把python的基础知识补了一遍,完成了老师留下的作业。

要求:


https://www.qidian.com/rank/hotsales?page=1

爬取前200名排行榜的作者,书名,分类,更新的信息

建议先爬取一页

要求使用BeautifulSoup爬取


交作业啦!





虽然只是一个简单的交作业,不过完成了还是超有成就感的!!!

未完待续

小编鼓励大家写博客记录自己的学习成果

方便以后用到回顾,还能分享给需要的人

虽然这期的上海站线下爬虫培训结束了

以后还会有的,除了上海还可能去其他城市哦

除了网络爬虫

以后还会开机器学习,数据分析挖掘之类的线下课程哦

敬请期待~


小编的免费Python入门课程已经登场,等你来撩~

已经有1100+小伙伴来学习咯

点击阅读原文,立即学习

Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复“课程”即可获取:

0.小编的Python入门视频课程!!!

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存