查看原文
其他

大神爬了这些网站的数据,发现价值巨大!

浪潮数据 2021-04-21


▲点击图片领取excel模板

公众号后台回复:“可视化”,获取EXCEL模板

公众号后台回复:“社群”,进入知识分享社群

热文推荐:

300份麦肯锡中国案例分析报告和分析方法

230套Excel可视化图表模板大礼包,让数据美如画!



一个网站背后的数据是一座巨大的宝库,对于如何爬取数据,如何利用好这些数据,很多人还是一头雾水。在知乎的提问“有哪些网站用爬虫爬取能得到很有价值的数据?”中,@何明科为读者分享了自己的爬虫经验:


0、IT桔子和36Kr

在专栏文章中(http://zhuanlan.zhihu.com/p/20714713),抓取IT橘子和36Kr的各公司的投融资数据,试图分析中国各家基金之间的互动关系。




1、知乎
沧海横流,看行业起伏(2015年) - 数据冰山 - 知乎专栏,抓取并汇总所有的答案,方便大家阅读,找出2015年最热门和最衰落的行业

有空的时候,准备写爬虫分析知乎的关系链。



2、汽车之家
大数据画像:宝马车主究竟有多任性?- 数据冰山 - 知乎专栏,利用论坛发言的抓取以及NLP,对各种车型的车主做画像。



3、天猫、京东、淘宝等电商网站
超越咨询顾问的算力,在用户理解和维护:大数据改变管理咨询(三) - 数据冰山 - 知乎专栏,抓取各大电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及用户的消费场景进行分析。


甚至还可以根据用户评价做情感分析,实时监控产品在消费者心目中的形象,对新发布的产品及时监控,以便调整策略。


4、58同城的房产、安居客、Q房网、搜房等房产网站
下半年深圳房价将如何发展 - 数据冰山 - 知乎专栏,抓取房产买卖及租售信息,对热热闹闹的房价问题进行分析。


5、大众点评、美团网等餐饮及消费类网站
黄焖鸡米饭是怎么火起来的?- 何明科的回答,抓取各种店面的开业情况以及用户消费和评价,了解周边变化的口味,所谓是“舌尖上的爬虫”。


以及各种变化的口味,比如:啤酒在衰退,重庆小面在崛起。


6、58同城等分类信息网站
花10万买贡茶配方,贵不贵?- 何明科的回答,抓取招商加盟的数据,对定价进行分析,帮助网友解惑。


7、拉勾网、中华英才网等招聘网站
互联网行业哪个职位比较有前途?- 数据冰山 - 知乎专栏,抓取各类职位信息,分析最热门的职位以及薪水。


8、挂号网等医疗信息网站
如何评价挂号网?- 何明科的回答,抓取医生信息并于宏观情况进行交叉对比。


9、应用宝等App市场
你用 Python 做过什么有趣的数据挖掘/分析项目?- 何明科的回答,对各个App的发展情况进行跟踪及预测。(顺便吹一下牛,我们这个榜单很早就发现小红书App的快速增长趋势以及在年轻人中的极佳口碑)


10、携程、去哪儿及12306等交通出行类网站
你用 Python 做过什么有趣的数据挖掘/分析项目?- 何明科的回答,对航班及高铁等信息进行抓取,能从一个侧面反映经济是否正在走入下行通道。


11、雪球等财经类网站
抓取雪球KOL或者高回报用户的行为,找出推荐股票


12、58同城二手车、易车等汽车类网站
一年当中买车的最佳时间为何时?- 何明科的回答和什么品牌或者型号的二手车残值高?更保值?反之,什么类型的贬值较快?- 二手车,找出最佳的买车时间以及最保值的汽车。


13、神州租车、一嗨租车等租车类网站
抓取它们列举出来的租车信息,长期跟踪租车价格及数量等信息


14、各类信托网站
通过抓取信托的数据,了解信托项目的类型及规模



其实还有很多数据,不一一列举了。只要有爱数据的心和能爬的虫子,一切且有可能。顺利安利一下,抓取数据只是很小一部分,我们更擅长的是数据分析挖掘、可视化以及个性化的推荐。


链接:https://www.zhihu.com/question/36132174/answer/89145038
来源:知乎

推荐阅读


926套高逼格Excel可视化图表模板,直接套用

最全Excel教程汇总,让你一个月成为Excel大神!

230套Excel可视化图表模板大礼包,让数据美如画!



公众号后台回复关键词“可视化”

获取资料







进入知识星球——智识梦工厂
  公众号所有内容都会同步更新到这啦  

科技丨互联网丨职场丨商业
优质内容,每日更新
海量知识,一键领取

1000+份大数据热门报告  500+人工智能热门书籍 
500+互联网优质软件+PPT  100+区块链高分书籍
2000本kindle高分书籍,45G小程序资料……
麦肯锡、高盛、波士顿等机构研究报告
经济学人杂志、职场简历模板
为读者找知识,为知识找读者 
原价50,优惠后只要20
名额仅限100位,限时领取








干货▶


100集BBC高清纪录片,中英文双语字幕,限时领取!

63套科技PPT模板,让你的PPT酷炫如科幻大片!

最全Excel教程汇总,让你一个月成为Excel大神!

230套Excel可视化图表模板大礼包,让数据美如画!

926套高逼格Excel可视化图表模板,直接套用,办公效率神器

推荐收藏!阿里巴巴+腾讯+华为人力资源体系汇总

100本哈佛商学院必读书单(附:1067页哈佛商学院经典案例)

500门985大学公开课,拓宽思维增长见识必备!

《经济学人》2014-2019合集,涨姿势了!

联合国都在用的演示神器,比PPT酷炫一百倍!

全球顶尖战略咨询公司麦肯锡的工作培训9大手册(附全套PPT)

阿里技术爆款电子书合辑,技术大牛必备!

华为项目管理法10大模板【Excel和Word版(可直接套用)】

知乎高赞:盘点知识最多、含金量最高的42本书

Adobe软件即将全网消失!最后一波下载的机会来了!

Science期刊2019-2018合订本97本,限时领取!

BBC评出的最伟大的100部小说,知识就是力量(附PDF)

图解丨麦肯锡式逻辑思考术思维导图

商业分析必备!280份麦肯锡、BCG、埃森哲等顶尖咨询公司项目案例

全球顶尖战略咨询公司麦肯锡的工作方法、经典报告、项目案例、经典书籍

不得不看的6部BBC纪录片,每一部都是经典神作(附下载)

收藏!300份麦肯锡中国案例分析报告和分析方法

收藏!2000部TED演讲视频合集,20年精华汇总!

百度内部培训资料PPT:数据分析的道与术(附源文件)

【干货】罗辑思维推荐书单全集,给大脑充电!

抖音最火快闪PPT模板,让你的PPT逼格提升

【干货】10本人工智能豆瓣高分书籍,AI大神都在看(附PDF)

【干货】67页PPT,终于把大数据大趋势讲清楚了

思维导图自学手册,让你更聪明地学习!

57套思维导图类PPT模板送给你,思路整理神器!

50大产业链全景图(高清完整版)

【干货】45G微信小程序开发合集 

【干货】2000本Kindle电子书免费领取

区块链豆瓣高分书单丨20本区块链必读书籍(附PDF)

阿里技术爆款电子书合辑,技术大牛必备!

120页高清汽车构造图解,太NB了!每个人都该看看

华为人力资源体系大曝光,看完感叹:太牛了!

阿里巴巴人力资源体系大曝光,马云:HR真惨!

腾讯人力资源体系全曝光,HR朋友圈都在传!

《梁宁·产品思维30讲》精华笔记:从一无所有,到整个世界

59本产品经理热门书籍,升职加薪必备!



科技▶

马斯克重大宣布,人类即将被彻底改造!

63套科技PPT模板,让你的PPT酷炫如科幻大片!

马斯克:人类极有可能活在更高文明模拟的矩阵游戏中

《麻省理工科技评论》发布全球十大突破性技术!

吴恩达《人工智能转型手册》,决战未来十年(附PDF)

史上最烧脑物理学科普,看完瞬间涨姿势!

Science公布:全世界最前沿的125个科学问题

【报告】阿里商业白皮书:每个企业都要变成一个数据公司

阿里120页PPT诠释国家“智能2.0”战略(附下载)

马斯克39页火星计划,也许是人类史上最伟大的PPT

罗兰贝格:中国人工智能创新应用白皮书

重磅!100大产业链全景图发布(附下载)

惊人的预测——来自麦肯锡报告《中国与世界》完整版

美国公布长达35页的《2016-2045年新兴科技趋势报告》

【干货】67页PPT,终于把大数据大趋势讲清楚

清华大学发布:人脸识别最全知识图谱

清华大学演讲:讲解人工智能技术与产业发展

AI人必看!89页全网最全清华知识图谱报告(附PDF)

理工男图解零维到十维空间,烧脑已过度,受不了啦!

BBC分析了365个职业,发现最不可能被机器淘汰的居然是……

终于有人把云计算、大数据和人工智能讲明白了!

德勤财务机器人正式上岗,效率相当惊人,财务人看完慌了··

麦肯锡预测2030年:1亿中国人面临职业转换,全球8亿人被机器人取代

数学大师丘成桐:中国的科技至少要倒退20年

中国科技真实底子,这篇文章讲透了!

中国芯片差在哪?这篇讲全了

工信部长:别嘚瑟了,看看全球科技实力排名,就知道中国还差多远

中科院教授:举国上下身陷功利漩涡,“核心技术”何来?创新何来!

中央高层智囊:深刻认识中国与日本发展的差距

美国人为什么不待见人脸识别技术?

中国这7位年轻人正在改变世界

如何用大数据构建精准用户画像?

不装X地说,在Google十年,到底学到啥?

又一位“海归”回美任教,临别赠言值千金

19个省市成立大数据局,智慧城市步伐加快

人脸识别哪家强?不如问哪家公司吹牛逼强

美国斯坦福大学发布2025计划, 创立"开环大学

刘慈欣随笔:永生的阶梯

《华为基本法》全文,难得一见,值得珍藏!

谁拥有和控制华为?华为官方披露股权结构与治理架构

大神爬了这些网站的数据,发现价值巨大!

用1.5米落差消灭电费!比利时发明家用水电站!60户家庭免费用上100年!

德勤发布:中国人工智能产业白皮书(附PDF)

德国人又火了!奥迪终于把球形轮胎造了出来…...

石油的惊世谎言,造就眼下电动车千亿骗局

麦肯锡发布:人工智能,下一个数字前沿研究报告

140亿岁的宇宙,多少文明存在又消亡过,为何没有文明通过虫洞找到我们?

不装X地说,在Google十年,到底学到啥?

美国斯坦福大学发布2025计划, 创立"开环大学", 彻底颠覆全球高等教育

清华硕士集体逃离北京!中科院科研人员的自白:我为什么离开北京

大数据分析5万首《全唐诗》,发现了这些秘密

爱因斯坦之后,科学停滞的困境远超我们想象

马斯克39页火星计划,也许是人类史上最伟大的PPT

【PPT】阿里研究院:新技术,新赛道,新物种

《华为基本法》全文,难得一见,值得珍藏!

《未来简史》完整版读书笔记(值得收藏)

IBM Watson大裁70% 员工,撕掉了国内大批伪AI企业最后一块遮羞布!

【PPT】孙正义:巨变即将到来,感觉睡觉都是浪费时间

淘汰语言!麻省理工发明“读心机”,这下全世界都安静了!

施一公:这种愚蠢的状况不变,中国高校和科研人员都将是免费为西方打工!

10分钟搞懂《今日简史》《人类简史》《未来简史》,让你颠覆认知!

一位放弃研发的工程师:中国对技术的藐视极不正常,句句在理!



互联网


终于有人把云计算、大数据和人工智能讲明白了!

中国互联网公司亏损能力排行榜

收藏!今日头条、抖音推荐算法原理全文详解

朋友圈大数据:你的朋友圈出卖了你

推荐收藏 | 100页精选PPT封面排版,助你高效搞定PPT

雄安为什么没动静了?清华教授道出实情!

中国互联网公司亏损能力排行榜

张一鸣:为什么BAT挖不走我们的人才?

程序员之间的十八层鄙视网络

40页PPT看懂麦肯锡的思考方式和沟通法则

几张图看懂高级经理人与普通管理者的区别

腾讯发布95页重磅报告:全面预测中国互联网

大神爬了这些网站的数据,发现价值巨大!

马云的妻子曝光,没有她就没有今天的阿里巴巴.....



职场▶

推荐收藏!阿里巴巴+腾讯+华为人力资源体系汇总

华为人力资源体系大曝光,看完感叹:太牛了!

阿里巴巴人力资源体系大曝光,马云:HR真惨!

Science期刊2019-2018合订本97本,限时领取!

几张图看懂高级经理人与普通管理者的区别

思维导图自学手册,让你更聪明地学习!

57套思维导图类PPT模板送给你,思路整理神器!

张一鸣:10年面试2000人,我发现混的好的人,全都有同一个特质

什么样的家庭出学霸?大数据研究颠覆你的常识

图解丨麦肯锡式逻辑思考术思维导图

腾讯人力资源体系全曝光,HR朋友圈都在传!

《梁宁·产品思维30讲》精华笔记:从一无所有,到整个世界

59本产品经理热门书籍,升职加薪必备!

《经济学人》2014-2019合集,涨姿势了!

喜大普奔!Adobe 2020 全套软件震撼发布(附全套安装包)

56岁才创业,如今年利润却是华为1.5倍

施一公最新专访:年轻人如果把钱作为奋斗目标,那就全完蛋了

扎克伯格做了26张PPT,员工效率提10倍,已被疯狂传阅!


其他▶

当北大博士都去了三流大学任教

华为为什么认可这四所大学?

可能我们之前了解的是一个假美国

德国:认真是一种可怕的力量

清华北大现任省部级校友名录

深度长文:中国产业大迁移全景图

北大出疯子,清华出傻子,人大出混混

地球上必定有个人跟你长得一模一样

中科院教授:举国上下身陷功利漩涡

你在的城市,决定了你的命运(深度)

剩男在村里,剩女在城里

香港世界格局深度解析,看这一篇就够了!

中国的街道都被“统一店招”毁了

在职场中,长得漂亮真的有用吗?

这是一篇分析香港世界格局最透彻的雄文

雄安为什么没动静了?清华教授道出实情!

数据揭秘:中国最有前途的30座城市

石油的惊世谎言,造就眼下电动车千亿骗局

我为什么建议你留在一线城市

100张经典信息可视化图表,让你脑洞大开

诺基亚:你以为他死了,其实他已重回世界第二

中国的榫卯,被日本人带到瑞士后,惊艳了全世界

被骗100年,大清的灭亡真的是武器落后的结果

那盆被骂30天的植物终于死了:语言到底多恐怖

北大数学天才柳智宇出家多年首次接受记者采访

华为人均工资高达70万,华为员工的15项标准

历劫不死的中华文明,第一次被整理的如此清晰

美国大数据下的中国女人,结果令人吃惊!



5G

100页精华PPT,帮你彻底看懂5G!

新基建深度报告:七大行业深度研究(附PDF)

重磅!《新基建产品手册》最新出炉(附PDF)

重磅!业内首份《“新基建”发展白皮书》发布(附PDF)

最新最全!图解新基建,细说新机遇「100页PPT」

任正非号召华为员工学习一份20页 5G PPT:认识5G,发展5G(附PDF)

17省首个5G基站开通,5G时代来临!

第一次有人把 5G 讲的这么简单明了

关于5G的原理,这张图全说清楚了

中国联通68个5G应用创新案例汇总(附下载)

55页中国电信5G行业场景案例集(附下载)

5G基站太强了,对智商低的人将造成永久伤害

推荐收藏丨关于5G最完整的PPT(附PDF)

华为发布:5G时代十大应用场景白皮书(附下载)

华为首席科学家告诉你:5G到底有哪些能力?

PPT | 一份来自华为内部的5G培训课件(附下载)

“5G+区块链”链融合发展与应用白皮书(附PDF)

洞见5G,投资未来:5G产业发展与投资报告重磅发布(附PPT)


区块链▶

《腾讯区块链方案白皮书》重磅发布(附全文)

【PPT】华为云区块链报告

张泉灵:区块链一天,互联网十年

哈佛商业评论:关于区块链的真相

工信部发布《区块链数据格式规范》标准

中国首个区块链标准《区块链参考架构》发布

《腾讯区块链方案白皮书》重磅发布(附全文)

高盛发布区块链报告:从理论到实践(中文版)







扫码进入知识分享社群

分享优质内容,让阅读有价值

  愿行者智,并智者行  

公众号后台回复“社群”, 加入社群








    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存