爬取东方财富网当日股票交易情况
本文作者:左从江(投稿)
文字编辑:钱梦璇
东方财富网股票行情界面如图:
此页面的链接为:
http://quote.eastmoney.com/center/gridlist.html#hs_a_board
在浏览器地址栏内输入此链接可以正常访问,但是通过requests库请求并没有得到关于股票行情的数据,在任意股票上右击查看源码,发现网站把数据储存在json对象中:
通过搜索某一只股票的名称,找到对应的地址,所有股票的信息都保存在了这个链接指向的对象中:
url:
http://98.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124034962033822322613_1582007856997&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1582007856998
粘贴到地址栏,我们发现返回了20条股票信息,查看url的组成,存在一项“pz=20”的句子,大胆猜测这表示返回20条信息,如果改成20000是否会返回更多数据呢?
尝试后,确实如假设所想,返回了3912条股票数据(沪深A股总的数量),至此,我们得到了数据的存放地址,通过requests库可以直接返回json数据,这实在是太方便了。
import requests,re,json
from bs4 import BeautifulSoup
import pandas as pd
#指定连接
url = r'http://21.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112407201580659678162_1581950914193&pn=1&pz=20000&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1581950914194'
#定义请求头
headers = {'UserAgent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
#获取数据
html=requests.get(url,headers = headers)
查看返回的信息,发现我们需要的数据储存在"diff"这个列表中,或者说是在json数据的第6个元素中,但是与干净的json数据不同,这里前多了42个字符,后多了2个字符,因此需要删除多余字符,否则json将无法解析。
#提取json数据
jsons = html.text[42:-2]
#将正确格式的str格式转为json格式
text_json = json.loads(jsons)
#利用pandas储存数据到excel
pd.DataFrame((text_json['data']['diff'])).to_excel(r'Path\abc.xlsx')
初步的结果如上图所示,标题并不直观,需要重新定义,因此,在东财网站中检查“名称”这一项的源码,可以找到各“fxx”的含义,而且通过重新定义请求链接,我们可以控制返回数据的类型,也即:删除不需要的列。
标题行数据的储存地址:
http://quote.eastmoney.com/center/js/gridlist3.min.js?v=200115170204531&v=ckdJ099tmGa5K6pqPzMnueRq_2nTrq8DkG9r0SZ0xtg
按照json格式解析后,可以得到:
上图是标题行代码的含义(fxx),按照此表查询可以定制请求链接,按照需求返回股票信息。
最终经过整理,得到Excel如图:
至此完成了东财网站的每日股票交易数据的爬取过程。
NBA球员薪资分析——基于随机森林算法(二)
关于我们
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。