数据治理 | 数据采集实战：动态网页数据采集

Original 企研数据数据Seminar 2022-12-31

我们将在数据治理板块中推出一系列原创推文，帮助读者搭建一个完整的社科研究数据治理软硬件体系。该板块将涉及以下几个模块：
1. 计算机基础知识
(1) 社科研究软硬件体系搭建——虚拟化技术概述与实践
2. 编程基础
(1) 数据治理 | 带你学Python之环境搭建与基础数据类型介绍篇
(2) 数据治理 | 带你学Python之控制结构与函数
(3) 数据治理 | 带你学Python之面向对象编程基础
(4) 数据治理 | 还在用Excel做数据分析呢？SQL它不香吗
(5) 数据治理 | 普通社科人如何学习SQL？一篇文章给您说明白
(6) 数据治理 | 如何实现SQL数据库的横向匹配
3. 数据采集
(1) 数据治理 | 快速get数据采集技能：理论知识篇
(2) 数据治理 | 数据采集实战：静态网页数据采集
(3) 本期内容：数据治理 | 数据采集实战：动态网页数据采集
4. 数据存储
(1) 安装篇：数据治理 | 遇到海量数据stata卡死怎么办？这一数据处理利器要掌握
(2) 管理篇： 数据治理 | 多人协同处理数据担心不安全？学会这一招，轻松管理你的数据团队
(3) 数据导入： 数据治理 | “把大象装进冰箱的第二步”：海量微观数据如何“塞进”数据库？
(4) 数据治理｜Stata如何直连关系型数据库
5. 数据清洗
6. 数据实验室搭建

Part1引言

我们上一篇推文数据采集实战：静态网页数据采集中，已经讲解了静态网页的采集方法，本文我们介绍动态网页采集的方法。

本文采集的示例网站为：https://www.xfz.cn/，我们的目标是将网页中指定的文本信息采集下来并保存。

完整的代码请见文末附件！

Part2什么是动态网页

通常情况下，我们要提取的数据并不在我们下载到的HTML源代码中。举个例子，我们在刷QQ空间或者微博评论的时候，一直往下刷，网页在不刷新的情况下会越来越长，内容也越来越多。

具体而言，当在我们浏览网站的时候，更具用户的实际操作（如鼠标滚轮下滑加载内容），不断的向服务器发起请求，并将请求回来的数据利用JavaScript技术，将新的内容添加到网页中。以百度图片为例子：https://image.baidu.com/ ，我们进入百度图片之后，搜索我们想要查找的图片进行搜索，随后不断地下滑页面，我们会看到网页中不断有图片加载出来，但是网页并没有刷新，这就动态加载页面。

Part3手动采集的操作步骤

本文采集的示例网站为：https://www.xfz.cn/ ，内容如下图所示：

假设我们需要采集的内容有：文章的标题、关键词、发布日期和详情链接这4部分内容，对于标题、关键词、发布日期这3个信息我们在列表页中就可以看到。对于详情链接，我们还需要在网站上点击指定详情页之后，才能采集，如下图：

假设我们想要采集的内容有很多，光靠手动采集的操作会浪费大量的时间，所以我们可以利用Python自动化采集数据。

Part4自动采集的操作步骤

（一）分析动态加载的页面

在不刷新网页的情况下，该网站是需要点击网页末尾的 <查看更多> 按钮，才会加载新的数据，如下图所示：

我们打开开发者工具（谷歌浏览器按F12），点击过滤器XHR，然后多次点击网页最下方 <查看更多> 按钮进行内容的加载，我们可以看到，每次点击按钮之后，就能抓到一个包，我们查看抓包的信息，就能发现，该请求返回的响应内容里面就有我们想要的数据，实际的操作如下图：

网页中显示的内容：

所以我们可以直接请求该接口来获取我们想要的数据，我们先将这三个不同请求的URL提取出来，如下所示：

第2页：https://www.xfz.cn/api/website/articles/?p=2&n=20&type=
第3页：https://www.xfz.cn/api/website/articles/?p=3&n=20&type=
第4页：https://www.xfz.cn/api/website/articles/?p=4&n=20&type=

Tip： https://www.xfz.cn/api/website/articles/?p=2&n=20&type=，该URL是GET请求带参数的情况，域名和参数之间用 ? 隔开，每个参数之间用 & 间隔。

我们观察每一页的URL参数的变化，发现在三个参数里面 p 为变化的参数，每点击一次， p 就自增1，所以 p 参数跟翻页有关，我们可以通过修改p参数，来访问不同页面的信息内容，我们也可以推断出，当p参数的值为1的时候，就是请求网站第1页的内容。

（二）代码实现

1. 请求页面并解析数据

import requests
import time

for page in range(1, 6):  # 获取5页数据
    # 利用format构造URL
    url = 'https://www.xfz.cn/api/website/articles/?p={}&n=20&type='.format(page)
    # 发送请求获取响应
    res = requests.get(url=url)
    # 将响应的json格式字符串,解析成为Python字典格式
    info_dic = res.json()
    # 提取我们想要的数据,并格式化输出
    for info in info_dic['data']:
        result = {
            'title': info['title'],
            'date': info['time'],
            'keywords': '-'.join(info['keywords']),
            'href': 'https://www.xfz.cn/post/' + str(info['uid']) + '.html'
        }
        print(result)
    time.sleep(1)  # 控制访问频率

执行结果（部分）：

{'title': '「分贝通」完成C+轮1.4亿美元融资', 'date': '2022-02-17 10:17:13', 'keywords': '分贝通-DST Global', 'href': 'https://www.xfz.cn/post/10415.html'}
{'title': '「塬数科技」完成近亿元A轮融资，凡卓资本担任独家财务顾问', 'date': '2022-02-15 10:17:42', 'keywords': '塬数科技-凡卓资本-晨山资本-博将资本', 'href': 'https://www.xfz.cn/post/10412.html'}
{'title': '「BUD」获1500万美元A+轮融资', 'date': '2022-02-14 10:15:35', 'keywords': '启明创投-源码资本-GGV纪源资本-云九资本', 'href': 'https://www.xfz.cn/post/10411.html'}
{'title': '以图计算引擎切入千亿级数据分析市场，它要让人人成为分析师，能否造就国内百亿级黑马', 'date': '2022-02-10 11:04:52', 'keywords': '欧拉认知智能-新一代BI', 'href': 'https://www.xfz.cn/post/10410.html'}
{'title': '前有Rivian市值千亿，后有经纬、博原频频押注，滑板底盘赛道将诞生新巨头？丨什么值得投', 'date': '2022-02-09 11:51:36', 'keywords': '什么值得投', 'href': 'https://www.xfz.cn/post/10409.html'}

2. 保存到本地csv

我们在原先的代码基础上，添加一点内容，将我们爬取下来的内容保存到CSV文件中，保存到CSV文件的方法有许多种，这边采用 pandas 第三方模块来实现，需要 pip install pandas 进行安装。

import requests
import time
import pandas as pd  # 导入模块

# 创建一个数据集,用来保存数据
data_set = [
    ('标题', '日期', '关键词', '详情链接'),  # 这边先定义头部内容
]
for page in range(1, 6):  # 获取5页数据
    # 利用format构造URL
    url = 'https://www.xfz.cn/api/website/articles/?p={}&n=20&type='.format(page)
    # 发送请求获取响应
    res = requests.get(url=url)
    # 将响应的json格式字符串,解析成为Python字典格式
    info_dic = res.json()
    # 提取我们想要的数据,并格式化输出
    for info in info_dic['data']:
        result = {
            'title': info['title'],
            'date': info['time'],
            'keywords': '/'.join(info['keywords']),  # 关键词会含有多个,每个关键词用斜杠隔开
            'href': 'https://www.xfz.cn/post/' + str(info['uid']) + '.html'  # 构造详情页url
        }
        # 获取字典里面的值,并转换成列表
        info_list = list(result.values())
        # 添加到数据集
        data_set.append(info_list)
    time.sleep(1)  # 控制访问频率

# 保存成为csv文件
df = pd.DataFrame(data_set)
df.to_csv('xfz.csv', mode='a', encoding='utf-8-sig', header=False, index=False)

执行结果（部分）：

Part5总结

文本讲述了动态网站数据采集基本流程与方法，结合我们上一期讲的静态网页数据的采集实战，相信大家已经掌握了数据采集的基本技能。那么数据采集回来如何处理呢？敬请期待下期推文：Python数据处理基本方法。

附件：get_web_data.py

import requests
import time
import pandas as pd  # 导入模块

# 创建一个数据集,用来保存数据
data_set = [
    ('标题', '日期', '关键词', '详情链接'),  # 这边先定义头部内容
]
for page in range(1, 6):  # 获取5页数据
    # 利用format构造URL
    url = 'https://www.xfz.cn/api/website/articles/?p={}&n=20&type='.format(page)
    # 发送请求获取响应
    res = requests.get(url=url)
    # 将响应的json格式字符串,解析成为Python字典格式
    info_dic = res.json()
    # 提取我们想要的数据,并格式化输出
    for info in info_dic['data']:
        result = {
            'title': info['title'],
            'date': info['time'],
            'keywords': '/'.join(info['keywords']),  # 关键词会含有多个,每个关键词用斜杠隔开
            'href': 'https://www.xfz.cn/post/' + str(info['uid']) + '.html'  # 构造详情页url
        }
        # 获取字典里面的值,并转换成列表
        info_list = list(result.values())
        # 添加到数据集
        data_set.append(info_list)
    time.sleep(1)  # 控制访问频率

# 保存成为csv文件
df = pd.DataFrame(data_set)
df.to_csv('xfz.csv', mode='a', encoding='utf-8-sig', header=False, index=False)

星标⭐我们不迷路！想要文章及时到，文末“在看”少不了！

点击搜索你感兴趣的内容吧

往期推荐

加入社群 | 一个免费分享数据的中国学术大数据社群（文末有彩蛋）

数据资源 | 能助你拿下2022国家项目的数据（一）！

数据资源 | 正式上线！农业产业化国家重点龙头企业面板名录

统计计量 | fect：基于面板数据的因果推断（下）-T218b

统计计量 | fect：基于面板数据的因果推断（上）-T218a

数据治理 | 数据采集实战：动态网页数据采集

数据资源 | 冬奥火热进行中，企研又双叒叕送数据，体育产业数据等你来拿！

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

文 | 《大数据时代社科研究数据治理实务手册》

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

收录

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

数据治理 | 数据采集实战：动态网页数据采集

1. 计算机基础知识

2. 编程基础

3. 数据采集

4. 数据存储

5. 数据清洗

6. 数据实验室搭建

Part1引言

Part2什么是动态网页

Part3手动采集的操作步骤

Part4自动采集的操作步骤

（一）分析动态加载的页面

（二）代码实现

1. 请求页面并解析数据

2. 保存到本地csv

Part5总结

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

生成图片，分享到微信朋友圈

数据治理 | 数据采集实战：动态网页数据采集

1. 计算机基础知识

2. 编程基础

3. 数据采集

4. 数据存储

5. 数据清洗

6. 数据实验室搭建

Part1引言

Part2什么是动态网页

Part3手动采集的操作步骤

Part4自动采集的操作步骤

（一）分析动态加载的页面

（二）代码实现

1. 请求页面并解析数据

2. 保存到本地csv

Part5总结

您可能也对以下帖子感兴趣