查看原文
其他

资源获取 | 八爪鱼,没有编程基础也能爬虫

金易 信息化教学创新 2022-08-16

点击上方  信息化教学创新  订阅本刊


大数据时代,教学内容、学情数据、教情数据、教研数据等一系列与教学相关的网络数据千千万。智能时代的好老师,你是否想过从中获取和洞悉帮助教学相长的“数据宝藏”?但众多一线教师苦于不会编程,一直无法将对教学有用的数据加以利用。


不懂编程,甚至没有任何编程基础,照样能够将数据照单全收。小编今天将为大家介绍一款适合小白的数据爬取工具——八爪鱼采集器,以如何爬取教师论坛在线教研形式的数据为演示案例,教你快速将想要的数据尽入囊中~


工具介绍


八爪鱼采集器

https://www.bazhuayu.com/

八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。


数据爬取过程



1. 下载并打开八爪鱼采集器,输入要爬取的网站,点击开始采集,系统将自动识别网站,并爬取相应的列表。


输入网址,点击开始采集


识别解析网站数据


2. 根据采集操作提示,并通过切换识别结果,找到所需要的识别结果,生成采集设置


生成采集设置


3. 生成的数据表名称比较混乱,可以自己根据需要进行调整或删除。例如案例中的发帖人与发帖时间,可以稍作命名。


调整数据表名称


4. 查看采集流程图是否正确,有无采集到所需的数据,确认后可以点击采集。本案例中的整体流程是“打开网页”,“提取列表数据”,“点击列表数据”,“提取数据”,“点击翻页”,后续不断进行循环翻页,直至采集完全部论坛内容。数据量不大或者电脑设备较好的情况下一般选用本地采集即可。


查看采集流程图


选择本地采集


采集过程


一般这个数据量还是比较大的

等待的时间会比较长~


5. 采集完成后,选择导出为Excel数据表即可。


导出为Excel数据表


3858条在线教研论坛数据



数据千万条,会用第一条


智能时代,八爪鱼这类工具让没有编程基础的我们也能实现爬虫,以自动化、规范化的形式采集数据,摆脱对人工搜索及收集数据的依赖。那么在收集到庞大数据后,我们就更应该善用数据为教学提供最好的数据服务支持。


下一期,我们就聊聊教师的数据素养这点事,记得关注我不要走丢哇~



● 推荐阅读 ●

★ 星标置顶 ★

置顶我更快看到新推文


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存