查看原文
其他

2024年AI+爬虫指南:使用JinaAI、FireCrawl、Crawl4AI(别用Beautiful Soup了)

Aitrainee AI进修生
2024-12-28
Aitrainee | 公众号:AI进修生

🌟了解如何使用 Beautiful Soup、Jena AI 的 Reader API 和 Mendable 的 Firecrawl 从网页和 PDF 中抓取数据。

Hello,大家好,欢迎观看本期新文章,

在这篇文章中,我们将介绍多种数据抓取工具,包括开源、免费和付费的工具,帮助你从网页中提取数据。众所周知,大型语言模型(LLMs)需要大量数据,而这些数据大部分来自网页。

网页数据的问题在于其复杂性和无结构性,包含大量噪音、格式不一致的信息以及大量无关内容。

为了正确解析这些数据,通常需要将HTML转换为Markdown。传统上,人们使用Beautiful Soup这样的工具,根据HTML标签提取内容,如表格、图片和链接等。

然而,为了有效地从网页提取内容,你需要编写复杂的规则和正则表达式,这样的过程非常繁琐。

这就引出了使用LLMs处理HTML文档的优势。通过训练LLMs理解HTML标签和结构,你可以高效地从HTML文件中提取数据或内容。

因此,今天的文章将展示一些不同的工具,包括完全免费但不开源的工具、付费工具,以及一些完全开源的工具,帮助你从HTML文档中进行数据抓取。

首先,我们来看一下BeautifulSoup作为基础工具的代码示例。你需要安装requests和BeautifulSoup包,并编写Python函数来从给定的URL抓取数据。

通过requests库读取数据,再用BeautifulSoup解析并返回最终的字符串输出。作为第一个测试,我们使用Hugging Face的博客文章来演示数据抓取。结果显示为HTML代码,需要后续使用正则表达式处理以提取具体内容。这种方法需要针对网页的复杂性编写手工规则,非常耗时。

第二个测试是从网页中抓取PDF文件的数据。使用BeautifulSoup抓取PDF文件时,输出的内容非常混乱,难以直接处理。

这时,我们可以使用一个更简单且效果更好的解决方案——Jina AI的Reader API。

你只需在基础URL上添加你的URL,它就能为你抓取网页内容。这个工具不仅支持免费使用,还能处理PDF文件,并能生成结构良好的Markdown输出。Reader API的优点在于其易用性和高质量的输出,甚至能够处理数学公式和代码片段。

除了Jina AI,我们还介绍了另一个名为FireCrawl的工具,这是由Mendable公司开发的。它提供免费额度,可以本地运行。使用它只需提供URL并点击运行,即可得到格式良好的Markdown。

将网站转变为大模型训练数据的神器:自动化爬虫工具FireCrawl,两周斩获4K Star!

同样,它也需要API密钥来提高速率限制。FireCrawl提供了一个在线平台,用户可以输入URL并运行数据抓取,得到结构化的Markdown文件。这个工具同样支持处理PDF文件,但效果不如Jina AI的Reader API。

此外,还有两个值得一提的项目是Scrape Graph AI和Crawl4AI。Scrape Graph AI结合了网页抓取和知识图谱,可以基于抓取的数据创建RAG应用。

当AI遇上爬虫:ScrapeGraphAI结合LLM实现前所未有的网页抓取效率,一言即搜!

这个项目有详细的GitHub文档,Crawl4AI则支持多种提取策略和运行JS脚本,不仅可以抓取数据,还能基于抓取的数据构建LLM应用。这个工具由Uncle Code开发,开源并免费使用,非常适合需要更高级数据处理功能的用户。

这些工具将为你的项目提供一个良好的起点。感谢观看,下期再见。

参考链接:
[1]https://jina.ai/reader/ 
[2]https : //www.firecrawl.dev/ 

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

继续滑动看下一个
AI进修生
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存