查看原文
其他

不想被OPENAI白嫖:纽约时报网站封杀GPT爬虫

山外的鸭子哥 蓝点网 2023-09-03

8 月 7 日 OPENAI 公布自己的互联网爬虫 GPTBot,该爬虫是 OPENAI 用来在全网抓爬内容然后训练 AI 模型用的。尽管多数网站允许 GPTBot 抓爬内容,不过也有些网站并不想给 OPENAI 白嫖,所以在 robots.txt 文件里屏蔽了 GPTBot。

比如知名新闻媒体《纽约时报》就在网站上封禁 GPTBot,禁止该爬虫访问纽约时报网站的任何内容,包括首页信息摘要等。

互联网档案馆的存档显示,纽约时报大约是在 8 月 17 日修改 robots.txt 文件屏蔽 GPTBot 的,而在稍早的时候纽约时报则修改了服务条款,明确禁止任何公司抓取其内容用来训练人工智能模型,所以之后修改 robots.txt 协议禁止 GPTBot 也倒是可以理解。

纽约时报与 OPENAI 矛盾还是挺深的,上个月纽约时报就表示正在考虑对 OPENAI 提起法律诉讼,因为 OPENAI 侵犯了纽约时报的版权。还有两名作者也在 7 月起诉了 OPENAI,因为 OPENAI 拿他们的作品训练 GPT 模型。

对于修改 robots.txt 阻止 OPENAI 抓爬这事儿,纽约时报拒绝置评,OPENAI 则没有回复置评请求。

最后:如果你也想控制 GPTBot 的抓爬,可以在你网站的 robots.txt 文件中加入指令,例如完全禁止 GPTBot 或允许 GPTBot 抓取一部分内容。

QQ出现高危漏洞 请提高警惕

谷歌消息将支持卫星通信

字节跳动推出AI模型「豆包」

闪迪硬盘数据丢失问题引发集体诉讼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存