很可惜,2022年了,想得到高质量的搜索结果却只能这样...
阿虚同学
读完需要
20分钟不建议速读
如果你经常用搜索引擎,想必经常会在你的搜索结果中频繁遇见同一类的垃圾站,比较出名的就是曾经惹来众怒的小X知识网、小Y百科网
这类网站其实都是依靠程序自动采集,自己不产出内容,却凭借针对性的SEO极力的提升在搜索引擎中的权重
当你直接在搜索引擎中查询电子书、电影、课件、电商产品、编程技术等内容时,便最容易遇见这类垃圾站
尤其是获取资源一类的网站,你通常会发现,你在它的网站内跳转来跳转去,最后可能填了很多验证码、甚至关注了公众号——却结果啥都没下载到
总之不论标题和风格如何,这种充斥着劣质信息的采集站,其实都有一个共同的名字——内容农场(Content farm)
别以为这些站长是闲着没事干,这个年代,只要有流量就能榨取利益。像这类能在各大搜索引擎搜索结果名列前茅的网站,流量一定不会低,仅凭借网站上的各类广告,多数站长也早就实现财务自由了——更别说这类内容农场一次性搞十多个复制站
本来原作者苦心撰写文章发布到自己博客/网站,却被垃圾站胡乱采集挤占原本该属于前者的搜索结果高位。真正创造价值的人得不到应有的报酬,反倒是垃圾制造者赚的盆满钵满——简直不可忍
抵制内容农场的最好做法便是不点链接、不查看,不要让他们获取到网站流量、提升搜索引擎排名、赚到广告收益
而能拦截内容农场的浏览器扩展如今有其实有很多, uBlacklist、The Content Farm Terminator!、Content Farm Blocker等等都行
但说实话我看很多其他作者分享的相关文章,都完全没有考虑到我国国情——国内是没有办法直接使用Google搜索的,但这类扩展却几乎都只能在Google搜索引擎上使用!
所以啊,阿虚今天便是想来分享一下我是如何基于国情来解决这个问题的
当然本文的核心目的是想教大家如何提高搜索质量&效率,所以后文也不止涉及上述一个方面的教程,如果你有心学习,欢迎继续往下看!
1
终结内容农场
呈上文,在众多拦截内容农场的浏览器扩展中,阿虚最终选用的是「终结内容农场」
1.1
扩展介绍&安装
这款浏览器扩展由我们的台湾同胞@Danny Lin开发,并开源在Github:https://github.com/danny0838/content-farm-terminator
如果你访问Github困难,建议了解《2022 Github加速访问教程》
它会在你打开内容农场网页时弹出警告,让你离开这些网站
如果你强行要查看,点击「查看」按钮的同时扩展还可以帮你去除网页广告,如此既能满足好奇心又能封锁内容农场的收益——当这些网站长时间入不敷出,自然会选择关站
并且相比上文提到的 uBlacklist 等扩展,由于其是国人开发,最大的优势便是可以在百度上起作用!
同时在国内比较常用的必应上也能起作用
如果你哪天点进某个网站发现其就是一个内容农场,想要避免下次再碰到又浪费你的时间
你只需要在网站上右键就能将这个网站的域名加入到黑名单,下次这个域名再出现你的搜索结果中就会被加上红色感叹号了🛑
扩展安装地址:
Edge:https://microsoftedge.microsoft.com/addons/detail/fgckcfkpckemdnnejbbfkkchanedbeje
Chrome:https://chrome.google.com/webstore/detail/content-farm-blocker/opjaibbmmpldcncnbbglondckfnokfpm
Firefox:https://addons.mozilla.org/firefox/addon/block-content-farm
Chrome国内可访问地址:https://www.crxsoso.com/webstore/detail/lcghoajegeldpfkfaejegfobkapnemjl
Chrome国内可访问地址:https://www.gugeapps.net/webstore/detail/content-farm-terminator/lcghoajegeldpfkfaejegfobkapnemjl
Chrome国内可访问地址:https://chrome.pictureknow.com/extension?id=1c0524d3b8dc4d649e215522ec3e983b
↕上下滑动查看更多↕
如果你都还不知道怎么安装浏览器扩展的话,请参考这篇教程👈
1.2
添加黑名单
不过扩展安装完之后还没完,我们还需要添加一些黑名单列表才能实现更好的屏蔽效果
右键浏览器扩展栏「终结内容农场」的图标,点击扩展选项
然后你可以看到扩展默认内置了一个网络黑名单列表:https://danny0838.github.io/content-farm-terminator/files/blocklist/content-farms.txt
❶终结内容农场官方完整黑名单
不过这个列表仅是扩展官方提供的列表之一而已,完整的扩展列表在作者 Github 的另一个项目上:https://github.com/danny0838/content-farm-terminator/tree/gh-pages
作者提供了:
标准内容农场清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/content-farms.txt
类内容农场清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/nearly-content-farms.txt
社群内容农场清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/sns-content-farms.txt
假新闻网站清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/fake-news.txt
诈骗网站清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/scam-sites.txt
而要添加这些列表的方式也很简单:右键下图所指处,复制链接,然后粘贴到上面的网络黑名单处即可(一行一个)
除了「假新闻网站清单」、「诈骗网站清单」有段时间没更新了,其他列表都在保持更新中!
并且这些清单来源于广大网友举报强烈建议大家都添加(在扩展选项中可以进行网站举报以添加到官方黑名单,不过举报功能使用的是谷歌表单,国内可能无法进行举报)
当然除了官方提供的黑名单,阿虚还建议大家添加以下黑名单
❷小 X 知识百科网清单
Github项目地址:https://github.com/dallaslu/penzai-list
这个项目很单纯,就是屏蔽文章开头所说的「小 X 知识网」「小 X 百科网」这类网
在项目的使用说明中,可以看到作者给了清单地址,不过这里需要说明的是Github的 https://raw.githubusercontent.com 这个域名已经被🚫了
所以你不能直接订阅下面这串地址,你需要先在Github项目中具体到找到这个文件,即下图的黄色标注部分:
然后你需要安装此油猴脚本:https://greasyfork.org/zh-CN/scripts/412245
接着在此项目的根目录中你其实就能找到这个文件,并且在安装了上面这个油猴脚本后,你就能看到下图这些文件加速地址了(鼠标移动上去可以在网页左下角看到地址预览)
虽然你是任选一个就能访问,但就目前而言,是建议大家订阅包含 jsdelivr.net、staticaly.com 的其中一个地址
比如你想订阅此项目,那直接将此链接添加到「终结内容农场」的网络黑名单即可:https://cdn.jsdelivr.net/gh/dallaslu/penzai-list@main/uBlacklist.txt
当然如果你想长期使用,上文所述的如何手动获取加速地址你一定要会,阿虚后面就会改为直接给出Github项目地址+订阅链接国内加速地址了(不过加速地址就不能保证长期可用了)
❸中文搜索结果黑名单
Github项目地址:https://github.com/cobaltdisco/Google-Chinese-Results-Blocklist
项目为作者自用的网络黑名单,主要由其自己使用 Google 搜索时收集(包括不少网友的分享),断断续续更新了4年,同时提供了两个订阅地址:
精确匹配(基本不会有误杀):https://cdn.jsdelivr.net/gh/cobaltdisco/Google-Chinese-Results-Blocklist@master/uBlacklist_subscription.txt
模糊匹配(存在小范围的误杀):https://cdn.jsdelivr.net/gh/cobaltdisco/Google-Chinese-Results-Blocklist@master/uBlacklist_match_patterns.txt
阿虚这里就建议大家只订阅「精确匹配」这个列表!
❹ublacklist-rules
Github项目地址:https://github.com/MisakaMikoto-35c5/ublacklist-rules
此项目提供了3个清单
content-farm.txt(清单中的网站大多为机器人爬虫网络采集而来的内容, 也可能包含一些人工撰写但质量低下的内容):https://cdn.jsdelivr.net/gh/MisakaMikoto-35c5/ublacklist-rules@master/content-farm.txt
bad-content.txt(清单中的网站大多为用户体验极其不友好的网站。如:禁止复制、复制需要登录、复制需要付费、屏蔽非 IDC 网络 / IDC 与普通用户混合网络等,这个清单也可能包含一些人工撰写但质量低下的内容):https://cdn.jsdelivr.net/gh/MisakaMikoto-35c5/ublacklist-rules@master/bad-content.txt
not-friendly-captcha.txt(清单中的网站大多为根据 IP 所在国家/地理位置 来屏蔽普通用户的网站且不能认定内容有区域版权限制。如:对某个特定国家的所有 IP 设置验证码墙、或是完全屏蔽某个国家):https://cdn.jsdelivr.net/gh/MisakaMikoto-35c5/ublacklist-rules@master/not-friendly-captcha.txt
不过阿虚这里建议大家只订阅「content-farm.txt」这一个列表!
❺ublacklist-subscription
Gitee项目地址:https://gitee.com/mtgq/ublacklist-subscription
作者自用阅规则,平常在使用谷歌搜索中文的时候碰到了垃圾网站就随手屏蔽 了,然后把这个地址再更新到此处
此项目发布在国内的 Gitee,不用担心被墙的问题,直接订阅此链接即可:https://gitee.com/mtgq/ublacklist-subscription/raw/master/uBlacklist.txt
❻假编程知识网站
Gitee项目地址:https://gitee.com/ThrRip/fake-programming-knowledge-blacklist
如果你经常搜一些电脑相关、编程相关的问题,那可以再订阅此项目,此项目为复制或翻译其他编程相关网站(例如 Stack Exchange、Stack Overflow 等)的网站的黑名单
此项目发布在国内的 Gitee,不用担心被墙的问题,直接订阅此链接即可:https://gitee.com/ThrRip/fake-programming-knowledge-blacklist/raw/master/personal-blocklist.txt
没有什么都不解释直接推荐大家订阅这些地址,是希望大家能知其然也要知其所以然
要是哪天遇到问题,你才好进行排查——比如阿虚之前没太注意就订阅到了 Github 上 subscription compilation 这个项目提供的黑名单,结果这个黑名单的作者属于激进派,屏蔽了绝大部分中文搜索域名(百度知道、知乎等)
,阿虚也是挨着倒查订阅的列表才发现这个问题的
当然这个列表也并没有在上文推荐
2
Hit Hider by Domain
「终结内容农场」只能对搜索结果中的网站进行标注,但阿虚还是更建议你直接隐藏这些垃圾搜索结果——毕竟眼不见心不烦
这里用到是名为Hit Hider by Domain的一款油猴脚本:https://greasyfork.org/zh-CN/scripts/1682
如果还不会安装油猴脚本,请自行复习这篇文章的第2点
这个脚本的优点在于除了Google,也支持百度、Bing等国内常用搜索引擎
安装好之后,你会发现你的每条搜索结果后面都出现了一个block按钮,点击这个按钮,即可选择:
要屏蔽顶级域还是子域(a.com即顶级域,b.a.com即子域,注意有些网站可能顶级域并不生产垃圾搜索结果,子域才是生产垃圾搜索结果)
选择是对来自此域名的搜索结果进行「半隐藏」还是「完全隐藏」
所谓半隐藏就是像下图所指处这样,会保留一条灰色的搜索结果链接,你点击的话则还是可以查看的
完全隐藏则就不说了吧——你将直接看不见来自其域名的所有搜索结果
然后简单说一下Hit Hider by Domain 的相关设置,点击暴力猴 » 找到 Hit Hider by Domain的设置按钮,其中最主要的便是屏蔽列表这个页面了
需要注意的是此脚本没有云同步功能,同时比较可惜的是也不支持订阅网络黑名单,所以大家只能自己保存好自己幸幸苦苦添加的屏蔽列表了
当然,由于都是域名列表,你其实也可以将「终结内容农场」的那些黑名单域名,直接导入到此脚本
不过之所以上面要先介绍「终结内容农场」,主要原因就是「Hit Hider by Domain」这个脚本不能订阅网络黑名单,所以相当于是:
利用「终结内容农场」来订阅多个会更新的网络屏蔽列表
在遇到有感叹号的搜索结果时手动用「Hit Hider by Domain」进行屏蔽
以此变相来实现「Hit Hider by Domain」订阅网络屏蔽列表
如果你需要保存列表,请点击Export按钮
将会弹出这样一个页面,其中:
左方除了屏蔽列表,还包含了你对一个域名具体设置的是半隐藏还是完全隐藏
右边则仅是单纯的域名屏蔽列表
如果仅是保存供自己用,建议是复制左方窗口后自己新建一个txt文件粘贴保存
不过接下来要介绍的便是本文的重点了
上文也说了:此脚本仅支持谷歌、百度等搜索引擎,而如果你像阿虚一样,经常使用的是谷歌镜像(比如之前介绍的浙江大学提供的),就会发现这个脚本并没有办法生效
▲没有block按钮
亦或者你比较经常使用必应,你会发现其也没办法生效
▲没有block按钮
但是呢其实我们仅需要小小修改一下脚本,就能让此脚本生效了
另外为了搭配 Hit Hider by Domain,阿虚还研究出了众多可搭配的脚本、扩展,以此来实现更高效的搜索
如果你想再进一步提升自己的搜索体验,提高自己的搜索能力,欢迎付费学习以下内容。你将获得:
如何隐藏屏蔽谷歌镜像中的垃圾搜索结果
如何避免重复查看已查看过的搜索结果
如何屏蔽指定关键词(可随时增删)
如何屏蔽某一具体搜索结果
一份没有复制限制、可永久保存的教程原文
可试读52%