查看原文
其他

很可惜,2022年了,想得到高质量的搜索结果却只能这样...

砺心 阿虚同学 2022-05-22
前言
鲜有的、国内环境下真正实用的搜索引擎使用心得,可大幅提高你的搜索结果质量(本篇付费文章支持赠送)

阿虚同学

读完需要

20分钟

不建议速读

如果你经常用搜索引擎,想必经常会在你的搜索结果中频繁遇见同一类的垃圾站,比较出名的就是曾经惹来众怒的小X知识网、小Y百科网

这类网站其实都是依靠程序自动采集,自己不产出内容,却凭借针对性的SEO极力的提升在搜索引擎中的权重

当你直接在搜索引擎中查询电子书、电影、课件、电商产品、编程技术等内容时,便最容易遇见这类垃圾站

尤其是获取资源一类的网站,你通常会发现,你在它的网站内跳转来跳转去,最后可能填了很多验证码、甚至关注了公众号——却结果啥都没下载到

总之不论标题和风格如何,这种充斥着劣质信息的采集站,其实都有一个共同的名字——内容农场(Content farm)

别以为这些站长是闲着没事干,这个年代,只要有流量就能榨取利益。像这类能在各大搜索引擎搜索结果名列前茅的网站,流量一定不会低,仅凭借网站上的各类广告,多数站长也早就实现财务自由了——更别说这类内容农场一次性搞十多个复制站

本来原作者苦心撰写文章发布到自己博客/网站,却被垃圾站胡乱采集挤占原本该属于前者的搜索结果高位。真正创造价值的人得不到应有的报酬,反倒是垃圾制造者赚的盆满钵满——简直不可忍

抵制内容农场的最好做法便是不点链接、不查看,不要让他们获取到网站流量、提升搜索引擎排名、赚到广告收益

而能拦截内容农场的浏览器扩展如今有其实有很多, uBlacklist、The Content Farm Terminator!、Content Farm Blocker等等都行

但说实话我看很多其他作者分享的相关文章,都完全没有考虑到我国国情——国内是没有办法直接使用Google搜索的,但这类扩展却几乎都只能在Google搜索引擎上使用!

所以啊,阿虚今天便是想来分享一下我是如何基于国情来解决这个问题的

当然本文的核心目的是想教大家如何提高搜索质量&效率,所以后文也不止涉及上述一个方面的教程,如果你有心学习,欢迎继续往下看!

1

 

   

终结内容农场

呈上文,在众多拦截内容农场的浏览器扩展中,阿虚最终选用的是「终结内容农场」

1.1

 

  

扩展介绍&安装

这款浏览器扩展由我们的台湾同胞@Danny Lin开发,并开源在Github:https://github.com/danny0838/content-farm-terminator点开扫码

如果你访问Github困难,建议了解《2022 Github加速访问教程》

它会在你打开内容农场网页时弹出警告,让你离开这些网站

如果你强行要查看,点击「查看」按钮的同时扩展还可以帮你去除网页广告,如此既能满足好奇心又能封锁内容农场的收益——当这些网站长时间入不敷出,自然会选择关站

并且相比上文提到的 uBlacklist 等扩展,由于其是国人开发,最大的优势便是可以在百度上起作用!

同时在国内比较常用的必应上也能起作用

如果你哪天点进某个网站发现其就是一个内容农场,想要避免下次再碰到又浪费你的时间

你只需要在网站上右键就能将这个网站的域名加入到黑名单,下次这个域名再出现你的搜索结果中就会被加上红色感叹号了🛑

扩展安装地址:

  • Edge:https://microsoftedge.microsoft.com/addons/detail/fgckcfkpckemdnnejbbfkkchanedbeje点开扫码

  • Chrome:https://chrome.google.com/webstore/detail/content-farm-blocker/opjaibbmmpldcncnbbglondckfnokfpm点开扫码

  • Firefox:https://addons.mozilla.org/firefox/addon/block-content-farm点开扫码

  • Chrome国内可访问地址:https://www.crxsoso.com/webstore/detail/lcghoajegeldpfkfaejegfobkapnemjl点开扫码

  • Chrome国内可访问地址:https://www.gugeapps.net/webstore/detail/content-farm-terminator/lcghoajegeldpfkfaejegfobkapnemjl点开扫码

  • Chrome国内可访问地址:https://chrome.pictureknow.com/extension?id=1c0524d3b8dc4d649e215522ec3e983b点开扫码

↕上下滑动查看更多↕

如果你都还不知道怎么安装浏览器扩展的话,请参考这篇教程👈

1.2

 

  

添加黑名单

不过扩展安装完之后还没完,我们还需要添加一些黑名单列表才能实现更好的屏蔽效果

右键浏览器扩展栏「终结内容农场」的图标,点击扩展选项

然后你可以看到扩展默认内置了一个网络黑名单列表:https://danny0838.github.io/content-farm-terminator/files/blocklist/content-farms.txt

❶终结内容农场官方完整黑名单

不过这个列表仅是扩展官方提供的列表之一而已,完整的扩展列表在作者 Github 的另一个项目上:https://github.com/danny0838/content-farm-terminator/tree/gh-pages点开扫码

作者提供了:

  1. 标准内容农场清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/content-farms.txt点开扫码

  2. 类内容农场清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/nearly-content-farms.txt点开扫码

  3. 社群内容农场清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/sns-content-farms.txt点开扫码

  4. 假新闻网站清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/fake-news.txt点开扫码

  5. 诈骗网站清单:https://danny0838.github.io/content-farm-terminator/files/blocklist/scam-sites.txt点开扫码

而要添加这些列表的方式也很简单:右键下图所指处,复制链接,然后粘贴到上面的网络黑名单处即可(一行一个)

除了「假新闻网站清单」、「诈骗网站清单」有段时间没更新了,其他列表都在保持更新中!

并且这些清单来源于广大网友举报强烈建议大家都添加(在扩展选项中可以进行网站举报以添加到官方黑名单,不过举报功能使用的是谷歌表单,国内可能无法进行举报)

当然除了官方提供的黑名单,阿虚还建议大家添加以下黑名单

❷小 X 知识百科网清单

Github项目地址:https://github.com/dallaslu/penzai-list点开扫码

这个项目很单纯,就是屏蔽文章开头所说的「小 X 知识网」「小 X 百科网」这类网

在项目的使用说明中,可以看到作者给了清单地址,不过这里需要说明的是Github的 https://raw.githubusercontent.com 这个域名已经被🚫了

所以你不能直接订阅下面这串地址,你需要先在Github项目中具体到找到这个文件,即下图的黄色标注部分:

然后你需要安装此油猴脚本:https://greasyfork.org/zh-CN/scripts/412245点开扫码

接着在此项目的根目录中你其实就能找到这个文件,并且在安装了上面这个油猴脚本后,你就能看到下图这些文件加速地址了(鼠标移动上去可以在网页左下角看到地址预览)

虽然你是任选一个就能访问,但就目前而言,是建议大家订阅包含 jsdelivr.net、staticaly.com 的其中一个地址

比如你想订阅此项目,那直接将此链接添加到「终结内容农场」的网络黑名单即可:https://cdn.jsdelivr.net/gh/dallaslu/penzai-list@main/uBlacklist.txt点开扫码

当然如果你想长期使用,上文所述的如何手动获取加速地址你一定要会,阿虚后面就会改为直接给出Github项目地址+订阅链接国内加速地址了(不过加速地址就不能保证长期可用了)

❸中文搜索结果黑名单

Github项目地址:https://github.com/cobaltdisco/Google-Chinese-Results-Blocklist点开扫码

项目为作者自用的网络黑名单,主要由其自己使用 Google 搜索时收集(包括不少网友的分享),断断续续更新了4年,同时提供了两个订阅地址:

  1. 精确匹配(基本不会有误杀):https://cdn.jsdelivr.net/gh/cobaltdisco/Google-Chinese-Results-Blocklist@master/uBlacklist_subscription.txt

  2. 模糊匹配(存在小范围的误杀):https://cdn.jsdelivr.net/gh/cobaltdisco/Google-Chinese-Results-Blocklist@master/uBlacklist_match_patterns.txt

阿虚这里就建议大家只订阅「精确匹配」这个列表!

❹ublacklist-rules

Github项目地址:https://github.com/MisakaMikoto-35c5/ublacklist-rules点开扫码

此项目提供了3个清单

  1. content-farm.txt(清单中的网站大多为机器人爬虫网络采集而来的内容, 也可能包含一些人工撰写但质量低下的内容):https://cdn.jsdelivr.net/gh/MisakaMikoto-35c5/ublacklist-rules@master/content-farm.txt点开扫码

  2. bad-content.txt(清单中的网站大多为用户体验极其不友好的网站。如:禁止复制、复制需要登录、复制需要付费、屏蔽非 IDC 网络 / IDC 与普通用户混合网络等,这个清单也可能包含一些人工撰写但质量低下的内容):https://cdn.jsdelivr.net/gh/MisakaMikoto-35c5/ublacklist-rules@master/bad-content.txt点开扫码

  3. not-friendly-captcha.txt(清单中的网站大多为根据 IP 所在国家/地理位置 来屏蔽普通用户的网站且不能认定内容有区域版权限制。如:对某个特定国家的所有 IP 设置验证码墙、或是完全屏蔽某个国家):https://cdn.jsdelivr.net/gh/MisakaMikoto-35c5/ublacklist-rules@master/not-friendly-captcha.txt点开扫码

不过阿虚这里建议大家只订阅「content-farm.txt」这一个列表!

❺ublacklist-subscription

Gitee项目地址:https://gitee.com/mtgq/ublacklist-subscription点开扫码

作者自用阅规则,平常在使用谷歌搜索中文的时候碰到了垃圾网站就随手屏蔽 了,然后把这个地址再更新到此处

此项目发布在国内的 Gitee,不用担心被墙的问题,直接订阅此链接即可:https://gitee.com/mtgq/ublacklist-subscription/raw/master/uBlacklist.txt点开扫码

❻假编程知识网站

Gitee项目地址:https://gitee.com/ThrRip/fake-programming-knowledge-blacklist点开扫码

如果你经常搜一些电脑相关、编程相关的问题,那可以再订阅此项目,此项目为复制或翻译其他编程相关网站(例如 Stack Exchange、Stack Overflow 等)的网站的黑名单

此项目发布在国内的 Gitee,不用担心被墙的问题,直接订阅此链接即可:https://gitee.com/ThrRip/fake-programming-knowledge-blacklist/raw/master/personal-blocklist.txt点开扫码

 

没有什么都不解释直接推荐大家订阅这些地址,是希望大家能知其然也要知其所以然

要是哪天遇到问题,你才好进行排查——比如阿虚之前没太注意就订阅到了 Github 上 subscription compilation 这个项目提供的黑名单,结果这个黑名单的作者属于激进派,屏蔽了绝大部分中文搜索域名(百度知道、知乎等),阿虚也是挨着倒查订阅的列表才发现这个问题的

当然这个列表也并没有在上文推荐

 

2

 

   

Hit Hider by Domain

「终结内容农场」只能对搜索结果中的网站进行标注,但阿虚还是更建议你直接隐藏这些垃圾搜索结果——毕竟眼不见心不烦

这里用到是名为Hit Hider by Domain的一款油猴脚本:https://greasyfork.org/zh-CN/scripts/1682点开扫码

如果还不会安装油猴脚本,请自行复习这篇文章的第2点

这个脚本的优点在于除了Google,也支持百度、Bing等国内常用搜索引擎

安装好之后,你会发现你的每条搜索结果后面都出现了一个block按钮,点击这个按钮,即可选择:

  1. 要屏蔽顶级域还是子域(a.com即顶级域,b.a.com即子域,注意有些网站可能顶级域并不生产垃圾搜索结果,子域才是生产垃圾搜索结果)

  2. 选择是对来自此域名的搜索结果进行「半隐藏」还是「完全隐藏」

所谓半隐藏就是像下图所指处这样,会保留一条灰色的搜索结果链接,你点击的话则还是可以查看的

完全隐藏则就不说了吧——你将直接看不见来自其域名的所有搜索结果

然后简单说一下Hit Hider by Domain 的相关设置,点击暴力猴 » 找到 Hit Hider by Domain的设置按钮,其中最主要的便是屏蔽列表这个页面了

需要注意的是此脚本没有云同步功能,同时比较可惜的是也不支持订阅网络黑名单,所以大家只能自己保存好自己幸幸苦苦添加的屏蔽列表了

当然,由于都是域名列表,你其实也可以将「终结内容农场」的那些黑名单域名,直接导入到此脚本

不过之所以上面要先介绍「终结内容农场」,主要原因就是「Hit Hider by Domain」这个脚本不能订阅网络黑名单,所以相当于是:

  • 利用「终结内容农场」来订阅多个会更新的网络屏蔽列表

  • 在遇到有感叹号的搜索结果时手动用「Hit Hider by Domain」进行屏蔽

  • 以此变相来实现「Hit Hider by Domain」订阅网络屏蔽列表

如果你需要保存列表,请点击Export按钮

将会弹出这样一个页面,其中:

  • 左方除了屏蔽列表,还包含了你对一个域名具体设置的是半隐藏还是完全隐藏

  • 右边则仅是单纯的域名屏蔽列表

如果仅是保存供自己用,建议是复制左方窗口后自己新建一个txt文件粘贴保存

不过接下来要介绍的便是本文的重点了

上文也说了:此脚本仅支持谷歌、百度等搜索引擎,而如果你像阿虚一样,经常使用的是谷歌镜像(比如之前介绍的浙江大学提供的),就会发现这个脚本并没有办法生效

▲没有block按钮

亦或者你比较经常使用必应,你会发现其也没办法生效

▲没有block按钮

但是呢其实我们仅需要小小修改一下脚本,就能让此脚本生效了

另外为了搭配 Hit Hider by Domain,阿虚还研究出了众多可搭配的脚本、扩展,以此来实现更高效的搜索

如果你想再进一步提升自己的搜索体验,提高自己的搜索能力,欢迎付费学习以下内容。你将获得:

  1. 如何隐藏屏蔽谷歌镜像中的垃圾搜索结果

  2. 如何避免重复查看已查看过的搜索结果

  3. 如何屏蔽指定关键词(可随时增删)

  4. 如何屏蔽某一具体搜索结果

  5. 一份没有复制限制、可永久保存的教程原文

 

微信扫一扫付费阅读本文

可试读52%

微信扫一扫付费阅读本文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存