查看原文
其他

搜索,你该知道的事儿!

咪咪怪 咪哥杂谈 2019-10-30
咪哥杂谈

搜索

你该知道的事儿!


本篇阅读时间约为 5 分钟。


1

前言


Hello,Everyone....有一天以文字的形式给大家说了一下,现在主要的搜索引擎资源。


2月28号写到:


第一个网站,百度。因为对于全球来说,可以说百度是最大的中文搜索站。 第二个网站,谷歌镜像。你可以用百度搜索,搜索到谷歌镜像,有官方站,虽然镜像站依然屏蔽了国外站,但是它的搜索算法依然是谷歌的。搜相同内容,在百度和谷歌镜像搜到的是不一样的结果。 第三个网站,github。这是全球最大的男性社交网站(皮这一下很开心,捂脸逃……) 正经事儿,当你有时候没思路搜索到自己想要的,不妨去github上试一下,会有意外收获! 第四个网站,搜狗搜索中的微信公众号。随着近两年公众号的形式,有许多优秀的博主首发公号平台,通过搜狗搜索也许可以找到你想要的! 暂时就这么多,后续有时间写篇文章介绍!


今天就来兑现这个诺言了....


2

百度


想必前一阵有篇文章大家都有所耳闻 -《搜索引擎百度已死》。当时这篇文章应该是火爆了社交圈,主要内容说的是用百度搜出来的东西,大体都是广告在前排位置,多数都是自家平台百家号包揽了搜索首页。


那为什么今天笔者还是要说下百度搜索呢?目前为止,关注笔者的大部分读者应该都是学习 python 而来,在学习的过程中,难免会遇到程序上的各种报错,此时对于国语来说,不妨使用百度搜索一下看看。百度对于技术类文章还是较友好的,大多数搜索内容多以 CSDN、博客园、简书等平台排在首页。比如下面,我搜索了「ZeroDivisionError: division by zero」(python中 整数除以0报出的错误),可以看到前排是没有广告的:



3

谷歌镜像


在刚开始工作中,笔者一般遇到问题时是先百度,后来发现百度对于一些问题搜索的契合度不是很高,由于网络限制问题,得知是有谷歌镜像站的,如下:



点进去,下面有5个镜像,任意一个都可以,但是有时候也会出现不稳定,网站挂掉的情况:


依然是搜索错误,可以看到,搜出来的结果已经变成与百度不同的网站了,搜索引擎算法走得是谷歌的,需要注意的是涉及到敏感信息依然是被屏蔽掉的,不信可以自行尝试:



4

github


github,真的算是当今社会的一个福利站了,虽然主要人群是程序猿的群体,但是上面依然有一些不错的资源,举个栗子,比如我搜索,托福:



星星越多,代表越受大家欢迎!点开第一个“曲根一万托福单词视频”为例吧:



如果你有找不到的资源,不妨来 github 上试试,真的会有意外收获!


5

搜狗


搜狗搜索,偏向于公众号,知乎类的问题搜索,因为它自身对接了这两个大平台,以本号举例:



根据公众号可以直接获取相应文章,之前在网上看到,有人通过搜狗的方式间接性爬取了公众号文章,以及知乎相关问题。这也算是一个对接搜索引擎爬虫的思路!具体相关信息可以自行尝试。


6

通用小技巧


无论哪个搜索引擎,都有相应的通用小技巧:



1. 利用双引号的绝对匹配


 在搜素「python实现人脸识别」时,加上“”。 加上双引号搜索出来的东西是绝对匹配的,如下:



不加时:


2. 资源定位小技巧 - 关键词 filetype:ppt


例如笔者想查询数据分析相关的ppt,可以这么搜索


数据分析 filetype:ppt(注意关键词后有个空格)


如下图,百度的广告来了:



用谷歌搜索,随便点进去就可以直接下载了:



3. inurl搜索指定格式网站


这个不常用,常用的对于大家来说就是1和2,第三个是作为一个冷知识分享出来。当初笔者学网络安全相关知识时,这种搜索引擎带来了不少好处,例如搜索 :


inurl:php?id=



早期,许多网站都是用php建站的,而php建立的网站大多数早期都存在安全问题,这个写法的意思是,查找出是php网站的并且是以get形式拼接url参数的,有些php站可以通过此方法进行sql注入的,最终可以侵入数据库,通过查找权限最大的账号拿到服务器的相关权限。


分享下此知识点,知道有这么回事儿就行啦....


7

总结


今天的分享就到这里了.....大体思路就是各种搜索,网上资源现在来说真的是非常全,特记 github ,真的会有不一样的惊喜哟!



至此完!




▼往期精彩回顾▼初始原生爬虫(一)初始原生爬虫(二)初始原生爬虫(三)


长按关注

公众号名称:咪哥杂谈

一个咪咪怪的公众号

长按二维码关注哦!



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存