10分钟搭建一个好玩的 Python 全文搜索引擎

Python人工智能技术 2022-07-01

点击上方 "Python人工智能技术" 关注，星标或者置顶

22点24分准时推送，第一时间送达

后台回复“大礼包”，送你特别福利

编辑：乐乐 | 来自：brucedone.com/archives/838

Pythn人工智能技术(ID:coder_experience)第629次推文

上一篇：复旦1博士2硕士因嫖娼被开除学籍！校方回应来了！

正文

有一个群友在群里问个如何快速搭建一个搜索引擎，在搜索之后我看到了这个

代码所在

Git:https://github.com/asciimoo/searx

官方很贴心，很方便的是已经提供了docker 镜像，基本pull下来就可以很方便的使用了，执行命令

cid=$(sudo docker ps -a | grep searx | awk '{print $1}')
echo searx  cid is $cid
if [ "$cid" != "" ];then
    sudo docker stop $cid
    sudo docker rm $cid
fi
sudo docker run -d --name searx -e IMAGE_PROXY=True -e BASE_URL=http://yourdomain.com  -p 7777:8888 wonderfall/searx

然后就可以使用了,正常查看docker的状态，就可以正常的使用了

思考

怎么样，是不是很方便，我们先看看源码是怎么样实现的

搜索公众号顶级架构师回复“面试”，送你一份惊喜礼包。

我们打开里面的代码，其实本质就是将request之后的结果做一个大的聚合，至于数据来源，我们可以是来于DB,或者文件，我们可以看一下他的核心代码

from urllib import urlencode
from json import loads
from collections import Iterable

search_url = None
url_query = None
content_query = None
title_query = None
suggestion_query = ''
results_query = ''

# parameters for engines with paging support
#
# number of results on each page
# (only needed if the site requires not a page number, but an offset)
page_size = 1
# number of the first page (usually 0 or 1)
first_page_num = 1

def iterate(iterable):
    if type(iterable) == dict:
        it = iterable.iteritems()

    else:
        it = enumerate(iterable)
    for index, value in it:
        yield str(index), value

def is_iterable(obj):
    if type(obj) == str:
        return False
    if type(obj) == unicode:
        return False
    return isinstance(obj, Iterable)

def parse(query):
    q = []
    for part in query.split('/'):
        if part == '':
            continue
        else:
            q.append(part)
    return q

def do_query(data, q):
    ret = []
    if not q:
        return ret

    qkey = q[0]

    for key, value in iterate(data):

        if len(q) == 1:
            if key == qkey:
                ret.append(value)
            elif is_iterable(value):
                ret.extend(do_query(value, q))
        else:
            if not is_iterable(value):
                continue
            if key == qkey:
                ret.extend(do_query(value, q[1:]))
            else:
                ret.extend(do_query(value, q))
    return ret

def query(data, query_string):
    q = parse(query_string)

    return do_query(data, q)

def request(query, params):
    query = urlencode({'q': query})[2:]

    fp = {'query': query}
    if paging and search_url.find('{pageno}') >= 0:
        fp['pageno'] = (params['pageno'] - 1) * page_size + first_page_num

    params['url'] = search_url.format(**fp)
    params['query'] = query

    return params

def response(resp):
    results = []
    json = loads(resp.text)
    if results_query:
        for result in query(json, results_query)[0]:
            url = query(result, url_query)[0]
            title = query(result, title_query)[0]
            content = query(result, content_query)[0]
            results.append({'url': url, 'title': title, 'content': content})
    else:
        for url, title, content in zip(
            query(json, url_query),
            query(json, title_query),
            query(json, content_query)
        ):
            results.append({'url': url, 'title': title, 'content': content})

    if not suggestion_query:
        return results
    for suggestion in query(json, suggestion_query):
        results.append({'suggestion': suggestion})
    return results

结果

每个response的时候我们都要以轻松的定制返回的数据（可以是网络，可以是数据库，可以是文件），那我们进一步想一下，如果我们可以hack response 结果，那我们完全可以将自己爬来的数据做为返回结果。如果是1024之类的，完全可以打造自己的“爱好”小引擎，代码我就不贴了，大家可以自己动手自己玩玩。结合jieba分词，可以更好玩一点。

你还有什么想要补充的吗？

免责声明：本文内容来源于网络，文章版权归原作者所有，意在传播相关技术知识&行业趋势，供大家学习交流，若涉及作品版权问题，请联系删除或授权事宜。

技术君个人微信

添加技术君个人微信即送一份惊喜大礼包

→ 技术资料共享

→ 技术交流社群

--END--

往日热文：

分享一套家庭理财系统（附源码）

PyAutoGUI：自动化键鼠操作的 Python 类库

正确配置 Python 应用程序

讲讲 Python Launcher 是什么鬼东西？

Python程序员深度学习的“四大名著”：

这四本书着实很不错！我们都知道现在机器学习、深度学习的资料太多了，面对海量资源，往往陷入到“无从下手”的困惑出境。而且并非所有的书籍都是优质资源，浪费大量的时间是得不偿失的。给大家推荐这几本好书并做简单介绍。

获得方式：

1.扫码关注本公众号

2.后台回复关键词：名著

▲长按扫描关注，回复名著即可获取

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

10分钟搭建一个好玩的 Python 全文搜索引擎

代码所在

思考

结果

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

10分钟搭建一个好玩的 Python 全文搜索引擎

代码所在

思考

结果

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡