Jina 实例秀 —— 维基百科句子搜索

Original Jina AI Jina AI 2022-03-19

收录于话题

#Jina 教程 15 个

#技术分享 33 个

本次教程将展示如何构建一个通过语义对文本进行搜索的应用程序。

应用程序在Jina的神经搜索框架支持下使用了最先进的Transformer语言模型来对维基百科中的文本句子进行索引和搜索。当你在应用程序中输入你的搜索内容后，程序会自动输出最相关的句子。

首先来看看程序的整体框架，从下面的Flow（Jina中的基本元素）框架图看出，这个应用程序的流程非常简单：

· 应用程序接收到输入文档后将其输入到transformer中，transformer计算基于文档文本的嵌入向量。

· 将文档传送给indexer：在索引阶段，indexer会对所有文档进行存储操作；而在查询阶段，indexer则会比较查询文档与所有存储文档的嵌入向量，并最终返回储存文档中最匹配的结果。

在了解了运行原理后，我们就可以开始着手构建啦！

Let's begin🏃‍♀️

下载代码库并安装Jina

下载代码库（包括代码与数据集）并进入到相应文件夹：

git clone https://github.com/jina-ai/examples
cd examples/wikipedia-sentences

安装Jina和环境配置：
pip install -r requirements.txt💡 Jina安装小提示：

推荐在一个新的python虚拟环境中安装Jina

下载数据集(optional)

我们默认使用一个小型数据集用于索引，若想使用完整的数据集：

Step1：对Kaggle进行设置（具体方式可在“阅读原文”中查找）

Step2：运行以下脚本下载数据

sh get_data.sh

建立数据索引

运行下面代码对数据集建立索引:

python app.py -t index

若想要对下载好的完整数据建立索引，则运行下面的代码

python app.py -t index -d full -n $num_docs

💡 数据索引小提示：

对于数量较大的索引，SimpleIndexer处理
速度非常慢。建议使用更高级的索引器，如FaissIndexer来建立大量数据索引

输入数据进行查询

当上述的索引建立完成后，一个搜索提示将自动出现在终端窗口。输入你的查询内容，马上就能看到相对应的结果啦！

please type a sentence: Who is Andrea Kremer

Ta-Dah🔮, here are what we found for: Who is Andrea Kremer
> 0(0.36).Andrea Kremer (born February 25, 1959 in Philadelphia, Pennsylvania) is a multi-Emmy Award Winning American television sports journalist.

⭐️Jina实例秀系列教程将不断更新 ⭐️

⭐️敬请持续关注 ⭐️

点击下方 “阅读原文”，获得更详细的Jina 相关教程

👇 往期系列教程

Jina 轻松学 —— 用 Jina + Streamlit 极速搭建搜索应用

Jina 实例秀 —— 智能聊天机器人

Jina 轻松学 —— Windows中安装Jina

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

Jina 实例秀 —— 维基百科句子搜索

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

生成图片，分享到微信朋友圈

Jina 实例秀 —— 维基百科句子搜索

您可能也对以下帖子感兴趣