登顶欧州多国Top1 寻隐借Open AI将「文本搜索图片」变成现实

Original 扬帆出海扬帆出海

2024-10-07

作者 | 四月

部分配图 | Anchor

从流行复古的千禧年到赛博2023年，科技越来越发达，人们手中的小灵通换成翻盖手机又换成智能机。如今，不必包里背着随身听、傻瓜相机，一个手机就解决了人的一切需求。

智能手机功能愈加丰富，人们却又有了新的烦恼——手机空间不足，聊天应用动辄占据几十G的空间；想搜照片，却要从几千张中“大海捞针”。你看，科技在进化，烦恼也是。

当层出不穷的新需求出现，热衷用技术解决问题的开发者也在为市场带来新的惊喜。今年2月，由个人开发者@Mazzzystar制作的应用寻隐（英文名：Queryable）正式上线国内外，不仅取得了国内Top1的成绩，上线当日同时斩获欧洲多国工具榜Top1，美国工具榜Top2。

用文字描述搜索图片，听起来不可思议的事情已经成真了。

文字搜图走进现实

想象一下，某时某刻某地，你的大脑中突然闪现出一张令人印象深刻的图片，而且你记得很清楚，这张照片现在就存储在手机相册的某个位置，但动辄上万的照片淹没了它。大多情况下，“找不到”才是最不出意料的结果。

这种时刻，寻隐主打的“用文字搜索图像”就派上了大用场。它使用起来相当简单，对于初次使用的用户来说，首先需要开放“允许访问相册”的权限完成“索引”，将整个相册的照片先行计算向量并存储。据开发者描述，寻隐1分钟大概可以处理2000张照片。处理完成后，就可以尝试使用搜索栏查找图片了。

说到「文本搜索图片」，其实苹果手机自带的相册已经具备相应功能，但两者之间的实现程度却完全不同。使用苹果系统自带的搜索，你可以用一个词语搜出与之相关的图片，比如“猫/狗”。但如果用稍长一点的形容句子作为搜索关键词，那就实在太难为搜索系统了。

在苹果相册中搜索“猫”和“猫猫在晒太阳” 效果如图所示

相比之下，寻隐的语义理解能力够强，在应用描述中，开发者鼓励用户使用复杂的长句描述，且“描述越精准，结果越可靠”。

笔者下载了国内版应用并进行一番简单的测试，先以同上的“猫猫在晒太阳”来搜索照片，这次出来的不是【无结果】，如愿收到了一系列猫猫图。其中关联度最高的一张确实是拍摄了小橘在公园晒太阳。接下来，笔者又以“一束橘色的花”进行搜索，也如愿搜到了匹配的照片。

搜索结果如图所示

不过，这套搜索功能也并非百试百灵，比如以“雪”为关键词的情况中，就有洁白的大片花朵和雾蒙蒙的天误入其中。

能力支撑：CLIP模型

如何让图片、文字两种截然不同的内容实现联结？开发者表示，寻隐App的设计灵感来源于CLIP模型。

图源：Open AI官网

CLIP（Contrastive Language-Image Pre-Training）是OpenAI于2021年搭建的一个模型，从CLIP英文全称名可以看出，这是一种基于对比文本-图像对的预训练方法。

为了训练CLIP，Open AI使用了超过4亿对来自互联网的文本-图片数据。具体方法是，给定一张图像，让CLIP预测一组 32,768 个随机采样的文本中的哪一组文本可以和这张图像完成配对。

用通俗的方式来说，CLIP的关键能力在于文本和图片的信息转化，如果给到一段文字，CLIP可以根据描述给出最接近的图片。

根据Open AI给出的测试数据，对比多种识别模型，CLIP的表现能力相当突出。通过在图像集ImageNet中测试ResNet-50和CLIP，将两个模型的识别能力进行对比，最终 CLIP 的性能在多项能力测试中表现效果更佳。

图源：Open AI官网

或许很多研发企业都熟知这一模型的能力，但真正将CLIP封装在应用中并正式上架到应用商店的Mazzzystar是第一个“吃螃蟹的人”。由于无法从应用商店中获知真实姓名，这里我们以开发者的Twitter账号名称Mazzzystar代替称呼。

在Mazzzystar公布在GitHub中的开发日志中，为了在iOS设备上实时运行，考虑在性能和模型大小，最终他选择了ViT-B-32模型。考虑到应用需要断网使用，必须将模型完全存储在应用内，于是他使用coremltoolsText Encoder库将其导出到 CoreML 模型中。最后我们看到的版本中，寻隐App的大小是232M。

出海之觞：隐私保护

考虑到隐私问题，开发者坚持将寻隐做成了离线应用版本，为了不联网，开发者表示自己在应用中做了一些新的妥协和尝试，比如将应用原计划的内购模式改为付费。

虽然在隐私问题上，寻隐做了大量工作，试图打消用户的顾虑，但从应用商店的评论和开发者在应用商店中写下的公告来看，在实际上线到欧美市场的过程中，多数用户依然对寻隐的隐私问题提出质疑，其中国开发者的身份也是让这款产品备受争议的原因之一。

产品介绍中开发者解释其产品如何保护隐私安全

说实话，作为一个技术小白，笔者在体验产品的过程中也难免感到“隐私可能泄露”的不安感。在建立“索引”的过程中，相册中的所有照片会逐一在等待界面中展示。尽管已经充分了解到寻隐处于离线运行状态，不存在泄露信息的可能，但看着照片一张张划过去，这个过程确实难免令人感到焦虑。当然，这只关乎于个人体验，在实际证明中，寻隐已经拿出了足够多的行动给予用户安全感。

就在今年7月，Mazzzystar做出了两个决定：1、取消寻隐的付费，将其转化为免费应用产品，开放给所有用户使用。2、为了进一步让用户安心，将应用设计中的所有代码全部公布在GitHub上开源。

“有些用户不相信开发者不会侵犯他们的隐私，有些开发者发邮件询问我‘寻隐’的技术细节。我想，既然是免费的，为什么不把源代码也开源，所以我就这么做了。”在Twitter上，Mazzzystar这样解释他的决定。

图源：Twitter@Mazzzystar

经此之后，希望所有用户能够无负担地体验一款好的创意产品吧。

启示

除了「文本搜索图片」，围绕庞大又难以整理的相册，开发者能做的事情其实还有很多。

此前，笔者曾在巡榜中发现一款同样切入相册整理需求的产品Faye。它的主要功能是将视频自动保存在云端，将保存的内容发送到Fave收藏夹后，用户可以将它们从相机中删除以节省空间，它承诺永久保存用户的所有视频。

从排名来看，虽然Faye属于比较昙花一现的状态，但它曾经的火爆证明了需求的存在，等待出海企业进行挖掘。

最后，致敬每一位身体力行，将灵光一闪变成现实的开发者。

·END·

7月29日17:30-20:00，由扬帆出海和PubMatic主办的ChinaJoy同期活动“FUN享未来上海泛娱乐出海企业高管高端闭门晚宴”将准时和大家见面。

在这里，我们邀请全球出海精英共话商机，洞察前沿发展趋势，聚焦难点探索机遇。

继续滑动看下一个

扬帆出海

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，掌上藏品，宜藏宜礼！

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

登顶欧州多国Top1 寻隐借Open AI将「文本搜索图片」变成现实

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，掌上藏品，宜藏宜礼！

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

生成图片，分享到微信朋友圈

登顶欧州多国Top1 寻隐借Open AI将「文本搜索图片」变成现实

您可能也对以下帖子感兴趣