登顶欧州多国Top1 寻隐借Open AI将「文本搜索图片」变成现实
作者 | 四月
部分配图 | Anchor
从流行复古的千禧年到赛博2023年,科技越来越发达,人们手中的小灵通换成翻盖手机又换成智能机。如今,不必包里背着随身听、傻瓜相机,一个手机就解决了人的一切需求。
智能手机功能愈加丰富,人们却又有了新的烦恼——手机空间不足,聊天应用动辄占据几十G的空间;想搜照片,却要从几千张中“大海捞针”。你看,科技在进化,烦恼也是。
当层出不穷的新需求出现,热衷用技术解决问题的开发者也在为市场带来新的惊喜。今年2月,由个人开发者@Mazzzystar制作的应用寻隐(英文名:Queryable)正式上线国内外,不仅取得了国内Top1的成绩,上线当日同时斩获欧洲多国工具榜Top1,美国工具榜Top2。
用文字描述搜索图片,听起来不可思议的事情已经成真了。
文字搜图走进现实
想象一下,某时某刻某地,你的大脑中突然闪现出一张令人印象深刻的图片,而且你记得很清楚,这张照片现在就存储在手机相册的某个位置,但动辄上万的照片淹没了它。大多情况下,“找不到”才是最不出意料的结果。
这种时刻,寻隐主打的“用文字搜索图像”就派上了大用场。它使用起来相当简单,对于初次使用的用户来说,首先需要开放“允许访问相册”的权限完成“索引”,将整个相册的照片先行计算向量并存储。据开发者描述,寻隐1分钟大概可以处理2000张照片。处理完成后,就可以尝试使用搜索栏查找图片了。
说到「文本搜索图片」,其实苹果手机自带的相册已经具备相应功能,但两者之间的实现程度却完全不同。使用苹果系统自带的搜索,你可以用一个词语搜出与之相关的图片,比如“猫/狗”。但如果用稍长一点的形容句子作为搜索关键词,那就实在太难为搜索系统了。
在苹果相册中搜索“猫”和“猫猫在晒太阳” 效果如图所示
相比之下,寻隐的语义理解能力够强,在应用描述中,开发者鼓励用户使用复杂的长句描述,且“描述越精准,结果越可靠”。
笔者下载了国内版应用并进行一番简单的测试,先以同上的“猫猫在晒太阳”来搜索照片,这次出来的不是【无结果】,如愿收到了一系列猫猫图。其中关联度最高的一张确实是拍摄了小橘在公园晒太阳。接下来,笔者又以“一束橘色的花”进行搜索,也如愿搜到了匹配的照片。
搜索结果如图所示
不过,这套搜索功能也并非百试百灵,比如以“雪”为关键词的情况中,就有洁白的大片花朵和雾蒙蒙的天误入其中。
能力支撑:CLIP模型
如何让图片、文字两种截然不同的内容实现联结?开发者表示,寻隐App的设计灵感来源于CLIP模型。
图源:Open AI官网
CLIP(Contrastive Language-Image Pre-Training)是OpenAI于2021年搭建的一个模型,从CLIP英文全称名可以看出,这是一种基于对比文本-图像对的预训练方法。
为了训练CLIP,Open AI使用了超过4亿对来自互联网的文本-图片数据。具体方法是,给定一张图像,让CLIP预测一组 32,768 个随机采样的文本中的哪一组文本可以和这张图像完成配对。
用通俗的方式来说,CLIP的关键能力在于文本和图片的信息转化,如果给到一段文字,CLIP可以根据描述给出最接近的图片。
根据Open AI给出的测试数据,对比多种识别模型,CLIP的表现能力相当突出。通过在图像集ImageNet中测试ResNet-50和CLIP,将两个模型的识别能力进行对比,最终 CLIP 的性能在多项能力测试中表现效果更佳。
图源:Open AI官网
或许很多研发企业都熟知这一模型的能力,但真正将CLIP封装在应用中并正式上架到应用商店的Mazzzystar是第一个“吃螃蟹的人”。由于无法从应用商店中获知真实姓名,这里我们以开发者的Twitter账号名称Mazzzystar代替称呼。
在Mazzzystar公布在GitHub中的开发日志中,为了在iOS设备上实时运行,考虑在性能和模型大小,最终他选择了ViT-B-32模型。考虑到应用需要断网使用,必须将模型完全存储在应用内,于是他使用coremltoolsText Encoder库将其导出到 CoreML 模型中。最后我们看到的版本中,寻隐App的大小是232M。
出海之觞:隐私保护
考虑到隐私问题,开发者坚持将寻隐做成了离线应用版本,为了不联网,开发者表示自己在应用中做了一些新的妥协和尝试,比如将应用原计划的内购模式改为付费。
虽然在隐私问题上,寻隐做了大量工作,试图打消用户的顾虑,但从应用商店的评论和开发者在应用商店中写下的公告来看,在实际上线到欧美市场的过程中,多数用户依然对寻隐的隐私问题提出质疑,其中国开发者的身份也是让这款产品备受争议的原因之一。
产品介绍中 开发者解释其产品如何保护隐私安全
说实话,作为一个技术小白,笔者在体验产品的过程中也难免感到“隐私可能泄露”的不安感。在建立“索引”的过程中,相册中的所有照片会逐一在等待界面中展示。尽管已经充分了解到寻隐处于离线运行状态,不存在泄露信息的可能,但看着照片一张张划过去,这个过程确实难免令人感到焦虑。当然,这只关乎于个人体验,在实际证明中,寻隐已经拿出了足够多的行动给予用户安全感。
就在今年7月,Mazzzystar做出了两个决定:1、取消寻隐的付费,将其转化为免费应用产品,开放给所有用户使用。2、为了进一步让用户安心,将应用设计中的所有代码全部公布在GitHub上开源。
“有些用户不相信开发者不会侵犯他们的隐私,有些开发者发邮件询问我‘寻隐’的技术细节。我想,既然是免费的,为什么不把源代码也开源,所以我就这么做了。”在Twitter上,Mazzzystar这样解释他的决定。
图源:Twitter@Mazzzystar
经此之后,希望所有用户能够无负担地体验一款好的创意产品吧。
启示
除了「文本搜索图片」,围绕庞大又难以整理的相册,开发者能做的事情其实还有很多。
此前,笔者曾在巡榜中发现一款同样切入相册整理需求的产品Faye。它的主要功能是将视频自动保存在云端,将保存的内容发送到Fave收藏夹后,用户可以将它们从相机中删除以节省空间,它承诺永久保存用户的所有视频。
从排名来看,虽然Faye属于比较昙花一现的状态,但它曾经的火爆证明了需求的存在,等待出海企业进行挖掘。
最后,致敬每一位身体力行,将灵光一闪变成现实的开发者。
7月29日17:30-20:00,由扬帆出海和PubMatic主办的ChinaJoy同期活动“FUN享未来 上海泛娱乐出海企业高管高端闭门晚宴”将准时和大家见面。
在这里,我们邀请全球出海精英共话商机,洞察前沿发展趋势,聚焦难点探索机遇。