查看原文
其他

【教程】使用反向图像搜索进行调查指南

DT君 情报分析师 2022-07-18

点击下方小卡片关注情报分析师

反向图像搜索是最知名和最简单的数字调查技术之一,在许多网络浏览器中具有选择“在Google中搜索图像”的双击功能。这种方法在流行文化中也得到了广泛的应用。

但是,如果仅使用Google进行反向图像搜索,通常会感到失望。将搜索过程限制为仅上传原始形式的照片,images.google.com 可能会为提供最明显被盗或最受欢迎的图像的有用结果,但对于大多数复杂的研究项目,就需要其他网站了。

本指南将介绍在数字调查中使用反向图像搜索的详细策略,着眼于识别人员和位置,以及确定图像。在详细介绍了搜索引擎之间的核心差异之后,Yandex,Bing和Google在五张测试图像上进行了测试,这些图像显示了来自不同对象和来自世界不同地区的不同对象。

Google反向图片搜索功能

使用起来感觉谷歌反向图片搜索不是很好。反向图像搜索无可争议的领导者是俄罗斯网站Yandex。在Yandex之后,亚军是微软的BingGoogle。第四项服务也可以用于调查,那就是TinEye,但该网站专门研究知识产权侵权行为,并寻找图像的精确副本。(想了解的朋友查看情报分析师历史文章都对这几种反向搜索工具进行过详细的介绍)

Yandex反向图像搜索工具

Yandex是迄今为止最好的反向图像搜索引擎,具有识别人脸,风景和物体的强大能力。这个俄罗斯网站大量利用用户生成的内容,例如旅游评论网站(例如FourSquare和TripAdvisor)和社交网络(例如约会网站),通过面部和景观识别查询获得非常准确的结果。

它的优势在于在欧洲或前苏联背景下拍摄的照片。虽然来自北美,非洲和其他地方的照片可能仍然会在Yandex上返回有用的结果,但您可能会发现自己对滚动浏览主要来自俄罗斯,乌克兰和东欧的结果而不是目标图像所在的国家/地区感到沮丧。

使用Yandex,网址 images.yandex.com,然后选择右侧的相机图标。

可以上传保存的图像或键入在线托管图像的URL。Yandex使用的面部识别算法非常好。不仅会寻找看起来与有脸的照片相似的照片,而且还会寻找具有完全不同照明,背景颜色和位置的同一个人的其他照片(通过匹配的面部相似性确定)。


虽然谷歌和Bing可能只是寻找其他照片,显示一个有着相似衣服和一般面部特征的人,但Yandex会搜索这些匹配,以及其他面部匹配的照片。在下面的文章中,可以看到三个服务如何搜查谢尔盖·杜宾斯基(Sergey Dubinsky)的脸,谢尔盖·杜宾斯基是击落MH17的俄罗斯嫌疑人。


Yandex从各种来源发现了许多杜宾斯基的照片(只有两个顶级结果有不相关的人),结果与原始图像不同,但显示了同一个人。谷歌根本没有运气,而Bing只有一个结果(第五张图片,第二排),也显示了Dubinsky。

显然,Yandex是俄罗斯的一个部门,人们对它与克里姆林宫的关系(或潜在的未来关系)感到担忧和怀疑。使用Yandex需要自担风险,特别是如果还担心使用VK和其他俄罗斯服务。如果你不是特别偏执,试着在Yandex中搜索你自己或你认识的人的未索引照片,看看它是否可以在网上找到你自己或你的分身。

Bing反向图片搜索功能

在过去的几年里,Bing在反向图像搜索功能上赶上了谷歌,但仍然受到限制。必应的“视觉搜索”位于 images.bing.com,非常易于使用,并提供了一些其他地方没有的有趣功能。

在图像搜索中,Bing允许您裁剪照片(源图像下方的按钮)以专注于该照片中的特定元素,如下所示。裁剪图像的结果将排除无关的元素,重点放在用户定义的框上。但是,如果图像的选定部分很小,则值得自己手动裁剪照片并提高分辨率 - 低分辨率图像(低于200×200)会带来较差的结果。

下面,一张谷歌街景图片,一名男子遛着几只哈巴狗,被裁剪为只关注狗狗,导致Bing建议照片中可见的狗的品种,以及视觉上相似的结果。这些结果主要包括与源图像匹配的狗对,但并不总是只包括哈巴狗,因为法国斗牛犬,英国斗牛犬,獒犬等都混杂在一起。

Google

到目前为止,Google是最流行的反向图像搜索引擎,images.google.com,Google对于大多数基本的反向图像搜索都很好。其中一些相对简单的查询包括识别照片中的知名人士,查找在线共享的图像的来源,确定艺术品的名称和创作者等。但是,如果想查找与正在研究的图像的精确副本不接近的图像,可能会感到失望。

例如,当搜索一名男子的面孔时,他试图在特朗普集会上攻击BBC记者,谷歌可以找到裁剪图像的来源,但找不到任何其他图像,甚至找不到与他有过一时相似之处的人。

虽然谷歌在找到这个男人的脸或类似的人的其他例子方面不是很强,但它仍然找到了截图拍摄的照片的原始,未裁剪版本,显示出一些实用性。

五个测试用例

为了测试不同的反向图像搜索技术和引擎,使用了一些代表不同类型调查的图像,包括原始照片(以前未在线上传)和回收照片。由于这些照片包含在本指南中,因此这些测试用例将来可能无法按预期工作,因为搜索引擎将索引这些照片并将其集成到其结果中。因此,编写本指南时出现的结果的屏幕截图。

这些测试照片包括许多不同的地理区域,以测试西欧,东欧,南美,东南亚和美国的源材料的搜索引擎强度。对于这些照片中的每张,我还突出显示了图像中的离散对象,以测试每个搜索引擎的优缺点。

随意下载这些照片,并自己通过搜索引擎运行它们以测试一下技能。

俄罗斯下诺夫戈尔德的奥利索夫宫

下诺夫哥罗德的白色SUV

下诺夫哥罗德的拖车

城市景观 在 宿雾, 菲律宾 

公寓大楼,“帕吉特广场”

与世隔绝:“海滨酒店”

彭博2020年广告的学生(视频截图)

搜索其中一名学生

Av. do Café In São Paulo, Brazil(圖片來源:Google Street View)

托卡多阿萨伊

停车

阿姆斯特丹运河

一只鸟:灰鹭

反着的荷兰国旗(也顺时针旋转90度)

结果

选择这些照片中的每一张都是为了展示三个搜索引擎的功能和局限性。虽然Yandex有时看起来似乎在工作数字黑魔法,但它远非万无一失,并且可能会在某些类型的搜索中挣扎。对于可能克服这些限制的一些方法,我在本指南末尾详细介绍了一些创造性的搜索策略。

诺夫哥罗德的奥利索夫宫

不出所料,Yandex毫不费力地识别出这座俄罗斯建筑。除了从源照片相似的角度拍摄的照片外,Yandex还从源图像的有利位置发现了来自其他角度的图像,包括逆时针90度(参见第三行中的前两张图像)。

Yandex也毫不费力地将照片前景中的白色SUV识别为日产Juke。

最后,在对这张照片最具挑战性的搜索中,Yandex未能成功识别建筑物前的非描述性灰色拖车。许多结果看起来与源图像中的结果相似,但没有一个是实际的匹配项。

谷歌成功地将这款白色SUV识别为日产Juke,甚至在文本字段搜索中注意到它。正如Yandex所看到的那样,从与流行参考资料类似的角度向搜索引擎提供图像 - 类似于大多数广告的汽车侧视图 - 将最好地允许反向图像算法发挥其魔力。

最后,谷歌认识到灰色拖车是什么(旅行拖车/露营车),但其“视觉上相似的图像”远非如此。

从技术上讲,Yandex能够将城市景观识别为菲律宾宿雾的城市景观,但也许只是偶然的。第一行中的第四个结果和第二行中的第四个结果是宿务的,但只有第二张照片显示了与源图像中相同的任何建筑物。许多结果也来自东南亚(特别是泰国,这是俄罗斯游客的热门目的地),注意到类似的建筑风格,但没有一个与来源从相同的角度。

在与搜索隔离的两座建筑物(帕吉特宫海滨酒店)中,Yandex能够识别后者,但无法识别前者。帕吉特宫(Padgett Palace)建筑是一座相对不起眼的高层建筑,里面摆满了公寓,而海滨酒店内部也有一个赌场,导致一系列旅游照片展示了其更独特的建筑。

Bing无法找到滨水酒店,无论是在使用Bing的裁剪功能(仅带回低分辨率照片)时,还是在从源图像手动裁剪和增加建筑物的分辨率时。值得注意的是,这两个版本的图像的结果在分辨率之外是相同的,带来了截然不同的结果。

与Yandex一样,谷歌在其结果中也搜索到了照片,但与源图像没有强烈的相似之处。虽然宿雾没有出现在初始结果的缩略图中,但按照“视觉上相似的图像”,将获取宿雾天际线的图像作为第十一个结果(下面第二行中的第三个图像)。

与Yandex和Bing一样,谷歌无法识别源图像左侧的高层公寓楼。谷歌在海滨酒店的形象上也没有成功。

彭博2020年的学生

Yandex从彭博社的竞选广告中找到了源图像 - Getty Images的库存照片。除此之外,Yandex还发现了应用了滤镜(第二个结果,第一行)的照片版本以及来自同一库存照片系列的其他照片。此外,由于某种原因,色情,如下面的模糊结果所示。

当仅隔离库存照片模型的面部时,Yandex带回了同一个人的其他一些照片(参见第一排的最后一张图像),以及教室中设置的相同库存照片的图像(参阅第一行中的第四张图像)。

Bing有一个有趣的搜索结果:它找到了与库存照片完全匹配的照片,然后带回了其他穿着蓝色衬衫的男人的“类似图像”。结果的“具有此内容的页面”选项卡提供了整个网络上相同图像的重复版本的便捷列表。

仅关注库存照片模型的面部不会带回任何有用的结果,也不会提供从中获取它的源图像。

谷歌认识到彭博社活动使用的图像是一张库存照片,带回了确切的结果。谷歌还将提供其他穿着蓝色衬衫的人在课堂上的库存照片。

谷歌将再次返回库存照片的来源,但其视觉上相似的图像并不显示库存照片模型,而是一系列具有相似面部毛发的其他男性。我们将把这算作寻找原始图像的半赢,但不像Yandex那样显示有关特定模型的任何信息。

巴西街景的搜索

Yandex无法弄清楚这张照片是在巴西拍摄的,而是专注于俄罗斯的城市景观。

对于Toca do Açaí来说,出于某种原因,Yandex主要将色情内容作为结果。这些图像被模糊了,您可以单击此处查看结果。然而,尽管模糊了黑穗病,但其中两个结果确实正确地识别了徽标。

对于停车标志[Estacionamento],Yandex甚至没有识别出来。

最后,谷歌没有接近识别Toca do Açaí徽标,而是专注于各种类型的木板,显示它如何关注图像的背景而不是徽标和文字。

阿姆斯特丹运河的搜索

Yandex确切地知道这张照片是在阿姆斯特丹拍摄的,发现了在阿姆斯特丹市中心拍摄的其他照片,甚至包括了画面中各种鸟类的照片。

Yandex正确地将照片前景中的鸟识别为灰鹭(серая цапля),还带回了一系列与源图像位置和姿势相似的灰鹭图像

然而,Yandex未能通过识别悬挂在照片背景中的荷兰国旗的测试。当将图像顺时针旋转90度以正常模式呈现旗帜时,Yandex能够弄清楚它是一面旗帜,但在其结果中没有返回任何荷兰旗帜。

Bing只意识到这张照片显示了有水的城市景观,没有来自阿姆斯特丹的结果。

虽然Bing在识别城市景观方面遇到了困难,但它正确地将这只鸟识别为灰鹭,包括一个专门的“看起来像”结果,转到描述这只鸟的页面。

然而,与Yandex一样,荷兰国旗对于Bing来说太混乱了,无论是原始形式还是旋转形式。

谷歌指出,在图像的运河中有一个反射,但没有比这更进一步,专注于城市中的各种铺砌路径,而没有来自阿姆斯特丹的任何东西。

谷歌在鸟类识别练习中很接近,但几乎没有错过它 - 它是一只灰色的,不是很大的蓝色苍鹭。

谷歌也无法识别荷兰国旗。虽然Yandex似乎认识到图像是一面旗帜,但谷歌的算法专注于构图的窗台,有趣的是将旗帜错误地识别为窗帘。

结论

反向图像搜索引擎在过去十年中取得了巨大进步,看不到尽头。随着索引材料数量的不断增长,许多搜索巨头已经诱使他们的用户注册图像托管服务,如Google Photos,为这些搜索算法提供了无穷无尽的机器学习材料。最重要的是,面部识别AI正在通过FindClone等产品进入消费者领域,并且可能已经用于一些搜索算法,即Yandex。

没有公开可用的面部识别程序使用任何西方社交网络,如Facebook或Instagram,但也许只是时间问题,这样的事情出现,对在线隐私造成重大打击,同时(以巨大的成本)增加数字研究功能。

以下是一些易于理解的反向图像搜索提示:

  • 首先,第二和第三使用Yandex,然后尝试Bing和Google,如果您仍然找不到所需的结果。

  • 如果正在使用不是来自西方或前苏联国家的源影像,那么可能没有太多的运气。这些搜索引擎高度关注这些领域,并努力寻找在南美洲,中美洲/加勒比地区,非洲和亚洲大部分地区拍摄的照片。

  • 提高源图像的分辨率,即使这只意味着将分辨率提高一倍或三倍,直到它变得像素化混乱。这些搜索引擎都不能对低于200×200的图像。

  • 尝试裁剪图像的元素,或者在结果混乱时对其进行像素化。这些搜索引擎中的大多数会像热寻的导弹一样关注人及其面部,因此请像素化它们以专注于背景元素。

  • 如果所有其他方法都失败了,那就要有创意:水平镜像图像,添加一些颜色滤镜,或者使用图像编辑器上的克隆工具填充图像上破坏搜索的元素。


    长按识别下方二维码加入情报学院知识星球

星球内有超千篇情报专业资料可供下载

往期推荐

干货:开源工具资源大合集

搜索人名、电话号码以及地址的开源网站

开源情报工具——个人信息、IP位置篇

如何鉴别网络信息的真实性

反向图像搜索工具

谢谢你看完文章,还请点亮【赞】+【再看】+【转发】,让更多人看到。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存