查看原文
其他

如何检索和归档网站的信息?

ZHZ 情报分析师 2022-05-19

有时,当我们想要验证某条在线信息时,有可能会面临链接损坏或网站不再可用的困境。本篇文章将带来一些简单的方法,用来检索旧内容和已删除的页面,除此以外,还可以保存当前可访问的页面,即使它们之后被修改或删除,我们仍然可以使用它们。


互联网档案馆的Wayback Machine是一个非常有用的工具网站。在Wayback Machine上搜索可以发现,某些 "政府和政治 "的例子在2017年仍然被保存在互联网档案馆中。



更重要的是,由于存档页面中的一些旧链接仍然有效,因此可以访问一些旧内容,实际上我们可以阅读他们的政治竞选项目的详细信息。

使用注意事项

当我们对自己感兴趣的网页进行存档服务时,Wayback Machine将抓取该网页并存储其副本。当它这样做时,被归档的网页将自动向正在进行的 "访问日志"添加记录,说明何时以及由哪些IP地址访问过它。


反过来,这可能会给他们提供线索,表明有人正在调查特定内容或与他们相关的人。在某些情况下,如果我们正在进行的工作是敏感的并且必须至少在一段时间内远离公众视线,仅此一点就可以削弱我们调查带来的影响。


至少,网站管理员可以将存档材料从Wayback Machine上删除。该管理员还可以删除或修改你尚未发现的类似内容。大多数归档服务也保留访问日志。例如,Webcite会记录每个用户的计算机操作系统和网络浏览器,以及每个用户的互联网服务提供商的域名(Webcite隐私政策)。因此,在使用归档服务时,激活虚拟私人网络(VPN)或使用Tor浏览器是非常不错的选择。


此外,一些服务要求每个用户创建一个账户,选择一个用户名,提供支付信息,验证一个电子邮件地址或关联一个社交媒体资料。我们最好建立一套单独的账户,用于像这样的服务,以便将我们的调查工作与你的个人在线身份区分开来。甚至可以为特定调查的目的创建单一用途的“身份”,并在研究完成后将其处理掉。无论哪种方式,我们的第一步就是创建一个相对安全、独立的电子邮件账户,可以在tutanota.de或protonmail.com上创建。


如果你的归档服务没有什么让别人怀疑的点,而且没有人可以同时访问网站的日志和归档服务的日志,则管理员可能很难把这些点联系起来。也就是说,采取上述建议的预防措施比依赖某种假设要好。例如,假设只有少数几个IP地址在归档页面被添加到Wayback Machine的同一天查看了该页面。任何人都很容易搞明白他们是从一个特定的地方被监视的。因此,在我们开始调查之前,挤出那么一点时间做这些都可以帮助我们降低此类风险。

使用 Wayback Machine 归档和检索内容

Wayback Machine是总部位于旧金山的非营利性互联网档案馆的一个项目,该数字图书致力于对互联网进行存档和对所有储存知识的自由访问服务。截至 2019 年初,它已归档了大约 3450 亿个网站。


Wayback Machine 是研究人员、历史学家、调查人员和学者的必备工具。它免费向公众开放,可以帮助我们访问在不同时间点拍摄的网页的档案快照。Wayback Machine 的自动爬虫 (也称为蜘蛛)几乎可以访问和存档任何公共网站。但是,爬虫没有确定访问哪些网站以及访问频率的固定模式,因为它们会受到影响其操作的资源限制和政策决策的影响。Wayback Machine的自动爬虫(也被称为蜘蛛)可以访问和存档几乎所有的公共网站。然而,爬虫并没有一个固定的模式来决定它们访问哪些网站以及它们访问的频率,因为它们受到资源限制和政策决定的影响。


除了提供用于检索自动存档网站的简单界面外,Wayback Machine 还可以手动存储网页快照,以确保它们不会突然消失。尽管我们习惯将重要网页的 HTML 或 PDF 副本保存到咱们自己的设备进行备份,但如果最终要与他人分享这些档案,用Wayback Machine将它们存档可以增加中立性和信任度。对大多数人来说,这比一个离线的数字文件库要方便得多。

1.用Wayback Machine查询网页

要查找不再可访问的页面或查看旧版本的网页,只需转到 https://web.archive.org并输入您要搜索的网址。


如果页面之前已存档,则保存日期将显示在当年的日历上。我们可以使用时间线导航到前几年,时间线还会显示页面每年存档频率的图表。单击感兴趣的年份后,该年份的档案将在日历上用彩色圆点标记。在这里,我们以https://cambridgeanalytica.org/为例,该网站因公司关闭而于 2018 年被关闭。



蓝点表示在该日有完整的网页捕获。这些通常是你正在寻找的档案。绿色的点表示,当爬虫访问该网址时,它被自动重定向到同一网站的另一个页面,这些档案可能不包含你要搜索的内容。橙色和红色的点表示在归档过程中发生了错误,可能是由于爬虫或网站服务器的故障。一个大点表示当天有多个存档。你可以把鼠标悬停在它们上面,根据一天的时间来选择特定的存档。


在你选择了一个页面的存档版本后,Wayback Machine的导航栏会显示在屏幕的顶部。这允许你通过使用时间轴或点击 "下一个 "和 "上一个 "按钮,在该页面的不同存档之间进行浏览。


使用浏览器的快速查询技术

Wayback Machine 还可以访问它存储的特定网站档案,而无需通过其搜索界面。那么反过来说,我们可以从自己的浏览器转到格式正确的网址。


只需将网站地址添加到 Wayback Machine 地址的末尾即可:“https://web.archive.org/www.yoursite.com/”(其中“www.yoursite.com/”是想要搜索的任何站点)

浏览器将显示所希望查看的站点的最新存档版本。


此外:如果用星号 (*) 分隔这两个地址,浏览器将加载档案的日历视图:“https://web.archive.org/*/www.yoursite.com/”


如果再在末尾添加星号,Wayback Machine 将显示该域下的所有档案,而不仅仅是主页:“https://web.archive.org/*/www.yoursite.com/* ”


使用 Wayback Machine 归档网页

Wayback Machine 的另一个关键特性是它能够按需存档网页。无论我们是要保存和保留调查信息,还是要确保自己发表的作品的可访问性,都可以导航到https://archive.org/web并在右下方找到“立即保存页面”表单 -页面的手角。只需输入一个网址(比如“http://www.yoursite.com/projects”),然后单击“保存页面”按钮。除非输入的网站拒绝访问 Internet Archive 的爬虫,Wayback Machine 将开始对其进行存档。



上述步骤将只归档我们提交的页面("http://www.yoursite.com/projects",在这种情况下),而不是该网站上的所有外链和内容。如果想用这种方法归档整个网站,我们要分别提交每个页面,或在互联网档案馆创建一个免费账户,这样能够获得更多的功能。

下载档案内容

不幸的是,互联网档案馆并不能搜索其庞大档案中所有网站的全文。尽管它确实为某些档案的主要页面提供了搜索功能,但它目前并没有为其所有的3450亿个页面编制索引。


但是,如果我们在电脑上安装了Ruby编程语言(1.9.2或更高版本),就可以使用Wayback Machine的 Downloader脚本来下载某个特定域下的所有存档文件。这个脚本可以指定要下载的日期范围,这对于想要处理已经归档了几年的网站是非常有帮助的。

Wayback Machine的局限性

如上所述,并非所有的网站都被Wayback Machine自动或定期归档。网站是根据算法选择的,这些算法使用的标准包括人们访问它们的频率和其他网站链接它们的频率(这也是一个可信度的指标)。其中一些数据来自Alexa(一家领先的网络流量、统计和分析公司)的排名。此外,互联网档案馆运行自己的爬虫,并与数百名执行搜索和存档网站的志愿者合作,以保护互联网的大量信息。虽然我们可以手动归档某些网页,如上图所示,但你无法影响Wayback Machine将自动和定期归档的网站集。

检索和存档网页的其他方法


Archive.today

Archive.today(以前称为 archive.is)对网页进行存档,很像 Wayback Machine。然而,Archive.today 的不同之处在于,它只存储单个页面,而不是整个网站,并且它仅根据用户的请求而不是自动存储。


谷歌缓存

谷歌缓存是找到最近被关闭或无法访问的网页的另一种方法。当谷歌访问一个网页时,它会创建一个该网页的缓存版本,或一个副本作为备份。它经常在其搜索结果中提供这些副本。为了访问谷歌的缓存版本的网页,使用谷歌的搜索引擎搜索你想找到的网页,点击搜索结果网页地址右边的小箭头,选择 "缓存"。这将加载该网站的缓存版本,该版本是谷歌爬虫之前对该网站进行索引时的备份。

谷歌的缓存并不提供它所存储的网页的历史记录。相反,它显示的是其爬虫最后一次访问这些网页时的内容,所以它可能会显示一个网页的当前版本中缺少的内容,或者是一个已经被删除的页面。


由于各种原因,谷歌可能不会保留足够长的时间让我们在调查中使用它作为证据,所以使用额外的服务,如archive.today,备份缓存页面本身,并制作我们自己的离线副本作为备份。截图和PDF文件对于记录是如何找到一个特定版本的页面非常有用。


本期编辑:ZHZ

如有侵权,请联系管理员删除

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存