查看原文
其他

一款特殊的爬虫工具,不要乱用

果核 果核剥壳
2024-09-25


相信上果核网站的同学,很多都是软件爱好者。


对于那些喜欢捣鼓各种奇奇怪怪软件的朋友来说,软件的更新普遍分为两种状态,一种是不想更新的绝版版本,符合自己的软件功能使用需求,再更新一下软件就带有广告和用不上的功能了。


另一种是需要保持最新的软件,以体验新功能为主。



对于普通的安卓用户来说,从应用商店更新软件是最主要的方式,但是现在应用商店的审核比较严格,除了适配种种规则外还需要备案,没有备案在安装的时候都会有各种限制,对于一些国外的小众工具,在应用商店里是搜索不到的。


除了果核网站,会监控更新一些第三方小众的软件,如果果核网站没有收录,则

要通过各类网站来获取,那么有没有一类软件可以把这些站点聚合起来,统一检测软件的更新情况。

今天要说的Obtainium就是这样一款在Android上使用的工具。简单的来说,就是一款特殊的爬虫,它可以检测软件仓库或者网页上的更新信息,来获取软件的安装包,或者仅仅把它当成更新提醒器使用。



首次打开软件,默认展示的只有它自己的更新情况,需要手动添加内容,它添加的数据是可以导出备份的,不用担心以后重复添加的问题。



由于网页格式众多,是没有一种万能办法来读取网页上的版本号格式的,Obtainium默认支持的站点有下面这些。



基本上都是国外的软件仓库,比较熟悉的是它支持华为应用商店的软件,但试了一下发现没法直接用国内软件页地址去解析出版本号,需要手动去设置匹配规则。



如果是Github相关的连接,它会直接解析并添加进去。这些预设好的规则添加相对来说都比较简单,除了需要解决一下网络访问的问题,其他的都没啥。



下面我们主要来看一下怎么添加自定义监控,怎么从软件的网站上直接读取版本号,这才是Obtainium比较实用的功能。


加入时,如果丢进去网页里有APK的链接信息,它会自己检测到。



如果没有网页上下载链接(只有版本更新信息),以及链接里没有版本信息的时候,或者是想检测电脑软件等等,就需要你用正则表达式来提取出网页上的信息,当然你也不用害怕,现在有自动生成规则的工具可以用一下。


像是在网页上有版本信息,先把链接放进来,之后主要需要填写的信息就两个,一个是用来筛选下载链接的信息。



这个信息你可以长按下载按钮(在手机上),或者右键复制(在电脑上),看看下载链接长什么样。



然后把固定的那部分填写进去,把“将版本号提取规则应用于完整页面”和“仅追踪”的按钮打开。



提取版本号的正则表达式信息框,需要用到这个叫 regex ai 的免费工具,这个工具对于老手来说有些鸡肋了,但是对小白来说刚刚好。将网页的源码丢进去,然后选择你需要提取的信息,它就能自己生成规则。



生成之后它自己也会测试一下,下面有数据的就是“理论上可用”的规则,下次就算网页上的版本号变动也能获取到数据。



将它添加到Obtainium对应的数据框里,点击添加按钮,添加一下软件的名字和备注信息,就完成了一个简单的自定义规则添加。



以后打开软件就能看到有变动的更新版本号,它还有诸多可自定义的细节和数据导出等等,对喜欢追更软件的朋友有些帮助,就像是一个小爬虫。




当然,考虑到大家基本上都很懒。所以,还是直接关注果核比较好。


最后,附上软件的体验地址。




果核小卖部继续营业,现在为了避免频繁出现被篡改的情况,所以果核单独给大家做了个小程序,以后就不会出现这种情况啦!这儿选出两个商品,更多的内容,请看第三条文章。

点击下面的卡片立即进入果核小卖部

👇👇👇👇👇




继续滑动看下一个
果核剥壳
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存