查看原文
其他

国外知名搜索引擎Yandex 44.71G核心代码被严重泄露 附代码下载链接和搜索排名因素规则

点击关注👉 非安全 2023-03-15

免责声明

本公众号所分享的一切内容皆仅用于相关专业方向从业者学习交流, 由于传播、利用本公众号所提供的任何信息而造成的任何直接或者间接的影响及损失均由使用者本人负责,本公众号及原作者不为承担任何责任,一切后果皆由使用者自行承担!

2023年1月23日,俄罗斯搜索巨头Yandex核心代码被严重泄露,其中的一些内容我们可以看出Yandex的搜索排名机制


Yandex此次泄露的代码架构分析:


想必很多人并不知道Yandex,毕竟国内使用的用户较少,大众使用的话会有一些上网的门槛存在。

先介绍一下什么是 Yandex 吧,Yandex 和 百度、谷歌一样都是搜索引擎提供商

各搜索引擎的市场占有率

在2021-2022年间,市场占有份额1.07%,次于谷歌、必应、雅虎三大搜索引擎,但多于百度(百度主要是国内在用)。是俄罗斯版的 “百度”,但是技术与Google类似,都是PageRank算法,基本上 70% 左右的结果内容与Google类似。

推特上大佬对于Yandex与Google之间相似点的列举

可以看出Yandex的代码对于一些网站的SEO优化、以及其他搜索引擎的研发还是有一定帮助的。(毕竟背靠的是Google嘛,很多Yandex技术都是前Google的技术)

至于这次源码泄露,其实早在1.26号就泄露了

这里可以看到,国外某个技术博客 arseniyshestakov.com

对于本次泄露,有一定的说明:(有条件的可以自己去看一下)

有网友对这些泄露的代码服务进行了一个有趣的对比:

Alice AI助手(小爱同学)、地图服务(百度地图?)、网盘服务(百度云盘?)、团购服务(美团?)、广告服务(百度排名?)、支付系统(支付宝?)、旅游(去哪儿?)、打车(滴滴?)、邮箱(126.com?)、云服务(阿里云?)、电商(淘宝?)、协同办公(金山云?)、数据分析、还有它的CI/CD系统

我们从泄漏出来的压缩包称中看到,这些服务都包含全了。这下好,大半个中国互联网大佬替代方案都搬回家了!可惜的都没有训练好的模型和二进制数据。

基本上把Yandex的家底代码都漏了。

至于一些国内搜索引擎会不会套用,我觉得不好说

阿里旗下的夸克做的就挺不错了,虽然有点模仿WolframeAlpha的嫌疑,但体验起来还是很不错的。


Yandex的搜索权重, 可以据此来进行SEO优化

Yandex具体的排名机制,从大类上说分三大类:

  • 静态因素 – 主要是和网站本身相关的因素(内链、标题以及广告投放比重) 竟然有广告投放比重?所以说Yandex会把广告投放作为同一个网站是否有价值的因素吧。

  • 动态因素 – Factors that are related to both the website and the search query (e.g. text relevance, keyword inclusions, TF*IDF).主要是和网站本身以及搜索相关的因素,比如文本相关性、关键词包含、TF*IDF

  • 用户搜索相关因素– 与用户搜索相关的因素(比如用户搜索意图、用户的位置信息、使用语言)

我们再具体看一下细致的影响因素:

  • 页面权重

  • Yandex 非常重视 TF*IDF

  • Yandex 依然使用TDK元信息里的Keyword(谷歌已经表示keyword不再是排名因素)

  • Yandex 对于医疗、法律、财经类网站有单独的排名因素(YMYL). 这些敏感类目必须要单独排名啊,要不就是以前某度的结果。

  • Yandex会对页面质量进行打分 (ICS score). 大胡说跨境视频课程里面一直讲的就是质量得分,不管是谷歌广告、阿里巴巴、抖音,底层机制是一样的。

  • 高质量外链对排名影响因素巨大。

  • Yandex 不爬取JavaScript内容,但是谷歌会爬取。

  • 服务器错误或只是过多的4XX错误会导致排名下降。大胡说跨境SEO课程也说过如何处理4XX错误

  • 文章日期也会影响排名,谷歌也是一样,我们也有文章介绍关于文章日期的。

  • Yandex 使用INDEXNOW技术促进收录,具体indexnow看这里第三条

安全思考

程序源码是计算机公司的核心资产,这次Yandex的代码泄漏给所有公司敲响警钟,代码仓库的权限管理要重视,个别程序员能够拖库整个公司所有代码仓库,这暴露了Yandex代码仓库管理权限管理的严重安全问题 


再说回代码,感兴趣的师傅可以通过下面的下载地址进行下载, 至于这份代码能干嘛?

套壳二次开发, 代码审计...多的我就不说了

因为全部文件下载下来足足有44.71GB,大家可能会觉得比较麻烦

如果单纯想吃个瓜的话,本文还提供了另一个链接, 内含此次泄露的文件清单

File List for Yandex Source Code - FILENAMES ONLY! (github.com)

这里面有详细的文件列表,可以快速吃个瓜。

下载地址

点击下方公众号回复yandex获取此次泄露的全部代码(共44.7G)


同时欢迎各位加入交流群进行交流讨论,有其他需求或者寻求帮助的可以在群里进行讨论交流,群里也会分享一些工具和教程,添加时请根据您的来意备注安全交流软件资源交流


安全神器 | 基于YAML语法模板的定制化快速漏洞扫描器


微信多开,还能防撤回,自动抢红包?这个工具太强了吧!-信息差消除计划-004


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存