国外知名搜索引擎Yandex 44.71G核心代码被严重泄露 附代码下载链接和搜索排名因素规则
免责声明
2023年1月23日,俄罗斯搜索巨头Yandex核心代码被严重泄露,其中的一些内容我们可以看出Yandex的搜索排名机制
Yandex此次泄露的代码架构分析:
想必很多人并不知道Yandex,毕竟国内使用的用户较少,大众使用的话会有一些上网的门槛存在。
先介绍一下什么是 Yandex 吧,Yandex 和 百度、谷歌一样都是搜索引擎提供商
在2021-2022年间,市场占有份额1.07%,次于谷歌、必应、雅虎三大搜索引擎,但多于百度(百度主要是国内在用)。是俄罗斯版的 “百度”,但是技术与Google类似,都是PageRank算法,基本上 70% 左右的结果内容与Google类似。
可以看出Yandex的代码对于一些网站的SEO优化、以及其他搜索引擎的研发还是有一定帮助的。(毕竟背靠的是Google嘛,很多Yandex技术都是前Google的技术)
至于这次源码泄露,其实早在1.26号就泄露了
这里可以看到,国外某个技术博客 arseniyshestakov.com
对于本次泄露,有一定的说明:(有条件的可以自己去看一下)
有网友对这些泄露的代码服务进行了一个有趣的对比:
Alice AI助手(小爱同学)、地图服务(百度地图?)、网盘服务(百度云盘?)、团购服务(美团?)、广告服务(百度排名?)、支付系统(支付宝?)、旅游(去哪儿?)、打车(滴滴?)、邮箱(126.com?)、云服务(阿里云?)、电商(淘宝?)、协同办公(金山云?)、数据分析、还有它的CI/CD系统。
我们从泄漏出来的压缩包称中看到,这些服务都包含全了。这下好,大半个中国互联网大佬替代方案都搬回家了!可惜的都没有训练好的模型和二进制数据。
基本上把Yandex的家底代码都漏了。
至于一些国内搜索引擎会不会套用,我觉得不好说
阿里旗下的夸克做的就挺不错了,虽然有点模仿WolframeAlpha的嫌疑,但体验起来还是很不错的。
Yandex的搜索权重, 可以据此来进行SEO优化
Yandex具体的排名机制,从大类上说分三大类:
静态因素 – 主要是和网站本身相关的因素(内链、标题以及广告投放比重) 竟然有广告投放比重?所以说Yandex会把广告投放作为同一个网站是否有价值的因素吧。
动态因素 – Factors that are related to both the website and the search query (e.g. text relevance, keyword inclusions, TF*IDF).主要是和网站本身以及搜索相关的因素,比如文本相关性、关键词包含、TF*IDF
用户搜索相关因素– 与用户搜索相关的因素(比如用户搜索意图、用户的位置信息、使用语言)
我们再具体看一下细致的影响因素:
页面权重
Yandex 非常重视 TF*IDF
Yandex 依然使用TDK元信息里的Keyword(谷歌已经表示keyword不再是排名因素)
Yandex 对于医疗、法律、财经类网站有单独的排名因素(YMYL). 这些敏感类目必须要单独排名啊,要不就是以前某度的结果。
Yandex会对页面质量进行打分 (ICS score). 大胡说跨境视频课程里面一直讲的就是质量得分,不管是谷歌广告、阿里巴巴、抖音,底层机制是一样的。
高质量外链对排名影响因素巨大。
Yandex 不爬取JavaScript内容,但是谷歌会爬取。
服务器错误或只是过多的4XX错误会导致排名下降。大胡说跨境SEO课程也说过如何处理4XX错误
文章日期也会影响排名,谷歌也是一样,我们也有文章介绍关于文章日期的。
Yandex 使用INDEXNOW技术促进收录,具体indexnow看这里第三条
安全思考
程序源码是计算机公司的核心资产,这次Yandex的代码泄漏给所有公司敲响警钟,代码仓库的权限管理要重视,个别程序员能够拖库整个公司所有代码仓库,这暴露了Yandex代码仓库管理权限管理的严重安全问题
再说回代码,感兴趣的师傅可以通过下面的下载地址进行下载, 至于这份代码能干嘛?
套壳二次开发, 代码审计...
因为全部文件下载下来足足有44.71GB,大家可能会觉得比较麻烦
如果单纯想吃个瓜的话,本文还提供了另一个链接, 内含此次泄露的文件清单
File List for Yandex Source Code - FILENAMES ONLY! (github.com)
这里面有详细的文件列表,可以快速吃个瓜。
下载地址
点击下方公众号回复yandex获取此次泄露的全部代码(共44.7G)
同时欢迎各位加入交流群进行交流讨论,有其他需求或者寻求帮助的可以在群里进行讨论交流,群里也会分享一些工具和教程,添加时请根据您的来意备注安全交流或软件资源交流
安全神器 | 基于YAML语法模板的定制化快速漏洞扫描器
微信多开,还能防撤回,自动抢红包?这个工具太强了吧!-信息差消除计划-004