利用Entity密度提高谷歌SEO排名
由于在做SEO优化的博客产品,因此关注谷歌SEO的一些研究和案例就成了我的日常工作。在产品的迭代过程中,我们也在把一些别人总结的经验加入到产品中。比如我们正在做谷歌搜索排名中排名靠前的文章的关键词密度分析工具,并且在后续内容生成过程中把关键词合理的埋入到生成的文章内容中。
碰巧最近刚刚读完了On-page.ai的创始人Eric Lancheres的一篇相关文章,是利用案例来分析在文章中与搜索词有关的Entity密度与排名的关系。今天我就把这篇文章的主要内容总结一下发出来,希望能对出海做SEO的朋友们有所启发。
谷歌算法的秘密
在最近公开的谷歌法庭审理的资料中,有一些谷歌前雇员提供的文档。其中一个非常特殊的声明,就是:我们不去理解文档,我们去仿造它
就算到了今天,谷歌去理解文档的能力也是非常弱的。因此他们去观察用户看到文档的反应并且记住这些反应。地址:https://www.justice.gov/d9/2023-11/417516.pdf
当然,这些材料说的是谷歌在大规模把AI引入到搜索引擎之前的2017-2019年之间。
在今天,谷歌应该是使用命名实体识别(named entity recognition),用户反馈以及AI来进行排名。
谷歌如何对网页进行初始排名?
谷歌领先所有竞争对手的最大的优势就是速度。对于一个新的网页,谷歌可以在几个小时之内完成爬取和索引。考虑到当前互联网上内容增加的速度,谷歌这个速度无疑是惊人的。我们自己内部也做过测试,最快我们的内容在通过谷歌Search Console提交后两个小时之内就能被搜索到。
比如在一些突发事件或者灾难发生时,谷歌新闻能在一个小时之内完成爬取并被搜索到。
为了实现这个速度使命,谷歌就不得不做妥协。谷歌会跳过对内容的高级分析,而采用更为原始和粗暴的方法来进行排名。这时谷歌采用的是一种初始化索引方式,为了能有更快的速度。但是谷歌应该会有至少两个索引方法,一个是速度优先的初始索引,另外一个则是速度更慢的深入分析的排名。在第二个索引方式中,谷歌会对文档内容进行深入分析,并且会利用更多资源和AI能力来给文档打分,并且调整文档的排名。
而这个速度更快的初始索引,就是采用了基于实体的排名。所谓基于实体的排名,就是计算与文章主题(核心关键词)相关的实体的分布密度,基于这个分布密度进行排序。
例如,假定一场飓风在夏威夷发生,用户需要了解关于这个灾难的相关的即时消息。谷歌没有太多时间去分析相关文章的复杂内容,它会把与这个搜索意图相关的内容尽快提供出来。如下图:
灾难发生
记者开始撰写相关这个事件的文章并发布
新闻发布在谷歌批准的新闻站点,谷歌爬虫快速爬取这些文章
谷歌从文章中扫描所有相关的实体词,并且根据搜索词计算文章中相关实体词的密度,迅速给出初始排名。
由此可见,一个网页的初始排名基本上与网页内容中与搜索词有关的实体词的密度紧密相关。所以虽然现在谷歌一直在强调内容质量的重要性,并且屡次在调整自己的算法,但是因为时效原因,与搜索词相关的词频分布还是获取初始排名,尤其是让谷歌快速抓取并给排名的重要因素。
为了验证这个猜想,Eric Lancheres决定做一个实验。他先利用ahrefs找了一个相对低竞争并且有一定搜索量的搜索词“pros and cons of dating me”,词的搜索量如下:
然后用相关词工具,找到推荐的实体词:
以及一些高度相关的词:
然后他用混合这些词和一串串0组成的词写了一篇文章,当然这些0构成的词的长度也要像单词的长度,内容如下:
最终整篇文章看起来是这个样子:
最终过了24个小时,这个页面排名到了搜索结果的第一页。
这个结果是不是非常让人惊讶,谷歌竟然把一个完全不适合人读的文章放在了第一页。
从这个实验我们可以看到,谷歌在给一个网页的初始排名的时候是根据网页中与搜索词相关的实体词的分布密度密切相关的。
谷歌的二次索引
前面的例子证明了对于谷歌搜索引擎来讲,文章中与搜索词有关的实体词的密度分布对于收录速度以及获得初始排名非常重要,我们自己的不同的测试也验证了这一点。基于这个猜想,我们正在研发一个关键词分析和打分工具,在你输入一个搜索关键词后,我们会根据这个搜索关键词把排名靠前的文章搜索出来,并且进行分词和统计,从而找到相关实体词的词频分布。
而有了这些词分布,在用我们的写作引擎生成文章的时候,我们也会要求写作引擎按照这些实体词的词频分布尽量埋入到文章当中。
我们继续来看前面提到的那个实验,24小时之后页面就被谷歌收录并且排到了第一页。但是后续这个页面的排名就开始一路下降,因为这就与谷歌的二次索引算法有关了。我们看看这个页面的访问数据:
因为这个页面的内容根本没法读,所以停留时长才13秒,跳出率达到100%。因为谷歌发现这个页面不符合用户的搜索意图,所以开始调整页面的排名分数。页面慢慢的下降到了20多位。
为了验证,Eric让一些做SEO的朋友搜索到这个页面,然后点击进去,停留1分钟左右。发现谷歌又开始提高这个页面的排名。由此可见,用户与页面的互动行为对排名是有重要的影响的。
由此可见,谷歌在通过实体词密度给出初始排名后,开始根据用户搜索访问页面的行为进行排名调整。因此整个排面逻辑应该是如下这个样子:
我们在用我们自己的基于词频的打分工具给搜索结果页面进行打分的时候会发现有些分数低的页面会排在分数高的页面前面,估计其中一个重要原因就是分数低的页面可能更能满足用户搜索意图,用户停留时长高,跳出率低。
正在内测的关键词工具
同样我们过去的经验中,比如用户搜一些数据处理问题的时候,我们做了包含关键词内容和可以操作的工具的页面。因为用户可以在页面直接进行操作,提高了页面使用时长同时降低了跳出率,因此能看到排名从初始比较低的20名能在一个月之内上升到谷歌精选。
谷歌最近几年越来越重视内容的质量,去呢提出了E-E-A-T的文章质量指引,在去年9月份又有了Helpful Content的更新。这都是在解决一个页面获取初始排名之后,进一步对页面的内容质量,用户体验等等进行评估,结合用户行为数据以及AI分析,来动态调整一个页面的分数。从而把最符合用户搜索意图的结果给到用户。
如何获得高排名?
根据前面的测试验证结果,我们可以发现如果一个页面想要获得高排名,需要做如下的工作:
1,提高搜索词相关的实体词的密度(高初始排名)
2,通过文章内容质量、页面设计、更符合搜索意图的语言描述来提高用户体验(优化后续的持续二次索引)
由于谷歌在去年推出了影响整个站点排名的HCU,这就要求大家对第二点更加重视。因为如果通过第一点很快的拿到一个很好的初始排名,但是用户体验非常差,比如所有你的网页都是后续在二次索引的时候出现明显的份数降低,那么谷歌就可能会认为你是一个Spam网站,整个网站可能就会被处罚。比如这个网站:
总结
从2022年开始了解SEO,2022年底开始真正实践SEO,我自己也一直在理解谷歌的逻辑。大家都知道谷歌的价值观中的“不作恶”,那么对于我们做搜索引擎优化来讲,理解你目标用户的搜索意图,然后根据搜索意图提供有价值并且用户体验好的内容是最核心的。而在内容中把符合搜索意图的相关的实体词合理的进行分布,实际上也是用户体验的一部分。只不过这个可以通过数据统计量化来分析和处理,而不像其他的文章质量指标、用户体验等等那么不容易客观评价。