引起Google搜索中心覆盖率出现“已排除”的15种原因

2021年2月7日 5 15,229

最近对网站域名进行更换,顺带在Google搜索中心提交了“地址更改”,经过这几天的分析发现,大量的网页显示“已排除”,这显得很尴尬,我排查了其中的因素,准备抓取稳定后重新清理死链接。造成“已排除”的原因,根据Google官方的文档,大约15种,我们来逐步分析。

正式之前,我们还是了解下“已排除”到底是什么东西。处于“已排除”状态的网页通常不会被编入索引,这在Google看来是合理的。此类网页要么是与已编入索引的网页重复,要么是被您网站上采用的某种机制禁止编入索引

引起Google搜索中心覆盖率出现“已排除”的15种原因
新站点的已排除网页居然超过了有效网页

1、被“noindex”标记排除了:Google在尝试将网页编入索引时遇到了“noindex”指令,因此未将该网页编入索引。如果您确实不希望该网页被编入索引,那么恭喜您得偿所愿!如果您希望该网页被编入索引,您则应移除该“noindex”指令。要确认此标记或指令是否存在,请在浏览器中请求该网页,并在响应正文和响应标头中搜索“noindex”。

2、被网页移除工具屏蔽了:相应网页目前已被网址移除请求屏蔽。如果您是一位经过验证的网站所有者,则可以使用网址移除工具查看是谁提交了网址移除请求。移除请求只在移除日期后的90天内有效。待此时间段过后,即使您未另行提交索引编制请求,Googlebot也可能会再次访问该网页并将其编入索引。如果您不希望该网页被编入索引,请使用“noindex”、为该网页设置授权要求或移除该网页。

3、已被robots.txt屏蔽:robots.txt文件禁止Googlebot访问相应网页。您可以使用robots.txt测试工具检查是否确实存在此情况。请注意,这并不意味着该网页不会被通过某些其他方式编入索引。如果Google不必加载该网页就能找到与它相关的其他信息,那么该网页仍然可能会被编入索引(尽管这种情况不太常见)。为确保Google不会将该网页编入索引,请移除robots.txt中的屏蔽指令,然后改用“noindex”指令。

4、被屏蔽了,因为会返回“未授权的请求”(401)错误:Googlebot无法访问相应网页,因为该网页设有授权要求(返回了401响应)。如果您的确希望Googlebot能够抓取该网页,请取消授权要求,或允许Googlebot访问您的网页。

5、已抓取,但尚未编入索引:Google已抓取相应网页,但尚未将其编入索引。日后,该网页可能会被编入索引,也可能不会被编入索引;无论如何,您都无需重新提交该网址以供抓取。

引起Google搜索中心覆盖率出现“已排除”的15种原因
出现了6种已排除的原因

6、已发现-尚未编入索引:Google已发现相应网页,但尚未将其编入索引。这通常意味着,Google想要抓取该网址,但这样预计会导致网站过载;因此,Google重新安排了抓取时间。这就是该网页的上次抓取日期在报告中为空的原因。

7、备用网页(有适当的规范标记):相应网页与Google所识别出的规范网页重复。该网页正确地指向了这个规范网页,因此您无需执行任何操作。

8、重复网页(未被用户选为规范网页):相应网页与其他网页重复,并且这些网页都未被标记为规范网页。因此,我们认为该网页不是规范网页。您应明确地为该网址标记规范网页。检查该网址应该会显示Google选择的规范网址。

9、重复网页,Google选择的规范网页与用户指定的不同:相应网页被标记为一组网页的规范网页,但Google认为另一网址更适合作为规范网页。Google已将其认为是规范网页的网页(而非该网页)编入索引。建议您将该网页明确标记为相应规范网址的重复网页。该网页是在没有任何明确抓取请求的情况下被发现的。检查该网址应该会显示Google选择的规范网址。

10、未找到(404):相应网页在收到请求时返回了404错误。该网址是Google在没有任何明确请求或站点地图的情况下发现的。可能是Google通过来自其他网站的链接发现了该网址,也可能是该网页先前存在过但后来又被删除了。Googlebot可能会继续尝试访问该网址,这种行为可能会持续一段时间;虽然Googlebot会逐渐降低对该网址的抓取频率,但我们无法让它永久地忘记某个网址。如果此情况是有意为之,那么您可以忽略404响应。如果您的网页已不在原位置,请使用301重定向将用户转到新位置。

引起Google搜索中心覆盖率出现“已排除”的15种原因
更换域名前网站错误内容传递到新域名

11、网页重定向:相应网址是重定向网页,因此未添加到索引中。

12、软404在Google看来,针对相应网页发出的请求返回了软404响应。这意味着所返回的内容只是一条便于用户理解的“未找到”消息,其中并未包含相应的404响应代码。我们建议仅为真正的“未找到”网页返回404响应代码,或者向网页中添加更多信息以告知Google这不是软404

13、重复网页,网址已提交但未被选为规范网址:相应网址是一组重复网址中的一个网址,并且这些网址均未被明确标记为规范网页。尽管您已明确要求将该网址编入索引,但由于它是重复网址,且Google认为另一网址更适合作为规范网页,因此Google没有将该网址编入索引,而是将我们选择的规范网址编入了索引。(Google只会将一组重复内容中的规范网址编入索引。)此状态与“Google选择的规范网页与用户指定的不同”状态的区别在于:在这种情况下,您已明确请求将该网址编入索引。

14、由于禁止访问而被屏蔽(403):用户代理提供了凭据,但未被授予访问权限。不过,Googlebot从未提供凭据,因此您的服务器错误地返回此错误。应该修复此错误,或者robots.txt或noindex应该屏蔽该网页。

15、由于其他4xx问题而被屏蔽:服务器遇到此处所述的其他问题类型未涵盖的4xx错误。

以上15种原因就是Google出现“已排除”的额主要因素,我通过数据分析,(比如:“网页会自动重定向”中有70项网页受到影响),发现这是原网站传递过来的内容,也就是说我在做整站301的时候,原网址下面的所有内容相应的传递到新网址,而原网址我也修改过链接结构,所以是诸多因素造成了现在网址出现的各种问题,最好的方式或许就是全部重新提交,以新站点的方式来重新SEO。

喜欢本文,点击下面按钮:点赞+收藏+分享,长期保存以备后用!
王光卫
阿里云服务器
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:5   其中:访客  4   博主  1
    • wys wys 4

      重头开始SEO吧!跟换新域名的代价,不能沿用旧域名的SEO数据。

      • 相遇以沫 相遇以沫 0

        大神威武,一看就知道实战派

        • 哇咪西 哇咪西 5

          百度没这个功能呢,现在百度收录很困难

          • midok midok 0

            不能沿用旧域名的SEO数据。