SEO从网页抓取来看Googlebot完胜Baiduspider

2021年2月9日 3 8,970

更换新域名到现在差不多一周时间,Google收录一切正常,百度收录很稳定,一直都是0,我顺带查看了Bing、Yahoo、Yandex、Goo等搜索引擎,发现都有收录,来自世界不同地域、不同语言的搜索引擎都抓取并建立了索引,号称中文第一的搜索引擎反而没收录,这也是意料之中的事情,毕竟百度玩的是小程序。下面就看看为什么Googlebot抓取这么给力,是如何支撑世界排名第一的搜索引擎。

SEO从网页抓取来看Googlebot完胜Baiduspider

1、什么是搜索引擎抓取流程

抓取流程是从以往所抓取内容的网址列表和由网站所有者提供的站点地图开始的。在访问这些网站时,搜索引擎的抓取工具会使用网站上的链接来探索其他网页。Googlebot会特别关注新网站、对现有网站进行的更改以及无效链接。计算机程序会确定要抓取的网站、抓取频率以及要从每个网站中抓取的网页数量。

2、Google推出了Search Console

为了让网站所有者能够更精细地指定Google如何抓取网站,Google推出了Search Console:网站所有者可以详细指导Googlebot如何处理其网页,申请重新抓取,或使用robots.txt文件完全禁止抓取工具抓取网站。Google绝不接受网站为获得更频繁地抓取而付费的行为-Google为所有网站提供相同的工具,以确保尽可能为用户提供最理想的搜索结果。

3、什么是Googlebot

Googlebot是Google的网页抓取工具的通用名称。具体而言,Googlebot是两种不同类型的抓取工具的通用名称:一个是模拟桌面设备用户的桌面版抓取工具,一个是模拟移动设备用户的移动版抓取工具。

SEO从网页抓取来看Googlebot完胜Baiduspider

您的网站很可能会被Googlebot桌面版和Googlebot智能手机版同时抓取。您可以通过查看请求中的用户代理字符串来确定Googlebot的子类型。不过,这两类抓取工具都遵循robots.txt中的相同指令,因此您无法使用robots.txt有选择地指定Googlebot智能手机版或Googlebot桌面版。

如果您的网站已转换为采用Google的优先将移动版网站编入索引机制,那么多数Googlebot抓取请求都会通过移动版抓取工具发出,少数请求会通过桌面版抓取工具发出。对于尚未转换的网站,多数抓取操作则会通过桌面版抓取工具发出。在这两种情况下,负责完成少数抓取操作的抓取工具都仅会抓取负责完成多数抓取操作的抓取工具已抓取过的网址。

4、Googlebot如何访问您的网站

对于大多数网站,Googlebot的平均访问频率不会高于几秒钟一次。不过,由于存在延迟,在一小段时间内,此频率可能会略高一些。

Googlebot可在数千台计算机上同时运行,以提高性能并随着网络规模的扩大而扩展其作用范围。此外,为了降低占用的带宽,Google会在多台计算机上运行多个抓取工具,而这些计算机就位于它们可能会抓取的网站附近。因此,您的日志可能会显示有多台来自google.com的计算机访问了您的网站,而且所有这些计算机使用的都是Googlebot用户代理。

SEO从网页抓取来看Googlebot完胜Baiduspider
Googlebot 桌面版

5、Googlebot的目标

我们的目标是,每次访问您的网站时都尽可能多地抓取网页,但不会过多地占用服务器的带宽。如果您的网站跟不上Google的抓取请求频率,您可以请求更改抓取速度。

通常,Googlebot会通过HTTP/1.1抓取内容。但是,从2020年11月开始,如果网站支持HTTP/2并且通过HTTP/2抓取内容可能会使网站受益,那么Googlebot可能就会通过HTTP/2抓取该网站。这可能会为网站和Googlebot节省计算资源(例如CPU、RAM),但不会影响网站索引编制效果和排名。

6、验证Googlebot

在您决定禁止Googlebot访问您的内容之前,请注意Googlebot所用的用户代理字符串经常会被其他抓取工具假冒。因此,请务必验证有问题的请求是否确实来自Google。若要验证请求是否确实来自Googlebot,最佳方法就是对请求的来源IP地址进行DNS反向查找。

Googlebot和所有正规的搜索引擎漫游器都会遵循robots.txt文件中的指令,但某些不良漫游器和垃圾内容发布者则不会。

Google对于站长的支持方面也是很给力,各种教程,以及官方在社交媒体的各种资讯都能帮助SEO从业者更专业、更有效的提升网站性能,把最优质的内容呈现给网络用户。

喜欢本文,点击下面按钮:点赞+收藏+分享,长期保存以备后用!
王光卫
阿里云服务器
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:3   其中:访客  3   博主  0
    • 从左到右 从左到右 0

      百度现在新站几个月都不收录,蛋疼的很

      • 老张博客 老张博客 2

        我也搞了个资源站,只不过内容都 是采集的,看来得要搞搞SEO优化了

        • 文杰 文杰 0

          原本想做百度的,现在觉得没必要了