什么是抓取预算优化?怎么做?

抓取预算优化使 Google 能够更轻松地访问、抓取您的每个重要页面并将其编入索引,以便您可以通过搜索吸引更多客户。以下是您需要了解的有关抓取预算的信息、如何识别抓取预算浪费,以及如何优化您的网站以避免潜在的 SEO 抓取预算问题。

什么是抓取预算?

您的抓取速度限制是指 Google 在不影响网站用户体验的情况下可以抓取的页面数量。本质上,Google 不想让您的服务器因请求而超载 美国电话号码图书馆 因此它在您的服务器可以处理的数量(您的服务器资源)和它“想要”抓取您的网站的数量之间找到了一个令人满意的中间地带。

您的抓取需求 取决于 URL 的受欢迎程度和新鲜程度。如果某个网址很旧并且很少有人搜索它,那么 Google 就会降低抓取它的频率。

您无法影响抓取速度,但可以通过创建新内容、针对SEO优化网站以及解决 404 和垃圾重定向等 SEO 问题来影响抓取需求。

什么是抓取预算优化?

美国电话号码图书馆

抓取预算优化是通过提高搜索抓取工具的可导航性和减少抓取预算浪费,使您的网站更易于 Googlebot 访问、抓取和编制索引的过程。这包括减少错误和损坏的链接、改进内部链接、不对重复内容建立索引等等。

当 Google 未能抓取您网站上足够多的网页或抓取网页的频率不够高时,抓取预算可能会成为一个问题。

由于Google只有一定数量的资源可供使用,因此它只能在给定的一天向给定的网站分配一定数量的抓取。如果您有一个大型网站,这意味着 Google 可能仅有资源每天抓取您网站页面的一小部分。这可能会影响您的网页被编入索引或内容更新反映在 Google 排名中所需的时间。

幸运的是,如果您认为您的网站遇到了 Google 抓取预算问题,您可以采取一些措施来优化您的网站并充分利用抓取预算。

如何查看您的抓取统计报告?

您可以通过检查 Google Search Console 中的抓取统计信息或分析服务器文件日志来识别抓取预算问题。

在 Google Search Console 中查看抓取统计信息报告可以帮助您更好地了解 Googlebot 如何与您的网站进行交互。以下是您如何使用它来查看 Google 浏览器正在执行的操作。

  1. 打开 Google Search Console,登录并选择您的网站。然后从 Search Console 菜单中选择“设置”。
  2. 您可以在浏览统计部分查看过去 90 天的浏览报告。单击“打开报告”将其打开。

您的抓取统计报告意味着什么

现在您可以看到 Googlebot 的活动了,是时候处理数据了。以下是您可以从扫描报告中获取的信息类型的简要分类。

主抓取图表将向您显示 Googlebot 抓取活动的直观表示。您可以在此处查看 Google 在过去 90 天内发出的抓取请求数、网站服务器的平均响应时间以及抓取过程中下载的总字节数。

“主机状态”部分会告诉您浏览器在访问您的网站时是否遇到任何可用性问题。

带有白色复选标记的绿色圆

圈表示 Googlebot 没有遇到任何问题,并且您的主机运行顺利。

带有绿色复选标记的白色圆圈表示 Googlebot 在一周多前遇到了问题,但现在一切正常。

带白色感叹号的红色圆圈表示 Googlebot 在上周至少遇到了一个重大问题。

抓取请求转储提供有关 Google 抓取工具如何与您的网站交互的更详细信息。

回复

第一个要查看的部分是“回复”部分。本部分告诉您 Googlebot 在尝试抓取您网站上的网页时会收到什么类型的响应。 Google 认为以下是很好的答案:

  • 好的 (200)
  • 永久迁移 (301)
  • 暂时搬迁 (302)
  • 搬家(其他)
  • 未修改 (304)

理想情况下,大多数响应应该是 200(某些 301 也可以)。 “未找到 (404)”之类的代码是一个警告,表明您的网站上存在死胡同,可能会影响您的抓取预算。

文件类型

“按文件类型”部分告诉 Googlebot 在抓取过程中遇到的文件类型。您看到的百分比值  代表 该类型的响应百分比,而不是每种文件类型的字节百分比。

按目的

“按目的”部分指定所爬网的页面是浏览器之前见过的页面(刷新)还是浏览器的新页面(发现)。

按 Googlebot 类型

最后,“按 Googlebot 类型”部分介绍了用于发出请求和抓取您网站的 Googlebot 抓取工具的类型。例如,“智能手机”类型表示 Google 智能手机浏览器的访问,而“AdsBot”类型表示 Google AdsBot 抓取工具之一的抓取。顺便说一句,您始终可以通过编辑 robots.txt 文件来禁止某些类型的 Googlebot 抓取您的网站。

如果您想详细了解如何解释抓取报告中的数据,   请查看Google 的 Search Console 抓取报告指南。

如何知道您是否浪费了浏览预算

确定优化抓取预算是否有助于 Googlebot 抓取更多网页的快速方法是查看每天实际抓取的网站网页数量。

准确计算出您的网站上有多少个唯一页面,并将其除以“每天平均抓取次数”。如果您的总页面数是每日抓取页面数的十倍或更多倍,则应考虑抓取预算优化。

如果您认为遇到浏览问题,请首先查看“回复”部分,了解浏览器遇到的错误类型。您可能需要进行更深入的分析才能准确了解预算的消耗情况。查看服务器日志可以为您提供有关浏览器如何与您的站点交互的更多信息。

检查您的服务器日志

检查是否浪费抓取预算的另一种方法是查看网站的服务器日志。这些日志存储向您的网站发出的每个请求,包括 Googlebot 在抓取您的网站时发出的请求。分析您的服务器日志可以告诉您 Google 抓取您网站的频率、抓取工具访问最频繁的页面以及抓取工具机器人遇到的错误类型。

您可以手动检查这些日志,但搜索这些数据可能有点乏味。幸运的是,  几种不同的日志分析工具可以帮助您对日志数据进行排序和理解,例如SEMRush 日志文件分析器 或 Screaming Frog SEO 日志文件分析器。

抓取预算 SEO:优化抓取预算的 8 种方法

发现浪费了抓取预算?抓取预算 SEO 优化策略可以帮助您减少浪费。以下八个技巧可帮助您优化 SEO 抓取预算以获得更好的性能。

1.Robots.txt和Robots元标签

减少浪费的抓取预算的一种方法是首先阻止 Google 抓取工具抓取某些页面。通过让 Googlebot 远离您不想索引的页面,您可以将其注意力集中在更重要的页面上。

robots.txt 文件通过告诉搜索爬虫您要爬网哪些页面以及禁止哪些页面来设置限制。向 robots.txt 文件添加 disallow 命令可防止爬网程序访问、爬网和索引指定的子目录,除非存在指向这些页面的链接。

在页面级别,您可以使用机器人元标记对特定页面进行 noindex。 noindex 标记允许 Googlebot 访问您的页面并跟踪其上的链接,但它告诉 Googlebot 避免对页面本身建立索引。该标签直接进入 HTML 代码的 <head> 元素,如下所示:

2. 内容修剪

网站上存在低价值 URL 或重复内容可能会导致抓取预算紧张。深入研究网站的页面可以帮助您识别不必要的页面,这些页面可能会耗尽您的抓取预算并阻止更有价值的内容被抓取和索引。

什么是低价值 URL?根据 Google 的说法,低价值 URL在现场 SEO中通常属于以下类别之一:

  • 重复内容
  • 会话标识符
  • 错误页面
  • 被黑的页面
  • 低质量和垃圾邮件内容

重复内容并不总是很容易识别。如果一个页面上的大部分内容与另一页面上的相同 – 即使您添加了更多内容或更改了一些单词 – Google 也会将其视为非常相似。使用 noindex 元标记和规范标记来指示哪个是应索引的原始页面。

通过更新、删除或取消索引可能被记录为低价值的内容,您可以让 Googlebot 有更多机会抓取您网站上真正重要的网页。

3. 删除或处理 JavaScript

Googlebot 读取 HTML 没有问题,但它需要先处理 JavaScript,然后才能读取它并为其建立索引。因此,Google 不会抓取页面上的 JavaScript 元素并为其建立索引,而是抓取页面上的 HTML 内容,然后将该页面放入渲染队列中。当它有时间和资源用于处理时,它会处理并“读取”JavaScript,并最终对其进行索引。这个额外的步骤不仅需要更多的时间,而且还需要更多的扫描预算。

JavaScript 还会影响您的页面加载时间,并且由于网站速度和服务器负载会影响您的抓取预算,因此,如果网站被过多的 JavaScript 堵塞,Google 抓取您网站的频率可能会低于您希望的频率。

为了保留抓取预算,您可以对包含 JavaScript 的页面进行 noindex,删除 JavaScript 元素,或者应用静态或服务器端呈现,以使 Google 更容易理解和抓取。

4. 删除 301 重定向链

301 重定向是一种方便且 SEO 友好的方式,可将流量和链接值从要删除的 URL 转移到另一个相关 URL。

但如果您不遵循推荐,很容易意外创建推荐链。这不仅会导致网站访问者的加载时间增加,还会导致浏览器抓取多个 URL,只是为了到达包含实际内容的页面。这意味着 Google 必须抓取重定向链中的每个 URL 才能到达目标页面,从而在此过程中耗尽您的抓取预算。

为了避免这种情况,请确保所有重定向都指向其最终目标。尽可能避免使用重定向链始终是一个好习惯。但错误还是会发生,因此请花一些时间手动检查您的网站或使用重定向检查器来检测和清理 301 重定向链。

5. XML站点地图优化

您的站点地图与搜索爬虫共享所有重要页面 – 或者至少应该这样做。搜索引擎抓取站点地图以轻松查找页面。尽管 Google 表示不需要站点地图来查找您的网页,但拥有一个站点地图仍然是个好主意。

为了正常工作,您的站点地图应该只包含您想要索引的页面。您应该从站点地图中删除无索引或重定向的 URL。实现此目的的一个简单方法是使用动态生成的 XML 站点地图。动态生成的站点地图会自行更新,因此您不必担心在每次应用 301 后都要编辑您的网站。

如果您的站点有多个子目录,请使用包含指向每个子目录的站点地图的链接的站点地图目录。这有助于展示您网站的架构,并为搜索爬虫提供简单的路线图。

6.制定内部链接策略

内部链接不仅可以帮助网站访问者浏览网站,还可以帮助网站访问者浏览网站。它还为履带机器人创造了更清晰的运动路径。

完善的内部链接策略可以将爬虫引导到您想要爬行的页面。 由于浏览器使用链接来查找其他页面,因此将更深的页面与更高级别的内容链接可以帮助浏览器更快地访问它们。同时,从您不希望耗尽抓取预算的低优先级页面中删除链接可以帮助将它们推到队列底部,并确保您的重要页面首先被抓取。

7.修复站点错误

网站错误可能会阻碍搜索爬虫并浪费宝贵的爬行预算。理想情况下,您希望浏览器遇到实际页面或单个重定向到该页面。如果遇到重定向链或 404 错误页面,您就会浪费抓取预算。

使用 Google Search Console 抓取报告来确定抓取工具在何处遇到错误以及错误类型。删除可识别的错误将为 Googlebot 带来更流畅的浏览体验。

8. 检查损坏的链接

URL 基本上是两个页面之间的超链接。它为搜索引擎爬虫提供了一种查找新页面的方法,但有些 URL 无法到达任何地方。损坏的链接对于搜索引擎爬虫来说是一个死胡同,并且浪费了有限的爬行预算。

花一些时间检查您的网站是否有损坏的链接 2024 年最佳物流路线优化软件  这些链接可能会将搜索爬虫发送到无效页面,并修复或删除它们。除了减少抓取预算浪费之外,您还可以通过删除损坏的链接来改善访问者的浏览体验,因此定期进行链接检查总是一个好主意。

停止在 SEO 上浪费抓取预算!

在优化网站的抓取预算或整体 SEO 时 aob目录 不确定从哪里开始或感到不知所措?您不必孤军奋战——我们的SEO和网络维护服务可以提供帮助!立即与 Digipeak 预约咨询,让我们的 SEO/网络开发专家协助您执行 SEO 审核并制定策略来优化您网站的 SEO 和技术性能。

滚动至顶部