通过日志文件发现SEO机会

技术SEO 高级SEO作者的观点完全是他或她自己的观点(不包括不太可能发生的催眠事件),并且可能并不总是反映出Moz的观点。

我每天都使用网络抓取工具。虽然它们非常有用,但它们只模仿搜索引擎爬虫的行为,这意味着您并不总是能够全面了解。

唯一能够让您真实了解搜索引擎如何抓取您网站的工具是日志文件。尽管如此,许多人仍然沉迷于抓取预算 – Googlebot可以和想要抓取的网址数量。

日志文件分析可能会发现您不知道的网站上的网址,但搜索引擎仍在抓取 – 这是Google服务器资源的主要浪费(Google网站管理员博客):

“在这些页面上浪费服务器资源会从实际具有价值的页面中消耗爬网活动,这可能会导致在网站上发现优质内容时出现显着延迟。”

虽然这是一个引人入胜的话题,但事实是,大多数网站都不需要担心抓取预算 – 这已经是John Mueller(谷歌网站管理员趋势分析师)分享的观察次数已经很多次了

但是,分析这些爬网产生的日志仍然具有巨大的价值。它将显示Google正在抓取哪些网页以及是否需要修复任何内容。

当您准确了解日志文件告诉您的内容时,您将获得有关Google如何抓取和查看您网站的宝贵见解,这意味着您可以优化此数据以增加流量。网站越大,解决这些问题的影响就越大。

什么是服务器日志?

日志文件记录了进出服务器的所有内容。可以将其视为爬虫和真实用户发出的请求的分类帐。您可以确切了解Google在您的网站上抓取的资源。

您还可以查看需要注意的错误。例如,我们在分析中发现的问题之一是我们的CMS为每个页面创建了两个URL,Google发现了两个。这导致重复的内容问题,因为具有相同内容的两个URL相互竞争。

分析日志不是火箭科学 – 逻辑与在Excel或Google表格中使用表格时的逻辑相同。最难的部分是访问它们 – 导出和过滤该数据。

第一次查看日志文件也可能会让人感到有些畏惧,因为当你打开一个日志文件时,你会看到如下内容:

冷静下来,仔细看看一行:

66.249.65.107  -   -  [08 / Dec / 2017:04:54:20 -0400]“GET / contact / HTTP / 1.1”200 11179“ - ”“Mozilla / 5.0(兼容; Googlebot / 2.1; + http:// www.google.com/bot.html)”

你会很快发现:

  • 66.249.65.107IP地址(谁)
  • [08 / Dec / 2017:04:54:20 -0400]时间戳(何时)
  • GET方法
  • / contact /请求的URL(什么)
  • 200状态代码(结果)
  • 11179转移字节数(大小)
  • “ – ”是 引荐来源网址(来源) – 它是空的,因为此请求是由抓取工具发出的
  • Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)用户代理(签名) – 这是Googlebot(桌面)的用户代理

一旦你知道每条线由什么组成,它就不那么可怕了。这只是很多信息。但这就是下一步派上用场的地方。

您可以使用的工具

您可以选择许多工具来帮助您分析日志文件。我不会给你一个完整的可用的,但重要的是要知道静态和实时工具之间的区别。

  • 静态 – 仅分析静态文件。你不能延长时间范围。想分析另一个时期?您需要请求新的日志文件。我最喜欢的分析静态日志文件的工具是Power BI。
  • 实时 – 使您可以直接访问日志。我非常喜欢开源ELK Stack (Elasticsearch,Logstash和Kibana)。实现它需要适度的努力,但是一旦堆栈准备就绪,它允许我根据我的需要更改时间范围,而无需联系我们的开发人员。

开始分析

不要只是潜入日志,希望找到一些东西 – 开始提问。如果你一开始没有提出你的问题,你将会陷入一个没有方向,没有真正见解的兔子洞。

以下是我在分析开始时使用的一些问题示例:

  • 哪些搜索引擎抓取我的网站?
  • 最经常抓取哪些网址?
  • 最常抓取哪些内容类型?
  • 返回哪些状态代码?

如果您发现Google正在抓取不存在的网页(404),您可以开始询问哪些请求的网址返回404状态代码。

按请求数量排序列表,评估具有最高编号的列表以查找具有最高优先级的页面(请求越多,优先级越高),并考虑是重定向该URL还是执行任何其他操作。

如果您使用CDN或缓存服务器,则还需要获取该数据以获得完整的图像。

细分您的数据

将数据分组到段中可提供总体数字,从而为您提供全局信息。通过仅查看单个URL,可以更轻松地发现您可能错过的趋势。您可以找到有问题的部分并在需要时向下钻取。

有多种方法可以对URL进行分组:

  • 按内容类型分组(单个产品页面与类别页面)
  • 按语言分组(英文页面与法文页面)
  • 店面分组(加拿大商店对美国商店)
  • 按文件格式分组(JS与图像与CSS)

不要忘记按用户代理对数据进行切片。一起查看Google桌面,Google智能手机和Bing都不会有任何有用的见解。

监控行为随时间的变化

您的网站会随着时间而变化,这意味着抓取工具的行为也会如此。Googlebot通常会根据页面速度,内部链接结构和抓取陷阱的存在等因素降低或提高抓取速度。

最好在一年中或在执行网站更改时检查您的日志文件。在发布大型网站的重大变化时,我几乎每周都会查看日志。

通过每年两次分析服务器日志,至少可以显示爬虫行为的变化。

注意欺骗

Spambots和刮刀不喜欢被封锁,因此他们可能伪造自己的身份 – 他们利用Googlebot的用户代理来避免垃圾邮件过滤器。

要验证访问您服务器的网络抓取工具是否真的是Googlebot,您可以运行反向DNS查找,然后运行正向DNS查找。有关此主题的更多信息,请访问Google网站站长帮助中心

将日志与其他数据源合并

虽然没有必要连接到其他数据源,但这样做可以解锁常规日志分析可能无法提供的另一层洞察力和上下文。能够轻松连接多个数据集并从中提取洞察力是Power BI是我选择的工具的主要原因,但您可以使用您熟悉的任何工具(例如Tableau)。

将服务器日志与多个其他来源(例如Google Analytics数据,关键字排名,站点地图,抓取数据)混合,并开始提出以下问题:

  • sitemap.xml中没有包含哪些页面但是被广泛抓取?
  • Sitemap.xml文件中包含哪些页面但未被抓取?
  • 是否经常抓取营收网页?
  • 大多数抓取的网页是否可转位?

您可能会对您发现的有助于加强您的SEO策略的见解感到惊讶。例如,发现几乎70%的Googlebot请求是针对不可索引的网页的,这是您可以采取行动的洞察力。

您可以在我的帖子中看到有关将日志文件与其他数据源混合的更多示例,以了解高级日志分析

使用日志调试Google Analytics

不要将服务器日志视为另一个SEO工具。日志也是一种宝贵的信息来源,有助于在技术错误成为更大问题之前查明技术错误。

去年,Google Analytics报告了我们品牌搜索查询的自然流量下降。但是我们的关键字跟踪工具,STAT搜索分析和其他工具显示没有任何移动可以保证下降。那么,发生了什么?

服务器日志帮助我们了解情况:流量没有真正下降。我们新部署的WAF(Web应用程序防火墙)覆盖了引荐来源,导致某些自然流量被错误地归类为Google Analytics中的直接流量。

在STAT中使用日志文件和关键字跟踪帮助我们发现整个故事并快速诊断此问题。

把它们放在一起

日志分析是必须的,特别是一旦您开始使用大型网站。

我的建议是从分段数据开始,随着时间的推移监控变化。准备就绪后,请探索将日志与抓取数据或Google Analytics混合的可能性。这就是隐藏伟大见解的地方。

分类: SEO杂谈

发表评论 X

电子邮件地址不会被公开。 必填项已用*标注

姓名不能为空
填写正确的email