通过日志文件发现SEO机会

ernestwang 2019-01-30 964 0

技术SEO | 高级SEO作者的观点完全是他或她自己的观点（不包括不太可能发生的催眠事件），并且可能并不总是反映出Moz的观点。

我每天都使用网络抓取工具。虽然它们非常有用，但它们只模仿搜索引擎爬虫的行为，这意味着您并不总是能够全面了解。

唯一能够让您真实了解搜索引擎如何抓取您网站的工具是日志文件。尽管如此，许多人仍然沉迷于抓取预算 - Googlebot可以和想要抓取的网址数量。

日志文件分析可能会发现您不知道的网站上的网址，但搜索引擎仍在抓取 - 这是Google服务器资源的主要浪费（Google网站管理员博客）：

“在这些页面上浪费服务器资源会从实际具有价值的页面中消耗爬网活动，这可能会导致在网站上发现优质内容时出现显着延迟。”

虽然这是一个引人入胜的话题，但事实是，大多数网站都不需要担心抓取预算 - 这已经是John Mueller（谷歌网站管理员趋势分析师）分享的观察次数已经很多次了。

但是，分析这些爬网产生的日志仍然具有巨大的价值。它将显示Google正在抓取哪些网页以及是否需要修复任何内容。

当您准确了解日志文件告诉您的内容时，您将获得有关Google如何抓取和查看您网站的宝贵见解，这意味着您可以优化此数据以增加流量。网站越大，解决这些问题的影响就越大。

什么是服务器日志？

日志文件记录了进出服务器的所有内容。可以将其视为爬虫和真实用户发出的请求的分类帐。您可以确切了解Google在您的网站上抓取的资源。

您还可以查看需要注意的错误。例如，我们在分析中发现的问题之一是我们的CMS为每个页面创建了两个URL，Google发现了两个。这导致重复的内容问题，因为具有相同内容的两个URL相互竞争。

分析日志不是火箭科学 - 逻辑与在Excel或Google表格中使用表格时的逻辑相同。最难的部分是访问它们 - 导出和过滤该数据。

第一次查看日志文件也可能会让人感到有些畏惧，因为当你打开一个日志文件时，你会看到如下内容：

冷静下来，仔细看看一行：

66.249.65.107  -   -  [08 / Dec / 2017：04：54：20 -0400]“GET / contact / HTTP / 1.1”200 11179“ - ”“Mozilla / 5.0（兼容; Googlebot / 2.1; + http：// www.google.com/bot.html）”

你会很快发现：

66.249.65.107是IP地址（谁）
[08 / Dec / 2017：04：54：20 -0400]是时间戳（何时）
GET是方法
/ contact /是请求的URL（什么）
200是状态代码（结果）
11179是转移的字节数（大小）
“ - ”是引荐来源网址（来源） - 它是空的，因为此请求是由抓取工具发出的
Mozilla / 5.0（兼容; Googlebot / 2.1; + http://www.google.com/bot.html）是用户代理（签名） - 这是Googlebot（桌面）的用户代理

一旦你知道每条线由什么组成，它就不那么可怕了。这只是很多信息。但这就是下一步派上用场的地方。

您可以使用的工具

您可以选择许多工具来帮助您分析日志文件。我不会给你一个完整的可用的，但重要的是要知道静态和实时工具之间的区别。

静态 - 仅分析静态文件。你不能延长时间范围。想分析另一个时期？您需要请求新的日志文件。我最喜欢的分析静态日志文件的工具是Power BI。
实时 - 使您可以直接访问日志。我非常喜欢开源ELK Stack （Elasticsearch，Logstash和Kibana）。实现它需要适度的努力，但是一旦堆栈准备就绪，它允许我根据我的需要更改时间范围，而无需联系我们的开发人员。