Логи сервера

Материал из Энциклопедия интернет-маркетинга MarketWiki

Логи сервера (server logs) - текстовые файлы, в которых веб-сервер автоматически записывает информацию о каждом обращении к сайту. Логи содержат данные о всех запросах пользователей и поисковых роботов, включая IP-адреса, время запроса, запрашиваемые URL, HTTP-статусы и другую техническую информацию.

В интернет-маркетинге и SEO анализ логов сервера позволяет понять, как поисковые системы взаимодействуют с сайтом, какие страницы индексируются, а какие игнорируются, и выявить технические проблемы, невидимые в стандартных системах аналитики.

Зачем анализировать логи

[править]

Логи сервера дают информацию, недоступную в Яндекс.Метрике или Google Analytics.

Понимание поведения поисковых роботов

[править]

Логи показывают:

  • Какие страницы посещают роботы и как часто
  • Сколько времени робот проводит на сайте
  • Какие страницы игнорируются
  • С какой скоростью происходит обход
  • Какие ошибки видят роботы при обращении к страницам

Выявление проблем с индексацией

[править]

Если важная страница не индексируется, логи могут показать причину:

  • Робот не заходит на страницу
  • Страница возвращает ошибку (4xx, 5xx)
  • Страница редиректит на другой URL
  • Робот заходит, но не добавляет страницу в индекс по другим причинам

Оптимизация краулингового бюджета

[править]

Краулинговый бюджет - количество страниц, которое поисковый робот может обойти за одно посещение. Анализ логов помогает понять, тратится ли бюджет на важные страницы или на технический мусор (дубли, служебные разделы).

Обнаружение технических ошибок

[править]

Логи фиксируют все ошибки сервера (5xx), ошибки доступа (403, 404), проблемы с редиректами и другие технические неполадки.

Выявление нежелательной активности

[править]

Логи помогают обнаружить:

  • DDoS-атаки
  • Подозрительную активность (перебор страниц, попытки взлома)
  • Слишком агрессивный обход роботами (можно заблокировать)

Структура логов

[править]

Стандартная запись в логе (формат Combined Log Format) выглядит так:

66.249.66.1 - - [01/Mar/2026:10:15:23 +0300] "GET /page.html HTTP/2.0" 200 12345 "https://google.com/" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Каждая запись содержит:

  • IP-адрес - откуда пришёл запрос
  • Дата и время - когда произошёл запрос
  • Метод и URL - что запрашивали
  • Протокол - HTTP/1.1, HTTP/2.0
  • HTTP-статус - код ответа (200, 301, 404, 500)
  • Размер ответа - в байтах
  • Referer - откуда пришли (с какой страницы)
  • User-Agent - кто запрашивал (браузер, поисковый робот)

Где найти логи

[править]

Местоположение логов зависит от типа хостинга и настроек сервера.

Хостинг-провайдеры

[править]

В панели управления хостингом обычно есть доступ к логам (cPanel, ISPmanager, DirectAdmin). Логи могут быть доступны для скачивания в сжатом виде за разные периоды.

Виртуальные серверы (VPS/Dedicated)

[править]

На серверах с ОС Linux логи обычно находятся в директориях:

  • Apache - /var/log/apache2/` или `/var/log/httpd/
  • Nginx - /var/log/nginx/

CMS и системы аналитики

[править]

Некоторые системы управления контентом имеют встроенные инструменты для просмотра логов. Также существуют специализированные сервисы для анализа логов, которые собирают данные с сервера через API.

Анализ логов

[править]

Для анализа логов используются различные инструменты.

Встроенные инструменты командной строки

[править]

На сервере можно анализировать логи с помощью команд:

# Подсчитать количество запросов каждого робота
grep Googlebot access.log | wc -l
grep YandexBot access.log | wc -l

# Найти страницы с ошибками 404
grep ' 404 ' access.log | awk '{print $7}' | sort | uniq -c | sort -nr

# Топ самых посещаемых страниц
awk '{print $7}' access.log | sort | uniq -c | sort -nr | head -20

Специализированные инструменты

[править]
  • Screaming Frog Log File Analyser - платный инструмент для детального анализа логов
  • Semrush Log File Analyzer - онлайн-инструмент (требуется подписка)
  • Logaholic - веб-аналитика на основе логов
  • GoAccess - бесплатный анализатор с веб-интерфейсом

Регулярные отчёты

[править]

Для постоянного мониторинга полезно настроить автоматическую обработку логов и получение регулярных отчётов.

Что искать в логах

[править]

Основные метрики и сигналы, на которые стоит обращать внимание.

Частота обхода

[править]

Как часто роботы посещают сайт в целом и отдельные страницы. Нормальная частота зависит от размера и авторитетности сайта.

Глубина обхода

[править]

Сколько страниц робот просматривает за одно посещение. Если робот заходит на главную и уходит, не углубляясь, это сигнал о проблемах.

Страницы с ошибками

[править]

Страницы, возвращающие 404, 500 и другие ошибки. Их нужно исправлять или настраивать редиректы.

Нежелательные страницы в обходе

[править]

Если роботы тратят время на страницы с параметрами, служебные разделы, результаты поиска, значит, краулинговый бюджет расходуется неэффективно. Следует закрыть эти разделы в robots.txt.

Динамика изменений

[править]

Сравнение логов за разные периоды показывает, улучшается или ухудшается ситуация с индексацией.

Пиковые нагрузки

[править]

Неожиданные всплески запросов могут указывать на атаки или проблемы с настройками.

Логи и robots.txt

[править]

Анализ логов помогает проверить, правильно ли настроен файл robots.txt. Если роботы всё равно заходят в запрещённые разделы, значит, в файле ошибка или робот игнорирует директивы (некоторые роботы действительно могут игнорировать robots.txt).

Также логи показывают, заходят ли роботы на страницы, которые должны быть закрыты от индексации с помощью meta-тега noindex.

Логи и редиректы

[править]

Логи фиксируют все редиректы. Если на сайте настроена цепочка из нескольких редиректов (A → B → C), в логах будут видны все запросы. Анализ помогает выявить избыточные цепочки и исправить их.

Ограничения логов

[править]
  • Объём данных. Логи больших сайтов могут занимать гигабайты в день. Анализ требует ресурсов.
  • Сложность интерпретации. Не все данные очевидны, требуется опыт для правильной интерпретации.
  • Неполнота данных. Логи не показывают, почему робот принял то или иное решение (например, почему страница не попала в индекс).
  • Временные затраты. Ручной анализ логов трудоёмкий, автоматизация требует настройки.

Связанные термины

[править]