Googlebot

Материал из Энциклопедия интернет-маркетинга MarketWiki

Googlebot - общее название поисковых роботов (краулеров) компании Google, которые осуществляют обход веб-страниц для последующего добавления их в поисковый индекс. Googlebot является основным инструментом Google для обнаружения нового и обновлённого контента в интернете.

Googlebot представляет собой не одного робота, а целое семейство краулеров, каждый из которых выполняет свои специфические задачи. Наиболее известные из них - Smartphone Googlebot (для мобильной индексации) и Googlebot Desktop (для десктопной версии), а также специализированные роботы для изображений, видео и новостей.

В интернет-маркетинге и SEO понимание работы Googlebot критически важно, так как именно от его действий зависит, какие страницы сайта попадут в индекс и как часто они будут обновляться в поисковой выдаче.

Что такое Googlebot

[править]

Googlebot - это автоматизированная программа (краулер), которая перемещается по интернету, переходя по ссылкам с одной страницы на другую, скачивает содержимое страниц и передаёт его в индекс Google. Процесс обхода и индексации - основа работы любой поисковой системы.

Googlebot работает асинхронно: одновременно могут выполняться тысячи запросов к разным серверам. Робот определяет, как часто посещать сайт, на основе множества факторов: популярности ресурса, частоты обновления контента, скорости загрузки и стабильности сервера.

Семейство Googlebot

[править]

Основные типы роботов

[править]
  • Smartphone Googlebot - основной робот для мобильно-ориентированного индексирования (mobile-first indexing). Имитирует посещение сайта с мобильного устройства. Именно его версия страницы используется для ранжирования в подавляющем большинстве случаев. Подробные технические характеристики и особенности работы описаны в отдельной статье.
  • Googlebot Desktop - робот, имитирующий посещение сайта с настольного компьютера. Используется для проверки десктопных версий сайтов, но его роль в ранжировании значительно меньше после перехода Google на mobile-first indexing.

Специализированные роботы

[править]
  • Googlebot Images - робот для обхода и индексации изображений. Оптимизирован для работы с графическими файлами.
  • Googlebot Video - робот для поиска и индексации видеоконтента.
  • Googlebot News - робот, ориентированный на обход новостных сайтов для быстрого добавления свежих материалов.
  • Google StoreBot - робот, используемый для сбора информации о товарах и ценах.
  • AdsBot - робот, проверяющий качество посадочных страниц для рекламных кампаний Google Ads.

User-Agent строки

[править]

Каждый робот идентифицирует себя с помощью специальной строки user-agent в HTTP-запросах. Примеры:

# Smartphone Googlebot (подробнее см. отдельную статью)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

# Googlebot Desktop
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

# Googlebot Images
Googlebot-Image/1.0

# Googlebot Video
Googlebot-Video/1.0

Как работает Googlebot

[править]

Процесс обхода

[править]
  1. Начало обхода. Googlebot получает список URL для сканирования из разных источников: предыдущие обходы, карты сайта (Sitemap), ссылки с других сайтов, данные из Google Search Console.
  2. Загрузка страницы. Робот отправляет HTTP-запрос к серверу и скачивает содержимое страницы. Для HTML-страниц он обрабатывает первые 15 МБ после распаковки.
  3. Анализ ссылок. Googlebot извлекает все ссылки со страницы и добавляет новые URL в очередь на обход.
  4. Рендеринг. Современный Googlebot умеет исполнять JavaScript. Он загружает страницу, выполняет код и видит полностью отрендеренный контент. Это происходит в два этапа: сначала скачивается HTML, затем страница ставится в очередь на рендеринг.
  5. Передача в индекс. Скачанный и отрендеренный контент передаётся в индекс Google для обработки и ранжирования.

Частота обхода

[править]

Googlebot не посещает все сайты с одинаковой частотой. На частоту влияют:

  • Авторитетность сайта (чем выше доверие, тем чаще визиты)
  • Частота обновления контента
  • Скорость загрузки сайта
  • Стабильность сервера
  • Наличие ошибок (особенно 5xx)

Средняя частота обращений - не чаще одного раза в несколько секунд, но для крупных новостных порталов может быть значительно выше.

Бюджет краулинга

[править]

Понятие бюджета краулинга тесно связано с работой Googlebot. Это количество страниц, которое робот может и хочет просканировать на сайте за определённое время. Оптимизация бюджета краулинга - важная задача технического SEO.

Управление Googlebot

[править]

Файл robots.txt

[править]

С помощью файла robots.txt можно управлять доступом разных типов Googlebot к разделам сайта:

User-agent: Googlebot
Disallow: /admin/
Disallow: /private/

User-agent: Googlebot-Image
Disallow: /images/private/

Мета-тег robots

[править]

На уровне отдельных страниц можно использовать мета-тег robots:

<meta name="robots" content="noindex, nofollow">

HTTP-заголовки

[править]

Для не-HTML файлов (PDF, изображения) можно использовать заголовок X-Robots-Tag.

Google Search Console

[править]

В Google Search Console доступны инструменты для управления взаимодействием с Googlebot:

  • Отчёты о покрытии и статистика краулинга
  • Инструмент проверки URL (как Googlebot видит страницу)
  • Настройка скорости сканирования
  • Отправка карт сайта

Особенности современных версий Googlebot

[править]

Рендеринг JavaScript

[править]

Современный Googlebot умеет исполнять JavaScript, но это создаёт дополнительные ограничения:

  • Рендеринг требует времени и ресурсов
  • Не все страницы могут дождаться рендеринга (особенно при ограниченном бюджете)
  • Важный контент лучше отдавать в HTML, а не полагаться только на JS
  • Для сложных SPA-приложений (React, Vue, Angular) необходима серверная генерация или динамический рендеринг

Мобильно-ориентированное индексирование

[править]

С 2019 года Google использует mobile-first indexing по умолчанию. Это означает, что для ранжирования используется версия страницы, которую видит Smartphone Googlebot. Если мобильная версия сайта недоступна или содержит меньше контента, чем десктопная, это негативно влияет на позиции. Подробнее см. в статье Mobile-First Indexing.

Обработка мультимедиа

[править]

Googlebot Images и Googlebot Video оптимизированы для работы с соответствующими форматами файлов. Для лучшей индексации медиаконтента рекомендуется:

  • Использовать описательные имена файлов
  • Заполнять alt-теги для изображений
  • Добавлять транскрипции для видео
  • Использовать структурированные данные (Schema.org)

Верификация Googlebot

[править]

Поскольку user-agent Googlebot часто подделывают, важно проверять подлинность запросов. Для верификации используется обратный DNS-запрос (reverse DNS lookup):

  1. Выполнить PTR-запрос для IP-адреса, с которого пришёл запрос
  2. Убедиться, что доменное имя оканчивается на .googlebot.com или .google.com
  3. Выполнить прямой DNS-запрос для полученного имени и убедиться, что IP-адрес совпадает с исходным

Настоящий Googlebot имеет доменное имя вида:

crawl-***-***-***-***.googlebot.com
geo-crawl-***-***-***-***.geo.googlebot.com

Список официальных IP-диапазонов Google публикуется в открытом доступе.

Проблемы и их решение

[править]

Частые проблемы

[править]
  • Googlebot не видит контент - часто из-за JavaScript-рендеринга или блокировки в robots.txt
  • Слишком медленное сканирование - можно увеличить скорость в Google Search Console
  • Слишком быстрое сканирование - сервер не справляется с нагрузкой, нужно снизить скорость
  • Ошибки 5xx при сканировании - проблемы с сервером, которые нужно исправлять
  • Googlebot заходит на несуществующие страницы - скорее всего, есть битые ссылки или неправильные URL в карте сайта

Диагностика

[править]
  • Google Search Console - раздел "Статистика сканирования"
  • Логи сервера - самый точный способ увидеть активность Googlebot
  • Инструмент проверки URL в Search Console - как Googlebot видит конкретную страницу
  • Сторонние сервисы мониторинга доступности

Связанные термины

[править]