Crawl Budget: почему поисковики не индексируют ваш сайт полностью

Многие владельцы сайтов уверены:

«Если страница существует — поисковик обязательно ее проиндексирует».

На практике это работает совсем не так.

У поисковых систем есть ограниченный ресурс на обход сайтов. Этот ресурс называется crawl budget — краулинговый бюджет.

Если сайт устроен плохо, поисковый робот начинает тратить время:

на дубли страниц;
на мусорные URL;
на фильтры;
на 404;
на бесконечные параметры;
на медленные страницы.

В результате важные страницы могут:

индексироваться очень медленно;
вообще не попадать в индекс;
редко переобходиться ботами.

Особенно критична проблема crawl budget для:

интернет-магазинов;
крупных блогов;
маркетплейсов;
каталогов;
новостных сайтов.

Что такое Crawl Budget

Crawl budget — это количество URL, которые поисковый робот готов обойти за определенное время.

Условно:

маленький сайт — несколько сотен страниц в день;
крупный магазин — десятки тысяч;
авторитетные сайты — еще больше.

Но бюджет не бесконечный.

Поисковик старается:

не перегружать сервер;
не тратить ресурсы впустую;
быстро находить полезный контент.

В своих проектах я использую серверную инфраструктуру Timeweb Cloud

VPS и облачные решения для стабильной работы сайтов на PHP и 1С-Битрикс — от корпоративных сайтов до интернет-магазинов и высоконагруженных веб-проектов.

Перейти на Timeweb Cloud

Реклама · ERID: CQH36pWzJqVJ4YD9t5y227AkMQdhpG2THarwRmX2g9tS8x

Из чего состоит Crawl Budget

1. Crawl Rate Limit

Это ограничение скорости обхода.

Если сервер:

медленный;
часто отвечает ошибками;
долго генерирует страницы;

— поисковик начинает обходить сайт медленнее.

2. Crawl Demand

Это интерес поисковика к сайту.

Чем сайт:

авторитетнее;
чаще обновляется;
полезнее;
популярнее;

— тем активнее его сканируют.

Что убивает Crawl Budget

1. Дубли страниц

Самая распространенная проблема.

Например:

/catalog/
/catalog/index.php
/catalog/?sort=price
/catalog/?view=table

Для поисковика это могут быть разные URL.

В итоге бот тратит ресурсы на одинаковый контент.

2. Фильтры интернет-магазина

Особенно опасен умный фильтр.

Например:

/catalog/phones/filter/color-black/
/catalog/phones/filter/color-white/
/catalog/phones/filter/color-black/brand-apple/

Если таких комбинаций тысячи — crawl budget сгорает очень быстро.

Часто поисковик начинает индексировать мусор вместо важных страниц.

3. Soft 404

Очень частая проблема на CMS.

Когда несуществующий URL:

/sdkjfsdkjfsd/

открывает главную страницу с кодом 200.

Поисковик начинает бесконечно обходить мусорные адреса.

4. Медленный сайт

Если страницы генерируются по 3-5 секунд:

Googlebot начинает замедлять обход;
уменьшается количество запросов;
сайт реже индексируется.

Скорость сайта напрямую влияет на crawl budget.

5. Бесконечные GET-параметры

Например:

?sort=price
?order=asc
?page=2
?utm_source=test
?filter=123

Иногда поисковики начинают сканировать миллионы комбинаций URL.

Особенно это опасно для:

Bitrix;
OpenCart;
Magento;
старых CMS.

6. Огромное количество 404

Если сайт:

менял структуру URL;
переезжал;
удалял страницы;

— боты могут долго сканировать старые адреса.

Это тоже расходует crawl budget.

Как понять что есть проблемы с Crawl Budget

Признаки:

новые страницы долго индексируются;
часть сайта вообще не попадает в индекс;
поисковик сканирует мусорные URL;
в логах много обхода ненужных страниц;
боты редко заходят на важные страницы.

Как анализировать Crawl Budget

1. Google Search Console

Раздел:

Настройки → Статистика сканирования

Там видно:

количество запросов;
404;
ошибки сервера;
время ответа;
активность Googlebot.

2. Логи Nginx

Самый полезный источник информации.

Например:

grep 'Googlebot' access.log

Можно увидеть:

что реально обходит бот;
какие URL чаще сканируются;
куда уходит crawl budget.

Как экономить Crawl Budget

1. Закрыть мусорные URL

Через:

robots.txt;
canonical;
noindex;
редиректы.

2. Удалить дубли

Особенно:

index.php;
GET-параметры;
дубли категорий;
фильтры.

3. Исправить 404

Нужно:

настроить 301;
убрать битые ссылки;
правильно отдавать 404.

4. Ускорить сайт

Чем быстрее отвечает сервер — тем активнее обходят сайт поисковики.

5. Сделать нормальную внутреннюю перелинковку

Поисковики лучше находят страницы:

если на них есть ссылки;
если структура логична;
если нет «висячих» страниц.

Почему Crawl Budget особенно важен для Bitrix

На проектах на Битрикс часто встречаются:

дубли index.php;
параметры PAGEN;
умные фильтры;
мусорные URL;
soft 404;
дубли разделов.

Без технической SEO-оптимизации крупный сайт на Bitrix может буквально «сжигать» crawl budget.

Вывод

Crawl budget — это реальный ограниченный ресурс.

Если сайт:

медленный;
содержит дубли;
генерирует мусорные URL;
имеет проблемы с индексацией;

— поисковики начинают тратить ресурсы впустую.

В результате важные страницы:

индексируются медленно;
теряют позиции;
могут вообще не попасть в поиск.

Чем крупнее сайт — тем важнее контролировать crawl budget.

Crawl Budget: почему поисковики не индексируют ваш сайт полностью

Что такое Crawl Budget

В своих проектах я использую серверную инфраструктуру Timeweb Cloud

Из чего состоит Crawl Budget

1. Crawl Rate Limit

2. Crawl Demand

Что убивает Crawl Budget

1. Дубли страниц

2. Фильтры интернет-магазина

3. Soft 404

4. Медленный сайт

5. Бесконечные GET-параметры

6. Огромное количество 404

Как понять что есть проблемы с Crawl Budget

Признаки:

Как анализировать Crawl Budget

1. Google Search Console

2. Логи Nginx

Как экономить Crawl Budget

1. Закрыть мусорные URL

2. Удалить дубли

3. Исправить 404

4. Ускорить сайт

5. Сделать нормальную внутреннюю перелинковку

Почему Crawl Budget особенно важен для Bitrix

Вывод

Если возникли сложности

SEO оптимизация сайта

Перенос сайта на 1С-Битрикс

Аудит сайта

Комментарии

Crawl Budget: почему поисковики не индексируют ваш сайт полностью

Что такое Crawl Budget

В своих проектах я использую серверную инфраструктуру Timeweb Cloud

Из чего состоит Crawl Budget

1. Crawl Rate Limit

2. Crawl Demand

Что убивает Crawl Budget

1. Дубли страниц

2. Фильтры интернет-магазина

3. Soft 404

4. Медленный сайт

5. Бесконечные GET-параметры

6. Огромное количество 404

Как понять что есть проблемы с Crawl Budget

Признаки:

Как анализировать Crawl Budget

1. Google Search Console

2. Логи Nginx

Как экономить Crawl Budget

1. Закрыть мусорные URL

2. Удалить дубли

3. Исправить 404

4. Ускорить сайт

5. Сделать нормальную внутреннюю перелинковку

Почему Crawl Budget особенно важен для Bitrix

Вывод

Если возникли сложности

SEO оптимизация сайта

Перенос сайта на 1С-Битрикс

Аудит сайта

Читайте также

Битрикс. Заглушка сайта

Chrome как удалить куки одного сайта

Вирус .htaccess

Комментарии