Crawl Budget: почему поисковики не индексируют ваш сайт полностью
Многие владельцы сайтов уверены:
«Если страница существует — поисковик обязательно ее проиндексирует».
На практике это работает совсем не так.
У поисковых систем есть ограниченный ресурс на обход сайтов. Этот ресурс называется crawl budget — краулинговый бюджет.
Если сайт устроен плохо, поисковый робот начинает тратить время:
- на дубли страниц;
- на мусорные URL;
- на фильтры;
- на 404;
- на бесконечные параметры;
- на медленные страницы.
В результате важные страницы могут:
- индексироваться очень медленно;
- вообще не попадать в индекс;
- редко переобходиться ботами.
Особенно критична проблема crawl budget для:
- интернет-магазинов;
- крупных блогов;
- маркетплейсов;
- каталогов;
- новостных сайтов.
Что такое Crawl Budget
Crawl budget — это количество URL, которые поисковый робот готов обойти за определенное время.
Условно:
- маленький сайт — несколько сотен страниц в день;
- крупный магазин — десятки тысяч;
- авторитетные сайты — еще больше.
Но бюджет не бесконечный.
Поисковик старается:
- не перегружать сервер;
- не тратить ресурсы впустую;
- быстро находить полезный контент.
Из чего состоит Crawl Budget
1. Crawl Rate Limit
Это ограничение скорости обхода.
Если сервер:
- медленный;
- часто отвечает ошибками;
- долго генерирует страницы;
— поисковик начинает обходить сайт медленнее.
2. Crawl Demand
Это интерес поисковика к сайту.
Чем сайт:
- авторитетнее;
- чаще обновляется;
- полезнее;
- популярнее;
— тем активнее его сканируют.
Что убивает Crawl Budget
1. Дубли страниц
Самая распространенная проблема.
Например:
/catalog/
/catalog/index.php
/catalog/?sort=price
/catalog/?view=table
Для поисковика это могут быть разные URL.
В итоге бот тратит ресурсы на одинаковый контент.
2. Фильтры интернет-магазина
Особенно опасен умный фильтр.
Например:
/catalog/phones/filter/color-black/
/catalog/phones/filter/color-white/
/catalog/phones/filter/color-black/brand-apple/
Если таких комбинаций тысячи — crawl budget сгорает очень быстро.
Часто поисковик начинает индексировать мусор вместо важных страниц.
3. Soft 404
Очень частая проблема на CMS.
Когда несуществующий URL:
/sdkjfsdkjfsd/
открывает главную страницу с кодом 200.
Поисковик начинает бесконечно обходить мусорные адреса.
4. Медленный сайт
Если страницы генерируются по 3-5 секунд:
- Googlebot начинает замедлять обход;
- уменьшается количество запросов;
- сайт реже индексируется.
Скорость сайта напрямую влияет на crawl budget.
5. Бесконечные GET-параметры
Например:
?sort=price
?order=asc
?page=2
?utm_source=test
?filter=123
Иногда поисковики начинают сканировать миллионы комбинаций URL.
Особенно это опасно для:
- Bitrix;
- OpenCart;
- Magento;
- старых CMS.
6. Огромное количество 404
Если сайт:
- менял структуру URL;
- переезжал;
- удалял страницы;
— боты могут долго сканировать старые адреса.
Это тоже расходует crawl budget.
Как понять что есть проблемы с Crawl Budget
Признаки:
- новые страницы долго индексируются;
- часть сайта вообще не попадает в индекс;
- поисковик сканирует мусорные URL;
- в логах много обхода ненужных страниц;
- боты редко заходят на важные страницы.
Как анализировать Crawl Budget
1. Google Search Console
Раздел:
Настройки → Статистика сканирования
Там видно:
- количество запросов;
- 404;
- ошибки сервера;
- время ответа;
- активность Googlebot.
2. Логи Nginx
Самый полезный источник информации.
Например:
grep 'Googlebot' access.log
Можно увидеть:
- что реально обходит бот;
- какие URL чаще сканируются;
- куда уходит crawl budget.
Как экономить Crawl Budget
1. Закрыть мусорные URL
Через:
- robots.txt;
- canonical;
- noindex;
- редиректы.
2. Удалить дубли
Особенно:
- index.php;
- GET-параметры;
- дубли категорий;
- фильтры.
3. Исправить 404
Нужно:
- настроить 301;
- убрать битые ссылки;
- правильно отдавать 404.
4. Ускорить сайт
Чем быстрее отвечает сервер — тем активнее обходят сайт поисковики.
5. Сделать нормальную внутреннюю перелинковку
Поисковики лучше находят страницы:
- если на них есть ссылки;
- если структура логична;
- если нет «висячих» страниц.
Почему Crawl Budget особенно важен для Bitrix
На проектах на Битрикс часто встречаются:
- дубли index.php;
- параметры PAGEN;
- умные фильтры;
- мусорные URL;
- soft 404;
- дубли разделов.
Без технической SEO-оптимизации крупный сайт на Bitrix может буквально «сжигать» crawl budget.
Вывод
Crawl budget — это реальный ограниченный ресурс.
Если сайт:
- медленный;
- содержит дубли;
- генерирует мусорные URL;
- имеет проблемы с индексацией;
— поисковики начинают тратить ресурсы впустую.
В результате важные страницы:
- индексируются медленно;
- теряют позиции;
- могут вообще не попасть в поиск.
Чем крупнее сайт — тем важнее контролировать crawl budget.
Комментарии