Поисковые и другие боты, нагрузка и WP-Recall

Сайт развивается, появляется много контента, новые разделы, сервисы. Растет количество пользователей их активность и контент уже воспроизводимый ими. Странички начинают быстро индексироваться и вставать на свои места в выдаче поисковых систем. Тут вы начинаете замечать рост нагрузки и она может стать критической для вашего тарифа или конфигурации, что может вынудить уйти на дороже тариф и возможно уйти не оправдано.

С ростом популярности вашего ресурса, увеличивается число посещений вашего сайта различными ботами поисковиков и другими.
Сейчас поговорим о «правильных» ботах. Они переходят по всем разрешенным к индексации ссылкам вашего сайта. Ботов для разных целей и задач у поисковиков далеко не один и могут сканировать сайт каждый в несколько потоков. Соответственно в секунду у вас может быть не один десяток обращений к сайту и это не считая остального. Вот и нагрузка и порой очень существенная.

Начнем снижать нагрузку. Сначала можно всех или особо ретивых ограничить скоростью сканирования, скажем как бот mail.ru который может просто ддос устроить на сайте или Baidu.

User-agent: * 
Disallow:  # обязательная для каждой записи строка с директивой Disallow 
Crawl-delay: 4.5  # задает паузу в 4.5 секунды

Снизили скорость обращения, это хорошо, но не решит всех проблем. Боты все равно будут переходить по всем разрешенным url сайта, а разрешено может быть очень много лишнего и причем это лишнее еще и мешает правильной индексации сайта. Сюда входят различные архивы, теги, страницы поиска и в случаи с использованием плагина WP-Recall, еще и личный кабинет. Причем личный кабинет с большим количеством пользователей, может серьезно «привлекать» ботов и они будут постоянно сканировать все внутри кабинета.

WP-Recall великолепный плагин и с ним возможно построить сайт любого масштаба, но не стоит забывать, что и внутренних ссылок в личном кабинете может быть очень много, помножим на количество пользователей и получим достаточно существенное увеличение нагрузки на сервер от ботов поисковых систем. Но зачем боту в профиль к пользователю? Все есть на сайте, в различных картах сайта и не придется боту каждый раз обходить дубли ссылок, тыкаясь во все в кабинете. Зачастую просто не доходя до контента, пройдя тысячи раз по одному и тому же.

Закроем вообще личный кабинет в robots.txt

Disallow: /author/

Если жизненно необходимо для проекта оставить открытым какой то раздел профиля открытым, на примере отзывов

Allow: /*?tab=recall

Этими простыми действиями, вы снизили нагрузку на сайт в десятки раз. Теперь ботам не надо делать лишних тысячи запросов к сайту и переходить по ссылкам которые и так есть на сайте и они по ним уже перешли. Не надо опять сканировать, что уже отсканировано, не надо решать что делать с контентом, дубль или не дубль и какая ссылка каноническая. Индексация лучше, нагрузка меньше, что нам и требовалось.

Анализ логов сервера покажет какие боты еще обращаются к вашему сайту и вы увидите массу всяких анализаторов не нужных, сканеров, парсеров и так далее. Часть из них вы так же можете ограничить или вообще запретить в robots.txt. Но некоторые его не слушают вообще или частично игнорируют. Таких просто по ip или user agentу запретить жестко в .htaccess

RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteCond %{HTTP_USER_AGENT} DomainCrawler
RewriteRule (.*) - [F,L]

Теперь можно дальше заниматься своим проектом и получать оправданную нагрузку и как следствие платить адекватно создаваемой нагрузки. Плюс улучшили индексацию контента сайта, боты будут теперь яснее видеть контент и переходить на него сразу. В дальнейшем разобравшись с правилами и директивами файла robots.txt, вы сможете еще более конкретно направлять ботов индексаторов и управлять в целом индексацией вашего сайта.

Рейтинг
( 1 оценка, среднее 1 из 5 )
Игорь/ автор статьи
Весь спектр SEO услуг, реклама, продвижение в социальных сетях. Изготовление сайтов.
Загрузка ...
World Web Info
Все самое необходимое и интересное. Присоединяйтесь!
Авторизация
*
*
Регистрация
*
*
*
Пароль не введен
*
Генерация пароля