WP

WP-Recall

Yworld Prime Designer
Дополнение к PrimeForum

WP

WP-Recall

Yworld PF Motivation
Дополнение к PrimeForum

WP

WP-Recall

Prime Yworld PRO
Дополнение к PrimeForum

Поисковые и другие боты, нагрузка и WP-Recall

Сайт развивается, появляется много контента, новые разделы, сервисы. Растет количество пользователей их активность и контент уже воспроизводимый ими. Странички начинают быстро индексироваться и вставать на свои места в выдаче поисковых систем. Тут вы начинаете замечать рост нагрузки и она может стать критической для вашего тарифа или конфигурации, что может вынудить уйти на дороже тариф и возможно уйти не оправдано.

С ростом популярности вашего ресурса, увеличивается число посещений вашего сайта различными ботами поисковиков и другими.
Сейчас поговорим о “правильных” ботах. Они переходят по всем разрешенным к индексации ссылкам вашего сайта. Ботов для разных целей и задач у поисковиков далеко не один и могут сканировать сайт каждый в несколько потоков. Соответственно в секунду у вас может быть не один десяток обращений к сайту и это не считая остального. Вот и нагрузка и порой очень существенная.

Начнем снижать нагрузку. Сначала можно всех или особо ретивых ограничить скоростью сканирования, скажем как бот mail.ru который может просто ддос устроить на сайте или Baidu.

User-agent: * 
Disallow:  # обязательная для каждой записи строка с директивой Disallow 
Crawl-delay: 4.5  # задает паузу в 4.5 секунды

Снизили скорость обращения, это хорошо, но не решит всех проблем. Боты все равно будут переходить по всем разрешенным url сайта, а разрешено может быть очень много лишнего и причем это лишнее еще и мешает правильной индексации сайта. Сюда входят различные архивы, теги, страницы поиска и в случаи с использованием плагина WP-Recall, еще и личный кабинет. Причем личный кабинет с большим количеством пользователей, может серьезно “привлекать” ботов и они будут постоянно сканировать все внутри кабинета.

WP-Recall великолепный плагин и с ним возможно построить сайт любого масштаба, но не стоит забывать, что и внутренних ссылок в личном кабинете может быть очень много, помножим на количество пользователей и получим достаточно существенное увеличение нагрузки на сервер от ботов поисковых систем. Но зачем боту в профиль к пользователю? Все есть на сайте, в различных картах сайта и не придется боту каждый раз обходить дубли ссылок, тыкаясь во все в кабинете. Зачастую просто не доходя до контента, пройдя тысячи раз по одному и тому же.

Закроем вообще личный кабинет в robots.txt

Disallow: /author/

Если жизненно необходимо для проекта оставить открытым какой то раздел профиля открытым, на примере отзывов

Allow: /*?tab=recall

Этими простыми действиями, вы снизили нагрузку на сайт в десятки раз. Теперь ботам не надо делать лишних тысячи запросов к сайту и переходить по ссылкам которые и так есть на сайте и они по ним уже перешли. Не надо опять сканировать, что уже отсканировано, не надо решать что делать с контентом, дубль или не дубль и какая ссылка каноническая. Индексация лучше, нагрузка меньше, что нам и требовалось.

Анализ логов сервера покажет какие боты еще обращаются к вашему сайту и вы увидите массу всяких анализаторов не нужных, сканеров, парсеров и так далее. Часть из них вы так же можете ограничить или вообще запретить в robots.txt. Но некоторые его не слушают вообще или частично игнорируют. Таких просто по ip или user agentу запретить жестко в .htaccess

RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteCond %{HTTP_USER_AGENT} DomainCrawler
RewriteRule (.*) - [F,L]

Теперь можно дальше заниматься своим проектом и получать оправданную нагрузку и как следствие платить адекватно создаваемой нагрузки. Плюс улучшили индексацию контента сайта, боты будут теперь яснее видеть контент и переходить на него сразу. В дальнейшем разобравшись с правилами и директивами файла robots.txt, вы сможете еще более конкретно направлять ботов индексаторов и управлять в целом индексацией вашего сайта.

5

Автор публикации: Игорь logo

111 публикаций 100500 Идей :)

Весь спектр SEO услуг, реклама, продвижение в социальных сетях. Изготовление сайтов.

Обратится в PM Отзывы Подписаться

14 Комментариев “Поисковые и другие боты, нагрузка и WP-Recall

    • сказал:

      Приветствую Алексей.
      Правильно будет вот так:
      Disallow: /account*
      Хотя * по умолчанию есть в конце, можно без нее попробовать и посмотреть.

      Всегда можно проверить в панеле веб мастера в пс, пункт относящийся к robots.txt

      0
          • сказал:

            Уточню. Можно прописать только для User-agent: *? Я правильно понимаю, что это вообще сразу для всех ботов или нет?

            Или нужно для каждого в отдельности – User-agent: Yandex, User-agent: Googlebot, User-agent: Mail.Ru, User-agent: *, User-agent: Googlebot-Image, User-agent: YandexImages, User-agent: Mediapartners-Google, User-Agent: YaDirectBot?

            Спасибо 🙂

            0
          • сказал:

            Добрый вечер, Игорь.

            Добавил следующие запреты Disallow: /account и Disallow: /users для всех ботов, кроме этих – User-agent: Googlebot-Image, User-agent: YandexImages, User-agent: Mediapartners-Google, User-Agent: YaDirectBot. Или к ним тоже нужно было добавить эти запреты?

            Вы могли бы проверить, правильно ли я сделал? Спасибо.

            0
  1. сказал:

    У меня бот майла несколько дней буйствовал и нагрузку критическую создавал. Прописал ограничение времени, надеюсь поможет. Личный кабинет теперь то же полностью закрою. Раньше и не задумывался о таких подвохах от ботов поисковиков.

    0

Ответить