Сайт Земскова Ильи
Веб-мастер, к.т.н., «200000».
Бензин ваш - идеи наши © И.Ильф и Е.Петров

Плагин «XML Sitemap Pro» - настройте ваш sitemap.xml!

Всем веб-мастерам известно, что оценка «Качественный сайт», которую ставят вашему детищу поисковые системы, складывается из множества факторов. Один из таких факторов - количество ошибок индексации сайта поисковой системой. Есть ли у Яндекса/Гугла проблемы с индексацией вашего сайта можно узнать с помощью соответствующих сервисов этих систем. Именно с помощью сервиса Яндекс.Вебмастер я увидел, что Яндекс пытается индексировать кучу "несуществующих" страниц недавно разработанного сайта, а именно, были обращения к страницам меток, юзеров, служебных категорий и служебным страницам. "Несуществующие" они потому, что в шаблоне даже не было сделано обработчика для них или же потому, что на сайте не должно было быть ссылок на эти страницы (как правило, такие страницы нужны для служебных целей или для тестирования контекстной рекламы и нет желания скармливать их поисковым роботам).

скриншот ошибок индексирования Яндексом

Когда я увидел, что творится такое - был «малость» удивлён. Главным вопросом было - где Яндекс нашёл ссылки на страницы типа «/tag/» , страницы типа «/author/» и ещё нескольких страниц в slug «/page/»? В шаблоне сайта-визитке нет обработчика страниц меток. Да, метки заполняются «про запас», но выводить их в большой мир никто не собирался! Также со страницами авторов-юзеров. Если у вас обычный сайт-блог на слегка кастомизированном дефолтном шаблоне, то конечно вам все эти страницы нужны в индексе Яндекса. Но у меня был другой случай (мне не нужны лишние страницы в индексе поисковых систем) и поэтому надо было как-то это безобразие прекращать.

Источник дезинформации поисковиков был найден на первом же шаге - это sitemap.xml, который генерировался стандартным maxsite-овским плагином «XML Sitemap». Плагин простой, как автомат Калашникова. Погуглив, нашёл, что не я один хочу иметь страницу опций настройки этого плагина. Надо? Сделаем! Точнее уже сделал. Вот так выглядит страница настройки:

Как вы можете видеть, кроме широкого спектра настроек указания какие страницы не включать в sitemap.xml, ещё добавил опцию «Приоритеты и частота обновления». С её помощью можно задать отличные от задаваемых движком по-умолчанию параметры повторного обращения поисковых роботов к различным группам страниц.

Считаю, что не стоит все блоги грести под одну гребёнку - вдруг будут созданы более активно обновляемые ресурсы и зачем они должны сами себе наступать на горло?

Пример результата работы плагина можно увидеть здесь. Убедитесь сами, что ничего лишнего в файле нет.

UPD: Моя модификация плагина «XML Sitemap» теперь доступна в стандартной поставке движка.