2018
Удаляем дубли и лишние страницы сайта на WordPress из индекса
Совсем недавно столкнулся с одной проблемой, решение которой, вполне возможно пригодится когда-нибудь и вам в похожей ситуации. По неосторожности я решил опробовать на одном из своих «вордпрессовских» блогов плагин, позволяющий сделать двуязычный сайт. После ряда проб и ошибок, я остановил свой выбор на плагине QTranslator, который более-менее соответствовал тем функциям, которые от него требовались. На первый взгляд, его единственным минусом казалось то, что не было возможности выбора языка в интерфейсе сайта плагин сам подстраивал нужный язык под языковые настройки браузера посетителя. Но в процессе эксплуатации выяснилось, что минусов гораздо больше. Главным недостатком было то, что я не мог настраивать тэги title и description для страниц на дополнительном языке, соответственно эти параметры задавались с оригинальной страницы. В общем, спустя несколько дней я плагин этот удалил. Всё бы хорошо, но страницы на втором языке успели проиндексироваться, и превратились в никому не нужные дубли, так как на них оказался точно такой же контент, как на страницах с оригинальным языком. Нужно было срочно удалять эти дубли, пока Гугл с «Яшей» не успели показать мне желтую карточку. Поскольку страниц было немного, первым делом я решил удалить их через панели Вебмастера:
www.google.com/webmasters/tools/url-removal
http://webmaster.yandex.ua/delurl.xml
С «Гуглом» этот номер прошел, а вот Яндекс написал при подаче заявки на удаление url, что, мол, «нет причин для удаления страницы, так как её индексирование не запрещено ни в файле robots.txt, ни метатегом noindex, а при её загрузке не выдается ошибка 404». Что ж, придется запрещать, решил я, и полез искать в админке WordPress этот самый файлик. В админке я его, естественно не обнаружил, и что самое интересное, в корневой директории сайта тоже. Хотя по ссылке www.сайт/robots.txt этот файлик присутствовал.
Через минуту я нашел на одном из форумов информацию о том, что предупредительный «Вордпресс» сам генерирует этот файлик в случае его отсутствия в корневой директории, и всё встало на свои места. Теперь осталось только создать этот файл, добавить в него параметры, запрещающие индексацию ненужных нам страниц, и со спокойной душой раз и навсегда удалить их из индекса.
Чтобы удалить ненужные нам страницы, нужно просто после тэга «Disallow:» вписать общую для всех ненужных нам урлов часть их адреса со звездочкой в начале. В моем случае это выглядело так:
Disallow: *?lang=ua
После этого я легко и быстро удалил все ненужные страницы-дубли из индекса «Яндекса».

Нет комментариев