Правильный robots.txt для wordpress

Tweet

Приветствую все читателей блога wordpressu.ru, сегодняшняя статья из рубрики спрашивали, отвечаем. Несколько дней назад на мою почту поступило письмо с просьбой рассказать о файлах robots.txt, и .htaccess, ну что же сегодня я решил написать статью на эту тему, а именно каким должен быть правильный robots.txt для wordpress, и правильный .htaccess, и так друзья, кому интересна данная тема милости просим под кат!

Зачем нам нужен robots.txt? Отвечая сразу на этот вопрос скажу, нам необходимо запретить индексацию, но индексацию самого блога нам нельзя закрывать, наоборот мы должны приложить максимум усилий для его индексации, а запретить мы должны информацию которая не несет в себе полезность, то есть это дубли вашего контента, это различного рода системные файлы, то есть нам необходимо указать дорогу поисковым роботам к правильной индексации, именно для этой цели файл robots.txt идеально подходит. Сам процесс создания robots.txt достаточно прост, нужно просто создать текстовый документ с таким названием, заполнить этот документ правильной информацией, и залить в корень вашего блога. А сейчас давайте попробуем разобраться что же должно быть у нас внутри нашего файла?

User-agent: Yandex
 — тут мы указываем название поискового робота.

Все следующие команды которые будут идти после этого будут относиться непосредственно к поисковым роботам этой системы.

User-agent: Googlebot
Ну, тут я думаю тоже все понятно, команды будут относиться к google, так же можно указать спецсимвол «*» который будет относиться ко всем поисковым роботам.

User-agent: *
согласитесь друзья, нет ничего сложного. И так, мы с вами разобрались с двумя основными моментами, ниже представлен robots.txt моего блога, и сейчас мы с вами разберем что значит та или иная команда.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /?s=

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Disallow: /tag
Host: wordpressu.ru
Sitemap: http://wordpressu.ru/sitemap.xml.gz
Sitemap: http://wordpressu.ru/sitemap.xml

Disallow- это команда которая позволяет поставить запрет, то есть в данном случае, в первой части мы задаем команды всем поисковым роботам

User-agent: *

О запрете индексации системных файлов, таких как wp-admin, cgi-bin, feed, trackback и.т.д

Во второй части, мы указываем конкретно яндексу о том что конкретно не надо индексировать, и в добавок мы указываем команду host: в которой сообщаем название нашего сайта, и соответственно указываем в добавок карту нашего сайта с помощью команды sitemap: где и указываем путь к нашей карте. На этом этапе мы можем смело сохранить наш robots.txt и загрузить в корень нашего блога, данная схема она работает без проблем, так как она у меня стоит с самого первого дня жизни моего блога, я не разу не заметил, что бы  в индекс хоть яндекс, хоть google попала не нужная часть блога, так что вы смело его использовать, самое главное это заменить адрес блога, и указать свой путь к вашей карте.

Вторая часть данной статьи посвящена файлу .htaccess , с помощью данного файла можно вытворять много разных интересных вещей, но если вы каким то образом напортачили с вашим .htaccess то вы всегда можете это исправить, достаточно скопировать код ниже, вставить его в ваш .htaccess и сохранить.

# BEGIN WordPress

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule ^index\.php$ — [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>

# END WordPress

Теперь, давайте перейдем к фишкам которые можно делать с использованием данного файла.

1.Например с помощью данного файла мы можем исключить «category» из пути в адресе wordpress. Для этого достаточно добавить строчку

RewriteRule ^category/(.+)$ httр://www.yourblog.com/$1 [R=301,L]

2.Если у вас на блоге проходят различного рода технические работы, то конечно же желательно перенаправить своих пользователей на так называемую страницу заглушки,  с помощью .htacess делается это достаточно просто.

RewriteEngine on
RewriteCond %{REQUEST_URI} !/zaglushka.html$
RewriteCond %{REMOTE_ADDR} !^123\.123\.123\.123
RewriteRule $ /zaglushka.html [R=302,L]

где zaglushka.html является непосредственно страницей заглушкой.

3.Блокировка спамеров. Часто бывает так что, спамеры заходят на ваш блог с одного и того же ip адреса, в этом случае мы можем заблокировать доступ к вашем блогу с этих ip адресов, !!! Но, если вы не понимаете в этом ничего, но лучше не трогать, а поставить например akismet

<Limit GET POST>
order allow,deny
deny from 200.49.176.139
allow from all
</Limit>

ip адрес спамера указывается в третьей строке.

На самом деле друзья, с помощью данного файла можно делать еще и другие не менее интересные вещи, и данная статья является просто ознакомительной, если кому то интересно, я с удовольствием расскажу еще про данный файл.

На этом я завершаю свой пост, желаю всем быстрой индексации,  и лучей добра!

P.s Если у вас есть вопросы пишите

P.p.s Вчера мы провели с нашей командой блог тур под названием «Эльбрусское ущелье», тур прошел просто шикарно, и я не просто не не выложить ролик, один день из жизни Эльбруса!