Что такое robots.txt

robots.txt — специальный текстовый файл, содержащий инструкции для поисковых роботов, которым они должны следовать при индексировании сайта. Проще говоря, вы можете указать какие адреса на вашем сайте индексировать, а какие нет, это его основное предназначение. Этот файл должен лежать в корне сайта и быть доступен по адресу http://your-site.com/robots.txt. Любой поисковый робот перед индексированием сайта, ищет этот файл и считывает из него инструкции. История robots.txt началась в 1994 году, именно тогда был принят этот стандарт. Синтаксис robots.txt довольно прост, может содержать аж целых 8 видов инструкций, User-agent, Disallow, Allow, Crawl-delay, Request-rate, Visit-time, Host и Sitemap. Рассмотрим эти инструкции подробней:
Формат записи инструкций в robots.txt такой: <тип инструкции>: <значение>.

User-agent — здесь указывается для какого поискового робота предназначены инструкции, описанные ниже. Например:
User-agent: YandexBot — все инструкции ниже будет выполнять только YandexBot.
User-agent: Googlebot — все инструкции ниже будет выполнять только Googlebot.
User-agent: * — инструкции указаны для всех поисковых роботов.
В большинстве случаев используется именно User-agent: *, но бывают случаи когда необходимо для разных роботов указывать разные инструкции. Например у яндекса 11 роботов, а у google 8, они используются для индексации разного типа сайтов и документов.
Disallow — самая популярная инструкция. Используется для запрета индексации определенных URL адресов. Например:
Disallow: / — запретить индексацию всего сайта.
Disallow: /someurl — запретить индексацию всех адресов вида http://your-site.com/someurl*, то есть любой адрес начинающийся с /someurl (/someurl/, /someurl1, /someurl123, / someurl.php и т.д.), будет запрещен к индексации.
Disallow: /someurl/ — запрет индексации только раздела /someurl/. Адреса /someurl1, /someurl123 или /someurl.php будут доступны для индексации, а адреса вида /someurl/item будут запрещены для индексации.
Allow — инструкция противоположная Disallow, то есть с помощью нее можно разрешить к индексации URL адреса. Логично использовать, когда нужно запретить индексирование адресов в определенном каталоге, но оставить один или несколько адресов в этом каталоге открытым для индексирования. Например набор инструкций
Allow: /someurl/item1
Disallow: /someurl/
разрешит индексировать адрес http://your-site.com/someurll/item1, но все остальные адреса вида http://your-site.com/someurl/* будут запрещены для индексации.
Crawl-delay — указывает роботу время в секундах, которое он должен выдерживать перед индексацией следующей страницы. Используется для снижения нагрузки на сервер во время индексации сайта. Например:
Crawl-delay: 10 — ждать 10 секунд, перед индексацией следующей страницы. Проиндексировал страницу, подождал 10 секунд, можешь индексировать следующую и т.д.
Request-rate — указывает какое количество страниц можно индексировать за определенный промежуток времени, используется крайне редко. Например:
Request-rate: 1/3 — разрешено индексировать одну страницу за 3 секунды.
Visit-time — указывает время, когда можно индексировать сайта, используется крайне редко. Например:
Visit-time: 0930-1500 — индексировать сайт только с половины десятого утра до трех часов дня.
Host — используется для указания главного зеркала для поисковых роботов яндекса (только они понимают эту инструкцию, google ее пропускает). Если сайт доступен по разным адресам http://www.your-site.com/ и http://your-site.com/, то эта инструкция укажет какое из зеркал главное.
Host: your-site.com — главное зеркало сайта your-site.com, а не www.your-site.com
Sitemap — указывает поисковым роботам адрес карты сайта.
Sitemap: http://your-site.com/sitemap.xml

Также в фале robots.txt можно использовать регулярные выражения. Это очень полезно, для запрета индексации URL адресов, которые нельзя указать прямо, например URL с параметрами. Во многих cms есть страницы с версией для печати или rss лента, для поисковика такая страница будет дублем основного контента. Адрес каждой ненужной страницы отдельно не укажешь, да и не всегда это возможно, а регулярные выражения очень просто решают проблему. Рассмотрим как это работает, существует целых 2 специальных символа, "*" и "$":

"*" — звездочка, обозначает любой набор символов или их отсутствие. Например:
Disallow: *rss — запретить индексацию всех URL адресов, содержащих последовательность символов rss, http://www.your-site.com/все-что-угодно.rss или http://www.your-site.com/rss123.
Disallow: /someurl/*.php — запрещает индексацию адресов, имеющих расширение php в каталоге http://your-site.com/someurl.
Disallow: /*someurl — запрещает индексацию как URL адресов вида /someurl так и /catalog/someurl
Следует учитывать, что символ "*" по умолчанию присутствует в конце любой инструкции, то есть инструкции Disallow: /someurl и Disallow: /someurl* идентичные. Если взять первый пример, Disallow: *rss, то в этом случае будут запрещены к индексации любые URL адреса, имеющие последовательность символов rss (http://www.your-site.com/все-что-угодно.rss или http://your-site.com/some-rss-url/ ). Для того, что бы ограничить это, существует следующий специальный символ.
"$" — знак доллара, обозначает конец строки, то есть он отменяет по умолчанию символ "*" в конце строки.
Disallow: /someurl/$ — запрещает индексацию URL адреса http://your-site.com/someurl/, но разрешает индексацию URL адреса http://your-site.com/someurl/item1.
Disallow: *rss$ — запрещает индексацию всех URL адресов, заканчивающихся на rss. В то же время, адреса вида http://your-site.com/some-rss-url/ будут доступны для индексирования.

Комментарии (0)

Нет комментариев. Ваш будет первым!

Добавить комментарий