Теория и практика работы с robots.txt
Иногда веб-мастеру может потребоваться закрыть от индексации часть сайта. Эта задача легко решаема, так как большинство Web Роботов позволяют администраторам сайтов ограничить свое поведение на сайте. Это можно сделать несколькими способами:
- Можно указать, какие части сайта не должны посещаться роботами, разместив специально отформатированный файл в корне сайта – http://www.site-name.ru/robots.txt
- Администратор может указать, может страница быть проиндексирована или нет, или проанализирована на наличие ссылок, используя специальный HTML META тег.
- Использовать нестандартные приемы, работающие для конкретных роботов. Например запретить роботу следовать по ссылке при помощи rel="nofollow"(Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега <noindex> (Yandex, Rambler).
Следует отметить, что все эти методы не дают стопроцентной гарантии. Некоторые роботы могут попросту не обращать на них внимание.
Стандарт исключений для Роботов
Стандарт исключений для роботов был принят в 1994 году и с тех пор не менялся. Стандарт описывает общие принципы написания robots.txt. Вкратце – при заходе на сайт робот запрашивает файл robots.txt, чтобы посмотреть, какие разделы и документы на сайте запрещены для него.
Важно помнить, что стандарт является необязательным, и его придерживаются только «вежливые и культурные» роботы. Врядли вы сможете при помощи него сможете запретить, например, доступ для роботов ворующих у вас контент.
Руководство по использованию robots.txt
Подробнее о написании robots.txt и о том, что означают различные правила, можно узнать из руководства по использованию robots.txt.
МЕТА-тег “Robots”
МЕТА-тег “Robots” позволяет создателям страниц указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.
Нестандартные методы ограничения доступа
Не предусмотреные стендартом средства ограничения доступа к содержимому сайта. В первую очередь тег <noindex> и аттрибут rel="nofollow".