WEBMSX.NAROD.RU - Управление индексацией сайта при помощи файла robots.txt

Веб-Мастеру

Управление индексацией сайта при помощи файла robots.txt

Погода

» Создание сайта
» Бесплатный хостинг
» Бесплатная почта
» Дизайн сайта
» Раскрутка сайта 1
» Раскрутка сайта 2
» Программирование
» База белых каталогов
» Статьи

E-Money

Заработок

» Начинающим
» Компания DepositFiles
» Основные вопросы
» Спонсоры(САР)
» Серфинг и автосерфинг
» MLM проекты
» Инвестиции
» Веб-мастеру
» Букмекерские конторы
» Моментальные бонусы
» Введение в коммерцию
» Всё о коммерции
» Статьи о заработке
» Форумы о заработке

Идеи бизнеса

Реклама

Вступление

Поисковые роботы (или спайдеры, пауки, поисковые машины и т.д.) постоянно шарят по веб-страницам, обрабатывая, содержащуюся на них информацию. Веб-мастер может управлять поведением поисковиков на своём сайте двумя способами: при помощи мета-тегов, либо файла robots.txt. Рассмотрим подробнее второй способ.

Общие сведения

robots.txt - особый файл (точнее, это - обычный тестовый файл с расширением txt, но составленный особым образом), лежащий в корневой директории сайта (например, если сайт имеет адрес http://filosofia.ru/, то файл robots.txt должен находиться по адресу: http://filosofia.ru/robots.txt). Обратите внимание: имя файла и расширение надо писать в нижнем регистре! Любой поисковик, заходя на какой-либо сайт, прежде всего, проверит наличие и содержимое файла robots.txt (можете посмотреть логи своего сервера и убедиться как часто запрашивается этот файл). И, уже исходя из полученной информации, будет осуществлять свою дальнейшую деятельность на этом сайте. На одном сайте может быть только один файл robots.txt. Если робот не находит файл исключений для поисковых роботов, то он действует на сайте по своему собственному алгоритму (делает что хочет :-)).

Формат записи файла robots.txt

В файле robots.txt указывается: какому роботу и что НЕ надо индексировать на сервере. Вообще, записи в этом файле составлены из нескольких групп инструкций, а проще говоря - блоков (разделяемых пустой строкой), каждый из которых предназначен для одного или нескольких роботов. Название робота указывается в первой строке блока (параметр User-agent, его наличие в robots.txt обязательно):

User-agent: robot1 robot2 robot3, где:

robot1, robot2 и robot3 - названия поисковых роботов. Например:

User-agent: WebCrawler Lycos StackRambler

Как видите, названия поисковых роботов иногда отличаются от названий поисковых систем (в нашем примере: робота поисковой системы Rambler "зовут" StackRambler). В большинстве случаев, однако, писать названия роботов не требуется. Достаточно просто написать:

User-agent: *, здесь знак "*" означает, что запись относится ко всем роботам (в файле может быть только одна такая строка).

Далее идёт вторая строка:

Disallow: путь, где:

путь - часть URI, который запрещено посещать роботу. Можно указывать полностью или частично (любой URI, начинающийся с указанного значения роботу посещать запрещено). Для каждого объекта, запрещённого к индексации нужно писать отдельный Dissallow.

Обратите внимание: указываются не абсолютные, а относительные пути.

Например:

Disallow: /topsecret/ - запрещает доступ к директории с таким именем, но не запрещает файлы с таким именем, т.е. файл topsecret.html будет проиндексирован, а все файлы в директории /topsecret/ - нет.

Disallow: /privat - запрещает доступ как к директориям с таким именем, так и к файлам.

Disallow: /folder/file.htm - запрещает доступ к определённому файлу в определённой директории.

Из примера видно, что для каждого объекта, запрещённого к индексированию, записывается отдельная строка Disallow. Пустое значение параметра Disallow означает, что все URL могут загружаться. В файле robots.txt должен быть, по крайней мере, один параметр Disallow. Параметр Disallow всегда относится только к предшествующему параметру User-agent, поэтому для каждого параметра User-agent нужно задавать свои параметры Disallow.

Примеры записи файлов

Проще всего понять синтаксис файла robots.txt и научиться грамотно его использовать можно на конкретных примерах. Ниже приведены примеры нескольких типичных записей в этот файл.

Пример 1.

# robots.txt file for http://dengi.filosofia.ru/
# contact webmaster@filosofia.ru for critics

User-agent: StackRambler Googlebot
Disallow:

User-agent: *
Disallow: /tmp/
Disallow: /logs/

Значок # означает комментарий. Комментарии лучше писать на отдельной строке.

В этом примере всем роботам запрещается посещать директории tmp и logs, и только роботам StackRambler и Googlebot разрешено посещать всё.

Пример 2.

# I hate search engines!

User-agent: *
Disallow: /

В этом примере всем роботам запрещена любая деятельность на сайте.

Пример 3.

User-agent: *
Disallow: /private/letters/
# This is top secret directory.
Disallow: /cgi-bin/
Disallow: /anektods.html

В этом примере всем роботам запрещается посещать страницы, находящиеся в директориях /private/letters/ и /cgi-bin/, а так же файл anektods.html.

Пример 4.

User-agent: *
Disallow:

Это самый простой случай. Всем роботам можно обрабатывать любые документы на сервере.

Проблемы безопасности

Использование на своём сайте файла robots.txt хранит в себе потенциальную опасность. Вы можете пострадать от действий злоумышленников. Если кто-то наберёт в адресной строке броузера непосредственно адрес этого файла, ему станет известно, какие каталоги и файлы администратор пытается скрыть от посторонних глаз. Затем можно в строке броузера набирать прямой путь к этим "секретным объектам" и спокойно их лицезреть. Это называется "чёрный ход".

Как же защитить информацию от посторонних? Самое очевидное - не размещать её на общедоступных ресурсах. Если это действительно важная информация, зачем выкладывать её в глобальную Сеть? Если же информацию всё-таки надо выложить, используйте в заголовках документов мета-тег "robots". И установите надлежащую систему аутентификации.

Думаю, в этой статье описано всё, что нужно знать об управлении действиями поисковых роботов на сайте. Если же кто-то хочет более глубоко изучить этот вопрос, рекомендую посетить следующие ресурсы Интернет:

http://www.w3.org/TR/html401/ - спецификация HTML 4.01.

http://www.robotstxt.org/ - Этот сайт полностью посвящён поисковым роботам и взаимодействию с ними. Да это и из названия видно.

Дизайнер сайта: Лазаренко Виталий Сергеевич E-Mail:lazarenko-vitalik@xaker.ru ICQ: 397-116-997
Использование материалов сайта возможно только с разрешения администрации.
Все права защищены. WEBMSX.NAROD.RU - Работа в интернете © 2008