+7 (495) 749-29-69


Заказать звонок

Время работы: с 9:00 до 20:00
без выходных


*

* - поле, обязательное для заполнения



УСЛУГИ

Cоздание веб-сайтов Cоздание веб-сайтов

Каждый клиент, который обращается к нам для создания веб-сайта, имеет свои цели и конкретные задачи...

Cоздание фирменного стиля Cоздание фирменного стиля

Не секрет, что любая современная компания просто обязана иметь свой сайт. Глава компании «Microsoft»...

Интеграция с CRM и ERP приложениями Интеграция с CRM и ERP приложениями

Современное развитие систем управления бизнесом идет к созданию электронных моделей предприятия, с реализацией...

Написание текстов Написание текстов

Создатели сайтов в сети Интернет преследуют, как правило, две основные цели: предоставление пользователям...

Раскрутка и оптимизация Раскрутка и оптимизация

Разработка уникального сайта – это один из главных, но не последний этап создания Вашего представительства...

Все услуги

Что такое файл robots.txt и зачем он нужен?

Что такое robots.txt
robots.txt – это текстовый файл, который находится в корневой директории сайта и указывает поисковым роботам, где нужно, а где не нужно производить поиск. Самый типичный пример – это панель управления вашего сайта. Обычно она находится по адресу http://вашсайт.ru/admin А теперь задайтесь вопросом зачем поисковым роботам Яндекса или Google искать что-то в вашей панели управления сайтом. Так как же запретить поисковым роботам индексировать определенные уголки вашего сайта?

Поисковые роботы
Но перед тем как понять, как защитить свой сайт от нежелательной индексации, нужно выяснить: а кто такие это поисковые роботы и какие они бывают?
Поисковый робот – это программа, которая является частью поисковой системы. Эта программа просматривает страницы Интернета и заносит информацию о них в базу данных поисковой системы. Еще поискового робота иногда называют «веб-паук», «паук» или краулер (от англ. crawler – тот, кто ползет).

Самые популярные поисковые роботы Рунета:
Yandex — робот Яндекса.
Googlebot — робот Google.
Bing — робот Bing (MSN/Live).

Директивы и размещение robots.txt на сайте
Возвращаемся к файлу robots.txt. Для управления им необходимо знать основные директивы (от франц. directive — направлять) файла robots.txt

Файл robots.txt

Директива User-agent 
Директива User-agent – это некое приветствие поисковым роботам, то есть мы указываем имена тех поисковых роботов, к которым хотим обратиться.

User-agent: *
#мы говорим привет, все поисковые роботы!

User-agent: Yandex
#мы говорим привет, поисковой робот Яндекса!

User-agent: Yandex Googlebot 
#мы говорим привет, поисковой робой Яндекса и Google! 

Примечание: следует заметить, что у Яндекса не один робот и более того, разным его роботам можно указать отдельные директивы, например:

User-agent: YandexBot
#основной индексирующий робот

User-agent: YandexMedia
#робот, индексирующий мультимедийные данные

User-agent: YandexImages
#индексатор Яндекс.Картинок 

И так далее.

Что такое файл robots.txt и зачем он нужен?

Директивы Disallow и Allow
Директива Disallow (англ. - не признавать, запрещать) запрещает что-либо индексировать поисковым роботом, а директива Allow (англ. – разрешать) соответственно разрешать, или правильнее будет сказать - указывает, что нужно искать роботу.
Приведем пример:

User-agent: * 
Disallow: /
#запретили доступ ко всему сайту всем поисковым роботам

User-agent: BadRobot
Disallow: /
#Закрываем индексацию конкретному роботу

User-agent: Yandex
Allow: /catalog 
Disallow: /
#Запрещаем роботу Яндекса доступ ко всем страницам, кроме страниц, которые начинаются с /catalog 

User-agent: *
Disallow: /tmp
Disallow: /logs
#Запрещаем всем роботам индексировать URL, начинающиеся с /tmp или /log

Спецсимволы
В файле robots.txt можно использовать спецсимволы «*» и «$». Для чего они нужны? Например, в папке «secret» у вас хранятся файлы «topsecret.html», «toptopsecret.html» и «admin.html». И вам нужно запретить доступ к этим файлам.

User-agent: *
Disallow: /admin/*.html 
#Запрещаем в папке admin всем роботам индексировать файлы формата html 

Если же у вас есть папка admin/ и в корневой папке файл admin.html. Как запретить доступ только к папке?

User-agent: *
Disallow: /admin$
#Запрещаем доступ к папке admin, но не запрещаем доступ к admin.html 

Запрещаем доступ к папке admin

Директива Sitemap
Файл sitemap.xml – это файл, который хранит в себе информацию о всех подлежащих индексации страницах вашего сайта. Этот файл помогает поисковым роботам ориентироваться на вашем сайте.

User-agent: * 
Allow: /
Sitemap: http://kupitsite.ru/sitemap.xml
#в этом случае поисковые роботы будут обращаться к файлу sitemap.xml, который будет помогать правильно и быстро индексировать ваш сайт

Директива Host
Эта директива нужна в том случае, если у вашего сайта есть зеркала. Например http://www.kupitsite.ru является главным зеркалом сайта, в том время как http://kupitsite.ru не является главным. Тогда нужно указать поисковым роботам главное зеркало:

User-agent: * 
Disallow: /admin
Host: www.kupitsite.ru 
#указывается поисковым роботам, как выглядит главное зеркало сайта

Директива Crawl-delay
Директива Crawl-delay (crawl – ползать, delay – откладывать) позволяет задавать таймауты в работе роботов, чтобы уменьшить нагрузку на сайт:

User-agent: *
Disallow: /admin
Crawl-delay: 5
#задаем таймаут в 5 секунд

Директива Clean-param
Если адреса страниц вашего сайта содержат динамические параметры, то c помощью директивы Clean-param можно указать поисковым роботам, где именно не стоит дублировать информацию о страницах. Тем самым снижается нагрузка на сервер, а роботы быстрее индексируют ваш сайт.

User-agent: *
Allow: /  
Clean-param: s /forum/showthread.php 
#для адресов вида www.yoursite.ru/forum/showthread.php?s=681498b9648949605&t=8243

На заметку

  • Что если на сайте нет файла robots.txt? Тогда поисковой робот будет индексировать весь ваш сайт.
  • Важно не забывать о регистре. Если вы создадите файл «Robots.txt», тогда скорее всего поисковики проигнорируют его.
  • Проверить правильность robots.txt вашего сайта можно здесь http://webmaster.yandex.ru/robots.xml