Стандартный robots.txt | Зона разработки

Думаю, все знают, что robots.txt используется для ограничения доступа роботам поисковых систем к содержимому сайта. Не всё на сайте нужно индексировать. Вот пример типового файла для стандартной версии MODX, который нужно положить в корень сайта.

User-agent: *
Disallow: /assets/
Disallow: /connectors/
Disallow: /manager/
Disallow: /core/
Disallow: *?

Host: your-site.ru
Sitemap: http://your-site.ru/sitemap.xml

В этом варианте мы закрываем доступ к содержимому всех папок — и системных и пользовательской assets (можно запретить индексировать только отдельные подпапки). А также запрещаем индексировать страницы с параметрами в адресе — Disallow: *?. Это позволит исключить проблему дублирования страниц поисковыми системами. Ведь страницы site.ru и site.ru/?page=1 для поисковых систем будут дублями. Если на сайте настроен поиск на отдельной странице, то её тоже нужно исключить из индексирования. Например, если страница для поиска называется search.html, нужно добавить следующую строчку

Disallow: /search.html

Нужно понимать, что robots.txt не гарантирует 100% защиту от индексации. Это лишь просьба администратора сайта к поисковым роботам не ходить по указанным адресам. Большинство поисковых систем прислушиваются к этим инструкциям. Но конфиденциальную информацию всё же нужно закрывать другими способами.

Важное замечание

Если вы переименовали системные папки, чтобы скрыть их из соображений безопасности, то обязательно уберите их из robots.txt. Ведь иначе ваши усилия будут напрасны, так как robots.txt доступен для просмотра.

Комментарии ()

Вы должны авторизоваться, чтобы оставлять комментарии.