Стандартный robots.txt
Думаю, все знают, что robots.txt используется для ограничения доступа роботам поисковых систем к содержимому сайта. Не всё на сайте нужно индексировать. Вот пример типового файла для стандартной версии MODX, который нужно положить в корень сайта.
User-agent: * Disallow: /assets/ Disallow: /connectors/ Disallow: /manager/ Disallow: /core/ Disallow: *? Host: your-site.ru Sitemap: http://your-site.ru/sitemap.xml
В этом варианте мы закрываем доступ к содержимому всех папок — и системных и пользовательской assets (можно запретить индексировать только отдельные подпапки). А также запрещаем индексировать страницы с параметрами в адресе — Disallow: *?
. Это позволит исключить проблему дублирования страниц поисковыми системами. Ведь страницы site.ru и site.ru/?page=1 для поисковых систем будут дублями. Если на сайте настроен поиск на отдельной странице, то её тоже нужно исключить из индексирования. Например, если страница для поиска называется search.html, нужно добавить следующую строчку
Disallow: /search.html
Важное замечание
Если вы переименовали системные папки, чтобы скрыть их из соображений безопасности, то обязательно уберите их из robots.txt. Ведь иначе ваши усилия будут напрасны, так как robots.txt доступен для просмотра.
Вы должны авторизоваться, чтобы оставлять комментарии.
Комментарии ()