Что такое robots txt
Robots.txt – это файл, который позволяет владельцам сайта указать поисковым системам, какие страницы и папки сайта необходимо индексировать, а какие нет.
Robots.txt — это файл в формате plain text, который используется для настройки доступа поисковых роботов к страницам вашего сайта. Файл должен находиться в базовой директории сайта и иметь имя robots.txt. Он обычно используется для предотвращения поисковых роботов от посещения части вашего сайта, который вы не хотите показывать в результатах поиска.
Robots.txt состоит из двух частей: пользовательского агента и директив. Пользовательский агент идентифицирует поисковых роботов, которые будут применять директивы. Директивы определяют, какие части сайта должны быть доступны поисковым роботам.
Пример robots.txt
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Allow: /wp-admin/admin-ajax.php
В этом примере мы предотвращаем доступ к административной панели, папке с плагинами, кэшу и темам сайта. Однако мы разрешаем доступ к файлу admin-ajax.php, который может использоваться для выполнения асинхронных запросов.
Обратите внимание, что здесь используется знак «*» для идентификации всех поисковых роботов. Вы также можете использовать имена отдельных поисковых роботов, например, Googlebot или Bingbot.
Кроме того, вы также можете использовать символы подстановки, такие как «$» для задания условия для целой группы адресов. Например, для запрета доступа к всем файлам с расширением .jpg Вы можете использовать директиву Disallow: /*.jpg$.