Зачем нужен файл robots.txt для сайта: как его создать своими руками и где найти

Здравствуй, дорогой читатель! Чтобы блог, портфолио или страничка компании успешно функционировали, требуется изучить множество аспектов, которые влияют на производительность. Ключевой из них – это индексирование поисковыми роботами, от которых зависит будущее странички. В этой статье вы узнаете, как грамотно написать robots.txt для сайта, найдете шаблоны и ценные советы.

Роботс – это текстовый файл, содержащий важную информацию для поисковых ботов, постоянно сканирующих веб-сеть. Он отвечает за эффективность сканирования, указывая на самый актуальный материал. Чтобы все было действительно так, надлежит правильно его настроить.

Почему он востребован? Если ваш блог функционирует на основе WordPress, Joomla и т.п., не избежать наличия папок административной панели, которые сканировать нежелательно. Кроме ограничений, важным критерием нужности является указание карты сайта и главного домена (зеркала). Это способствует правильной индексации поисковыми системами, иными словами – позволит достичь взаимопонимания. Грамотно созданный роботс позволит выводить на страницы поиска точные ответы на запросы, которые однозначно привлекут клиентов. Если вы не хотите каким-либо образом ограничивать роботов, просто оставляете документ пустым.

Обратите внимание: прописанное не является «табу», а скорее «рекомендация», поэтому остается вероятность сканирования и добавления в индекс и неразрешенных страничек. Бытует мнение, что такие казусы случаются при неправильном написании самого документа, потому к этому моменту следует отнестись со всей ответственностью

Содержание

Создать файл robots.txt для сайта самостоятельно

Для этого создается обыкновенный текстовый документ (можно в стандартном блокноте) с названием robots и форматом .txt, и добавить в него такие данные:

Внимание! Это пример robots.txt для сайта. В строке Host следует указать адрес вашей площадки. После сохранения изменений загружаем его в корневой каталог сайта.

В итоге:

Яндексу не позволено индексировать кэш.
Bing позволено сканировать папку с темами.
Исключена возможность индексации основных папок, которые не требуют разглашения.

Это классический вариант – основа – который можно дополнить множеством запретов и разрешений. Для полного понимания следует расшифровать этот незамысловатый код.

Сперва указывается, для какой поисковой системы предназначены нижеуказанные правила – для конкретной или же для всех. Во втором случае ставится символ * (звездочка).

Рассмотрим директивы, которые используются при написании:

Disallow	Оператор, запрещающий индексировать указанные разделы
Allow	Разрешающий анализировать предписанные разделы. Его указывать совершенно необязательно, ведь бот сканирует по принципу «что не запрещено, то разрешено». Обычно allow используется, чтобы открыть доступ к определенным файлам в папке, проход к которой выше был закрыт.
Host	в этой графе вводится главный домен (основное зеркало).
Sitemap	это адрес карты

Нельзя один раз ввести Disallow и перечислить все пути – на заметку ботам пойдет только первый пункт. Каждый путь надо дублировать, тогда работа будет исправной. Пустая строка означает, что перечень ограничений для текущего поисковика закончен, поэтому не стоит их разделять без надобности.

Для robots.txt для сайта на wordpress воспользуйтесь шпаргалкой:

Добавить или исключить что-то не запрещается. Но это больше подойдет тем, кто разбирается в программировании, в противном случае, появляется вероятность ошибки, которая повлечет за собой неприятные последствия.

Существуют плагины для вордпресс, однако их применять не рекомендуется – они создают дополнительную нагрузку. Эффективнее будет ввести собственноручно или с помощью шаблонов, и вносить изменения при необходимости.

Чтобы проверить, верно ли был составлен документ, существуют бесплатные программы проверки Google Вебмастер и Yandex Вебмастер, у каждой есть свои преимущества.

Яндекс:

Работает без авторизации и доказательства прав;
Страницы можно ввести списком;
Убеждает, что Яндекс правильно понимает ваши рекомендации.

Гугл. Сначала надлежит осуществить вход в профиль с подтвержденной площадкой, который вы хотите проверить. После этого переходим в раздел «Сканирование» ® «Инструмент проверки нужного файла»

Плюсы:

Позволяет корректировать в инструменте;
Сразу же показывает на неточности, недочеты и возможные проблемы.

Robots.txt для сайта на html ничем не отличается от остальных.

Конечно, придется потратить много времени. Намного проще сгенерировать robots.txt для сайта онлайн. Для этого существует много сервисов, которые упрощают этот шаг до двух минут:

Перейти по ссылке
Внимательно заполнить все поля
Готовый текст скопировать и вставить в окошко чистого Блокнота
Сохранить и загрузить в корневую папку

Лично у меня есть два проверенных https://htmlweb.ru/ и http://pr-cy.ru/ — это своего рода генератор robots.txt для сайта. Каждый из них представляет простенькую форму для заполнения и быстрый результат.

Первый предоставляет короткое объяснение всех директив с примерами и примечаниями. К преимуществам второго можно отнести встроенную программу для проверки на месте. Можно воспользоваться обоими сервисами, сравнить конечный итог и выбрать лучший вариант, если они будут чем-то отличаться.

«Доверяй, но проверяй: перед использованием проверьте код на корректность в официальных программах-вебмастерах поисковиков.»

Как создать robots.txt для сайта понятно, но довольно сложно. Тем, кто впервые с этим сталкивается, придется много сил потратить на изучение материала, пробы и ошибки.

Дополнительным бонусом является возможность установки роботам-поисковикам конкретного интервала между скачиваниями материалов с сервера. Некоторые во время работы оказывают повышенную нагрузку на хостинг, из-за чего появляется необходимость увеличить время между скачиваниями.

Для реализации добавляем в код такой директив:

Crawl-delay: 10

Это значит, что теперь выбранный поисковик будет делать паузу в 10 секунд между скачиваниями.

Этот метод не рекомендуется использовать для систем Yandex и Google во избежание проблем с индексацией.

Несколько полезных заметок:

Название файла обязательно должно быть маленькими буквами (нижним регистром);
Загружать исключительно в корень сайта;
Всегда можно скачать robots.txt для сайта, написанный другим человеком, но гораздо безопаснее вписать вручную, предварительно хорошенько изучив материал. У каждого ресурса свои нюансы и их приходится учитывать для продвижения.
Нет надобности создавать отдельный txt для мобильной версии сайта, поскольку проще полностью запретить ее к индексации. Мобильную версию садим на поддомене, закрываем к ней доступ ботам, и настраиваем автоматический переход при посещении с телефона. Вы ничего не потеряете и не будете сталкиваться с «проскакиванием» страниц полной версии.
Если скрытие данных может помешать анализу, лучше оставить их в свободном доступе.
Этот документ удобно использовать при разработке или доработке площадки, когда посещение его роботом крайне нежелательно.

Имена ботов-поисковиков для обращений:

Yandex

Googlebot

Slurp (робот Yahoo!)

MSNBot (Bing от Майкрософт).

SputnikBot — российский поисковик Спутник (Ростелеком).

Завершение

Спасибо за посещение блога. Надеюсь, вы нашли исчерпывающий ответ о том, как сделать robots.txt для сайта и поняли, почему лучше самостоятельно этим заняться, нежели скачивать готовые. Подписывайтесь на рассылку и получайте только полезные советы по продвижению страничек. Обязательно поделитесь этой полезной информацией в социальных сетях. До новых встреч!