Главная Блог Хостовые и технические факторы Закрытие сайта от индексации в поисковиках. Настройка запрета в ROBOTS.TXT
Хостовые и технические факторы
6 мин
0 оценок, среднее: 0,00 из 50 оценок, среднее: 0,00 из 50 оценок, среднее: 0,00 из 50 оценок, среднее: 0,00 из 50 оценок, среднее: 0,00 из 5 0,00
1 230
0

Закрытие сайта от индексации в поисковиках. Настройка запрета в ROBOTS.TXT

Андрей Кузнецов

- Head of SEO BeUp

Как закрыть весь сайт?

Для закрытия всего сайта от индексации необходимо добавить следующую строку в файл robots.txt:

User-agent: *
Disallow: /

Как закрыть от индексации отдельную папку?

Для закрытия отдельной папки (например, /private/) от индексации нужно добавить следующее правило в файл robots.txt:

User-agent: *
Disallow: /private/

В данном случае роботам будет рекомендовано не индексировать все документы внутри этого раздела сайта.

Как закрыть отдельный файл?

Для закрытия отдельного файла (например, /private/file.html) от индексации необходимо добавить следующую директиву в файл robots.txt:

User-agent: *
Disallow: /private/file.html

Как закрыть раздел, но разрешить индексацию отдельных страниц

Можно скрыть папку, но разрешить индексацию отдельных файлов в ней. Для этого нужно использовать директиву Allow совместно с Disallow. Например:

User-agent: *
Disallow: /private/
Allow: /private/file.html

Последовательность правил в данном случае не имеет значения, приоритет будет отдан директиве с большим количеством символов. Если количество символов одинаковое, приоритет отдается Allow.

Как запретить индексацию для отдельных поисковых систем?

Для запрета индексации для отдельных поисковых систем можно использовать директиву User-agent, указывая имя конкретной поисковой системы, после которой следует директива Disallow.

Роботы Яндекса

Для запрета индексации для Яндекса необходимо добавить следующие строки в файл robots.txt:

User-agent: Yandex
Disallow: /

Роботы Google

Для запрета индексации для Google необходимо добавить следующие строки в файл robots.txt:

User-agent: Googlebot
Disallow: /

Как проверить, в индексе документ или нет?

Технически это делается с помощью операторов. Например:
url:https://ya.ru/ | url:www.https://ya.ru/ Проверка главной страницы для Яндекса

site:https://ya.ru/ Проверка наличия в индексе Google главной страницы Яндекса

Удобно проверять не вручную, а с помощью расширений для браузера, например, RDS.
Подробную статистику по индексации страниц сайта предоставляют сервисы поисковых систем Яндекс Вебмастер и Google Search Console.

Как посмотреть ROBOTS.TXT

Для просмотра файла robots.txt необходимо в адресной строке браузера ввести адрес сайта, за которым добавить /robots.txt (например, www.example.com/robots.txt).

Как проверить валидность ROBOTS.TXT

Для проверки правильно ли написаны директивы в файле robots.txt нужно использовать инструменты Яндекс Вебмастер и Google Search Console.

В Яндекс Вебмастере необходимо зайти в раздел «Инструменты» и выбрать «Анализ robots.txt». После этого ввести адрес сайта и нажать на кнопку «Проверить».

В Google Search Console необходимо зайти в раздел «Компоненты» и выбрать «Файл robots.txt». После этого нужно ввести адрес сайта и нажать на кнопку «Отправить».

Как закрыть от индексации изображения?

Как пример, для закрытия от индексации изображений в файле robots.txt необходимо добавить следующие строки:

User-agent: *
Disallow: /*.jpg$
Disallow: /*.png$

Эти строки запретят индексацию всех изображений с расширениями .jpg и .png на сайте.

Как закрыть от индексации текст или ссылку

Если вам нужно, чтобы роботы сканировали страницу, но не индексировали отдельные элементы на ней, это можно сделать с помощью тегов и атрибутов.
Чтобы закрыть текст от индексации в Яндексе, нужно обернуть его в теги <NOINDEX></NOINDEX>.
Чтобы рекомендовать Google и Яндексу не переходить по какой-либо ссылке, нужно добавить NOFOLLOW в атрибут REL тега <a>. Пример:

<a href="https://site.ru" rel="nofollow">site</a>

Как закрыть поддомен?

Поддомен считается отдельным сайтом для поисковых систем, поэтому у него должен быть собственный файл ROBOTS.TXT. В нем нужно использовать такие же директивы, как и для основного домена.

Как правильно закрывать поддомен с тестовым сайтом при разработке?

Правила в ROBOTS.TXT для поисковых систем являются рекомендациями. То есть, даже если вы устанавливаете запрет на индексацию сайта, раздела или отдельной страницы — в некоторых случаях роботы его могут проигнорировать на свое усмотрение. Это важно учитывать, если вы, к примеру, хотите исключить сайт из поиска на время разработки. Это нужно делать, чтобы контент не проиндексировался раньше времени и не считался потом неуникальным, когда вы его перенесете на основной рабочий сайт.

В данном случае будет целесообразно запрещать индексацию не в ROBOTS.TXT, а установить авторизацию на вход на уровне сервера. Это делается несложной настройкой файла .htaccess. Открыть сайт можно будет только после ввода установленного вами пароля. Соответственно, индексирующие роботы гарантированно не смогут на него попасть.

Как закрыть от индексации в ROBOTS.TXT страницы с GET-параметрами?

Для Яндекса

Для закрытия от индексации страниц с GET-параметрами для Яндекса можно использовать правило clean-param. Это целесообразно, если вы обнаружили в Вебмастере, что Яндекс индексирует такие страницы-дубликаты, а Google не включает их в индекс.

В файле robots.txt нужно добавить следующие строки:

User-agent: Yandex
Clean-param: параметр1 параметр2

Это запретит индексацию всех страниц, содержащих указанные GET-параметры. Пример для URL
https://example.com/page?param1=value1&param2=value2:
Clean-param: param1 param2

Для Google

Google не учитывает правило Clean-param. Для него необходимо использовать директиву Disallow в файле robots.txt. Пример:

User-agent: Googlebot
Disallow: /*?*

Эта строка запретит индексацию всех страниц, содержащих GET-параметры.

Как закрыть страницы мета-тегом NOINDEX name=»robots»

Для закрытия страниц от индексации с помощью мета-тега NOINDEX name=»robots» необходимо добавить следующий код на страницу, между тегами <HEAD></HEAD>:

<meta name="robots" content="noindex">

Если вы хотите запретить и переход по ссылкам на странице, то добавьте атрибут «nofollow».
Данный мета-тег, в отличие от правил в ROBOTS.TXT, является уже не рекомендацией, а указанием для поисковых систем, и такие страницы не попадут в индекс и в выдачу.

Как убрать из индекса страницы-дубликаты с помощью атрибута CANONICAL

Для того чтобы убрать из индекса дубликаты, удобно пользоваться атрибутом CANONICAL. Нужно добавлять на каждую страницу дубликатов следующий код между тегами <HEAD></HEAD>:

<link rel="canonical" href="адрес_оригинальной_страницы">

Этот код указывает на оригинальную страницу и помогает поисковым системам понять, какую страницу следует индексировать.
На саму оригинальную страницу этот код также нужно добавить.
Учитывайте, что CANONICAL, это всего лишь рекомендация для роботов. Например, при наличии внешних ссылок на неканоническую страницу, она вполне может попадать в индекс.

Содержание

Оценить статью

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...
Комментарии (4)
Оставить комментарий
  • Кирилл 14.08.2023

    Зачем нужно закрывать страницы дубликаты от индексации? Чем они могут навредить?

    • Елена 14.08.2023

      Во-первых, дубликаты внутри сайта снижают ценность контента основной страницы. Во-вторых, наличие дубликатов дает сигнал поисковым системам, что за сайтом не следят. Что в свою очередь снижает его авторитет в тематике и ухудшает репутацию. В-третьих, страницы-дубли скорее всего будут помечаться поисковиками как «Малоценные» в Яндексе или «Просканировано, но не проиндексировано» в Google. В свою очередь, из-за большого количества таких “мусорных” страниц, ваш сайт может просто потерять позиции. Поэтому однозначно следует исключать дубликаты из поиска.

  • Vik 15.08.2023

    Здравствуйте! Обязательно ли отдельно писать в роботс.тхт правила для Гугла и для Яндекса?

    • Елена 15.08.2023

      Нет, совершенно не обязательно, если у вас общие правила для всех роботов. Отдельно нужно указывать роботов, когда требуется решить какие-либо конкретные задачи. Например, у вас есть региональные поддомены, которые хорошо ранжируются в Яндексе, но в Google из-за специфики регионального ранжирования воспринимаются как дубли основного сайта. В данном случае нужно специально для Гугла прописать запрет на индексацию в файлах ROBOTS.TXT соответствующих поддоменов.