Рекомендации по настройке файла robots txt. Какие страницы закрывать от индексации и как

Технические аспекты созданного сайта играют не менее важную роль для продвижения сайта в поисковых системах, чем его наполнение. Одним из наиболее важных технических аспектов является индексирование сайта, т. е. определение областей сайта (файлов и директорий), которые могут или не могут быть проиндексированы роботами поисковых систем. Для этих целей используется robots.txt – это специальный файл, который содержит команды для роботов поисковиков. Правильный файл robots.txt для Яндекса и Google поможет избежать многих неприятных последствий, связанных с индексацией сайта.

2. Понятие файла robots.txt и требования, предъявляемые к нему

Файл /robots.txt предназначен для указания всем поисковым роботам (spiders) индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые не описаны в /robots.txt. Этот файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id) и указывают для каждого робота или для всех сразу, что именно им не надо индексировать.

Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определенных, роботов.

К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию роботом поисковой системы или вообще к недееспособности данного файла.

Основные требования:

все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр:
robots.txt – правильно,
Robots.txt или ROBOTS.TXT – неправильно;
файл robots.txt должен создаваться в текстовом формате Unix. При копировании данного файла на сайт ftp-клиент должен быть настроен на текстовый режим обмена файлами;
файл robots.txt должен быть размещен в корневом каталоге сайта.

3. Содержимое файла robots.txt

Файл robots.txt включает в себя две записи: «User-agent» и «Disallow». Названия данных записей не чувствительны к регистру букв.

Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система «Yandex» использует запись «Host» для определения основного зеркала сайта (основное зеркало сайта – это сайт, находящийся в индексе поисковых систем).

Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.

Предполагается следующий формат строк файла robots.txt:

имя_записи [необязательные

пробелы]: [необязательные

пробелы]значение [необязательные пробелы]

Чтобы файл robots.txt считался верным, необходимо, чтобы, как минимум, одна директива «Disallow» присутствовала после каждой записи «User-agent».

Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.

Запись «User-agent»

Запись «User-agent» должна содержать название поискового робота. В данной записи можно указать каждому конкретному роботу, какие страницы сайта индексировать, а какие нет.

Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:

Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Rambler:

User-agent: StackRambler

Робот каждой поисковой системы имеет свое название. Существует два основных способа узнать его (название):

на сайтах многих поисковых систем присутствует специализированный§ раздел «помощь веб-мастеру», в котором часто указывается название поискового робота;

при просмотре логов веб-сервера, а именно при просмотре обращений к§ файлу robots.txt, можно увидеть множество имен, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.

Запись «Disallow»

Запись «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.

Рассмотрим различные примеры записи «Disallow».

Пример записи в robots.txt (разрешить все для индексации):

Disallow:

Пример (сайт полностью запрещен к . Для этого используется символ «/»):Disallow: /

Пример (для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»):

Disallow: /page.htm

Disallow: /dir/page2.htm

Пример (для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, все содержимое данной директории):

Disallow: /cgi-bin/

Disallow: /forum/

Возможно закрытие от индексирования ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.

Пример (для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д.):

Запись «Allow»

Опция «Allow» используется для обозначения исключений из неиндексируемых директорий и страниц, которые заданы записью «Disallow».

Например, есть запись следующего вида:

Disallow: /forum/

Но при этом нужно, чтобы в директории /forum/ индексировалась страница page1. Тогда в файле robots.txt потребуются следующие строки:

Disallow: /forum/

Allow: /forum/page1

Запись «Sitemap»

Эта запись указывает на расположение карты сайта в формате xml, которая используется поисковыми роботами. Эта запись указывает путь к данному файлу.

Sitemap: http://site.ru/sitemap.xml

Запись «Host»

Запись «host» используется поисковой системой «Yandex». Она необходима для определения основного зеркала сайта, т. е. если сайт имеет зеркала (зеркало – это частичная или полная копия сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов для повышения надежности и доступности их сервиса), то с помощью директивы «Host» можно выбрать то имя, под которым Вы хотите быть проиндексированы. В противном случае «Yandex» выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.

В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять запись «Host» непосредственно после записей Disallow.

Пример: www.site.ru – основное зеркало:

Host: www.site.ru

Запись «Crawl-delay»

Эту запись воспринимает Яндекс. Она является командой для робота делать промежутки заданного времени (в секундах) между индексацией страниц. Иногда это бывает нужно для защиты сайта от перегрузок.

Так, запись следующего вида обозначает, что роботу Яндекса нужно переходить с одной страницы на другую не раньше чем через 3 секунды:

Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.

Пример (комментарий находится на одной строке вместе с директивой):

Disallow: /cgi-bin/ #комментарий

Желательно размещать комментарий на отдельной строке. Пробел в начале строки разрешается, но не рекомендуется.

4. Примеры файлов robots.txt

Пример (комментарий находится на отдельной строке):
Disallow: /cgi-bin/#комментарий

Пример файла robots.txt, разрешающего всем роботам индексирование всего сайта:

Host: www.site.ru

Пример файла robots.txt, запрещающего всем роботам индексирование сайта:

Host: www.site.ru

Пример файла robots.txt, запрещающего всем роботам индексирование директории «abc», а так же всех директорий и файлов, начинающихся с символов «abc».

Host: www.site.ru

Пример файла robots.txt, запрещающего индексирование страницы «page.htm», находящейся в корневом каталоге сайта, поисковым роботом «googlebot»:

User-agent: googlebot

Disallow: /page.htm

Host: www.site.ru

Пример файла robots.txt, запрещающего индексирование:

– роботу «googlebot» – страницы «page1.htm», находящейся в директории «directory»;

– роботу «Yandex» – все директории и страницы, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и находящиеся в корневом каталоге сайта.

User-agent: googlebot

Disallow: /directory/page1.htm

User-agent: Yandex

5. Ошибки, связанные с файлом robots.txt

Одна из самых распространенных ошибок – перевернутый синтаксис.

Неправильно:

Disallow: Yandex

Правильно:

User-agent: Yandex

Неправильно:

Disallow: /dir/ /cgi-bin/ /forum/

Правильно:

Disallow: /cgi-bin/

Disallow: /forum/

Если при обработке ошибки 404 (документ не найден), веб-сервер выдает специальную страницу, и при этом файл robots.txt отсутствует, то возможна ситуация, когда поисковому роботу при запросе файла robots.txt выдается та самая специальная страница, никак не являющаяся файлом управления индексирования.

Ошибка, связанная с неправильным использованием регистра в файле robots.txt. Например, если необходимо закрыть директорию «cgi-bin», то в записе «Disallow» нельзя писать название директории в верхнем регистре «cgi-bin».

Неправильно:

Disallow: /CGI-BIN/

Правильно:

Disallow: /cgi-bin/

Ошибка, связанная с отсутствием открывающей наклонной черты при закрытии директории от индексирования.

Неправильно:

Disallow: page.HTML

Правильно:

Disallow: /page.HTML

Чтобы избежать наиболее распространенных ошибок, файл robots.txt можно проверить средствами Яндекс.Вебмастера или Инструментами для вебмастеров Google. Проверка осуществляется после загрузки файла.

6. Заключение

Таким образом, наличие файла robots.txt, а так же его составление, может повлиять на продвижение сайта в поисковых системах. Не зная синтаксиса файла robots.txt, можно запретить к индексированию возможные продвигаемые страницы, а так же весь сайт. И, наоборот, грамотное составление данного файла может очень помочь в продвижении ресурса, например, можно закрыть от индексирования документы, которые мешают продвижению нужных страниц.

Любая страница на сайте может быть открыта или закрыта для индексации поисковыми системами. Если страница открыта, поисковая система добавляет ее в свой индекс, если закрыта, то робот не заходит на нее и не учитывает в поисковой выдаче.

При создании сайта важно на программном уровне закрыть от индексации все страницы, которые по каким-либо причинам не должны видеть пользователи и поисковики.

К таким страницам можно отнести административную часть сайта (админку), страницы с различной служебной информацией (например, с личными данными зарегистрированных пользователей), страницы с многоуровневыми формами (например, сложные формы регистрации), формы обратной связи и т.д.

Пример:
Профиль пользователя на форуме о поисковых системах Searchengines.

Обязательным также является закрытие от индексации страниц, содержимое которых уже используется на других страницах.Такие страницы называются дублирующими. Полные или частичные дубли сильно пессимизируют сайт, поскольку увеличивают количество неуникального контента на сайте.

Как видим, контент на обеих страницах частично совпадает. Поэтому страницы категорий на WordPress-сайтах закрывают от индексации, либо выводят на них только название записей.

То же самое касается и страниц тэгов– такие страницы часто присутствуют в структуре блогов на WordPress. Облако тэгов облегчает навигацию по сайту и позволяет пользователям быстро находить интересующую информацию. Однако они являются частичными дублями других страниц, а значит – подлежат закрытию от индексации.

Еще один пример – магазин на CMS OpenCart.

Страница категории товаров http://www.masternet-instrument.ru/Lampy-energosberegajuschie-c-906_910_947.html .

Страница товаров, на которые распространяется скидка http://www.masternet-instrument.ru/specials.php .

Данные страницы имеют схожее содержание, так как на них размещено много одинаковых товаров.

Особенно критично к дублированию контента на различных страницах сайта относится Google. За большое количество дублей в Google можно заработать определенные санкции вплоть до временного исключения сайта из поисковой выдачи.

Еще один случай, когда содержимое страниц не стоит «показывать» поисковику – страницы с неуникальным контентом. Типичный пример — инструкции к медицинским препаратам в интернет-аптеке. Контент на странице с описанием препарата http://www.piluli.ru/product271593/product_info.html неуникален и опубликован на сотнях других сайтов.

Сделать его уникальным практически невозможно, поскольку переписывание столь специфических текстов – дело неблагодарное и запрещенное. Наилучшим решением в этом случае будет закрытие страницы от индексации, либо написание письма в поисковые системы с просьбой лояльно отнестись к неуникальности контента, который сделать уникальным невозможно по тем или иным причинам.

Как закрывать страницы от индексации

Классическим инструментом для закрытия страниц от индексации является файл robots.txt. Он находится в корневом каталоге вашего сайта и создается специально для того, чтобы показать поисковым роботам, какие страницы им посещать нельзя. Это обычный текстовый файл, который вы в любой момент можете отредактировать. Если файла robots.txt у вас нет или если он пуст, поисковики по умолчанию будут индексировать все страницы, которые найдут.

Структура файла robots.txt довольно проста. Он может состоять из одного или нескольких блоков (инструкций). Каждая инструкция, в свою очередь, состоит из двух строк. Первая строка называется User-agent и определяет, какой поисковик должен следовать этой инструкции. Если вы хотите запретить индексацию для всех поисковиков, первая строка должна выглядеть так:

Если вы хотите запретить индексацию страницы только для одной ПС, например, для Яндекса, первая строка выглядит так:

Вторая строчка инструкции называется Disallow (запретить). Для запрета всех страниц сайта напишите в этой строке следующее:

Чтобы разрешить индексацию всех страниц вторая строка должна иметь вид:

В строке Disallow вы можете указывать конкретные папки и файлы, которые нужно закрыть от индексации.

Например, для запрета индексации папки images и всего ее содержимого пишем:

Чтобы «спрятать» от поисковиков конкретные файлы, перечисляем их:

User-agent: *
Disallow: /myfile1.htm
Disallow: /myfile2.htm
Disallow: /myfile3.htm

Это – основные принципы структуры файла robots.txt. Они помогут вам закрыть от индексации отдельные страницы и папки на вашем сайте.

Еще один, менее распространенный способ запрета индексации – мета-тэг Robots. Если вы хотите закрыть от индексации страницу или запретить поисковикам индексировать ссылки, размещенные на ней, в ее HTML-коде необходимо прописать этот тэг. Его надо размещать в области HEAD, перед тэгом . Мета-тег Robots состоит из двух параметров. INDEX – параметр, отвечающий за индексацию самой страницы, а FOLLOW – параметр, разрешающий или запрещающий индексацию ссылок, расположенных на этой странице. Для запрета индексации вместо INDEX и FOLLOW следует писать NOINDEX и NOFOLLOW соответственно. Таким образом, если вы хотите закрыть страницу от индексации и запретить поисковикам учитывать ссылки на ней, вам надо добавить в код такую строку: <blockquote><meta name=“robots” content=“noindex,nofollow”> </blockquote> Если вы не хотите скрывать страницу от индексации, но вам необходимо «спрятать» ссылки на ней, мета-тег Robots будет выглядеть так: <blockquote><metaname=“robots” content=“index,nofollow”> </blockquote> Если же вам наоборот, надо скрыть страницу от ПС, но при этом учитывать ссылки, данный тэг будет иметь такой вид: <blockquote><meta name=“robots” content=“noindex,follow”> </blockquote> Большинство современных CMS дают возможность закрывать некоторые страницы от индексации прямо из админ.панели сайта. Это позволяет избежать необходимости разбираться в коде и настраивать данные параметры вручную. Однако перечисленные выше способы были и остаются универсальными и самыми надежными инструментами для запрета индексации. Robots.txt – это служебный файл, который служит рекомендацией по ограничению доступа к содержимому веб-документов для поисковых систем. В данной статье мы разберем настройку Robots.txt, описание директив и составление его для популярных CMS. Находится данный файл Робота в корневом каталоге вашего сайта и открывается/редактируется простым блокнотом, я рекомендую Notepad++. Для тех, кто не любит читать — есть ВИДЕО, смотрите в конце статьи 😉 <h2>Зачем нужен robots.txt</h2> Как я уже говорил выше – с помощью файла robots.txt мы можем ограничить доступ поисковых ботов к документам, т.е. мы напрямую влияем на индексацию сайта. Чаще всего закрывают от индексации: <ul><li>Служебные файлы и папки CMS</li> <li>Дубликаты</li> <li>Документы, которые не несут пользу для пользователя</li> <li>Не уникальные страницы</li> </ul>Разберем конкретный пример: Интернет-магазин по продаже обуви и реализован на одной из популярных CMS, причем не лучшим образом. Я могу сразу сказать, что будут в выдаче страницы поиска, пагинация, корзина, некоторые файлы движка и т.д. Все это будут дубли и служебные файлы, которые бесполезны для пользователя. Следовательно, они должны быть закрыты от индексации, а если еще есть раздел «Новости» в которые копипастятся разные интересные статьи с сайтов конкурентов – то и думать не надо, сразу закрываем. Поэтому обязательно получаемся файлом robots.txt, чтобы в выдачу не попадал мусор. Не забываем, что файл должен открываться по адресу http://site.ru/robots.txt. <h2>Директивы robots.txt и правила настройки</h2> User-agent. Это обращение к конкретному роботу поисковой системы или ко всем роботам. Если прописывается конкретное название робота, например «YandexMedia», то общие директивы user-agent не используются для него. Пример написания:User-agent: YandexBot Disallow: /cart # будет использоваться только основным индексирующим роботом Яндекса Disallow/Allow. Это запрет/разрешение индексации конкретного документа или разделу. Порядок написания не имеет значения, но при 2 директивах и одинаковом префиксе приоритет отдается «Allow». Считывает поисковый робот их по длине префикса, от меньшего к большему. Если вам нужно запретить индексацию страницы — просто введи относительный путь до нее (Disallow: /blog/post-1).User-agent: Yandex Disallow: / Allow: /articles # Запрещаем индексацию сайта, кроме 1 раздела articles Регулярные выражения с * и $. Звездочка означает любую последовательность символов (в том числе и пустую). Знак доллара означает прерывание. Примеры использования:Disallow: /page* # запрещает все страницы, конструкции http://site.ru/page Disallow: /arcticles$ # запрещаем только страницу http://site.ru/articles, разрешая страницы http://site.ru/articles/new Директива Sitemap. Если вы используете – то в robots.txt она должна указываться так:Sitemap: http://site.ru/sitemap.xml Директива Host. Как вам известно у сайтов есть зеркала (читаем, ). Данное правило указывает поисковому боту на главное зеркало вашего ресурса. Относится к Яндексу. Если у вас зеркало без WWW, то пишем:Host: site.ru Crawl-delay. Задает задержу (в секундах) между скачками ботом ваших документов. Прописывается после директив Disallow/Allow.Crawl-delay: 5 # таймаут в 5 секунд Clean-param. Указывает поисковому боту, что не нужно скачивать дополнительно дублирующую информацию (идентификаторы сессий, рефереров, пользователей). Прописывать Clean-param следует для динамических страниц:Clean-param: ref /category/books # указываем, что наша страница основная, а http://site.ru/category/books?ref=yandex.ru&id=1 это та же страница, но с параметрами Главное правило: robots.txt должен быть написан в нижнем регистре и лежать в корне сайта. Пример структуры файла:User-agent: Yandex Disallow: /cart Allow: /cart/images Sitemap: http://site.ru/sitemap.xml Host: site.ru Crawl-delay: 2 <h2>Мета-тег robots и как он прописывается</h2> Данный вариант запрета страниц лучше учитывается поисковой системой Google. Яндекс одинаково хорошо учитывает оба варианта. Директив у него 2: follow/nofollow и index/noindex . Это разрешение/запрет перехода по ссылкам и разрешение/запрет на индексацию документа. Директивы можно прописывать вместе, смотрим пример ниже. Для любой отдельной страницы вы можете прописать в теге <head> </head> следующее: <h2>Правильные файлы robots.txt для популярных CMS</h2> <h3>Пример Robots.txt для WordPress</h3> Ниже вы можете увидеть мой вариант с данного Seo блога.User-agent: Yandex Disallow: /wp-content/uploads/ Allow: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.xml Трэкбэки запрещаю потому что это дублирует кусок статьи в комментах. А если трэкбэков много — вы получите кучу одинаковых комментариев. Служебные папки и файлы любой CMS я стараюсь я закрываю, т.к. не хочу чтобы они попадали в индекс (хотя поисковики уже и так не берут, но хуже не будет). Фиды (feed) стоит закрывать, т.к. это частичные либо полные дубли страниц. Теги закрываем, если мы их не используем или нам лень их оптимизировать. <h3>Примеры для других CMS</h3> Чтобы скачать правильный robots для нужной CMS просто кликните по соответствующей ссылке. Файл robots.txt играет важную роль при индексации сайта поисковыми роботами. Главная его задача закрыть от индексации дубликаты оригиналов страниц, черновики и другие документы. Как создать файл robots.txt мы рассмотрели . Что такое правильный robots.txt? Как составить правильный robots txt? Особенно это актуально при формировании файла robots.txt для WordPress. Движок WordPress создаёт очень много дублей и мусора. Что следует закрыть от индексации файлом robots.txt? Чтобы ответить на этот вопрос обратимся к сервису . Работа с этим сервисом описана . Посмотрим результаты работы робота Яндекс с изменённым файлом robots.txt на сегодня. Заходим в панель вебмастера яндекс, далее Мои сайты => сайт <img src='https://i1.wp.com/infbiznull.ru/wp-content/uploads/2013/12/Mojj_sajjt11-600x175.jpg' align="center" width="100%" loading=lazy> На 25.12.2013г. роботом загружено 518 страниц. Исключено роботом 448 против 236 от 18.12.2013 г.. Т.е. число страниц, запрещённых к индексированию, увеличилось. Этого мы и добивались. Страниц в поиске -77. Но на сайте я разместил только 58 записей. Из них опубликовано — 57 и прилепленная – 1 (на главной странице блога: «Возраст не помеха!»). Чтобы убедиться в этом, надо зайти в Панель администратора блога и выбрать ЗАПИСИ => ВСЕ ЗАПИСИ: <img src='https://i0.wp.com/infbiznull.ru/wp-content/uploads/2013/12/Zapisi_bloga-600x277.jpg' align="center" width="100%" loading=lazy> А что это ещё за 19 страниц в поиске (77-17-1=19)? Кликнем в панели Вебмастера Яндекс на СТРАНИЦ В ПОИСКЕ. Кроме 58 записей (страниц) автора это: Страницы меню моего блога: Главная страница сайта: http://сайт/ Продолжение главной страницы сайта (страница 2) http://сайт/page/2/ Продолжение главной страницы сайта (страница 3) http://сайт/page/3/ Продолжение главной страницы сайта (страница 4) http://infbiznull..ru/karta-sajta/ Продолжение карты сайта (страница 2) http://сайт/karta-sajta/?pg=2 Страница запрещена к индексации файлом robots.txt и в 77 страниц в поиске не входит!?pg=3 Страница запрещена к индексации файлом robots.txt и в 77 страниц в поиске не входит!.ru/kontakty/ И ещё: Возраст не помеха. http://сайт/485/ Запись прилеплена на главную страницу (точнее, на главной странице только её анонс!) Я не профи области SEO оптимизации. Ключевые слова и тэги для меня пока это синонимы. Ключевых слов в контенте я использую много. Это для понимания сущности излагаемого материала (см. главную страницу) и облегчения поиска нужной информации на блоге. Я понимаю, что для продвижения в ТОП поисковых систем тэгов должно быть меньше чем ключевых слов. Но пока так. Совершенству нет предела. Запрет на индексирование роботом поисковой системы страниц в категориях и тегах не влияет на поиск информации на блоге по ключевым словам, категориям и тэгам. Проверим. Зайдём на блог , кликнем по ключевому слову под анонсом статьи или выбрав рубрику (страницу) или ведя запрос в строку поиска получим подборку статей. Например, по ключевому слову htacces будет выдано две статьи блога: <img src='https://i1.wp.com/infbiznull.ru/wp-content/uploads/2013/12/htacces1-600x476.jpg' align="center" width="100%" loading=lazy> Можно подвести промежуточные итоги. Корректировка Файла robots.txt позволила роботу поисковой системы Яндекса обойти продублированные страницы оригинала, сократить время аудита сайта. Будем наблюдать за работой робота Яндекса, проведём в дальнейшем анализ с помощью ресурса и, при необходимости, внесём изменения и дополнения в файл robots.txt . Эту работу следует проводить регулярно, как минимум раз в месяц или после 2-х, 3-х посещений робота. Дорогой мой новичок ! Теперь Вам не страшно вносить изменения в файл robots.txt . Теперь знаете как закрыть от индексации дубли страниц Вашего блога. Но помните, если на блоге скопился мусор (черновики Ваших записей, дубли и др.) его надо удалять. Для этого нужно тоже регулярно чистить базы данных блога. Об этом мы ещё поговорим. <form class="sr-box" method="post" action="https://smartresponder.ru/subscribe.html" target="_blank" name="SR_form_4_90" style="width: 500px; border: 1px solid rgb(200, 200, 200); margin-left: ; border-top-left-radius: 6px; border-top-right-radius: 6px; border-bottom-right-radius: 6px; border-bottom-left-radius: 6px;"> <ul><li><input type="hidden" name="element_header" value="" style="font-family: Arial; color: rgb(0, 0, 0); font-size: 12px; font-style: normal; font-weight: normal; background-color: rgb(255, 255, 255); border: none;"></li><li><input type="text" name="field_name_first" class="sr-required" value="Вашe имя" style="margin-top: 0px; background-image: none; font-family: arial; color: rgb(133, 133, 133); font-size: 12px; font-style: normal; font-weight: normal; background-color: rgb(231, 233, 236); border: 0px solid rgb(197, 200, 204); border-top-left-radius: 5px; border-top-right-radius: 5px; border-bottom-right-radius: 5px; border-bottom-left-radius: 5px; height: 42px; background-position: 95% 50%; background-repeat: no-repeat;"></li><li><input type="text" name="field_email" class="sr-required" value="Ваш email-адрес" style="margin-top: 0px; background-image: none; font-family: arial; color: rgb(133, 133, 133); font-size: 12px; font-style: normal; font-weight: normal; background-color: rgb(231, 233, 236); border: 1px solid rgb(197, 200, 204); border-top-left-radius: 5px; border-top-right-radius: 5px; border-bottom-right-radius: 5px; border-bottom-left-radius: 5px; height: 42px; background-posit"></li></ul></form> Robots.txt для сайта - это индексный текстовый файл в кодировке UTF-8. Индексным его назвали потому, что в нем прописываются рекомендации для поисковых роботов - какие страницы нужно просканировать, а какие не нужно. Если кодировка файла отличается от UTF-8, то поисковые роботы могут неправильно воспринимать находящуюся в нем информацию. Файл действителен для протоколов http, https, ftp, а также имеет «силу» только в пределах хоста/протокола/номера порта, на котором размещен. <h3>Где находится robots.txt на сайте?</h3> У файла robots.txt может быть только одно расположение - корневой каталог на хостинге. Выглядит это примерно вот так: http://vash-site.xyz/robots.txt <h2>Директивы файла robots txt для сайта</h2> Обязательными составляющими файла robots.txt для сайта являются правило Disallow и инструкция User-agent. Есть и второстепенные правила. <h3>Правило Disallow</h3> Disallow - это правило, с помощью которого поисковому роботу сообщается информация о том, какие страницы сканировать нет смысла. И сразу же несколько конкретных примеров применения этого правила: Пример 1 - разрешено индексировать весь сайт: Пример 2 - полностью запретить индексацию сайта: В таком случае будет бесполезно. Применение этого примера актуально в том случае, если сайт «закрыт» на доработку (например, неправильно функционирует). В этом случае сайту в поисковой выдаче не место, поэтому его нужно через файл robots txt закрыть от индексации. Разумеется, после того, как сайт будет доработан, запрет на индексирование надо снять, но об этом забывают. <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image007.png' width="100%" loading=lazy> <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image009.png' width="100%" loading=lazy> Пример 6 - как в robots txt закрыть от индексации файлы конкретного расширения (в данном случае - .gif): Звездочка перед.gif$ сообщает, что имя файла может быть любым, а знак $ сообщает о конце строки. Т.е. такая «маска» запрещает сканирование вообще всех GIF-файлов. <h3>Правило Allow в robots txt</h3> Правило Allow все делает с точностью до наоборот - разрешает индексирование файла/папки/страницы. И сразу же конкретный пример: <img src='https://i0.wp.com/stokrat.org/upload/blog/robots/image015.png' width="100%" loading=lazy> Мы с вами уже знаем, что с помощью директивы Disallow: / мы можем закрыть сайт от индексации robots txt. В то же время у нас есть правило Allow: /catalog, которое разрешает сканирование папки /catalog. Поэтому комбинацию этих двух правил поисковые роботы будут воспринимать как «запрещено сканировать сайт, за исключением папки /catalog» Сортировка правил и директив Allow и Disallow производится по возрастанию длины префикса URL и применяется последовательно. Если для одной и той же страницы подходит несколько правил, то робот выбирает последнее подходящее из списка. Рассмотрим 2 ситуации с двумя правилами, которые противоречат друг другу - одно правило запрещает индексировать папки /content, а другое - разрешает. В данном случае будет приоритетнее директива Allow, т.к. оно находится ниже по списку: <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/ximage017.png.pagespeed.ic.D7PlC_De1I.png' width="100%" loading=lazy> А вот здесь приоритетным является директива Disallow по тем же причинам (ниже по списку): <img src='https://i0.wp.com/stokrat.org/upload/blog/robots/ximage019.png.pagespeed.ic.Vm8lZfx2At.png' width="100%" loading=lazy> <h3>User-agent в robots txt</h3> User-agent — правило, являющееся «обращением» к поисковому роботу, мол, «список рекомендаций специально для вас» (к слову, списков в robots.txt может быть несколько - для разных поисковых роботов от Google и Яндекс). Например, в данном случае мы говорим «Эй, Googlebot, иди сюда, тут для тебя специально подготовленный список рекомендаций», а он такой «ОК, специально для меня - значит специально для меня» и другие списки сканировать не будет. Правильный robots txt для Google (Googlebot) Примерно та же история и с поисковым ботом Яндекса. Забегая вперед, список рекомендаций для Яндекса почти в 100% случаев немного отличается от списка для других поисковых роботов (чем - расскажем чуть позже). Но суть та же: «Эй, Яндекс, для тебя отдельный список» - «ОК, сейчас изучим его». <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image023.png' width="100%" loading=lazy> Т.е. если в одном и том же robots.txt есть 3 списка с User-agent: *, User-agent: Googlebot и User-agent: Yandex, это значит, первый является «одним для всех», за исключением Googlebot и Яндекс, т.к. для них есть «личные» списки. <h3>Sitemap</h3> Правило Sitemap - расположение файла с XML-картой сайта, в которой содержатся адреса всех страниц, являющихся обязательными к сканированию. Как правило, указывается адрес вида http://site.ua/sitemap.xml. Т.е. каждый раз поисковый робот будет просматривать карту сайта на предмет появления новых адресов, а затем переходить по ним для дальнейшего сканирования, дабы освежить информацию о сайте в базах данных поисковой системы. Правило Sitemap должно быть вписано в Robots.txt следующим образом: <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image027.png' width="100%" loading=lazy> <h3>Директива Host</h3> Межсекционная директива Host в файле robots.txt так же является обязательной. Она необходима для поискового робота Яндекса - сообщает ему, какое из зеркал сайта нужно учитывать при индексировании. Именно поэтому для Яндекса формируется отдельный список правил, т.к. Google и остальные поисковые системы директиву Host не понимают. Поэтому если у вашего сайта есть копии или же сайт может открываться под разными URL адресами, то добавьте директиву host в файл robots txt, чтобы страницы сайта правильно индексировались. <img src='https://i0.wp.com/stokrat.org/upload/blog/robots/image029.png' width="100%" loading=lazy> «Зеркалом сайта» принято называть либо точную, либо почти точную «копию» сайта, которая доступна по другому адресу. Адрес основного зеркала обязательно должно быть указано следующим образом: Для сайтов, работающих по http - Host: site.ua или Host: http://site.ua (т.е. http:// пишется по желанию) Для сайтов, работающих по https - Host: https://site.ua (т.е. https:// прописывается в обязательном порядке) Пример директивы host в robots txt для сайта на протоколе HTTPS: <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image031.png' width="100%" loading=lazy> <h3>Crawl delay</h3> В отличие от предыдущих, параметр Crawl-delay уже не является обязательным. Основная его задача - подсказать поисковому роботу, в течение скольких секунд будут грузиться страницы. Обычно применяется в том случае, если Вы используете слабые сервера. Актуален только для Яндекса. <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image033.png' width="100%" loading=lazy> <h3>Clean param</h3> С помощью директивы Clean-param можно бороться с get-параметрами, чтобы не происходило дублирование контента, т.к. один и тот же контент бывает доступен по разным динамическим ссылкам (это те, которые со знаками вопроса). Динамические ссылки могут генерироваться сайтом в том случае, когда используются различные сортировки, применяются идентификаторы сессий и т.д. Например, один и тот же контент может быть доступен по трем адресам: www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1 www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1 www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1 В таком случае директива Clean-param оформляется вот так: <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image035.png' width="100%" loading=lazy> Т.е. после двоеточия прописывается атрибут ref, указывающий на источник ссылки, и только потом указывается ее «хвост» (в данном случае - /catalog/get_phone.ua). <h2>Самые частые вопросы</h2> <h3>Как в robots.txt запретить индексацию?</h3> Для этих целей придумано правило Disallow: т.е. копируем ссылку на документ/файл, который нужно закрыть от индексации, вставляем ее после двоеточия: Disallow: http://your-site.xyz/privance.html Disallow: http://your-site.xyz/foord.doc Disallow: http://your-site.xyz/barcode.jpg А затем удаляете адрес домена (в данном случае удалить надо вот эту часть - http://your-site.xyz). После удаления у нас останется ровно то, что и должно остаться: Disallow: /privance.html Disallow: /foord.doc Disallow: /barcode.jpg Ну а если требуется закрыть от индексирования все файлы с определенным расширением, то правила будут выглядеть следующим образом: Disallow: /*.html Disallow: /*.doc Disallow: /*.jpg <h3>Как в robots.txt указать главное зеркало?</h3> Для этих целей придумана директива Host. Т.е. если адреса http://your-site.xyz и http://yoursite.com являются «зеркалами» одного и того же сайта, то одно из них необходимо указать в директиве Host. Пусть основным зеркалом будет http://your-site.xyz. В этом случае правильными вариантами будут следующие: Если сайт работает по https-протоколу, то нужно делать только так: User-agent: Yandex Disallow: /privance.html Disallow: /foord.doc Disallow: /barcode.jpg Host: https://your-site.xyz Если сайт работает по http-протоколу, то оба приведенных ниже варианта будут верными: User-agent: Yandex Disallow: /privance.html Disallow: /foord.doc Disallow: /barcode.jpg Host: http://your-site.xyz User-agent: Yandex Disallow: /privance.html Disallow: /foord.doc Disallow: /barcode.jpg Host: your-site.xyz Однако, следует помнить, директива Host является рекомендацией, а не правилом. Т.е. не исключено, что в Host будет указан один домен, а Яндекс посчитает за основное зеркало другой, если у него в панели вебмастера введены соответствующие настройки. <h3>Простейший пример правильного robots.txt</h3> В таком виде файл robots.txt можно разместить практически на любом сайте (с мельчайшими корректировками). <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image037.png' width="100%" loading=lazy> Давайте теперь разберем, что тут есть. <ol><li>Здесь 2 списка правил - один «персонально» для Яндекса, другой - для всех остальных поисковых роботов.</li> <li>Правило Disallow: пустое, а значит никаких запретов на сканирование нет.</li> <li>В списке для Яндекса присутствует директива Host с указанием основного зеркала, а также, ссылка на карту сайта.</li> </ol>НО… Это НЕ значит, что нужно оформлять robots.txt именно так. Правила должны быть прописаны строго индивидуально для каждого сайта. Например, нет смысла индексировать «технические» страницы (страницы ввода логина-пароля, либо тестовые страницы, на которых отрабатывается новый дизайн сайта, и т.д.). Правила, кстати, зависят еще и от используемой CMS. <h3>Закрытый от индексации сайт - как выглядит robots.txt?</h3> Даем сразу же готовый код, который позволит запретить индексацию сайта независимо от CMS: <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image039.png' width="100%" loading=lazy> <h3>Как указать главное зеркало для сайта на https robots.txt?</h3> Очень просто: Host: https://your-site.xyz ВАЖНО!!! Для https-сайтов протокол должен указываться строго обязательно! <img src='https://i0.wp.com/stokrat.org/upload/blog/robots/ximage041.png.pagespeed.ic.udqCST7gwa.png' width="100%" loading=lazy> <h2>Наиболее частые ошибки в robots.txt</h2> Специально для Вас мы приготовили подборку самых распространенных ошибок, допускаемых в robots.txt. Почти все эти ошибки объединяет одно - они допускаются по невнимательности. 1. Перепутанные инструкции: <img src='https://i0.wp.com/stokrat.org/upload/blog/robots/ximage043.png.pagespeed.ic.xdBSrwkOiV.png' width="100%" loading=lazy> Правильный вариант: <img src='https://i1.wp.com/stokrat.org/upload/blog/robots/image045.png' width="100%" loading=lazy> 2. В один Disallow вставляется куча папок: <img src='https://i1.wp.com/stokrat.org/upload/blog/robots/image047.png' width="100%" loading=lazy> В такой записи робот может запутаться. Какую папку нельзя индексировать? Первую? Последнюю? Или все? Или как? Или что? Одна папка = одно правило Disallow и никак иначе. <img src='https://i0.wp.com/stokrat.org/upload/blog/robots/image049.png' width="100%" loading=lazy> 3. Название файла допускается только одно - robots.txt, причем все буквы маленькие. Имена Robots.txt, ROBOTS.TXT и т.п. не допускаются. 4. Правило User-agent запрещено оставлять пустым. Либо указываем имя поискового робота (например, для Яндекса), либо ставим звездочку (для всех остальных). 5. Мусор в файле (лишние слэши, звездочки и т.д.). 6. Добавление в файл полных адресов скрываемых страниц, причем иногда даже без правила Disallow. Неправильно: http://mega-site.academy/serrot.html Тоже неправильно: Disallow: http://mega-site.academy/serrot.html Правильно: Disallow: /serrot.html <h3>Онлайн-проверка файла robots.txt</h3> Существует несколько способов проверки файла robots.txt на соответствие общепринятому в интернете стандарту. Способ 1. Зарегистрироваться в панелях веб-мастера Яндекс и Google. Единственный минус - придется покопаться, чтоб разобраться с функционалом. Далее вносятся рекомендованные изменения и готовый файл закачивается на хостинг. Способ 2. Воспользоваться онлайн-сервисами: Https://services.sl-team.ru/other/robots/ <img src='https://i2.wp.com/stokrat.org/upload/blog/robots/image051.png' width="100%" loading=lazy> Https://technicalseo.com/seo-tools/robots-txt/ <img src='https://i0.wp.com/stokrat.org/upload/blog/robots/image053.png' width="100%" loading=lazy> Http://tools.seochat.com/tools/robots-txt-validator/ <img src='https://i1.wp.com/stokrat.org/upload/blog/robots/image055.png' width="100%" loading=lazy> Итак, robots.txt сформирован. Осталось только проверить его на ошибки. Лучше всего использовать для этого инструменты, предлагаемые самими поисковыми системами. Google Вебмастерс (Search Console Google): заходим в аккаунт, если в нем сайт не подтвержден - подтверждаем, далее переходим на Сканирование -> Инструмент проверки файла robots.txt. <img src='https://i1.wp.com/stokrat.org/upload/blog/robots/image057.png' width="100%" loading=lazy> Здесь можно: <ul><li>моментально обнаружить все ошибки и потенциально возможные проблемы,</li> <li>сразу же «на месте» внести поправки и проверить на ошибки еще раз (чтоб не перезагружать файл на сайт по 20 раз)</li> <li>проверить правильность запретов и разрешений индексирования страниц.</li> </ul> <img src='https://i1.wp.com/stokrat.org/upload/blog/robots/image059.png' width="100%" loading=lazy> Является аналогом предыдущего, за исключением: <ul><li>авторизация не обязательна;</li> <li>подтверждение прав на сайт не обязательно;</li> <li>доступна массовая проверка страниц на доступность;</li> <li>можно убедиться, что все правила правильно восприняты Яндексом.</li> </ul><h2>Готовые решения для самых популярных CMS</h2> <h3>Правильный robots.txt для Wordpress</h3> Disallow: /cgi-bin # классика жанра Disallow: /? # любые параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search # поиск Disallow: *?attachment_id= # страница вложения. Вообще-то на ней редирект... Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */page/ # все виды пагинации Allow: */uploads # открываем uploads Allow: /*/*.js # внутри /wp- (/*/ - для приоритета) Allow: /*/*.css # внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. Allow: /wp-*.svg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.pdf # файлы в плагинах, cache папке и т.д. #Disallow: /wp/ # когда WP установлен в подкаталог wp Sitemap: http://site.ru/sitemap2.xml # еще один файл #Sitemap: http://site.ru/sitemap.xml.gz # сжатая версия (.gz) Host: www.site.ru # для Яндекса и Mail.RU. (межсекционная) # Версия кода: 1.0 # Не забудьте поменять `site.ru` на ваш сайт. Давайте разберем код файла robots txt для WordPress CMS: Здесь мы указываем, что все правила актуальны для всех поисковых роботов (за исключением тех, для кого составлены «персональные» списки). Если список составляется для какого-то конкретного робота, то * меняется на имя робота: User-agent: Yandex User-agent: Googlebot Allow: */uploads Здесь мы осознанно даем добро на индексирование ссылок, в которых содержится /uploads. В данном случае это правило является обязательным, т.к. в движке WordPress есть директория /wp-content/uploads (в которой вполне могут содержаться картинки, либо другой «открытый» контент), индексирование которой запрещено правилом Disallow: /wp-. Поэтому с помощью Allow: */uploads мы делаем исключение из правила Disallow: /wp-. В остальном просто идут запреты на индексирование: Disallow: /cgi-bin - запрет на индексирование скриптов Disallow: /feed - запрет на сканирование RSS-фида Disallow: /trackback - запрет сканирования уведомлений Disallow: ?s= или Disallow: *?s= - запрет на индексирование страниц внутреннего поиска сайта Disallow: */page/ - запрет индексирования всех видов пагинации Правило Sitemap: http://site.ru/sitemap.xml указывает Яндекс-роботу путь к файлу с xml-картой. Путь должен быть прописан полностью. Если таких файлов несколько - прописываем несколько Sitemap-правил (1 файл = 1 правило). В строке Host: site.ru мы специально для Яндекса прописали основное зеркало сайта. Оно указывается для того, чтоб остальные зеркала индексировались одинаково. Пустая строка перед Host: является обязательной. Где находится robots txt WordPress вы все наверное знаете - так как и в другие CMS, данный файл должен находится в корневом каталоге сайта.<h3>Файл robots.txt для Joomla</h3> Joomla — почти самый популярный движок у вебмастеров, т.к. не смотря на широчайшие возможности и множества готовых решений, он поставляется бесплатно. Однако, штатный robots.txt всегда имеет смысл подправить, т.к. для индексирования открыто слишком много «мусора», но картинки закрыты (это плохо). Вот так выглядит правильный robots.txt для Joomla: Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ <h3>robots.txt Wix</h3> Платформа Wix автоматически генерирует файлы robots.txt персонально для каждого сайта Wix. Т.е. к Вашему домену добавляете /robots.txt (например: www.domain.com/robots.txt) и можете спокойно изучить содержимое файла robots.txt, находящегося на Вашем сайте. Отредактировать robots.txt нельзя. Однако с помощью noindex можно закрыть какие-то конкретные страницы от индексирования. <h3>robots.txt для Opencart</h3> Стандартный файл robots.txt для OpenCart: Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login User-agent: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*route=product/search Disallow: /*?page= Disallow: /*&page= Clean-param: tracking Clean-param: filter_name Clean-param: filter_sub_category Clean-param: filter_description Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category Host: Vash_domen Sitemap: http://Vash_domen/sitemap.xml <h3>robots.txt для Битрикс (Bitrix)</h3> 1. Папки /bitrix и /cgi-bin должны быть закрыты, т.к. это чисто технический «хлам», который незачем светить в поисковой выдаче. Disallow: /bitrix Disallow: /cgi-bin 2. Папка /search тоже не представляет интереса ни для пользователей, ни для поисковых систем. Да и образование дублей никому не нужно. Поэтому тоже ее закрываем. Disallow: /search Disallow: /auth/ Disallow: /auth.php 4. Материалы для печати (например, счета на оплату) тоже нет смысла светить в поисковой выдаче. Закрываем. Disallow: /*?print= Disallow: /*&print= 5. Один из жирных плюсов «Битрикса» в том, что он фиксирует всю историю сайта - кто когда залогинился, кто когда сменил пароль, и прочую конфиденциальную информацию, утечка которой не допустима. Поэтому закрываем: Disallow: /*register=yes Disallow: /*forgot_password=yes Disallow: /*change_password=yes Disallow: /*login=yes Disallow: /*logout=yes Disallow: /*auth=yes 6. Back-адреса тоже нет смысла индексировать. Эти адреса могут образовываться, например, при просмотре фотоальбома, когда Вы сначала листаете его «вперед», а потом - «назад». В эти моменты в адресной строке вполне может появиться что-то типа матерного ругательства: ?back_url_ =%2Fbitrix%2F%2F. Ценность таких адресов равна нулю, поэтому их тоже закрываем от индексирования. Ну а в качестве бонуса - избавляемся от потенциальных «дублей» в поисковой выдаче. Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* 7. Папку /upload необходимо закрывать строго по обстоятельствам. Если там хранятся фотографии и видеоматериалы, размещенные на страницах, то ее скрывать не нужно, чтоб не срезать дополнительный трафик. Ну а если что-то конфиденциальное - однозначно закрываем: Disallow: /upload <h3>Готовый файл robots.txt для Битрикс:</h3> Allow: /search/map.php Allow: /bitrix/templates/ Disallow: */index.php Disallow: /*action= Disallow: /*print= Disallow: /*/gallery/*order= Disallow: /*/search/ Disallow: /*/slide_show/ Disallow: /*?utm_source= Disallow: /*ADD_TO_COMPARE_LIST Disallow: /*arrFilter= Disallow: /*auth= Disallow: /*back_url_admin= Disallow: /*BACK_URL= Disallow: /*back_url= Disallow: /*backurl= Disallow: /*bitrix_*= Disallow: /*bitrix_include_areas= Disallow: /*building_directory= Disallow: /*bxajaxid= Disallow: /*change_password= Disallow: /*clear_cache_session= Disallow: /*clear_cache= Disallow: /*count= Disallow: /*COURSE_ID= Disallow: /*forgot_password= Disallow: /*index.php$ Disallow: /*login= Disallow: /*logout= Disallow: /*modern-repair/$ Disallow: /*MUL_MODE= Disallow: /*ORDER_BY Disallow: /*PAGE_NAME= Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGEN_ Disallow: /*print_course= Disallow: /*print= Disallow: /*register= Disallow: /*register=yes Disallow: /*set_filter= Disallow: /*show_all= Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*SHOWALL_ Disallow: /*sort= Disallow: /*sphrase_id= Disallow: /*tags= Disallow: /access.log Disallow: /admin Disallow: /auth.php Disallow: /bitrix Disallow: /bitrix/ Disallow: /cgi-bin Disallow: /club/$ Disallow: /club/forum/search/ Disallow: /club/gallery/tags/ Disallow: /club/group/search/ Disallow: /club/log/ Disallow: /club/messages/ Disallow: /club/search/ Disallow: /communication/blog/search.php Disallow: /communication/forum/search/ Disallow: /communication/forum/user/ Disallow: /content/board/my/ Disallow: /content/links/my/ Disallow: /error Disallow: /e-store/affiliates/ Disallow: /e-store/paid/detail.php Disallow: /examples/download/download_private/ Disallow: /examples/my-components/ Disallow: /include Disallow: /personal Disallow: /search Disallow: /upload Disallow: /*/*ELEMENT_CODE= Disallow: /*/*SECTION_CODE= Disallow: /*/*IBLOCK_CODE Disallow: /*/*ELEMENT_ID= Disallow: /*/*SECTION_ID= Disallow: /*/*IBLOCK_ID= Disallow: /*/*CODE= Disallow: /*/*ID= Disallow: /*/*IBLOCK_EXTERNAL_ID= Disallow: /*/*SECTION_CODE_PATH= Disallow: /*/*EXTERNAL_ID= Disallow: /*/*IBLOCK_TYPE_ID= Disallow: /*/*SITE_DIR= Disallow: /*/*SERVER_NAME= Sitemap: http://site.ru/sitemap_index.xml Sitemap: http://site.ru/sitemap.xml <h3>robots.txt для Modx и Modx Revo</h3> CMS Modx Revo тоже не лишена проблемы дублей. Однако, она не так сильно обострена, как в Битриксе. Теперь о ее решении. <ol><li>Включаем ЧПУ в настройках сайта.</li> <li>закрываем от индексации:</li> </ol>Disallow: /index.php # т.к. это дубль главной страницы сайта Disallow: /*? # разом решаем проблему с дублями для всех страниц Готовый файл robots.txt для Modx и Modx Revo: Disallow: /*?id= Disallow: /assets Disallow: /assets/cache Disallow: /assets/components Disallow: /assets/docs Disallow: /assets/export Disallow: /assets/import Disallow: /assets/modules Disallow: /assets/plugins Disallow: /assets/snippets Disallow: /connectors Disallow: /index.php Disallow: /install Disallow: /manager Disallow: /profile Disallow: /search Sitemap: http://site.ru/sitemap.xml <h2>Выводы</h2> Без преувеличения файл robots.txt можно назвать «поводырём для поисковых роботов Яндекс и Гугл» (разумеется, если он составлен правильно). Если файл robots txt отсутствует, то его нужно обязательно создать и загрузить на хостинг Вашего сайта. Справка Disallow правил описаны выше в этой статьей и вы можете смело их использоваться в своих целях. Еще раз резюмируем правила/директивы/инструкции для robots.txt: <ol><li>User-agent — указывает, для какого именно поискового робота создан список правил.</li> <li>Disallow - «рекомендую вот это не индексировать».</li> <li>Sitemap - указывает расположение XML-карты сайта со всеми URL, которые нужно проиндексировать. В большинстве случаев карта расположена по адресу http://[ваш_сайт]/sitemap.xml.</li> <li>Crawl-delay — директива, указывающая период (в секундах), через который будет загружена страница сайта.</li> <li>Host - показывает Яндексу основное зеркало сайта.</li> <li>Allow - «рекомендую вот это проиндексировать, не смотря на то, что это противоречит одному из Disallow-правил».</li> <li>Clean-param - помогает в борьбе с get-параметрами, применяется для снижения рисков образования страниц-дублей.</li> </ol>Знаки при составлении robots.txt: <ol><li>Знак «$» для «звездочки» является «ограничителем».</li> <li>После слэша «/» указывается наименование файла/папки/расширения, которую нужно скрыть (в случае с Disallow) или открыть (в случае с Allow) для индексирования.</li> <li>Знаком «*» обозначается «любое количество любых символов».</li> <li>Знаком «#» отделяются какие-либо комментарии или примечания, оставленные вэб-мастером для себя, либо для кого-то другого. Поисковые роботы их не читают.</li> </ol> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy>");</script> </div> <dblock></dblock> <dblock></dblock> <dblock></dblock> <dblock></dblock> <dblock></dblock> </div> </div> <div class="grid_4"> <ul id="sidebar"> <div class="widget cat-lists"> <div class="outer"> <div class="menu-sidebar-container"> <ul id="menu-sidebar" class="menu"> <li class="menu-item menu-item-type-taxonomy menu-item-object-category"><a href="/category/internet/">Интернет</a></li> <li class="menu-item menu-item-type-taxonomy menu-item-object-category"><a href="/category/programs/">Программы</a></li> <li class="menu-item menu-item-type-taxonomy menu-item-object-category"><a href="/category/games/">Игры</a></li> <li class="menu-item menu-item-type-taxonomy menu-item-object-category"><a href="/category/problems/">Проблемы</a></li> <li class="menu-item menu-item-type-taxonomy menu-item-object-category"><a href="/category/windows/">Windows</a></li> <li class="menu-item menu-item-type-taxonomy menu-item-object-category"><a href="/category/social-networks/">Социальные сети</a></li> <li class="menu-item menu-item-type-taxonomy menu-item-object-category"><a href="/category/android/">Android</a></li> <li class="menu-item menu-item-type-taxonomy menu-item-object-category"><a href="/category/ios/">Ios</a></li> </ul> </div> </div> <script> function fd() { var menu = document.querySelector('.menu-wrapper') // Using a class instead, see note below. menu.classList.toggle('active'); } function fds(e) { var menu = document.querySelector('.' + e) // Using a class instead, see note below. menu.classList.toggle('active'); } </script> </div> <li id="text-46" class="widget widget_text"> <div class="textwidget"> </div> </li> <li id="text-9" class="widget widget_text"> <div class="textwidget"> <div class="subscription" id="sidebar-sub"> <div class="gradient-sub"></div> Присоединяйтесь! Уже подписаны более 6 000 человек. Получайте самые свежие статьи. <form action="/" method="post" target="_blank" id="subscr-form-6292" onsubmit="return jc_chkscrfrm(this, false, false, false, false)"> <input type="text" name="lead_email" class="sr-required" placeholder="Введите ваш e-mail" maxlength="100"> <button type="submit" name="lead_subscribe" value="Подписаться">ПОДПИСАТЬСЯ</button> </form> <div class="ribbon"></div> </div> </div> </li> <li id="text-36" class="widget widget_text"> <div class="textwidget"> </div> </li> <div id="sticky-anchor"></div> <div id="sticky"> <div id="owl-demo2" class="owl-carousel owl-theme"> <div class="item"> </div> </div> </div> <script> var stk = true; </script> <style> #owl-demo2 .item { background: #3fbf79; margin: 10px; color: #FFF; -webkit-border-radius: 3px; -moz-border-radius: 3px; border-radius: 3px; text-align: center; } .customNavigation { text-align: center; } //use styles below to disable ugly selection .customNavigation a { -webkit-user-select: none; -khtml-user-select: none; -moz-user-select: none; -ms-user-select: none; user-select: none; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); } </style> <link href='/assets/owl.theme.css' rel='stylesheet' type='text/css'> <link href='/assets/owl.carousel.css' rel='stylesheet' type='text/css'> <link href='/assets/owl.transitions.css' rel='stylesheet' type='text/css'> </ul> </div> <div class="clear"></div> <a class="btn-floating btn-large red" href="#"></a> <footer> <script type="text/javascript"> function GoTo(link) { window.open(link.replace("_", "http://")); } </script> <div class="grid_12"> <a href="/">Интернет, компьютеры, гаджеты</a> - Копирование материалов строго запрещено. <a href="" target="_blank">О проекте</a> <a href="" target="_blank">Реклама на сайте</a> <script src="https://ajax.googleapis.com/ajax/libs/jquery/1/jquery.min.js"></script> <script type="text/javascript" src="/assets/modernizr.min.js"></script> <script type="text/javascript" src="/assets/jquery.slicknav.js"></script> <script type="text/javascript" src="/assets/main.js"></script> <script type="text/javascript" src="/assets/include.js"></script> <script type="text/javascript" src="/assets/jquery.fancybox.js"></script> <script type="text/javascript"> $(document).ready(function() { $('.fancybox').fancybox(); }); </script> <script type="text/javascript"> window.___gcfg = { lang: 'ru' }; (function() { var po = document.createElement('script'); po.type = 'text/javascript'; po.async = true; po.src = 'https://apis.google.com/js/plusone.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(po, s); })(); </script> <div id="fb-root"></div> <script> (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "https://connect.facebook.net/ru_RU/all.js#xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk')); </script> </div> <div class="clear"></div> </footer> </div> <script type='text/javascript' src='/assets/jquery.form.min.js'></script> <script type='text/javascript' src='/assets/scripts.js'></script> <script type='text/javascript' src='/assets/postviews-cache.js'></script> <script type='text/javascript' src='/assets/wp-embed.min.js'></script> <script type='text/javascript' src='/assets/form.js'></script> <script type='text/javascript' src='/assets/jquery.fancybox-1.3.8.min.js'></script> <script type='text/javascript' src='/assets/jquery.easing.min.js'></script> <script type="text/javascript"> jQuery(document).on('ready post-load', function(){ jQuery('.nofancybox,a.pin-it-button,a[href*="pinterest.com/pin/create/button"]').addClass('nolightbox'); } ); jQuery(document).on('ready post-load',easy_fancybox_handler); jQuery(document).on('ready',easy_fancybox_auto);</script> </body> <script>// <![CDATA[ $(".closed").toggleClass("show"); $(".title").click(function(){ $(this).parent().toggleClass("show").children("div.contents").slideToggle("medium"); if ($(this).parent().hasClass("show")) $(this).children(".title_h3").css("background","#bbbbbb"); else $(this).children(".title_h3").css("background","#dddddd"); } ); // ]]></script> <script> $(".single-post .post a:has(img), .single-post .entry-content a:has(img)").fancybox(); $('.sub-menu').parent().addClass('after'); $('.mobile_menu .ya-site-form__input-text').attr('id', 'unstapble-transparent'); $('.sub-menu').parent().children('a').attr("onclick", "$(this).parent().toggleClass('active');return false;"); // $('.nav-list-mobile li a').click(function() { // $(this).parent().toggleClass('active'); // return false; // } ); function tg_menu () { $('.mobile_menu').toggleClass('active'); $('.google_search_mob').toggleClass('active'); } ; if (stk) { $(document).ready(function() { $(window).scroll(sticky_relocate); sticky_relocate(); function sticky_relocate() { var window_top = $(window).scrollTop(); var div_top = $('#sticky-anchor').offset().top; if (window_top > div_top) { $('#sticky').addClass('stick'); } else { $('#sticky').removeClass('stick'); } } } ); } if (carusel) { } </script> <script src="/assets/owl.carousel.min.js"></script> <script> var owl2 = $("#owl-demo2"); owl2.owlCarousel({ items : 1, //10 items above 1000px browser width lazyLoad : true, itemsDesktop : [1000,1], //5 items between 1000px and 901px itemsDesktopSmall : [900,1], // betweem 900px and 601px itemsTablet: [600,1], //2 items between 600 and 0 itemsMobile : [479,1] // itemsMobile disabled - inherit from itemsTablet option } ); // Custom Navigation Events // $(".next").click(function(){ // owl.trigger('owl.next'); // } ) // $(".prev").click(function(){ // owl.trigger('owl.prev'); // } ) owl2.trigger('owl.play',5000); //owl.play event accept autoPlay speed as second parameter // $(".stop").click(function(){ // owl.trigger('owl.stop'); // } ) </script> </html>

Рекомендации по настройке файла robots txt. Какие страницы закрывать от индексации и как

2. Понятие файла robots.txt и требования, предъявляемые к нему

3. Содержимое файла robots.txt

Запись «User-agent»

Запись «Disallow»

Запись «Allow»

Запись «Sitemap»

Запись «Host»

Запись «Crawl-delay»

Комментарии

4. Примеры файлов robots.txt

5. Ошибки, связанные с файлом robots.txt

6. Заключение

Как закрывать страницы от индексации