Новости
    Послуга прокату дитячих товарів
    Дети действительно растут очень быстро и те вещи, которые еще вчера были очень велики по размеру, завтра уже будут катастрофически малы. Поэтому гардероб малыше постоянно приходится обновлять. С этим

    Алиэкспресс на русском
    Не все пользователи интернета хорошо знают английский язык и, тем более, многие не ориентируются в конвертации валют. Особенно это касается людей, не привыкших пользоваться компьютером для покупок за

    Детская парикмахерская киев
    Парикмахерские от одного до трех кресел обычно открывают при учреждениях, клубах, воинских частях и т. д. в качестве филиалов крупных парикмахерских. Городские же парикмахерские имеют от четырех кресел

    Игрушки для детей 6 лет для мальчиков
    - детский компьютер. Эта игра поможет обучить ребенка буквам, геометрическим фигурам и цифрам - различного вида головоломки - наборы для юных ученых, благодаря которым будущий школьник расширит свой

    Рабочее место оператора
    Должностная инструкция оператора главного склада. Должность: Оператор главного склада (сырья и ингредиентов). Профиль должности (требования при приеме на работу): Женщина 23-35 лет. Образование –

    Отслеживание посылок с алиэкспресс
    После того как платёж проверили статус автоматически переходит в состояние ожидание отправки. Этот статус значит что, продавцу дано время для того чтобы он отправил вашу посылку. Например: на фото у

    Заказать Детский квест для детей
    Сейчас огромной популярностью среди маленького поколения являются игровые квесты для детей. Буквально 5 лет назад в этом направлении толком никто не разбирался, но за последние годы каждый второй ребенок

    Обеденные группы
    Обеденная зона в гостиной – отличное решение для обладателей жилья с кухней, слишком маленькой площади и отсутствием возможности выделить целую комнату под столовую. Не стоит расстраиваться. Обеденная

    Подарки на новый год
    Прежде всего, хотим акцентировать ваше внимание на том, что далеко не каждый прозрачный лак способен в полной мере заменить базовое или топовое покрытие для ногтей. Он может использоваться в качестве

    Интернет магазин детской одежды
    Горизонтальные полоски (принт, рельеф, складки) делаю визуально фигуру шире. Естественно, это противоположный эффект – негативный. Лучше, наоборот выбирать одежду с линиями, которые располагаются вертикально.

Справочное руководство по протоколу исключения роботов

  1. Например:
  2. Типичное использование веб-роботов, чтобы быть в курсе
  3. Вступление
  4. Например:
  5. Например:
  6. Например:
  7. Например:
  8. Например:
  9. Например:
  10. Например:

Эта статья и загружаемое руководство обновлены по состоянию на июнь 2018 года.

Протокол исключения роботов - очень простой, но мощный механизм, доступный для веб-мастеров и SEO так же. Возможно, именно простота файла означает, что он часто упускается из виду и часто является причиной одной или нескольких критических проблем поисковой оптимизации. С этой целью мы попытались собрать воедино уловки, советы и примеры, чтобы помочь с реализацией и управлением файлом robots.txt.

Мы подготовили эту информацию также в виде загружаемого файла PDF. Вы можете скачать руководство здесь: Руководство по протоколу исключения роботов ,

Поскольку многие нестандартные объявления REP, поддерживаемые поисковыми системами, могут измениться, мы будем обновлять их в будущем.

  • Файл robots.txt определяет протокол исключения роботов (REP) для веб-сайта. Файл определяет директивы, которые исключают веб-роботов из каталогов или файлов на хосте сайта. (Обычно это поисковые роботы, но есть и другие роботы, которые придерживаются REP - см. Раздел «Веб-роботы» ниже).
  • Файл robots.txt определяет директивы сканирования, а не индексирует директивы.
  • Хорошие веб-роботы (такие как GoogleBot и Bingbot) придерживаются директив в вашем файле robots.txt. Плохие веб-роботы не могут. Не полагайтесь на файл robots.txt для защиты личных или конфиденциальных данных от поисковых систем.
  • Файл robots.txt общедоступен, поэтому не включайте в него какие-либо файлы или папки, которые могут содержать критически важную для бизнеса информацию.

Например:

  • Папки для анализа веб-сайтов (/ webstats /, / stats / etc).
  • Области тестирования или разработки (/ test /, / dev /).
  • Элемент XML Sitemap, если ваша структура URL содержит важную таксономию.
  • Если URL-адрес перенаправляется на URL-адрес, заблокированный файлом robots.txt, первый URL-адрес будет зарегистрирован как заблокированный файлом robots.txt в Инструментах Google для веб-мастеров (даже если URL-адрес указан как разрешенный в инструменте анализа robots.txt ).
  • Поисковые системы могут кэшировать ваш файл robots.txt (например, Google может кэшировать ваш файл robots.txt в течение 24 часов). Обновите соответствующие правила в файле robots.txt за 24 часа до добавления контента, в противном случае исключенного из текущих инструкций REP.
  • При развертывании нового веб-сайта из среды разработки всегда проверяйте файл robots.txt, чтобы убедиться, что ключевые каталоги не исключены.
  • Исключение файлов, использующих robots.txt, не может сохранять (или перераспределять) бюджет сканирования из одного сеанса сканирования. Например, если Google не может получить доступ к нескольким файлам, он может не сканировать другие файлы на их месте.
  • URL-адреса, исключенные REP, могут по-прежнему появляться в индексе поисковой системы.

Например:

  • Робот поисковой системы не посещал веб-сайт и не обрабатывал обновленные директивы.
  • Поисковая система идентифицировала URL через внешние ссылки на URL и сохраняла ссылку на URL. В этом случае поисковые системы будут использовать информацию из этих внешних источников, такую ​​как текст привязки и окружающий текст входящих ссылок, для вынесения суждения о странице.
  • Популярность ссылок исключенной страницы может быть фактором, который может привести к индексации страницы.
  • URL, исключенные robots.txt, могут накапливать PageRank.
  • Это руководство содержит ссылки на дополнительные функциональные возможности robots.txt, которые не были частью исходной спецификации.
  • Файл должен быть в нижнем регистре (например, «robots.txt»).
  • Файл должен быть общедоступным.
  • Тип файла должен быть в стандартном формате (например, ASCII или UTF-8).
  • Файл должен находиться в корне хоста сайта.

Например:

  • http://example.com/robots.txt.
  • http://www.example.com/robots.txt.
  • http://subdomain.example.com/robots.txt.
  • Файл также действителен для защищенных версий домена (например, https://www.example.com/robots.txt).
  • Поисковые системы могут иметь длину robots.txt.

Веб-робот или веб-сканер - это компьютерная программа, которая методично и автоматически просматривает Всемирную паутину (WWW). Этот процесс называется ползанием или паутингом. Многие сайты, в частности поисковые системы, используют сканирование как средство предоставления актуальных данных. (Определение из Википедии)

Как правило, веб-робот должен запрашивать файл robots.txt при обращении к хосту веб-сайта; однако некоторые роботы могут кэшировать файл robots.txt или вообще его игнорировать.

Типичное использование веб-роботов, чтобы быть в курсе

  • Проверка ссылок (откройте Site Explorer).
  • Проверка кода HTML (инструмент проверки W3C).
  • Проверка URL (Xenu).
  • Сбор адресов электронной почты (обычно для спама).
  • Выскабливание контента (обычно для спама).
  • Услуги перевода (Yahoo BabelFish, Google Translate).
  • Загрузка веб-сайтов или локальное кеширование для последующего просмотра (winHTTrack).
  • Создание архива для исторических целей (Wayback Machine archive.org).
  • Вертикальный поиск (конкретные типы файлов, изображения, видео, аудио, торренты, файловые архивы).

Вертикальный поиск (конкретные типы файлов, изображения, видео, аудио, торренты, файловые архивы)

Вступление

Существует ряд типичных директив, действительных для наиболее распространенных веб-роботов (в файле robots.txt они называются User-agent).

Типичная структура:

User-agent:] - Имя веб-робота

Директивы] - правила для роботов, указанных агентом пользователя

  • Различные веб-роботы (пользовательские агенты) могут по-разному интерпретировать нестандартные директивы.
  • Каждая директива должна быть на отдельной строке.
  • Каждая директива состоит из элемента: пара инструкций. (Например, Disallow: / webmail /).

Элементы:

  1. Агент пользователя:
  2. Disallow:
  3. Разрешать:
  4. Noindex:
  5. Карта сайта:
  6. # (объявление комментария)
  • Каждый элемент должен быть в регистре слов (начинаться с заглавной буквы, а после букв в нижнем регистре).
  • Каждый элемент должен сопровождаться двоеточием (:) и пробелом перед инструкцией.
  • Каждая инструкция соответствует URI (папки и файлы вне корня URL, т. Е. Не включают домен в инструкцию)
  • Инструкции совпадают слева направо, что означает, что роботы заблокированы от всего, что начинается с / «pattern».
  • Каждая инструкция чувствительна к регистру.
  • User-agent определяет веб-робота, для которого применяются следующие правила.
  • Пользовательский агент может относиться к одному веб-роботу или ко всем пользовательским агентам, обозначенным подстановочным знаком «*».

Например:

User-agent: HAL] - Следующие директивы применяются только к «HAL»

User-agent: *] - следующие директивы применяются ко всем веб-роботам

Список общих User-агентов можно найти на сайтах ниже:

Правило Disallow указывает папку, файл или даже весь каталог, который исключается из доступа веб-роботов.

Например:

# Разрешить роботам паук весь сайт

Пользователь-агент: *

Disallow:

# Запретить всех роботов со всего сайта

Пользователь-агент: *

Disallow: /

# Запретить всех роботов из «/ myfolder /» и всех подкаталогов «myfolder»

Пользователь-агент: *

Disallow: / myfolder /

# Запретить всем роботам доступ к любому файлу, начинающемуся с «myfile.html»

Пользователь-агент: *

Disallow: /myfile.html

# Запретить «googlebot» доступ к файлам и папкам, начинающимся с «my»

Пользователь-агент: googlebot

Disallow: / мой

Правило «Разрешить» - это «нестандартное» правило, которое позволяет веб-мастеру предоставлять более детальный доступ или сложные правила.

Уточняет предыдущие «запретить» заявления.

# Запретить всех роботов из папки / scripts /, кроме page.php

Disallow: / scripts /

Разрешить: /scripts/page.php

# Сообщает роботам, что они могут получить http://example.com/scripts/page.php,

# или http://example.com/scripts/page.php?article=1,

# но не любой другой URL в http://example.com/scripts/folder.

Разрешить имеет приоритет над запретом при интерпретации Google, Bing и Yahoo, однако стараются избегать противоречивых указаний, поскольку это может стать неуправляемым или привести к непредсказуемым результатам с разными роботами.

Например:

# Запретить «googlebot» доступ к файлам и папкам, начинающимся с «my»

Пользователь-агент: googlebot

Disallow: / мой

  • Директива noindex «неофициально» поддерживается только Google.
  • Директива Noindex действует в соответствии с директивой Disallow и, кроме того, удаляет все соответствующие URL-адреса сайтов из Google.
  • Используйте директиву Noindex с осторожностью, так как поведение или поддержка могут измениться.
  • Объявление Sitemap указывает на файл XML Sitemap или индексный файл XML Sitemap.
  • Элемент sitemap должен указывать на абсолютный URL (в отличие от других элементов). Например, файл Sitemap: http://www.example.com/sitemap.xml.
  • Файл robots.txt может иметь несколько объявлений Sitemap.
  • Объявление карты сайта может указывать на стандартный несжатый XML-файл или сжатую версию.
  • Если ваш XML Sitemap содержит важные для бизнеса данные, которые вы не хотите, чтобы ваши конкуренты видели, не используйте эту инструкцию. Вместо этого переименуйте ваш XML Sitemap, чтобы его было трудно угадать, и отправьте его через Google, Yahoo! и инструменты Bing для веб-мастеров.
  • Многие поисковые системы пытаются автоматически обнаружить файл Sitemap в формате XML с помощью объявления карты сайта в файле robots.txt.
  • Автоматическое обнаружение файла Sitemap с помощью robots.txt не заменяет отправку файла Sitemap с помощью инструментов для веб-мастеров Google, Yahoo и Bing, где вы можете отправлять свои карты сайта и получать статистику индексации.

txt не заменяет отправку файла Sitemap с помощью инструментов для веб-мастеров Google, Yahoo и Bing, где вы можете отправлять свои карты сайта и получать статистику индексации

  • Директива Crawl-delay просит роботов сделать паузу между последующими запросами страниц.
  • Google не поддерживает директиву задержки сканирования.
  • Yahoo поддерживает задержку сканирования. Диапазоны, указанные Yahoo, варьируются от 0 до 10.
  • Yahoo поддерживает десятичные числа, однако больше не ссылается на задержку в секундах. Задержка сканирования - это относительное снижение скорости сканирования.
  • Bing поддерживает задержку сканирования. Диапазоны, указанные в Bing, варьируются от 1 до 10.
  • Bing не рекомендует использовать значения выше 10.
  • Bing поддерживает только положительные целые числа.

Например:

Без задержки сканирования Нормально 1 Медленно 5 Очень медленно 10 Очень медленно

  • Избегайте задержек при сканировании, если это возможно, или используйте с осторожностью, поскольку это может существенно повлиять на своевременное и эффективное отслеживание веб-сайта.

Звездочка (*) является символом подстановки. Он может применять директивы к нескольким роботам с одним набором правил или указывать один или несколько символов при объявлении инструкций.

# Следующее правило запретит googlebot доступ к любому URL

# Следующее правило запретит googlebot доступ к любому URL

# содержащий «страницу»

Пользователь-агент: googlebot

Disallow: / * страница

# Это правило исключает следующие файлы и папки из googlebot

# и, таким образом, индексируется в Google

# beauty-pageants.php

# /myfolder/example-page.php

# / frontpage / (и все подпапки и файлы в этом каталоге)

  • * Также может означать «без символа»

Например:

Disallow: /*gallery/default.aspx

# Исключает /picture-gallery/default.aspx

# Также исключает /gallery/default.aspx

$ Означает любой URL, который заканчивается предыдущими символами.

Например:

# Исключить все вложенные файлы и папки из каталога, но разрешить

# доступ к целевой странице

Disallow: / веб-почта /

Разрешить: / веб-почта / $

  • Можно комбинировать символы подстановки $ и *.
  • Можно комбинировать для разрешений и запретов директив.

Например:

# Запретить все файлы asp

Disallow: / * asp $

# Это не исключает файлы со строками запросов или папками из-за $

# Исключено - / pretty-wasp

# Исключено - /login.asp

# Не исключено - /login.asp?forgotton-password=1

У Google есть отличное руководство по кодированию символов в файле robots.txt: Robots.txt Технические характеристики ,

Некоторые интересные файлы robots.txt:

Конкретные сведения о толковании директив REP ключевых поисковых систем см. На следующих веб-сайтах:

Многие из функций и советов, документированных в этой ссылке, могут быть экспериментальными или неофициально поддерживаемыми. Всегда проверяйте директивы REP, используя валидатор robots.txt, доступный по адресу:

Особая благодарность Джону Мюллеру (@johnmu) из Google за разъяснение некоторых действий GoogleBot.

Написал rbedford 17 августа 2010 года в 6:23 утра

5 Ответов на “Справочное руководство по протоколу исключения роботов”

Php?
Asp?