Новости

Справочное руководство по протоколу исключения роботов

  1. Например:
  2. Типичное использование веб-роботов, чтобы быть в курсе
  3. Вступление
  4. Например:
  5. Например:
  6. Например:
  7. Например:
  8. Например:
  9. Например:
  10. Например:

Эта статья и загружаемое руководство обновлены по состоянию на июнь 2018 года.

Протокол исключения роботов - очень простой, но мощный механизм, доступный для веб-мастеров и SEO так же. Возможно, именно простота файла означает, что он часто упускается из виду и часто является причиной одной или нескольких критических проблем поисковой оптимизации. С этой целью мы попытались собрать воедино уловки, советы и примеры, чтобы помочь с реализацией и управлением файлом robots.txt.

Мы подготовили эту информацию также в виде загружаемого файла PDF. Вы можете скачать руководство здесь: Руководство по протоколу исключения роботов ,

Поскольку многие нестандартные объявления REP, поддерживаемые поисковыми системами, могут измениться, мы будем обновлять их в будущем.

  • Файл robots.txt определяет протокол исключения роботов (REP) для веб-сайта. Файл определяет директивы, которые исключают веб-роботов из каталогов или файлов на хосте сайта. (Обычно это поисковые роботы, но есть и другие роботы, которые придерживаются REP - см. Раздел «Веб-роботы» ниже).
  • Файл robots.txt определяет директивы сканирования, а не индексирует директивы.
  • Хорошие веб-роботы (такие как GoogleBot и Bingbot) придерживаются директив в вашем файле robots.txt. Плохие веб-роботы не могут. Не полагайтесь на файл robots.txt для защиты личных или конфиденциальных данных от поисковых систем.
  • Файл robots.txt общедоступен, поэтому не включайте в него какие-либо файлы или папки, которые могут содержать критически важную для бизнеса информацию.

Например:

  • Папки для анализа веб-сайтов (/ webstats /, / stats / etc).
  • Области тестирования или разработки (/ test /, / dev /).
  • Элемент XML Sitemap, если ваша структура URL содержит важную таксономию.
  • Если URL-адрес перенаправляется на URL-адрес, заблокированный файлом robots.txt, первый URL-адрес будет зарегистрирован как заблокированный файлом robots.txt в Инструментах Google для веб-мастеров (даже если URL-адрес указан как разрешенный в инструменте анализа robots.txt ).
  • Поисковые системы могут кэшировать ваш файл robots.txt (например, Google может кэшировать ваш файл robots.txt в течение 24 часов). Обновите соответствующие правила в файле robots.txt за 24 часа до добавления контента, в противном случае исключенного из текущих инструкций REP.
  • При развертывании нового веб-сайта из среды разработки всегда проверяйте файл robots.txt, чтобы убедиться, что ключевые каталоги не исключены.
  • Исключение файлов, использующих robots.txt, не может сохранять (или перераспределять) бюджет сканирования из одного сеанса сканирования. Например, если Google не может получить доступ к нескольким файлам, он может не сканировать другие файлы на их месте.
  • URL-адреса, исключенные REP, могут по-прежнему появляться в индексе поисковой системы.

Например:

  • Робот поисковой системы не посещал веб-сайт и не обрабатывал обновленные директивы.
  • Поисковая система идентифицировала URL через внешние ссылки на URL и сохраняла ссылку на URL. В этом случае поисковые системы будут использовать информацию из этих внешних источников, такую ​​как текст привязки и окружающий текст входящих ссылок, для вынесения суждения о странице.
  • Популярность ссылок исключенной страницы может быть фактором, который может привести к индексации страницы.
  • URL, исключенные robots.txt, могут накапливать PageRank.
  • Это руководство содержит ссылки на дополнительные функциональные возможности robots.txt, которые не были частью исходной спецификации.
  • Файл должен быть в нижнем регистре (например, «robots.txt»).
  • Файл должен быть общедоступным.
  • Тип файла должен быть в стандартном формате (например, ASCII или UTF-8).
  • Файл должен находиться в корне хоста сайта.

Например:

  • http://example.com/robots.txt.
  • http://www.example.com/robots.txt.
  • http://subdomain.example.com/robots.txt.
  • Файл также действителен для защищенных версий домена (например, https://www.example.com/robots.txt).
  • Поисковые системы могут иметь длину robots.txt.

Веб-робот или веб-сканер - это компьютерная программа, которая методично и автоматически просматривает Всемирную паутину (WWW). Этот процесс называется ползанием или паутингом. Многие сайты, в частности поисковые системы, используют сканирование как средство предоставления актуальных данных. (Определение из Википедии)

Как правило, веб-робот должен запрашивать файл robots.txt при обращении к хосту веб-сайта; однако некоторые роботы могут кэшировать файл robots.txt или вообще его игнорировать.

Типичное использование веб-роботов, чтобы быть в курсе

  • Проверка ссылок (откройте Site Explorer).
  • Проверка кода HTML (инструмент проверки W3C).
  • Проверка URL (Xenu).
  • Сбор адресов электронной почты (обычно для спама).
  • Выскабливание контента (обычно для спама).
  • Услуги перевода (Yahoo BabelFish, Google Translate).
  • Загрузка веб-сайтов или локальное кеширование для последующего просмотра (winHTTrack).
  • Создание архива для исторических целей (Wayback Machine archive.org).
  • Вертикальный поиск (конкретные типы файлов, изображения, видео, аудио, торренты, файловые архивы).

Вертикальный поиск (конкретные типы файлов, изображения, видео, аудио, торренты, файловые архивы)

Вступление

Существует ряд типичных директив, действительных для наиболее распространенных веб-роботов (в файле robots.txt они называются User-agent).

Типичная структура:

User-agent:] - Имя веб-робота

Директивы] - правила для роботов, указанных агентом пользователя

  • Различные веб-роботы (пользовательские агенты) могут по-разному интерпретировать нестандартные директивы.
  • Каждая директива должна быть на отдельной строке.
  • Каждая директива состоит из элемента: пара инструкций. (Например, Disallow: / webmail /).

Элементы:

  1. Агент пользователя:
  2. Disallow:
  3. Разрешать:
  4. Noindex:
  5. Карта сайта:
  6. # (объявление комментария)
  • Каждый элемент должен быть в регистре слов (начинаться с заглавной буквы, а после букв в нижнем регистре).
  • Каждый элемент должен сопровождаться двоеточием (:) и пробелом перед инструкцией.
  • Каждая инструкция соответствует URI (папки и файлы вне корня URL, т. Е. Не включают домен в инструкцию)
  • Инструкции совпадают слева направо, что означает, что роботы заблокированы от всего, что начинается с / «pattern».
  • Каждая инструкция чувствительна к регистру.
  • User-agent определяет веб-робота, для которого применяются следующие правила.
  • Пользовательский агент может относиться к одному веб-роботу или ко всем пользовательским агентам, обозначенным подстановочным знаком «*».

Например:

User-agent: HAL] - Следующие директивы применяются только к «HAL»

User-agent: *] - следующие директивы применяются ко всем веб-роботам

Список общих User-агентов можно найти на сайтах ниже:

Правило Disallow указывает папку, файл или даже весь каталог, который исключается из доступа веб-роботов.

Например:

# Разрешить роботам паук весь сайт

Пользователь-агент: *

Disallow:

# Запретить всех роботов со всего сайта

Пользователь-агент: *

Disallow: /

# Запретить всех роботов из «/ myfolder /» и всех подкаталогов «myfolder»

Пользователь-агент: *

Disallow: / myfolder /

# Запретить всем роботам доступ к любому файлу, начинающемуся с «myfile.html»

Пользователь-агент: *

Disallow: /myfile.html

# Запретить «googlebot» доступ к файлам и папкам, начинающимся с «my»

Пользователь-агент: googlebot

Disallow: / мой

Правило «Разрешить» - это «нестандартное» правило, которое позволяет веб-мастеру предоставлять более детальный доступ или сложные правила.

Уточняет предыдущие «запретить» заявления.

# Запретить всех роботов из папки / scripts /, кроме page.php

Disallow: / scripts /

Разрешить: /scripts/page.php

# Сообщает роботам, что они могут получить http://example.com/scripts/page.php,

# или http://example.com/scripts/page.php?article=1,

# но не любой другой URL в http://example.com/scripts/folder.

Разрешить имеет приоритет над запретом при интерпретации Google, Bing и Yahoo, однако стараются избегать противоречивых указаний, поскольку это может стать неуправляемым или привести к непредсказуемым результатам с разными роботами.

Например:

# Запретить «googlebot» доступ к файлам и папкам, начинающимся с «my»

Пользователь-агент: googlebot

Disallow: / мой

  • Директива noindex «неофициально» поддерживается только Google.
  • Директива Noindex действует в соответствии с директивой Disallow и, кроме того, удаляет все соответствующие URL-адреса сайтов из Google.
  • Используйте директиву Noindex с осторожностью, так как поведение или поддержка могут измениться.
  • Объявление Sitemap указывает на файл XML Sitemap или индексный файл XML Sitemap.
  • Элемент sitemap должен указывать на абсолютный URL (в отличие от других элементов). Например, файл Sitemap: http://www.example.com/sitemap.xml.
  • Файл robots.txt может иметь несколько объявлений Sitemap.
  • Объявление карты сайта может указывать на стандартный несжатый XML-файл или сжатую версию.
  • Если ваш XML Sitemap содержит важные для бизнеса данные, которые вы не хотите, чтобы ваши конкуренты видели, не используйте эту инструкцию. Вместо этого переименуйте ваш XML Sitemap, чтобы его было трудно угадать, и отправьте его через Google, Yahoo! и инструменты Bing для веб-мастеров.
  • Многие поисковые системы пытаются автоматически обнаружить файл Sitemap в формате XML с помощью объявления карты сайта в файле robots.txt.
  • Автоматическое обнаружение файла Sitemap с помощью robots.txt не заменяет отправку файла Sitemap с помощью инструментов для веб-мастеров Google, Yahoo и Bing, где вы можете отправлять свои карты сайта и получать статистику индексации.

txt не заменяет отправку файла Sitemap с помощью инструментов для веб-мастеров Google, Yahoo и Bing, где вы можете отправлять свои карты сайта и получать статистику индексации

  • Директива Crawl-delay просит роботов сделать паузу между последующими запросами страниц.
  • Google не поддерживает директиву задержки сканирования.
  • Yahoo поддерживает задержку сканирования. Диапазоны, указанные Yahoo, варьируются от 0 до 10.
  • Yahoo поддерживает десятичные числа, однако больше не ссылается на задержку в секундах. Задержка сканирования - это относительное снижение скорости сканирования.
  • Bing поддерживает задержку сканирования. Диапазоны, указанные в Bing, варьируются от 1 до 10.
  • Bing не рекомендует использовать значения выше 10.
  • Bing поддерживает только положительные целые числа.

Например:

Без задержки сканирования Нормально 1 Медленно 5 Очень медленно 10 Очень медленно

  • Избегайте задержек при сканировании, если это возможно, или используйте с осторожностью, поскольку это может существенно повлиять на своевременное и эффективное отслеживание веб-сайта.

Звездочка (*) является символом подстановки. Он может применять директивы к нескольким роботам с одним набором правил или указывать один или несколько символов при объявлении инструкций.

# Следующее правило запретит googlebot доступ к любому URL

# Следующее правило запретит googlebot доступ к любому URL

# содержащий «страницу»

Пользователь-агент: googlebot

Disallow: / * страница

# Это правило исключает следующие файлы и папки из googlebot

# и, таким образом, индексируется в Google

# beauty-pageants.php

# /myfolder/example-page.php

# / frontpage / (и все подпапки и файлы в этом каталоге)

  • * Также может означать «без символа»

Например:

Disallow: /*gallery/default.aspx

# Исключает /picture-gallery/default.aspx

# Также исключает /gallery/default.aspx

$ Означает любой URL, который заканчивается предыдущими символами.

Например:

# Исключить все вложенные файлы и папки из каталога, но разрешить

# доступ к целевой странице

Disallow: / веб-почта /

Разрешить: / веб-почта / $

  • Можно комбинировать символы подстановки $ и *.
  • Можно комбинировать для разрешений и запретов директив.

Например:

# Запретить все файлы asp

Disallow: / * asp $

# Это не исключает файлы со строками запросов или папками из-за $

# Исключено - / pretty-wasp

# Исключено - /login.asp

# Не исключено - /login.asp?forgotton-password=1

У Google есть отличное руководство по кодированию символов в файле robots.txt: Robots.txt Технические характеристики ,

Некоторые интересные файлы robots.txt:

Конкретные сведения о толковании директив REP ключевых поисковых систем см. На следующих веб-сайтах:

Многие из функций и советов, документированных в этой ссылке, могут быть экспериментальными или неофициально поддерживаемыми. Всегда проверяйте директивы REP, используя валидатор robots.txt, доступный по адресу:

Особая благодарность Джону Мюллеру (@johnmu) из Google за разъяснение некоторых действий GoogleBot.

Написал rbedford 17 августа 2010 года в 6:23 утра

5 Ответов на “Справочное руководство по протоколу исключения роботов”

Похожие

Дублин SEO Руководство
Если у вас есть веб-сайт, который вы хотели бы получить в свои ряды, то вы должны понимать лучшие практики SEO. Другими словами, какой самый эффективный и чистый способ достижения вершины? Не делайте ошибок здесь, потому что это не то, чего вы достигнете за одну ночь. Пытаетесь ли вы сделать это самостоятельно или обратитесь к
DIY SEO для фотографов Руководство (103)
... ваши ключевые слова и фразы , добавил контент на ваш сайт и теперь вы готовы перейти к следующему этапу нашего самодельного SEO-руководства для фотографов ... все об изображениях! Давайте смотреть правде в глаза. Они повсюду на вашем сайте. Сотни, иногда тысячи, в зависимости от того, как долго вы занимаетесь бизнесом. Итак, как вы можете использовать это в своих интересах? Давайте разберемся с
Окончательное руководство по OpenCart SEO
... быть настроены на основе различных веб-сайтов, стран и целевых аудиторий. Ниже перечислены некоторые особенности программного обеспечения OpenCart: Одна административная зона для быстрого открытия нескольких магазинов OpenCart Пользователь должен классифицировать и добавлять товары в каталог только один раз Запасы и заказы могут управляться и отслеживаться из одной области Возможность создавать магазины, которые выглядят так же, как
Веб-позиционирование туристических компаний: ОБЯЗАТЕЛЬНОЕ РУКОВОДСТВО
4. Начинаем писать статью Конечно, вы действительно хотите начать писать статью, но не спешите, сейчас самое время начать заголовок, то есть вы будете думать, как начинается эта история, которую вы хотите написать и опубликовать в своем блоге, но для этого вам нужно знать следующее: SEO на странице. Я должен ввести слово в разные части моего
Использование Pardot как SEO Pro
... чтобы построить целостную стратегию маркетинга / продаж. Одной из основных функций платформы Pardot является предоставление пользователю возможности быстро создавать целевые страницы и отслеживать рентабельность инвестиций, вытекающих из этих страниц. Наше агентство Wakefly
SEO Prestashop Made Simple: пошаговое руководство
Вы новичок в SEO Prestashop ? Выполните следующие действия, и ваш сайт электронной коммерции может иметь более высокий рейтинг Google! Мы не
Основы SEO объяснили менеджерам по маркетингу ...
... веннек, веб-мастер Дальновидный маркетинг и соучредитель Media-Aces.org , выпустил серию из 3 статей, где он напоминает об основах SEO менеджерам по маркетингу . Цель этих 3-х статей не в том, чтобы подробно объяснить метод оптимизации сайта или ввести технику, а просто в том,
Расширенное руководство по комментированию блогов для SEO
... быть частью вашей стратегии SEO: Установите отношения, обсуждая тему статьи Генерируйте трафик, если вы выбираете статьи, относящиеся к вашей отрасли, и оставляете ценный комментарий Повышает узнаваемость бренда, постоянно увеличивая ценность в соответствующих нишевых блог-платформах Предлагает широкий спектр IP-разнообразия в вашем профиле ссылки Вы можете изменить текст привязки, чтобы улучшить статистику своего профиля ссылок.
Многоязычный SEO: основное руководство
Почему многоязычный SEO важен Если вы хотите привлечь к своему контенту действительно глобальную аудиторию, ничто не заменит контентную стратегию, включающую несколько языков. Важность наличия многоязычного контента и стратегии SEO только возросла, поскольку подключение к Интернету проникает во весь мир. В 1996 году примерно 80% Интернета было написано на английском языке, но к 2005 году этот процент
Используйте поисковую оптимизацию бесплатно
... чтобы вы ознакомились с этой темой. Вы вряд ли найдете специалиста, который поможет вам здесь без оплаты. Мы сразу скажем вам: получить хороший и надежный SEO бесплатно невозможно. Однако вы можете начать с некоторых мер по оптимизации и сэкономить деньги. Мы хотели бы помочь вам пойти по этому пути и начать продвижение вашего сайта в поисковой системе. Делать SEO для себя не так сложно, как вы могли ожидать. Есть довольно много областей поисковой оптимизации, которые вы можете решить
6 уникальных идей Fiverr Gigs, чтобы заработать из дома
Fiverr - глобализированный рынок с изюминкой, помогающий пользователям демонстрировать лучшее, что у них есть, и предлагать его обычно за 5 долларов. Это лучшее место для пользователей, профессионалов и блогеров, где они могут продемонстрировать свои таланты, навыки и ресурсы для того, чтобы каждый мог их купить. Если человек может просто петь, рисовать, писать, рисовать или создавать что-то творческое, тогда Fiverr - это то,

Комментарии

Вы делаете все, чтобы быть уверенными, что помогаете своей компании быть успешной, насколько это возможно; но что, если вы что-то упустили?
Вы делаете все, чтобы быть уверенными, что помогаете своей компании быть успешной, насколько это возможно; но что, если вы что-то упустили? Это может быть SEO. Если вы еще не знакомы с SEO, это поисковая оптимизация. Поисковая оптимизация имеет решающее значение для расширения вашего бизнеса через ваш сайт. Подумайте, сколько раз вы искали что-то в поисковой системе, скажем, Google. Вы когда-нибудь задумывались, как именно Google знает, какие веб-сайты вам будут показывать, когда вы
Они предлагают что-то, что кажется слишком хорошим, чтобы быть правдой?
Они предлагают что-то, что кажется слишком хорошим, чтобы быть правдой? Избавься от них. Некоторые довольно крупные компании столкнулись с трудностями с Google за разрешение некачественных входящих ссылок. У Google есть инструмент отключения ссылок в Инструментах для веб-мастеров, который он предлагает владельцам сайтов. Используйте этот инструмент очень разумно. Это постоянное и радикальное решение, которое может иметь непредвиденные последствия, если вы не уверены, что ссылка наносит ущерб
Как долго должен быть тег заголовка и какая информация должна быть включена?
Как долго должен быть тег заголовка и какая информация должна быть включена? Максимум 70 символов долгое время считалось правилом. Обновления Google изменили интерпретацию тега заголовка, поэтому теперь он учитывает ширину пикселя каждой буквы и суммируется с общей шириной. Если эта ширина пикселя превышает максимум, заголовок сокращается на «...». OnPage SEO Контрольный список - Советы: Длина заголовка в пикселях должна быть в диапазоне 257-512
Может быть, мне нужен VnExpress, чтобы спросить VFF: почему я?
Может быть, мне нужен VnExpress, чтобы спросить VFF: почему я? Многие тренеры в Южной Корее хотят знать ответ, потому что в Южной Корее в настоящее время много молодых и талантливых тренеров. Я уже достаточно взрослый, чтобы уйти на пенсию. - Какую стратегию вы использовали, чтобы помочь команде Вьетнама U23 преобразоваться за короткий промежуток времени? Вы не должны говорить, что я превратил вьетнамскую футбольную команду во что-то еще, потому
Это может быть хорошим описанием того, что делает ваш бизнес, но может ли оно быть ценным для видимости вашего сайта в Интернете?
Это может быть хорошим описанием того, что делает ваш бизнес, но может ли оно быть ценным для видимости вашего сайта в Интернете? В 2012 году Мэтт Каттс, затем глава веб-спама Google, преуменьшает влияние расширения доменов на SEO , В то время он заявил, что «Google имеет большой опыт в возвращении соответствующих веб-страниц, независимо от домена верхнего уровня (TLD). Google попытается соответствующим образом
Ваш контент разделен так, что, например, он может быть разделен на свои собственные хранилища?
Ваш контент разделен так, что, например, он может быть разделен на свои собственные хранилища? Или имеет смысл расширять навигацию, например, с помощью мегаменю? Оба варианта позволяют по-разному автоматически связывать большое количество страниц с внутренними ссылками. В обоих случаях важно установить четкие стратегические цели. Стивен
Что может быть лучше, чтобы узнать, что интересует наших потенциальных клиентов, чем узнать ключевые слова, которые они используют в поисковых системах?
Что может быть лучше, чтобы узнать, что интересует наших потенциальных клиентов, чем узнать ключевые слова, которые они используют в поисковых системах? Распространение в социальных сетях. Чтобы связаться с нашими потенциальными клиентами через сети, лучше использовать одни слова лучше, чем другие. Для этого мы воплотим в жизнь не только воображение, но и предыдущее исследование. Ключевое слово
Таким образом, вместо того, чтобы задавать вопрос «является ли это оптимизированным для SEO», задайте себе вопрос «Является ли эта публикация работы настолько четкой и подробной, как и должно быть?
Таким образом, вместо того, чтобы задавать вопрос «является ли это оптимизированным для SEO», задайте себе вопрос «Является ли эта публикация работы настолько четкой и подробной, как и должно быть?» Если ответ «да», то поисковые системы будут вознаграждать вас. Чтобы получать такие сообщения в блоге прямо в свой почтовый ящик,
Вместо того, чтобы вводить «агентство недвижимости Паддингтон», они с большей вероятностью скажут что-то разговорное, например: «Какое агентство недвижимости в Паддингтоне является лучшим?
Вместо того, чтобы вводить «агентство недвижимости Паддингтон», они с большей вероятностью скажут что-то разговорное, например: «Какое агентство недвижимости в Паддингтоне является лучшим?» Или «Какой агент по недвижимости даст мне лучшую цену в Тураке?» Эйдан объясняет, что не совсем понятно, как Google интерпретирует голосовые поиски или «запросы на естественном языке», и поэтому он советует сосредоточиться на качественном контенте. «Благодаря личному разговорному стилю у вас будет больше
Или, может быть, если веб-мастеру нужна эта сеть, чтобы поесть или приехать в конце месяца?
Или, может быть, если веб-мастеру нужна эта сеть, чтобы поесть или приехать в конце месяца? Задавали ли вы себе эти вопросы, прежде чем стать маленьким ребенком? Я пишу эти вопросы, потому что я прекрасно знаю, что человек, который делает это, прочтет эту статью, и отсюда я посылаю сердечное приветствие. 3. История конфронтадора История атак этого человека идет издалека, отрицательный SEO это просто еще одна глава. Ранее он уже посвятил себя размещению
Предположительно он может, например, сказать: «Какое лучшее место, чтобы найти и съесть пиццу в стиле глубокого блюда Чикаго?
Предположительно он может, например, сказать: «Какое лучшее место, чтобы найти и съесть пиццу в стиле глубокого блюда Чикаго?» сделать вывод, что "ресторан" находится под "место". Как я узнаю, что я оштрафован? Google иногда уведомляет о штрафе по электронной почте или отображает его в Google Analytics. Часто проблема не отображается непосредственно в Google Analytics, но, например, вы можете нажать на HTML-анализ, чтобы найти, что Google обнаружил дублированный контент. Конечно,

Php?
Asp?
Другими словами, какой самый эффективный и чистый способ достижения вершины?
Итак, как вы можете использовать это в своих интересах?
Вы делаете все, чтобы быть уверенными, что помогаете своей компании быть успешной, насколько это возможно; но что, если вы что-то упустили?
Они предлагают что-то, что кажется слишком хорошим, чтобы быть правдой?
Как долго должен быть тег заголовка и какая информация должна быть включена?
Может быть, мне нужен VnExpress, чтобы спросить VFF: почему я?
Какую стратегию вы использовали, чтобы помочь команде Вьетнама U23 преобразоваться за короткий промежуток времени?
Это может быть хорошим описанием того, что делает ваш бизнес, но может ли оно быть ценным для видимости вашего сайта в Интернете?