Справочное руководство по протоколу исключения роботов

Например:
Типичное использование веб-роботов, чтобы быть в курсе
Вступление
Например:
Например:
Например:
Например:
Например:
Например:
Например:

Эта статья и загружаемое руководство обновлены по состоянию на июнь 2018 года.

Протокол исключения роботов - очень простой, но мощный механизм, доступный для веб-мастеров и SEO так же. Возможно, именно простота файла означает, что он часто упускается из виду и часто является причиной одной или нескольких критических проблем поисковой оптимизации. С этой целью мы попытались собрать воедино уловки, советы и примеры, чтобы помочь с реализацией и управлением файлом robots.txt.

Мы подготовили эту информацию также в виде загружаемого файла PDF. Вы можете скачать руководство здесь: Руководство по протоколу исключения роботов ,

Поскольку многие нестандартные объявления REP, поддерживаемые поисковыми системами, могут измениться, мы будем обновлять их в будущем.

Файл robots.txt определяет протокол исключения роботов (REP) для веб-сайта. Файл определяет директивы, которые исключают веб-роботов из каталогов или файлов на хосте сайта. (Обычно это поисковые роботы, но есть и другие роботы, которые придерживаются REP - см. Раздел «Веб-роботы» ниже).
Файл robots.txt определяет директивы сканирования, а не индексирует директивы.
Хорошие веб-роботы (такие как GoogleBot и Bingbot) придерживаются директив в вашем файле robots.txt. Плохие веб-роботы не могут. Не полагайтесь на файл robots.txt для защиты личных или конфиденциальных данных от поисковых систем.
Файл robots.txt общедоступен, поэтому не включайте в него какие-либо файлы или папки, которые могут содержать критически важную для бизнеса информацию.

Например:

Папки для анализа веб-сайтов (/ webstats /, / stats / etc).
Области тестирования или разработки (/ test /, / dev /).
Элемент XML Sitemap, если ваша структура URL содержит важную таксономию.

Если URL-адрес перенаправляется на URL-адрес, заблокированный файлом robots.txt, первый URL-адрес будет зарегистрирован как заблокированный файлом robots.txt в Инструментах Google для веб-мастеров (даже если URL-адрес указан как разрешенный в инструменте анализа robots.txt ).
Поисковые системы могут кэшировать ваш файл robots.txt (например, Google может кэшировать ваш файл robots.txt в течение 24 часов). Обновите соответствующие правила в файле robots.txt за 24 часа до добавления контента, в противном случае исключенного из текущих инструкций REP.
При развертывании нового веб-сайта из среды разработки всегда проверяйте файл robots.txt, чтобы убедиться, что ключевые каталоги не исключены.
Исключение файлов, использующих robots.txt, не может сохранять (или перераспределять) бюджет сканирования из одного сеанса сканирования. Например, если Google не может получить доступ к нескольким файлам, он может не сканировать другие файлы на их месте.
URL-адреса, исключенные REP, могут по-прежнему появляться в индексе поисковой системы.

Например:

Робот поисковой системы не посещал веб-сайт и не обрабатывал обновленные директивы.
Поисковая система идентифицировала URL через внешние ссылки на URL и сохраняла ссылку на URL. В этом случае поисковые системы будут использовать информацию из этих внешних источников, такую как текст привязки и окружающий текст входящих ссылок, для вынесения суждения о странице.
Популярность ссылок исключенной страницы может быть фактором, который может привести к индексации страницы.

URL, исключенные robots.txt, могут накапливать PageRank.
Это руководство содержит ссылки на дополнительные функциональные возможности robots.txt, которые не были частью исходной спецификации.

Файл должен быть в нижнем регистре (например, «robots.txt»).
Файл должен быть общедоступным.
Тип файла должен быть в стандартном формате (например, ASCII или UTF-8).
Файл должен находиться в корне хоста сайта.

Например:

http://example.com/robots.txt.
http://www.example.com/robots.txt.
http://subdomain.example.com/robots.txt.
Файл также действителен для защищенных версий домена (например, https://www.example.com/robots.txt).

Поисковые системы могут иметь длину robots.txt.

Веб-робот или веб-сканер - это компьютерная программа, которая методично и автоматически просматривает Всемирную паутину (WWW). Этот процесс называется ползанием или паутингом. Многие сайты, в частности поисковые системы, используют сканирование как средство предоставления актуальных данных. (Определение из Википедии)

Как правило, веб-робот должен запрашивать файл robots.txt при обращении к хосту веб-сайта; однако некоторые роботы могут кэшировать файл robots.txt или вообще его игнорировать.

Типичное использование веб-роботов, чтобы быть в курсе

Проверка ссылок (откройте Site Explorer).
Проверка кода HTML (инструмент проверки W3C).
Проверка URL (Xenu).
Сбор адресов электронной почты (обычно для спама).
Выскабливание контента (обычно для спама).
Услуги перевода (Yahoo BabelFish, Google Translate).
Загрузка веб-сайтов или локальное кеширование для последующего просмотра (winHTTrack).
Создание архива для исторических целей (Wayback Machine archive.org).
Вертикальный поиск (конкретные типы файлов, изображения, видео, аудио, торренты, файловые архивы).

Вертикальный поиск (конкретные типы файлов, изображения, видео, аудио, торренты, файловые архивы)

Вступление

Существует ряд типичных директив, действительных для наиболее распространенных веб-роботов (в файле robots.txt они называются User-agent).

Типичная структура:

User-agent:] - Имя веб-робота

Директивы] - правила для роботов, указанных агентом пользователя

Различные веб-роботы (пользовательские агенты) могут по-разному интерпретировать нестандартные директивы.
Каждая директива должна быть на отдельной строке.
Каждая директива состоит из элемента: пара инструкций. (Например, Disallow: / webmail /).

Элементы:

Агент пользователя:
Disallow:
Разрешать:
Noindex:
Карта сайта:
# (объявление комментария)

Каждый элемент должен быть в регистре слов (начинаться с заглавной буквы, а после букв в нижнем регистре).
Каждый элемент должен сопровождаться двоеточием (:) и пробелом перед инструкцией.
Каждая инструкция соответствует URI (папки и файлы вне корня URL, т. Е. Не включают домен в инструкцию)
Инструкции совпадают слева направо, что означает, что роботы заблокированы от всего, что начинается с / «pattern».
Каждая инструкция чувствительна к регистру.

User-agent определяет веб-робота, для которого применяются следующие правила.
Пользовательский агент может относиться к одному веб-роботу или ко всем пользовательским агентам, обозначенным подстановочным знаком «*».

Например:

User-agent: HAL] - Следующие директивы применяются только к «HAL»

User-agent: *] - следующие директивы применяются ко всем веб-роботам

Список общих User-агентов можно найти на сайтах ниже:

Правило Disallow указывает папку, файл или даже весь каталог, который исключается из доступа веб-роботов.

Например:

# Разрешить роботам паук весь сайт

Пользователь-агент: *

Disallow:

# Запретить всех роботов со всего сайта

Пользователь-агент: *

Disallow: /

# Запретить всех роботов из «/ myfolder /» и всех подкаталогов «myfolder»

Пользователь-агент: *

Disallow: / myfolder /

# Запретить всем роботам доступ к любому файлу, начинающемуся с «myfile.html»

Пользователь-агент: *

Disallow: /myfile.html

# Запретить «googlebot» доступ к файлам и папкам, начинающимся с «my»

Пользователь-агент: googlebot

Disallow: / мой

Правило «Разрешить» - это «нестандартное» правило, которое позволяет веб-мастеру предоставлять более детальный доступ или сложные правила.

Уточняет предыдущие «запретить» заявления.

# Запретить всех роботов из папки / scripts /, кроме page.php

Disallow: / scripts /

Разрешить: /scripts/page.php

# Сообщает роботам, что они могут получить http://example.com/scripts/page.php,

# или http://example.com/scripts/page.php?article=1,

# но не любой другой URL в http://example.com/scripts/folder.

Разрешить имеет приоритет над запретом при интерпретации Google, Bing и Yahoo, однако стараются избегать противоречивых указаний, поскольку это может стать неуправляемым или привести к непредсказуемым результатам с разными роботами.

Например:

# Запретить «googlebot» доступ к файлам и папкам, начинающимся с «my»

Пользователь-агент: googlebot

Disallow: / мой

Директива noindex «неофициально» поддерживается только Google.
Директива Noindex действует в соответствии с директивой Disallow и, кроме того, удаляет все соответствующие URL-адреса сайтов из Google.
Используйте директиву Noindex с осторожностью, так как поведение или поддержка могут измениться.

Объявление Sitemap указывает на файл XML Sitemap или индексный файл XML Sitemap.
Элемент sitemap должен указывать на абсолютный URL (в отличие от других элементов). Например, файл Sitemap: http://www.example.com/sitemap.xml.
Файл robots.txt может иметь несколько объявлений Sitemap.
Объявление карты сайта может указывать на стандартный несжатый XML-файл или сжатую версию.
Если ваш XML Sitemap содержит важные для бизнеса данные, которые вы не хотите, чтобы ваши конкуренты видели, не используйте эту инструкцию. Вместо этого переименуйте ваш XML Sitemap, чтобы его было трудно угадать, и отправьте его через Google, Yahoo! и инструменты Bing для веб-мастеров.
Многие поисковые системы пытаются автоматически обнаружить файл Sitemap в формате XML с помощью объявления карты сайта в файле robots.txt.
Автоматическое обнаружение файла Sitemap с помощью robots.txt не заменяет отправку файла Sitemap с помощью инструментов для веб-мастеров Google, Yahoo и Bing, где вы можете отправлять свои карты сайта и получать статистику индексации.

txt не заменяет отправку файла Sitemap с помощью инструментов для веб-мастеров Google, Yahoo и Bing, где вы можете отправлять свои карты сайта и получать статистику индексации

Директива Crawl-delay просит роботов сделать паузу между последующими запросами страниц.
Google не поддерживает директиву задержки сканирования.
Yahoo поддерживает задержку сканирования. Диапазоны, указанные Yahoo, варьируются от 0 до 10.
Yahoo поддерживает десятичные числа, однако больше не ссылается на задержку в секундах. Задержка сканирования - это относительное снижение скорости сканирования.
Bing поддерживает задержку сканирования. Диапазоны, указанные в Bing, варьируются от 1 до 10.
Bing не рекомендует использовать значения выше 10.
Bing поддерживает только положительные целые числа.

Например:

Без задержки сканирования Нормально 1 Медленно 5 Очень медленно 10 Очень медленно

Избегайте задержек при сканировании, если это возможно, или используйте с осторожностью, поскольку это может существенно повлиять на своевременное и эффективное отслеживание веб-сайта.

Звездочка (*) является символом подстановки. Он может применять директивы к нескольким роботам с одним набором правил или указывать один или несколько символов при объявлении инструкций.

# Следующее правило запретит googlebot доступ к любому URL

# содержащий «страницу»

Пользователь-агент: googlebot

Disallow: / * страница

# Это правило исключает следующие файлы и папки из googlebot

# и, таким образом, индексируется в Google

# beauty-pageants.php

# /myfolder/example-page.php

# / frontpage / (и все подпапки и файлы в этом каталоге)

* Также может означать «без символа»

Например:

Disallow: /*gallery/default.aspx

# Исключает /picture-gallery/default.aspx

# Также исключает /gallery/default.aspx

$ Означает любой URL, который заканчивается предыдущими символами.

Например:

# Исключить все вложенные файлы и папки из каталога, но разрешить

# доступ к целевой странице

Disallow: / веб-почта /

Разрешить: / веб-почта / $

Можно комбинировать символы подстановки $ и *.

Можно комбинировать для разрешений и запретов директив.

Например:

# Запретить все файлы asp

Disallow: / * asp $

# Это не исключает файлы со строками запросов или папками из-за $

# Исключено - / pretty-wasp

# Исключено - /login.asp

# Не исключено - /login.asp?forgotton-password=1

У Google есть отличное руководство по кодированию символов в файле robots.txt: Robots.txt Технические характеристики ,

Некоторые интересные файлы robots.txt:

Конкретные сведения о толковании директив REP ключевых поисковых систем см. На следующих веб-сайтах:

Многие из функций и советов, документированных в этой ссылке, могут быть экспериментальными или неофициально поддерживаемыми. Всегда проверяйте директивы REP, используя валидатор robots.txt, доступный по адресу:

Особая благодарность Джону Мюллеру (@johnmu) из Google за разъяснение некоторых действий GoogleBot.

Написал rbedford 17 августа 2010 года в 6:23 утра

5 Ответов на “Справочное руководство по протоколу исключения роботов”

Вы делаете все, чтобы быть уверенными, что помогаете своей компании быть успешной, насколько это возможно; но что, если вы что-то упустили?
Вы делаете все, чтобы быть уверенными, что помогаете своей компании быть успешной, насколько это возможно; но что, если вы что-то упустили? Это может быть SEO. Если вы еще не знакомы с SEO, это поисковая оптимизация. Поисковая оптимизация имеет решающее значение для расширения вашего бизнеса через ваш сайт. Подумайте, сколько раз вы искали что-то в поисковой системе, скажем, Google. Вы когда-нибудь задумывались, как именно Google знает, какие веб-сайты вам будут показывать, когда вы

Они предлагают что-то, что кажется слишком хорошим, чтобы быть правдой?
Они предлагают что-то, что кажется слишком хорошим, чтобы быть правдой? Избавься от них. Некоторые довольно крупные компании столкнулись с трудностями с Google за разрешение некачественных входящих ссылок. У Google есть инструмент отключения ссылок в Инструментах для веб-мастеров, который он предлагает владельцам сайтов. Используйте этот инструмент очень разумно. Это постоянное и радикальное решение, которое может иметь непредвиденные последствия, если вы не уверены, что ссылка наносит ущерб

Как долго должен быть тег заголовка и какая информация должна быть включена?
Как долго должен быть тег заголовка и какая информация должна быть включена? Максимум 70 символов долгое время считалось правилом. Обновления Google изменили интерпретацию тега заголовка, поэтому теперь он учитывает ширину пикселя каждой буквы и суммируется с общей шириной. Если эта ширина пикселя превышает максимум, заголовок сокращается на «...». OnPage SEO Контрольный список - Советы: Длина заголовка в пикселях должна быть в диапазоне 257-512

Может быть, мне нужен VnExpress, чтобы спросить VFF: почему я?
Может быть, мне нужен VnExpress, чтобы спросить VFF: почему я? Многие тренеры в Южной Корее хотят знать ответ, потому что в Южной Корее в настоящее время много молодых и талантливых тренеров. Я уже достаточно взрослый, чтобы уйти на пенсию. - Какую стратегию вы использовали, чтобы помочь команде Вьетнама U23 преобразоваться за короткий промежуток времени? Вы не должны говорить, что я превратил вьетнамскую футбольную команду во что-то еще, потому

Это может быть хорошим описанием того, что делает ваш бизнес, но может ли оно быть ценным для видимости вашего сайта в Интернете?
Это может быть хорошим описанием того, что делает ваш бизнес, но может ли оно быть ценным для видимости вашего сайта в Интернете? В 2012 году Мэтт Каттс, затем глава веб-спама Google, преуменьшает влияние расширения доменов на SEO , В то время он заявил, что «Google имеет большой опыт в возвращении соответствующих веб-страниц, независимо от домена верхнего уровня (TLD). Google попытается соответствующим образом

Ваш контент разделен так, что, например, он может быть разделен на свои собственные хранилища?
Ваш контент разделен так, что, например, он может быть разделен на свои собственные хранилища? Или имеет смысл расширять навигацию, например, с помощью мегаменю? Оба варианта позволяют по-разному автоматически связывать большое количество страниц с внутренними ссылками. В обоих случаях важно установить четкие стратегические цели. Стивен

Что может быть лучше, чтобы узнать, что интересует наших потенциальных клиентов, чем узнать ключевые слова, которые они используют в поисковых системах?
Что может быть лучше, чтобы узнать, что интересует наших потенциальных клиентов, чем узнать ключевые слова, которые они используют в поисковых системах? Распространение в социальных сетях. Чтобы связаться с нашими потенциальными клиентами через сети, лучше использовать одни слова лучше, чем другие. Для этого мы воплотим в жизнь не только воображение, но и предыдущее исследование. Ключевое слово

Таким образом, вместо того, чтобы задавать вопрос «является ли это оптимизированным для SEO», задайте себе вопрос «Является ли эта публикация работы настолько четкой и подробной, как и должно быть?
Таким образом, вместо того, чтобы задавать вопрос «является ли это оптимизированным для SEO», задайте себе вопрос «Является ли эта публикация работы настолько четкой и подробной, как и должно быть?» Если ответ «да», то поисковые системы будут вознаграждать вас. Чтобы получать такие сообщения в блоге прямо в свой почтовый ящик,

Вместо того, чтобы вводить «агентство недвижимости Паддингтон», они с большей вероятностью скажут что-то разговорное, например: «Какое агентство недвижимости в Паддингтоне является лучшим?
Вместо того, чтобы вводить «агентство недвижимости Паддингтон», они с большей вероятностью скажут что-то разговорное, например: «Какое агентство недвижимости в Паддингтоне является лучшим?» Или «Какой агент по недвижимости даст мне лучшую цену в Тураке?» Эйдан объясняет, что не совсем понятно, как Google интерпретирует голосовые поиски или «запросы на естественном языке», и поэтому он советует сосредоточиться на качественном контенте. «Благодаря личному разговорному стилю у вас будет больше

Или, может быть, если веб-мастеру нужна эта сеть, чтобы поесть или приехать в конце месяца?
Или, может быть, если веб-мастеру нужна эта сеть, чтобы поесть или приехать в конце месяца? Задавали ли вы себе эти вопросы, прежде чем стать маленьким ребенком? Я пишу эти вопросы, потому что я прекрасно знаю, что человек, который делает это, прочтет эту статью, и отсюда я посылаю сердечное приветствие. 3. История конфронтадора История атак этого человека идет издалека, отрицательный SEO это просто еще одна глава. Ранее он уже посвятил себя размещению

Предположительно он может, например, сказать: «Какое лучшее место, чтобы найти и съесть пиццу в стиле глубокого блюда Чикаго?
Предположительно он может, например, сказать: «Какое лучшее место, чтобы найти и съесть пиццу в стиле глубокого блюда Чикаго?» сделать вывод, что "ресторан" находится под "место". Как я узнаю, что я оштрафован? Google иногда уведомляет о штрафе по электронной почте или отображает его в Google Analytics. Часто проблема не отображается непосредственно в Google Analytics, но, например, вы можете нажать на HTML-анализ, чтобы найти, что Google обнаружил дублированный контент. Конечно,

Php?
Asp?
Другими словами, какой самый эффективный и чистый способ достижения вершины?
Итак, как вы можете использовать это в своих интересах?
Вы делаете все, чтобы быть уверенными, что помогаете своей компании быть успешной, насколько это возможно; но что, если вы что-то упустили?
Они предлагают что-то, что кажется слишком хорошим, чтобы быть правдой?
Как долго должен быть тег заголовка и какая информация должна быть включена?
Может быть, мне нужен VnExpress, чтобы спросить VFF: почему я?
Какую стратегию вы использовали, чтобы помочь команде Вьетнама U23 преобразоваться за короткий промежуток времени?
Это может быть хорошим описанием того, что делает ваш бизнес, но может ли оно быть ценным для видимости вашего сайта в Интернете?

Справочное руководство по протоколу исключения роботов

Например:

Например:

Например:

Типичное использование веб-роботов, чтобы быть в курсе

Вступление

Например:

Например:

Например:

Например:

Например:

Например:

Например:

5 Ответов на “Справочное руководство по протоколу исключения роботов”

Похожие

Комментарии