Robots.txt: руководство пользователя - Learn SEO

1. Что такое файл Robots.txt?
Некоторые конкретные примеры:
1. Заблокировать все сканеры для всех страниц сайта.
2. Разрешить всем сканерам посещать все страницы сайта
3. Заблокируйте определенный сканер для определенного каталога.
4. Заблокируйте определенный сканер для определенной веб-страницы.
2. Где находится этот файл?
3. Как работает Robots.txt?
4. Синтаксис файла
5. 6 причин абсолютно использовать этот файл на вашем сайте
6. SEO и robots.txt: лучшие практики
заключение

Программа того, что мы увидим в этом курсе:

1. Что такое файл Robots.txt?
2. Где этот файл?
3. Как работает Robots.txt?
4. Синтаксис файла
5. 6 причин абсолютно использовать этот файл на вашем сайте
6. SEO и Robots.txt: лучшие практики

1. Что такое файл Robots.txt?

Файл Robots.txt представляет собой текстовый файл, который позволяет различным веб-роботам, включая сканеры поисковых систем, понимать, как перемещаться по страницам вашего сайта.

Файл Robots.txt является частью протокола исключения роботов (BSR), который представляет собой группу веб-стандартов, определяющих, как роботы исследуют Интернет, получают доступ к контенту, индексируют его и обслуживают его пользователям. пользователи. REP также включает другие директивы, такие как Meta Robots или инструкции, касающиеся обработки ссылок поисковыми системами, такими как rel follow / nofollow.

На практике файл Robots.txt указывает, могут ли некоторые «пользовательские агенты» (программное обеспечение, сканирующее сеть) анализировать части веб-сайта или нет. Это делается через разрешения или запреты, которые мы увидим ниже.

Базовый формат файла Robots.txt:

Пользователь-агент: [Имя пользователя-агента]
Разрешить / запретить: [URL-адрес, на который указывает авторизация или запрет]

Это 2 строки считаются полным файлом robots.txt. Однако можно умножить директивы для разных User-агентов и добавить другие полномочия или запреты, просто разделив их пустой строкой.

Пользователь-агент: Googlebot-Image
Disallow: / новости
Запретить: / ресурсы
Агент пользователя: msnbot-media
Disallow: /

В этом случае необходимо учитывать директивы в блоках, каждый блок отделяется пустой строкой. В этом примере пользовательский агент "Googlebot-Image" не будет иметь права просматривать / новости и / / ресурсы, однако он сможет исследовать другие части сайта. С другой стороны, пользовательский агент "msnbot-media" не будет иметь права исследовать сайт целиком (Disallow: /).
Все остальные User-агенты (User-agent: *), не упомянутые в robots.txt, могут исследовать весь сайт.

Некоторые конкретные примеры:

Мы возьмем вымышленный пример сайта https://www.apprendre-le-seo.com/

1. Заблокировать все сканеры для всех страниц сайта.

Пользователь-агент: *
Disallow: /

Эта директива указывает, что все пользовательские агенты (*) не сканируют ни одну страницу сайта, включая домашнюю страницу.

2. Разрешить всем сканерам посещать все страницы сайта

Пользователь-агент: *
Disallow:

Эта директива указывает, что все пользовательские агенты (*) сканируют все страницы сайта, включая домашнюю страницу.

3. Заблокируйте определенный сканер для определенного каталога.

Пользователь-агент: Googlebot
Disallow: / sample-directory /

Эта директива сообщает пользовательскому агенту Googlebot (который является поисковой системой Google) не посещать URL-адреса формы "www.learning-le-seo.com/example-directory/".

4. Заблокируйте определенный сканер для определенной веб-страницы.

Пользователь-агент: Bingbot
Disallow: /info-pratique/mentions-legales.html

В этой директиве пользовательскому агенту Bingbot (который является поисковой системой Bing) запрещается посещать URL-адрес "www.apprendre-le-seo.com/info-pratique/mentions-legales.html".

2. Где находится этот файл?

Все сканеры, всякий раз, когда они сканируют сайт, начинают с поиска файла robots.txt для получения инструкций. И для упрощения было решено, что этот файл всегда будет находиться в одном и том же месте в корне основного каталога (корневого домена).

Если пользователь-агент заходит на сайт www.learning-le-seo.com/robots.txt и не может найти файл robots.txt, он предполагает, что на сайте его нет, и приступит к полному исследованию страница или сайт. То же самое, если файл находится в другом каталоге, например, www.apprendre-le-seo.fr/home/robots.txt, он не будет найден.

3. Как работает Robots.txt?

Поисковые системы имеют 2 основные роли:

сканировать в Интернете, чтобы обнаружить новый контент
индексировать контент, чтобы предоставлять его пользователям в поисковых системах

Чтобы исследовать сайты, сканеры переходят по ссылкам, с которыми они сталкиваются, и переходят с одного сайта на другой. Это исследовательское поведение иногда называют "пауком".
Прежде всего, когда сканер прибывает на сайт, он ищет файл robots.txt. Если он найдет файл, сканер прочитает его перед началом сканирования сайта, чтобы получить все инструкции по сканированию сайта.

Некоторая дополнительная информация:

Чтобы быть найденным, robots.txt должен быть помещен в корень домена.

Имя файла чувствительно к регистру, поэтому вы должны назвать его robots.txt в нижнем регистре (не Robots.txt или robots.TXT).

Некоторые пользовательские агенты могут не уважать файл robots.txt. Это относится ко всем нетрадиционным роботам или вредоносным роботам.

Файл robots.txt является общедоступным файлом (если он существует) на всех доменах. Просто добавьте /robots.txt после URL сайта и сразу за доменом. Это означает, что все могут видеть страницы, которые вы хотите запретить доступ сканерам. Мы должны быть осторожны, чтобы не разглашать информацию или URL, которые вы хотите скрыть. Для этого последнего случая мы выберем Meta-роботов или X-роботов.

Каждый поддомен использует отдельные файлы robots.txt. Например, blog.apprendre-le-seo.com будет иметь файл роботов по адресу blog.apprendre-le-seo.com/robots.txt, который отличается от основного домена www.apprendre-le-seo.com/robots.txt.

Как правило, рекомендуется указывать роботам, где размещать карты сайта на вашем сайте (см. Следующую главу).

4. Синтаксис файла

Синтаксис файлов robots.txt довольно прост. Это позволяет роботам понимать 5 команд:

User-agent: веб-сканер, который дает инструкции. Например, мы находим Googlebot или MSNbot, вот список роботов ,
Disallow: Используется, чтобы указать агенту пользователя не анализировать конкретный URL-адрес или подпапку.
Разрешить (применимо только для робота Google): используется для указания роботу робота, что он может получить доступ к странице или подпапке, даже если его родительская страница или подпапка может быть отключена.
Задержка сканирования: количество секунд, которое робот должен ждать перед загрузкой и анализом содержимого страницы. Обратите внимание, что робот Googlebot не распознает эту команду.
Карта сайта: используется для указания местоположения карты сайта или карты сайта. Этот заказ учитывается только Google, Ask, Bing и Yahoo.

На уровне URL вы можете очень точно указать, что вы хотите исключить, поскольку вы можете создавать шаблоны с двумя подстановочными знаками:

звездочка (*): которая представляет любую последовательность символов
доллар ($): что соответствует концу URL

Это очень важно, потому что вы можете сказать роботам не сканировать URL с параметром (наличие? В URL). Вот как установить файл для этого:

Пользователь-агент: *
Disallow: / *?

С помощью этого параметра мы исключим все URL-адреса со знаком «?». Например, «www.apprendre-le-seo.com/actualite?sort=date» не будет исследоваться, однако «www.apprendre-le-seo.com/actualite» будет, потому что иначе ничего не сказано.
Благодаря wilcards вы можете заблокировать движки при поиске на своей странице поиска, которая часто предоставляет дублированный контент или неподходящие результаты, или заблокировать результаты граненого списка, позволяющего ограничить результаты или отсортировать их, и какие часто приносит дублированный контент.

Мы также можем благодаря групповым символам заблокировать исследование некоторых файлов:

Пользователь-агент: *
Disallow: /*.pdf$

Здесь для всех User-агентов мы заблокируем исследование PDF или .pdf в конце URL (символ «$»).

5. 6 причин абсолютно использовать этот файл на вашем сайте

Файл robots.txt, как было показано ранее, позволяет контролировать доступ к определенным частям сайта. Будьте осторожны с этим файлом, потому что вы можете просто запретить Google просматривать весь ваш сайт!

Причины, по которым абсолютно необходимо использовать файл robots.txt:

предотвратить дублирование контента и, следовательно, обесценивание некоторых ваших страниц
сохранить часть частного сайта
не индексируйте свои страницы поиска, чтобы они не попали в выдачу
укажите путь к вашей карте сайта
не индексируйте некоторые из ваших файлов как изображения или PDF, например.
укажите задержку сканирования, чтобы сканеры не выполняли слишком много запросов одновременно и не перегружали сервер (ы)

Даже несмотря на то, что файл robots.txt не требуется, все же рекомендуется иметь его как минимум для карты сайта.

6. SEO и robots.txt: лучшие практики

Вы понимаете, что этот файл важен для SEO: дублированный контент, карта сайта, доступ к определенным файлам, доступ к определенному контенту / категориям и т. Д.

Вот хорошие практики SEO для использования robots.txt:

Обязательно не блокируйте те части сайта, которые мы хотели бы видеть проиндексированными поисковыми системами.
Ссылки на страницах, которые вы блокируете через robots.txt, не будут отслеживаться, поскольку страницы не будут сканироваться (если только эти страницы не связаны с другими доступными ссылками). И поэтому целевые страницы этих ссылок также не будут изучаться. У вас должно быть четкое представление о том, как будут двигаться роботы, если вы решите заблокировать определенный доступ.
Не используйте файл robots.txt для предотвращения попадания конфиденциальных данных (таких как конфиденциальная информация о пользователях) в SERP. На других страницах могут быть ссылки на страницы, которые вы хотите заблокировать, и, таким образом, они могут обходить правила robots.txt. В результате страницы, которые вы хотите заблокировать, могут быть проиндексированы в Google. Чтобы блокировать страницы такого рода, вы должны использовать другие методы защиты, например, защиту с помощью логина и пароля и / или директивы Meta robots noindex, например.
Некоторые поисковые системы имеют несколько пользовательских агентов, таких как Google с Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Таким образом, вы можете уточнить, как вы хотите, чтобы ваш контент сканировался / индексировался.

заключение

Файл robots.txt является важным файлом для SEO, чтобы не пренебрегать. С ним следует обращаться осторожно. Помимо прочего, он позволяет избежать дублирования контента, указать карту сайта, ограничить доступ к определенным файлам, ограничить доступ к определенному контенту / категориям и изменить частоту сканирования.
Существуют и другие методы блокирования сканирования и индексации страниц, такие как мета-роботы или HTTP-заголовки X-Robots, поэтому я остановлюсь на этом в будущем классе.

Но все это очень технически, так как вы поймете, как это работает, и как вы сможете показать разработчику, как правильно кодировать в Ajax, оставаясь при этом совместимым с SEO?
Но все это очень технически, так как вы поймете, как это работает, и как вы сможете показать разработчику, как правильно кодировать в Ajax, оставаясь при этом совместимым с SEO? Демо-версия «Поиск в предвидении» Чтобы помочь понять принцип метода, рекомендованного Google, мы опубликовали онлайн-демонстрацию использования подхода, поддерживаемого Google, в двух типичных случаях: загрузка содержимого страницы в Ajax бесконечная страница прокрутки

Вы уже изучили, что такое SEO, но как именно вы начнете его использовать?
Вы уже изучили, что такое SEO, но как именно вы начнете его использовать? Что вы должны сделать, чтобы получить более высокую позицию в Google? В этом блоге я дам вам 5 советов по SEO, с которыми вы можете начать прямо сейчас. Эти советы приведены в инфографике, и я объясню вам дальше вниз по странице. Начните свой онлайн успех сегодня!

Что такое Google Adsense и как он работает?
Что такое Google Adsense и как он работает? Если вы еще не знаете, что такое Google Adsense и как он работает, позвольте мне сначала сделать несколько мазков перед тем, как войти в тему. Если вы уже знаете систему, просто пропустите эту часть. Google Adsense - это рекламная онлайн-платформа Google, которая позволяет создателям контента (авторам блогов и т. Д.) Получать доход очень простым и быстрым способом, включающим вставку

Я знаю, что мы все были на тех страницах, где просто спам, и вы попадаете туда и думаете: «Что я здесь делаю?
Я знаю, что мы все были на тех страницах, где просто спам, и вы попадаете туда и думаете: «Что я здесь делаю? Нет ничего, что стоило бы мне быть здесь. Вы уходите, чтобы найти реальный ответ где-нибудь еще. У меня есть несколько советов, которые помогут вам предоставить посетителям интересный контент. Сначала вы должны попытаться сосредоточиться на одной теме. Не пытайтесь охватить все на одной странице. Действительно сузьте это, чтобы сосредоточиться

Теперь, когда у вас есть длинный список ключевых слов, как вы узнаете, какие термины выбрать и использовать на вашем сайте?
Теперь, когда у вас есть длинный список ключевых слов, как вы узнаете, какие термины выбрать и использовать на вашем сайте? Первая часть головоломки заключается в понимании трех основных типов ключевых слов: короткий, средний и длинный хвост. Ключевые слова с коротким хвостом имеют более высокие объемы поиска, но их очень сложно ранжировать (особенно для новых веб-сайтов). Обычно они состоят из 1-2 слов. Пример «Магазин соков» Ключевые слова

Как убедиться, что SEO не пытается оптимизировать страницу, которая менее важна, чем другая, или которая находится под угрозой, и которая не будет двигаться без полной очистки?
Как убедиться, что SEO не пытается оптимизировать страницу, которая менее важна, чем другая, или которая находится под угрозой, и которая не будет двигаться без полной очистки? Короче, как мы узнаем, что мы не передадим мазь на деревянной ноге? Это то, что служит SEO-аудитом. SEO-анализ может быть необходим на нескольких этапах существования сайта: при его создании; для целей редизайна или миграции; обойти штраф, который заставляет его растянуть в нижней части результатов;

Что такое контент-маркетинг и как мы можем помочь вам использовать его для привлечения большего количества клиентов?
Что такое контент-маркетинг и как мы можем помочь вам использовать его для привлечения большего количества клиентов? Контент-маркетинг - это постоянная маркетинговая стратегия, которая опирается на производство высококачественного контента для привлечения, обучения и конвертации зрителей, которые он приносит на ваш сайт. Цель состоит в том, чтобы нацеливать популярные ключевые слова (продукты, услуги, города, почтовые индексы) на создание высококачественного контента,

У нас также есть кое-что, что мне показалось интересным, и, конечно, все это нацелено на Google, так же, как и само SEO, верно?
У нас также есть кое-что, что мне показалось интересным, и, конечно, все это нацелено на Google, так же, как и само SEO, верно? Also У нас также есть заметки с конференции State of Search! Новости Google Поисковая консоль может отправлять сообщения о проблемах индексации на мобильных устройствах после развертывания - В видеовстрече с Джоном Мюллером он сказал,

В конце концов, если кто-то прочитал все, что можно увидеть на вашем сайте, какой смысл возвращаться дальше?
В конце концов, если кто-то прочитал все, что можно увидеть на вашем сайте, какой смысл возвращаться дальше? Блоги предлагают решение этой проблемы, демонстрируя свежий, актуальный контент как можно чаще. Добавляя блог на свой сайт, вы не только повышаете SEO присутствие, но вы даете людям повод посетить ваш сайт снова. Кроме того, блоги - это отличный способ использовать социальные сети, так как они легко доступны

Что такое SEO Оптимизация сайта - определение?
Что такое SEO Оптимизация сайта - определение? Когда вы ищете Google , Yahoo или Бинг , вы вводите поисковый запрос в поле поиска. Искатель выкидывает результаты. Оптимизация сайта для поисковых систем означает принятие определенных мер, чтобы

Как узнать, есть ли на вашем сайте 404 страницы?
Как узнать, есть ли на вашем сайте 404 страницы? Если ваш сайт не подключен к Инструментам для веб-мастеров, самое время это сделать. После подключения сайта войдите в категорию «Сканирование», а затем «Ошибки сканера». На вкладке «Ошибки сканирования» вы можете получить все 404 страницы, которые Google определил, в том числе когда они впервые их нашли и когда они в последний раз сканировались. Вы можете загрузить отчет обо всех ошибках в файле

Txt?
2. Где находится этот файл?
Txt?
Txt?
2. Где этот файл?
Txt?
Txt?
2. Где находится этот файл?
Txt?
Наличие?

Robots.txt: инструкция по применению