Главная / Техническая оптимизация / Индексирование — настройка

Индексирование — настройка

Индексируем нужный контент

Создаем инструкции по индексированию для робота — файл robots.txt

Популярные ошибки:

  1. Закрытие промежуточных страниц для робота
    disallow:/category/$
  2. Некорректные указания на главное зеркало

Используем директиву host:

  • должна включать www ИЛИ без www
  • с http или с https
  • Punycode для кириллицы

Анализируем robots.txt в панели вебмастера

Почему может не индексироваться страница

Проблемы в коде

Нет или некорректные title и description
Не закрыт тег noindex
скрипты или AJAX не индексируются

чем опасны дубли страниц

может сменится релевантная страница
может изменится url
мешает сбору статистики

Как найти дубли страниц

В Yandex вебмастере выбираем: Индексирование -> Страницы в поиске -> Исключенные ->Исключенные страницы -> Фильтр по дублям

Что делать с дублями страниц на сайте

Закрываем от индексации в robots.txt
Обычно это бывают служебные страницы:
Сортировки — site.ru/page?sort=price
UTM-метки — site.ru/page?utm_source=adv
Страницы действий — site.ru/page?add_basket=yes

Если у вас:
один товар в нескольких категориях или страницы пагинации
Используем атрибут rel=»canonical» тега c указанием канонической страницы

Если у вас явные дубли, например
site.ru/page и site.ru/page/
Используем 301 редирект

Ускоряем индексирование

Создаем карту сайта — sitemap.xml

  • В карту добавляем только то что должно индексироватся
  • Не должно быть битых ссылок
  • Проверяйте время возврата страницы sitemap.xml ,если долго робот может не дождаться
  • Регулярно обновляйте

Проверяем в панели вебмастера

Не используйте без необходимости директиву Crawl-delay

Используем переобход в панели вебмастера Yandex для быстрого добавления новых страниц

Не индексируем ненужное

Как узнать какие страницы индексирует робот и убрать лишнее ?

    1. Используем статистику обхода
  1. Выбираем «мусорные/ненужные» страницы
  2. Создаем robots.txt

Какие страницы закрывать в robots.txt

  1. Страницы фильтров и сортировок
  2. Страницы действий (Корзина,сравнение,избранное)
  3. Поиск по сайту
  4. Служебные(системные каталоги),конфиденциальные данные
  5. Админку
  6. Идентификаторы сессий, UTM

!!! Закрываем все что не нужно пользователям поисковой системы!!!

Следит за корректным ответом сервера (200…)

Частые вопросы:

две категории товаров робот считает дублями, что делать ?
Поставить разный title,h1,description и текст,картинки

Если робот обошел страницу, значит ли это что уже поменялся Title итд в выдаче ?
обычно требуется 3-5 дней после обхода, чтобы изменения вступили в силу

Исправлять ли ошибку «image…» в файле sitemap.xml ?
Нет, робот проигнорирует ее

Если сервер начинает висеть от запросов робота, можно ли использовать crawl-delay ?
Да можно. Находим причины почему робот обращается часто(смотрим статистику обхода), устраняем проблему и необходимость в директиве отпадет.

Заключение

Индексируем нужное
Индексируем быстро
Не индексируем ненужное(служебное…)

Полезные инструменты Яндекс вебмастера

    • Проверка ответа сервера

webmaster.yandex.ru/tools/server-response/

    • Анализатор robots.txt

webmaster.yandex.ru/tools/robotstxt/

    • Анализатор Sitemap

webmaster.yandex.ru/tools/sitemap/

    • Статистика обхода

webmaster.yandex.ru/site/indexing/indexing/

    • Страницы в поиске

webmaster.yandex.ru/site/indexing/searchable/

ПРУФ

Выгружаем список страниц сайта с помощью sitemap.xml или программы Screaming Frog, заносим их в Excel,выделяем колонку, жмем Найти-Заменить

Как найти непроиндексированные страницы Google и Yandex

Заходим в Key Collector, меняем настройки ,нажимаем Добавить фразы, переносим колонку с Excel и парсим. Там где в колонке «Конкуренция в ПС…» стоит 0 — значит та страница не в Индексе

ЧИТАЙТЕ ТАКЖЕ

Дополнительные рекомендации для сайта

Какую дополнительную информацию мы можем передать поиску Задать Регион — уточняем к какому региону относимся …

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *