Индексируем нужный контент
Создаем инструкции по индексированию для робота — файл robots.txt
Популярные ошибки:
- Закрытие промежуточных страниц для робота
disallow:/category/$ - Некорректные указания на главное зеркало
Используем директиву host:
- должна включать www ИЛИ без www
- с http или с https
- Punycode для кириллицы
Анализируем robots.txt в панели вебмастера
Почему может не индексироваться страница
Проблемы в коде
Нет или некорректные title и description
Не закрыт тег noindex
скрипты или AJAX не индексируются
чем опасны дубли страниц
может сменится релевантная страница
может изменится url
мешает сбору статистики
Как найти дубли страниц
В Yandex вебмастере выбираем: Индексирование -> Страницы в поиске -> Исключенные ->Исключенные страницы -> Фильтр по дублям
Что делать с дублями страниц на сайте
Закрываем от индексации в robots.txt
Обычно это бывают служебные страницы:
Сортировки — site.ru/page?sort=price
UTM-метки — site.ru/page?utm_source=adv
Страницы действий — site.ru/page?add_basket=yes
Если у вас:
один товар в нескольких категориях или страницы пагинации
Используем атрибут rel=»canonical» тега c указанием канонической страницы
Если у вас явные дубли, например
site.ru/page и site.ru/page/
Используем 301 редирект
Ускоряем индексирование
Создаем карту сайта — sitemap.xml
- В карту добавляем только то что должно индексироватся
- Не должно быть битых ссылок
- Проверяйте время возврата страницы sitemap.xml ,если долго робот может не дождаться
- Регулярно обновляйте
Проверяем в панели вебмастера
Не используйте без необходимости директиву Crawl-delay
Используем переобход в панели вебмастера Yandex для быстрого добавления новых страниц
Не индексируем ненужное
Как узнать какие страницы индексирует робот и убрать лишнее ?
-
- Используем статистику обхода
- Выбираем «мусорные/ненужные» страницы
- Создаем robots.txt
Какие страницы закрывать в robots.txt
- Страницы фильтров и сортировок
- Страницы действий (Корзина,сравнение,избранное)
- Поиск по сайту
- Служебные(системные каталоги),конфиденциальные данные
- Админку
- Идентификаторы сессий, UTM
!!! Закрываем все что не нужно пользователям поисковой системы!!!
Следит за корректным ответом сервера (200…)
Частые вопросы:
две категории товаров робот считает дублями, что делать ?
Поставить разный title,h1,description и текст,картинки
Если робот обошел страницу, значит ли это что уже поменялся Title итд в выдаче ?
обычно требуется 3-5 дней после обхода, чтобы изменения вступили в силу
Исправлять ли ошибку «image…» в файле sitemap.xml ?
Нет, робот проигнорирует ее
Если сервер начинает висеть от запросов робота, можно ли использовать crawl-delay ?
Да можно. Находим причины почему робот обращается часто(смотрим статистику обхода), устраняем проблему и необходимость в директиве отпадет.
Заключение
Индексируем нужное
Индексируем быстро
Не индексируем ненужное(служебное…)
Полезные инструменты Яндекс вебмастера
-
- Проверка ответа сервера
webmaster.yandex.ru/tools/server-response/
-
- Анализатор robots.txt
webmaster.yandex.ru/tools/robotstxt/
-
- Анализатор Sitemap
webmaster.yandex.ru/tools/sitemap/
-
- Статистика обхода
webmaster.yandex.ru/site/indexing/indexing/
-
- Страницы в поиске
webmaster.yandex.ru/site/indexing/searchable/
ПРУФ
Выгружаем список страниц сайта с помощью sitemap.xml или программы Screaming Frog, заносим их в Excel,выделяем колонку, жмем Найти-Заменить
Как найти непроиндексированные страницы Google и Yandex
Заходим в Key Collector, меняем настройки ,нажимаем Добавить фразы, переносим колонку с Excel и парсим. Там где в колонке «Конкуренция в ПС…» стоит 0 — значит та страница не в Индексе