Марат-блог
Услуги по продвижению и разработке сайта
Отправить заявку
Заказать обратный звонок

Спасибо, Ваша заявка принята.

В ближайшее время менеджер свяжется с Вами.

Главная » SEO » Основы внутренней оптимизации. Индексация страниц сайта.
Основы внутренней оптимизации. Индексация страниц сайта.
SEO
1006
20 августа 2014

Основы внутренней оптимизации. Индексация страниц сайта.

Однако, определенную роль во внутренней оптимизации играют факторы, никак не связанные с контентом (назовем их неконтентными факторами). Одним из таких факторов является корректная индексация страниц сайта.

Необходимыми (но недостаточными!) условиями для попадания страницы в индекс являются следующие:

  • значение HTTP-статуса страницы, отдаваемого индексирующему роботу поисковой машины, должно иметь значение 200 ОК; 
  • отсутствие запрета на индексацию данной страницы; 
  • URL страницы должен быть известен поисковой машине.

Проверить HTTP-статус страницы «глазами» индексирующего робота и отсутствие запрета на ее индексацию в файле robots.txt можно в разделе «Проверка ответа сервера» Яндекс.Вебмастера, причем эта проверка производится только для тех сайтов, права на которые подтверждены в вашем аккаунте. В Инструментах для вебмастера Google для того, чтобы проверить, доступна ли конкретная страница сайта для индексации, можно воспользоваться режимом «Посмотреть как Googlebot» в разделе «Содержимое сайта». Запретить индексацию страницы можно несколькими способами: 

  • с помощью файла robots.txt 
  • с помощью специальных директив в HTML-тегах в коде страницы 
  • изменяя настройки инструмента «Параметры URL» в разделе «Сканирование» Инструментов для вебмастера Google.

В файле robots.txt это можно сделать с помощью директив Disallow и Clean-param. Достаточно подробную справку по правилам составления файла robots.txt можно найти в разделе «Использование robots.txt» Помощи вебмастеру Яндекса и в разделе «Блокировка URL при помощи файла robots.txt» Справки Google.

Проверить корректность файла robots.txt можно в разделе «Анализ robots.txt» кабинета вебмастера Яндекса (причем, это можно сделать для любого сайта, а не только для тех, на которые подтверждены права) и в разделе «Инструмент проверки файла robots.txt» Инструментов для вебмастера Google (только для сайтов с подтвержденными правами).

К директивам, c помощью которых можно запрещать страницу к индексации, относятся мета-тег robots и атрибут rel="canonical" тега . Справочную информацию по их использованию можно найти на страницах Помощи Яндекса и Справки Google. Справку по работе с инструментом «Параметры URL» раздела «Сканирование» Инструментов для вебмастера Google можно найти на странице https://support.google.com/webmasters/answer/1235687?hl=ru.

Для того, чтобы индексирующий робот нашел данную страницу, достаточно одной ссылки на неё со станицы, которая уже есть в индексе поисковика. Также о новых страницах на сайте можно сообщать поисковой машине с помощью файла Sitemap (справочную информацию по нему можно найти в Помощи Яндекса и Справке Google).

Но даже, если робот узнает о странице и посетит ее, то еще не факт, что она попадет в индекс. Проверить, знает ли индексатор Яндекса о конкретной странице, и включена ли она в поисковую базу, можно в разделе «Проверить URL» Кабинета вебмастера Яндекса. Есть несколько вариантов ответов:
В данный момент адрес страницы неизвестен роботу

  • Адрес страницы уже известен роботу, но в данный момент контент страницы ещё не проиндексирован. 
  • Страница была проиндексирована роботом и присутствует в поиске 
  • Страница обходится роботом, но отсутствует в поиске 
  • Страница обходится роботом, но отсутствует в поиске, поскольку дублирует уже имеющиеся на вашем сайте страницы.

Первый вариант ответа говорит нам о том, что, во-первых, у индексатора нет информации о том, что данная страница существует. Поэтому необходимо убедиться, что поисковый робот видит данную страницу, и она отдает ему отклик 200 указанным выше способом, а также разместить ссылку на нее на какой-либо странице, уже ранее проиндексированной поисковой машиной. Также для того, чтобы сообщить о странице индексирующему роботу, SEO-специалисты используют размещение ссылок на нее в Твиттере. Более того, до недавнего времени информирование индексатора о новой странице через Твиттер считалось SEO-специалистами наиболее быстрым и надежным способом, позволяющим обеспечить попадание страницы в поисковый индекс Яндекса буквально за считанные дни. Однако в последнее время в профессиональных дискуссиях все чаще появляются сообщения, что этот способ перестает работать. Возможно, виной тому стали промышленные способы эксплуатации данного способа «загона страниц в индекс», и Яндексом были повышены требования к характеристикам аккаунтов, информацию из которых следует учитывать при поиске новых страниц. Также первый вариант ответа может возникать в случаях, когда страница запрещена к индексации в файле robots.txt.

Однако основную проблему, связанную с индексацией, составляют варианты 4 и 5, когда индексирующий робот обходит страницу, но не включает ее в поисковый индекс. Это может быть связано, как с техническими параметрами страницы, такими как запрет к индексации с помощью мета-тега noindex или атрибута rel="canonical" тега . Но может иметь место и классификация алгоритмом данной страницы, как не имеющей достаточно ценного содержания. В таком случае говорят, что страница попадает в «скрытый индекс». Как с этим бороться?

Во-первых, страница может быть признана полным или нечетким (частичным) дубликатом уже имеющейся в индексе страницы (вариант ответа номер 5). Такое часто случается с однотипными страницами (например, номенклатурными единицами каталога продукции), которые отличаются друг от друга лишь незначительным по удельному объему текстом. В этом случае, необходимо повышать удельную долю уникального текста на страницах – расширять индивидуальное описание и по возможности закрывать от индексации текстовые элементы, общие для всех страниц данного типа (например, пункты меню, новостную ленту, фрагменты «шапки», «подвала» и т.п.)

Во-вторых, страница может иметь недостаточное количество статического веса. Например, она имеет достаточно глубокий уровень вложенности и имеет при этом сравнительное небольшое количество внутренних ссылок. Здесь можно посоветовать оптимизировать структуру сайта, уменьшая уровень вложенности информативных страниц, и плотнее их перелинковывая друг с другом. Также можно посоветовать использовать внешние ссылки с других сайтов.

В-третьих, сам сайт может иметь достаточно низкий уровень авторитетности в глазах поисковой машины. Неуникальный контент, примитивный дизайн, слабая посещаемость, малое количество внешних входящих ссылок, с таких же малоавторитетных ресурсов, злоупотребление платными ссылками и рекламой – вот типичный портрет целевой аудитории алгоритма серии АГС (подробнее смотри в моей статье http://www.searchengines.ru/articles/sergey_lyudkevich.html), который методично отправляет целые сайты в скрытый индекс.

Резюмируя, можно отметить, что проблема индексации сайта, конечно же, является не самой сложной из проблем современного SEO. Как правило, достаточно овладеть базовым справочным материалом по теме и тщательно следовать его рекомендациям. Однако с пренебрежением относиться к данному вопросу тоже не стоит, дабы неожиданно не столкнуться с неприятностями, которые могут существенно затормозить продвижение сайта.