Основы внутренней оптимизации. Индексация страниц сайта.

Однако, определенную роль во внутренней оптимизации играют факторы, никак не связанные с контентом (назовем их неконтентными факторами). Одним из таких факторов является корректная индексация страниц сайта.

Необходимыми (но недостаточными!) условиями для попадания страницы в индекс являются следующие:

значение HTTP-статуса страницы, отдаваемого индексирующему роботу поисковой машины, должно иметь значение 200 ОК;
отсутствие запрета на индексацию данной страницы;
URL страницы должен быть известен поисковой машине.

Проверить HTTP-статус страницы «глазами» индексирующего робота и отсутствие запрета на ее индексацию в файле robots.txt можно в разделе «Проверка ответа сервера» Яндекс.Вебмастера, причем эта проверка производится только для тех сайтов, права на которые подтверждены в вашем аккаунте. В Инструментах для вебмастера Google для того, чтобы проверить, доступна ли конкретная страница сайта для индексации, можно воспользоваться режимом «Посмотреть как Googlebot» в разделе «Содержимое сайта». Запретить индексацию страницы можно несколькими способами:

с помощью файла robots.txt
с помощью специальных директив в HTML-тегах в коде страницы
изменяя настройки инструмента «Параметры URL» в разделе «Сканирование» Инструментов для вебмастера Google.

В файле robots.txt это можно сделать с помощью директив Disallow и Clean-param. Достаточно подробную справку по правилам составления файла robots.txt можно найти в разделе «Использование robots.txt» Помощи вебмастеру Яндекса и в разделе «Блокировка URL при помощи файла robots.txt» Справки Google.

Проверить корректность файла robots.txt можно в разделе «Анализ robots.txt» кабинета вебмастера Яндекса (причем, это можно сделать для любого сайта, а не только для тех, на которые подтверждены права) и в разделе «Инструмент проверки файла robots.txt» Инструментов для вебмастера Google (только для сайтов с подтвержденными правами).

К директивам, c помощью которых можно запрещать страницу к индексации, относятся мета-тег robots и атрибут rel="canonical" тега . Справочную информацию по их использованию можно найти на страницах Помощи Яндекса и Справки Google. Справку по работе с инструментом «Параметры URL» раздела «Сканирование» Инструментов для вебмастера Google можно найти на странице https://support.google.com/webmasters/answer/1235687?hl=ru.

Для того, чтобы индексирующий робот нашел данную страницу, достаточно одной ссылки на неё со станицы, которая уже есть в индексе поисковика. Также о новых страницах на сайте можно сообщать поисковой машине с помощью файла Sitemap (справочную информацию по нему можно найти в Помощи Яндекса и Справке Google).

Но даже, если робот узнает о странице и посетит ее, то еще не факт, что она попадет в индекс. Проверить, знает ли индексатор Яндекса о конкретной странице, и включена ли она в поисковую базу, можно в разделе «Проверить URL» Кабинета вебмастера Яндекса. Есть несколько вариантов ответов:
В данный момент адрес страницы неизвестен роботу

Адрес страницы уже известен роботу, но в данный момент контент страницы ещё не проиндексирован.
Страница была проиндексирована роботом и присутствует в поиске
Страница обходится роботом, но отсутствует в поиске
Страница обходится роботом, но отсутствует в поиске, поскольку дублирует уже имеющиеся на вашем сайте страницы.

Первый вариант ответа говорит нам о том, что, во-первых, у индексатора нет информации о том, что данная страница существует. Поэтому необходимо убедиться, что поисковый робот видит данную страницу, и она отдает ему отклик 200 указанным выше способом, а также разместить ссылку на нее на какой-либо странице, уже ранее проиндексированной поисковой машиной. Также для того, чтобы сообщить о странице индексирующему роботу, SEO-специалисты используют размещение ссылок на нее в Твиттере. Более того, до недавнего времени информирование индексатора о новой странице через Твиттер считалось SEO-специалистами наиболее быстрым и надежным способом, позволяющим обеспечить попадание страницы в поисковый индекс Яндекса буквально за считанные дни. Однако в последнее время в профессиональных дискуссиях все чаще появляются сообщения, что этот способ перестает работать. Возможно, виной тому стали промышленные способы эксплуатации данного способа «загона страниц в индекс», и Яндексом были повышены требования к характеристикам аккаунтов, информацию из которых следует учитывать при поиске новых страниц. Также первый вариант ответа может возникать в случаях, когда страница запрещена к индексации в файле robots.txt.

Однако основную проблему, связанную с индексацией, составляют варианты 4 и 5, когда индексирующий робот обходит страницу, но не включает ее в поисковый индекс. Это может быть связано, как с техническими параметрами страницы, такими как запрет к индексации с помощью мета-тега noindex или атрибута rel="canonical" тега . Но может иметь место и классификация алгоритмом данной страницы, как не имеющей достаточно ценного содержания. В таком случае говорят, что страница попадает в «скрытый индекс». Как с этим бороться?

Во-первых, страница может быть признана полным или нечетким (частичным) дубликатом уже имеющейся в индексе страницы (вариант ответа номер 5). Такое часто случается с однотипными страницами (например, номенклатурными единицами каталога продукции), которые отличаются друг от друга лишь незначительным по удельному объему текстом. В этом случае, необходимо повышать удельную долю уникального текста на страницах – расширять индивидуальное описание и по возможности закрывать от индексации текстовые элементы, общие для всех страниц данного типа (например, пункты меню, новостную ленту, фрагменты «шапки», «подвала» и т.п.)

Во-вторых, страница может иметь недостаточное количество статического веса. Например, она имеет достаточно глубокий уровень вложенности и имеет при этом сравнительное небольшое количество внутренних ссылок. Здесь можно посоветовать оптимизировать структуру сайта, уменьшая уровень вложенности информативных страниц, и плотнее их перелинковывая друг с другом. Также можно посоветовать использовать внешние ссылки с других сайтов.

В-третьих, сам сайт может иметь достаточно низкий уровень авторитетности в глазах поисковой машины. Неуникальный контент, примитивный дизайн, слабая посещаемость, малое количество внешних входящих ссылок, с таких же малоавторитетных ресурсов, злоупотребление платными ссылками и рекламой – вот типичный портрет целевой аудитории алгоритма серии АГС (подробнее смотри в моей статье http://www.searchengines.ru/articles/sergey_lyudkevich.html), который методично отправляет целые сайты в скрытый индекс.

Резюмируя, можно отметить, что проблема индексации сайта, конечно же, является не самой сложной из проблем современного SEO. Как правило, достаточно овладеть базовым справочным материалом по теме и тщательно следовать его рекомендациям. Однако с пренебрежением относиться к данному вопросу тоже не стоит, дабы неожиданно не столкнуться с неприятностями, которые могут существенно затормозить продвижение сайта.