Когда поисковый робот бывает на сайте, то он индексирует ограниченное число страниц. Этот показатель зависит от ряда факторов, в частности объема информации и ее структурированности, наличия и числа вложенных файлов, частоты внесения изменений на сайте и прочее.
Поисковики станут значительно быстрее выдавать страницы сайта в результатах поиска, если робот посещает сайт часто и скачивает больше страниц. Обновление в этом случае происходит быстрее, а, следовательно, и корректировка содержания вложений вступает в силу раньше.
Высокая скорость индексации помогает обеспечивать защиту уникального контента и повышает релевантность страниц благодаря своевременному добавлению свежей и актуальной информации. Но наиболее важно, что быстрая индексация также дает возможность отслеживать динамику влияния различных корректировок на положение сайта в страницах результатов поиска в браузере.
Замедленная индексация, соответственно, приводит к обратным последствиям.
Первопричинами, вызывающими плохую индексацию, чаще всего становятся:
- недостаточная скорость загрузки, которая может вызвать исключение сайта из индекса;
- низкая частота обновления сайта. Поисковый робот просто перестает «интересоваться» сайтом, если его содержимое редко обновляется;
- низкая уникальность контента. Размещение ворованного контента (фотографий, статей и других материалов) приводит к автоматическому снижению трастовости сайта и сокращению ресурсов на процесс индексации;
- отсутствие ясной структуры и наличие большого количества страниц. В этом случае процесс индексации и переиндексации занимает достаточное длительное время (особенно если last modified не работает);
- наличие так называемых «дубликатов» страниц. Такие страницы в отличие от целевых, содержащих востребованную пользователей информацию, не несут смысловой нагрузки. При попадании в индексацию «дубликаты» страницы используют ценные ограниченные ресурсы, конкурируя с основными страницами;
- наличие динамических страниц, на наполняемость которых не влияют динамические величины (пример страницы: site.ru/page.html?lol=1&wow=2&bom=3). Как следствие, происходит многократное дублирование целевых страниц (site.ru/page.html);
- ошибки в настройках robots.txt. Верная организация работы данного файла обеспечивает рациональность использования ресурсов, выделенных поисковыми системами на индексацию сайта.
Применение таких директив как Disallow, Clean-param и ряда других способствует равномерному ранжированию работы поискового робота и снижению нагрузок на сайт.
В частности, директива Disallow, исключает лишнее из индексации. Она позволяет ввести страницы в поиск или убрать из него. Особенно актуально использование Disallow для исключения побочных целевых страниц из индексации, что помогает довести число страниц в поиске до 100% величины. Тогда, можно надеяться на повышение скорости индексации, расширение позиций в выдачах и увеличение трафика.
Таким образом, лишний балласт в виде побочных (дубликатов) страниц может в два и более раз сокращать число страниц в поиске и ухудшать индексацию. А чтобы этого не случилось, продумывайте структуру своих сайтов, не нагружайте лишней ненужной информацией и правильно настраивайте robots.txt. Тогда сайт точно будет в топе.