Что такое Яндекс и как он работает

Вчера в праздничном посте, посвящённом трёхлетию сообщества Блоги Мам, мы объявили май Месяцем Полезностей. Итак, начинаем. 🙂

Месяц Полезностей на Блоги Мам открывает гостевой пост, который написала Олеся Пупышева, автор блога Мама On-Line. Речь в нём пойдет о поисковой оптимизации, а точнее — о том, как работает поисковая машина на примере Яндекса. Вашему вниманию — основные сведения о принципах и способах работы поисковых роботов, аккуратными стопками разложенные по полочкам. Следующий пост Олеси будет посвящён тому, что нужно делать блогеру, чтобы подружить свой блог с Яндексом.

Поисковые системы – это источник поискового трафика на ваш блог. Ежедневно к поисковикам обращаются миллионы людей и задают миллионы вопросов. Зная, как работают поисковые системы, мы можем в некоторой степени управлять ими — конечно, косвенно. То есть мы можем организовать работу над блогом так, чтобы поисковики сами приводили посетителей. Поисковый трафик – самый стабильный трафик. Единственное, что остается делать — это следить, чтобы блог не потерял доверие поисковой системы и развивался в верном направлении.

Что такое поисковая система?

Поисковая система – это робот (машина), чья работа основана на математической логике. Основная задача поисковой системы – находить ответы на запросы пользователей Интернета. Во времена, когда Интернет ещё только появлялся, и сайтов было немного, поисковые системы ограничивались простым сканированием веб-страниц для выдачи ответов. Но сегодня, когда сайтов миллионы, а информация на них измеряется экзобайтами, поисковой системе нужны более сложные алгоритмы для формирования ответов на запросы пользователей.

Современные поисковые системы состоят из нескольких элементов:

Поисковые роботы.
Базы данных.
Поисковый механизм и интерфейс для работы пользователей.

Работа поисковой системы заключается в индексировании и ранжировании веб-страниц.

Что такое Яндекс?

Официально поисковая система Яндекс (Yandex.ru) появилась 23 сентября 1997 года. Стоит отметить, что этому предшествовали годы программных разработок. Первые поисковые программы стали появляться ещё в конце 80-х годов. Само слово «Яндекс» (Яndex) является производным от названий программных технологий, но для большинства пользователей Интернет «Яндекс» – это, прежде всего, «поиск».

Ежедневно к Яндексу обращаются миллионы пользователей из России, стран СНГ и из некоторых зарубежных стран, с которыми начинает сотрудничать Яндекс. Пользователи ищут ответы на самые разные вопросы. Например, вопрос «Как стать счастливее?» Яндексу задают 12500 человек в месяц. При этом мы совершенно не задумываемся, как Яндекс ищет ответ на этот вопрос.

Между тем поисковая система совершает множество операций, прежде чем выдать ответ. Давайте рассмотрим, как именно Яндекс ищет ответы.

Почему блогеру важно знать, как Яндекс ищет ответы?

Любому блогеру, который хочет развивать свой блог с привлечением поисковых систем, важно знать, как именно они работают, что поисковые системы считают хорошим ресурсом и т.д. Всё это поможет правильно оформлять контент и развивать свой блог в нужном направлении.

Индексирование сайтов. Базы данных и поисковые роботы Яндекса

Сегодня Яндекс ищет ответы на запросы пользователей не в Интернете, а в своих базах данных, которые называются поисковый индекс. Поисковый индекс – это все слова на страницах сайтов, которые известны поисковой системе. При этом каждое слово имеет свое местонахождение – адрес. Поисковый индекс сравнивают с предметным указателем, с той лишь разницей, что каждое слово можно найти по многим адресам.

Прежде чем дать ответ пользователю, поисковой системе нужно подготовить данные (базу данных). Процесс нахождения, добавления и обработки данных называется индексированием. Индексирует страницы сайтов специальная компьютерная программа – поисковый робот. Его работа заключается в регулярном обхождении Интернета и поиске новых страниц, в поиске изменений на уже найденных и проиндексированных страницах, в выкачивании данных и их обработке.

У Яндекса есть два основных поисковых робота: основной и быстрый (робот Orange, быстроробот). Основной поисковый робот Яндекса индексирует Интернет в целом. А вот быстрый робот отвечает за поиск информации в режиме реального времени и добавляет в индекс страницы, которые появились секунды назад. Индексация основным роботом страниц сайтов может занимать до нескольких дней. Таким образом, некоторая актуальная информация может попадать в поисковый индекс с большим опозданием.

Быстрый робот преимущественно посещает новостные сайты, блоги и ресурсы, которые обновляются несколько раз в день и имеют ленту новостей rss. Благодаря быстророботу поисковая система может отвечать пользователю только свежей информацией.

Быстрый робот может посещать и обычные информационные блоги, главное условие – это частое обновление блога и актуальная информация. Обычно проиндексированные быстророботом страницы попадают в поисковый индекс через пару суток, за это время база самого быстроробота полностью заменяется. Но не редки случаи, когда одна и та же страница индексируется дважды: сначала быстрым, а потом основным роботом.

Каждый робот поисковой системы Яндекс состоит из двух частей: программы-планировщика и паука. Поисковые роботы имеют списки адресов (ссылок на документы), по которым им будет нужно пройти. Если на этих документах встречаются неизвестные роботу ссылки, они так же добавляются в общий список.

Программа-планировщик отвечает за составление маршрута для паука. Маршрут — это порядок очерёдности обхода документов. Для его составления программа учитывает показатели сайтов, такие как частота обновления, цитируемость и пр. Поскольку робот не может обойти весь Интернет за сутки, то в ежедневный маршрут не будут попадать ресурсы, которые обновляются редко или заброшены. Это стоит учитывать, ведь чем реже обновляется ваш блог, тем медленнее будет индексация (добавление новых страниц в базу). Поисковые роботы не тратят время на посещение редко обновляемых ресурсов, для них лучше лишний раз посетить ресурс, который обновляется часто и регулярно.

Паук согласно запланированному маршруту обходит страницы, выкачивает документы, определяет их формат, язык теста и другие параметры, и такая копия документа отправляется в хранилище. В самом хранилище документ проходит обработку, в результате которой остается только текст. В тексте определяются все слова и их местонахождение. И такой обработанный текст помещается в индекс.

Помимо основного и быстрого роботов, у Яндекса есть и другие роботы, например, робот, который индексирует изображения и робот, индексирующий rss-ленты новостей в блогах. В поисковой системе Яндекс есть даже отдельный поиск по блогам, поэтому так важно настроить rss-ленту в самом начале работы блога (об этом можно почитать в статье Как установить RSS на сайт).

Поисковый индекс, а также вся информация в хранилище составляют поисковую базу. Информация из поисковой базы недоступна пользователям. Она обрабатывается на предмет спама, дублированного и заражённого вирусами контента. Только очищенная от лишнего информация индекса формирует базовый поиск. Именно из базового поиска Яндекс будет выдавать ответы на запросы пользователей.

Метапоиск Яндекса

Все поисковые запросы, которые пользователи вводят в строке поиска Яндекса, также подвергаются непростой обработке. Это необходимо для того, чтобы в поисковую выдачу (другие названия: страница с результатами поиска, serch, сёрч, серп) попали самые релевантные (т.е. соответствующие смыслу запроса) документы.

Все запросы пользователей обрабатываются компьютерной системой «метапоиск». Поисковые запросы обрабатываются метапоиском на предмет привязки к конкретному региону (в этом случае поисковая выдача будет формироваться с учётом региона сайтов), также запросы проходят лингвистический анализ (система определяет язык запроса и учитывает это при выдаче списка документов).

Для самых популярных запросов метапоиск определяет, не формировалась ли недавно поисковая выдача. Для ускорения работы Яндекс сохраняет ответы на популярные запросы, чтобы не тратить время на повторные поиски. Периодически сохранённые версии обновляются, если появляются новые релевантные документы. Если на запрос сохранённой версии результатов нет, то метапоиск обращается в базовый поиск.

В базовом поиске формируется список документов с адресами, который возвращается в метапоиск. После чего этот список документов ранжируется с помощью технологии Матрикснет и попадает на страницу результатов поиска.
Поисковая система Яндекс постоянно развивается, чтобы предлагать пользователям наиболее релевантные страницы с ответами. Сегодня Яндекс умеет очень многое. А именно проводить морфологический анализ слова, сравнивать слова и исключать омонимы. Так же Яндекс неплохо определяет имена и фамилии, названия географических объектов и находит грамматические ошибки.

Для примера, слова «гостиница» и «отель» — синонимы, Яндекс об этом знает и будет строить поисковую выдачу, учитывая это. Многие пользователи не всегда знают, как пишутся названия на английском. Поэтому запросы «установить скайп» и «установить Skype» будут равнозначны по выдаче ответов. (Более подробно о подборе ключевых слов читайте в статье «Привлекаем посетителей на блог: подбор ключевых слов с помощью сервиса Яндекс Вордстат (Wordstat)«.)

Ну и, конечно, многие пользователи вводят запросы с орфографическими ошибками, опечатками, или пишут абракадабру, когда забыли сменить раскладку клавиатуры. Некоторые оптимизаторы даже рекомендуют вебмастерам специально делать ошибки в текстах. Вхождение ключевого слова с ошибкой может привлечь дополнительных посетителей. Совет не совсем хороший, так как Яндекс умеет распознавать ошибки. В случае, если запрос будет введен с ошибкой или опечаткой, Яндекс исправит запрос, предупредит пользователя о том, что, возможно, он ошибся в запросе, и предложит найти новые ответы с учётом исправленного. В случаях, когда Яндекс не может точно определить, имеет ли место ошибка (например, в названиях объектов, фамилиях и т.п.), в странице с результатами поиска будут присутствовать ответы на исходный запрос и исправленный.

Ранжирование документов в результатах поиска Яндекса

После того, как запрос пользователя был обработан в метапоиске, формируется единый список известных Яндексу страниц, содержащих в себе данный запрос. Некоторые страницы более релевантны запросу, некоторые менее.
Процесс упорядочивания результатов поиска в соответствии с запросом называется ранжированием.

Ранжируются страницы так, что вверху списка поисковой выдачи находятся страницы, которые, по мнению Яндекса, наиболее полно отвечают запросу. Благодаря ранжированию пользователю не нужно листать десятки страниц и просматривать сотни ссылок, чтобы найти полный ответ.

Ежедневно Яндекс получает миллионы запросов, часть из них уникальна. В связи с этим, создать единый алгоритм «запрос – идеальный ответ» невозможно. Поэтому поисковую систему нужно научить самостоятельно принимать решения и выбирать из тысяч страниц по запросу самые подходящие.

Для того чтобы научиться определять, какая страница будет хорошим ответом на запрос, а какая – нет, поисковая система должна проанализировать множество факторов (свойства страницы). Например, сколько ссылок ведёт на эту страницу и каково их качество, сколько запросов, т.е. ключевых слов и фраз присутствует в тексте, где они располагаются, и т.д (подробнее об этом читатайте в статье «Как использовать ключевые слова в тексте и повышать посещаемость блога«). Кроме этого, на ранжирование влияют свойства ресурса в целом. Поисковая система обязательно учитывает географический регион при составлении страницы с результатами поиска по геозависимому запросу.

Все свойства запроса и страницы, которые можно измерить, называются факторами ранжирования. Факторы могут быть объективными и субъективными. Объективными будут те факторы, которые можно выразить числом. Например, количество и плотность ключевых слов, количество ссылок, ведущих на страницу, процент уникальности и пр. Субъективные факторы – это дизайн блога, юзабилити и другие факторы, которые нельзя представить числом.

Факторы, по которым ранжируются результаты поиска, не разглашаются разработчиками Яндекса (то есть абсолютного знания о том, что такое Яндекс и как он обрабатывает данные вне системы нет). Оптимизаторы узнают о них благодаря различным экспериментам с сайтами. В апреле 2010 года разработчиками было заявлено, что общее число факторов 420(!). Поисковая система, благодаря сложным формулам, может учитывать не только сами факторы, но и их комбинации.

Отличительной особенностью Яндекса является то, что при ранжировании он также рассматривает блог в целом. А вот Google при ранжировании опирается только на свойства каждой конкретной страницы.

Стоит отметить и то, что некоторые субъективные факторы ранжирования, которые учитывает Яндекс, могут выходить за рамки человеческого понимания. Вот что пишут сами разработчики: «Если мы увидим такой фактор, при котором background (фон блога) красного цвета будет улучшать наши метрики качества, мы будем его использовать». Именно поэтому ранжирование порой кажется оптимизаторам нелогичным и иногда даже абсурдным.

Ещё одна особенность Яндекса – это разные формулы ранжирования для коммерческих и некоммерческих запросов. Существует общероссийская формула ранжирования и есть отдельные формулы для крупных регионов и городов.

Страница с результатами поиска

После того, как пользователь ввел запрос и кликнул «Найти», он видит страницу с результатами поиска. Это список ссылок на все документы, которые Яндекс нашёл по конкретному запросу в свой базе. Каждый результат поиска оформлен одинаково и состоит из заголовка, сниппета и ссылки на документ. За основу заголовка Яндекс использует заголовок страницы (title), но если он слишком длинный, то он укорачивается по усмотрению системы. Если документ не имеет заголовка, или, по мнению Яндекса, он не релевантен запросу, то система сама озаглавливает результат поиска, исходя из информации о документе или его содержания.

Сниппет – это текст между заголовком и url документа. В нём представлена краткая информация о документе. Чаще всего он формируется из текста документа. Для сниппета Яндекс выбирает целые предложения или его части, в которых есть запрос. Сниппет нужен для того, чтобы пользователь ещё до перехода на страницу самостоятельно определил, подходит документ или нет. В сниппете и в заголовке слова запроса выделяются жирным шрифтом, для большей наглядности.

Сегодня у блогеров нет возможности влиять на содержание сниппета, так как они формируются автоматически. Однако, улучшить релевантность сниппета и сделать его более привлекательным для пользователя можно, прописывая метатеги к каждому посту в блоге, а также вставляя ключевую фразу в начале статьи.

Итак, если вы заинтересованы привлечь посетителей на свой блог из поиска, то вам будет полезно знать, что такое поисковая система (в частности, что такое Яндекс) и как она работает. Поисковое продвижение занимает довольно много времени. Но, несмотря на это, результаты продвижения оправдывают временные затраты.

Автор: Олеся Пупышева. Продолжение следует

Источник фотографии: сайт Affiliate Marketing Coach