что такое алгоритм ранжирования

Ранжирование

При формировании поисковой выдачи по какому-либо запросу поисковые системы стремятся наиболее точно ответить на вопрос пользователя. Они составляют список сайтов, которые, на их взгляд, соответствуют запросу тематически. Наиболее подходящие сайты находятся выше в этом списке. Такое распределение мест и есть ранжирование.

Что такое ранжирование

Ранжирование – это сортировка сайтов поисковыми системами в результатах выдачи по соответствующему поисковому запросу. Алгоритм определяет, какой сайт лучше решает проблему пользователя и поднимает его выше конкурентов. Чем лучше ресурс отвечает на поставленные вопросы, тем больше у него шансов попасть в топ Яндекса или Google (именно они составляют 95% трафика с поисковых систем).

Факторы ранжирования

Работа SEO-специалиста заключается в том, чтобы сайт занимал лучшие строчки в результатах выдачи. Для этого ресурс должен соответствовал максимально большому количеству факторов ранжирования. Их насчитывается около 700.

Поисковики учитывают следующие факторы:

Регулярность обновления контента;

Внутренние факторы – структура, юзабилити.

Контент сайта, а это не только текст, но и графика, должен содержать слова и фразы из подобранного семантического ядра запросов. Страница сайта должна быть релевантна продвигаемой фразе. Контент должен быть уникальным и понятным для пользователя. Алгоритмы ранжирования понимают смысл текста, поэтому просто напичкать текст запросами уже не получится – сайт попадет под санкции поисковика за переспам, и выходить из него придется долго после устранения ошибок.

Контент необходимо регулярно дополнять и улучшать в соответствии с актуальными запросами пользователей. Регулярное обновление – залог того, что робот будет чаще «приходить» и анализировать сайт, а значит шансы занять вершину выдачи повысятся.

Ссылки до сих пор считаются важным фактором продвижения сайта. И если Google это учитывал всегда, то Яндекс после долгого перерыва вернул ссылочное ранжирование. Важно понимать, что нельзя в 2020 году бездумно закупать ссылки на бесполезных ресурсах. Весь ссылочный профиль делится на 2 части:

Внутренние ссылки – переходы с одной страницы сайта на другую, соответствующую теме (для этого делается перелинковка). С их помощью можно изменять ссылочный вес, а трафик перенаправлять на продвигаемые страницы.

Внешние или входящие ссылки – это упоминания сайта на других ресурсах. Это могут быть справочники, каталоги, а также SEO-ссылки. Последние должны закупаться только на ресурсах, которые по смыслу соответствуют продвигаемому сайту. Так можно избежать пессимизации, попадания под фильтры «Минусинск» от Яндекса или «Пингвин» от Google.

Мета-теги тоже являются факторами ранжирования. Важно грамотно прописать название страницы (Title), заголовок (H1) и описание (Description), которые будут отображаться в сниппете – так, как это увидит пользователь в поисковой выдаче. Тег keywords уже не учитывается, его заполнять необязательно.

Особенно важно настроить файлы для поискового робота – карту сайта (sitemap.xml) и robots.txt.

Грамотный дизайн и наличие мобильной версии повышают доверие со стороны пользователя, а значит поисковик считает такой сайт качественным.

Алгоритмы ранжирования в Яндексе и Googl

Основы алгоритмов поисковых систем не разглашаются. Между поисковиками и SEO-специалистами идет негласная война. Яндекс и Google дают только общие рекомендации, суть которых сводится к банальному «улучшайте сайты, делайте их более качественными».

Алгоритмы ранжирования меняются и дорабатываются в ходе своего функционирования. Поэтому страницы, которые были в топе, могут терять позиции. Чтобы бороться с этим, веб-мастерам приходится регулярно дорабатывать сайты.

Заключение

Мы узнали, что такое ранжирование и от каких факторов оно зависит. Чтобы ресурс находился в топе, необходимо учитывать факторы ранжирования, постоянно улучшать и дорабатывать сайт.

Источник

Выявление алгоритмов ранжирования поисковых систем

Пища для ума

Когда какое-то время работаешь в сфере SEO, рано или поздно невольно посещают мысли о том, какие же формулы используют поисковики, чтобы поставить сайт в поисковой выдаче выше или ниже. Всем известно, что это все хранится в глубочайшей секретности, а мы, оптимизаторы, знаем только то, что написано в рекомендациях для вебмастеров, и на каких-то ресурсах посвященных продвижению сайтов. А теперь задумайтесь на секунду: что если бы у вас был бы инструмент, который достоверно, с точностью в 80-95% показывал бы, что именно нужно сделать на странице вашего сайта, или на сайте в целом, для того, чтобы по определенному запросу ваш сайт был на первой позиции в выдаче, или на пятой, или просто на первой странице. Мало того, если бы этот инструмент мог бы с такой же точностью определить, на какую позицию выдачи попадете, если выполните те или иные действия. А как только поисковик вводил бы изменения в свою формулу, менял бы важность того или иного фактора, то можно было бы сразу видеть, что конкретно в формуле было изменено. И это только малая доля той информации, которую вы могли бы получить из такого инструмента.

Итак, это не реклама очередного сервиса по продвижению, и это не предоставление конкретной формулы ранжирования сайтов поисковыми системами. Я хочу поделиться своей теорией, на реализацию которой у меня нет ни средств, ни времени, ни достаточных знаний программирования и математики. Но я точно знаю, что даже у тех, у кого все это есть, на реализацию этого может уйти даже не 1 месяц, возможно, 1-1,5 года.

Теория

Итак, теория состоит в том, чтобы методом тыка пальцем в небо выяснить, какой фактор влияет на позиции больше или меньше другого фактора. На пальцах это все рассказать очень сложно, поэтому мне пришлось сделать таблицу, которая более менее отобразит то, что я хочу донести.

что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

Посмотрели на таблицу? Теперь к делу. Берем любую ключевую фразу, не важно какую, вводим в поисковик и из выдачи берем первых 10 сайтов, это и будут наши подопытные. Теперь нам нужно сделать следующее: написать код, который будет методом тыка менять значимость у факторов (ЗФ в таблице) ранжирования до тех пор, пока наша программка не расположит сайты таким образом, что бы они точно совпадали с выдачей поисковой системы. То есть мы должны методом тыка повторить алгоритм ранжирования поисковика. Значимость самих факторов мы можем определить только как положительную нейтральную или отрицательную.

Теперь по порядку о таблице и факторах. Условно каждому фактору присваиваем значение от 1 до 800 (примерно). Так как достоверно известно, что у Яндекса, например, факторов ранжирования где-то близко к этому числу. Грубо говоря, у нас максимальное число будет таким, сколько факторов ранжирования нам точно известно. У двух факторов не может быть одинакового числа, то есть у каждого фактора значение уникальное. В таблице для каждого фактора отдельная колоночка, и их очень много, физически мне не удастся на одной картинке все разместить.

Теперь вопрос, как вычислить ранг страницы? Очень просто: для начала простая математика, если фактор положительно влияет, мы к рангу страницы прибавляем ранг фактора, если отрицательно, то прибавляем 0. Можно усложнить, сделать 3 варианта и добавить, например, вычитание ранга фактора от ранга страницы, если этот фактор критический, например, грубый спам ключевой фразы.

У нас получается примерно такой алгоритм вычисления ранга страницы. Возьмем его за (PR), а фактор возьмем как (F) и тогда:

PR = Берем первый фактор Если F1 положительный, то делать PR + F1, если F1 отрицательный то делать PR — F1, если F1 нейтральный, то не делать ничего, после этого проверяем так же F2, F3, F4 и так далее, пока факторы не кончатся.
А подбор производить таким образом, что бы у каждого фактора попробовать каждое значение ранга. То есть чтобы каждый фактор испробовать в каждом значении.

Вся сложность состоит в том, чтобы учесть все влияющие факторы, вплоть до количества текста на странице и ТИЦа сайта, на котором расположена ссылка на нашу подопытную страницу, и сложность даже не в учете этой информации, а в ее сборе. Потому что вручную собирать всю эту информацию нереально, нужно писать всевозможные парсеры, чтобы наша программка собирала все эти данные автоматически.

Работа очень большая и сложная и требует определенного уровня знаний, но только представьте, какие возможности она откроет после реализации. Я не буду вдаваться во все тонкости вычислений и влияния факторов, не люблю много писанины, мне проще объяснить человеку напрямую.

Сейчас некоторые скажут, что совпадений будет очень много в разных вариациях. Да, будет, но если взять не первую страницу, а, к примеру, первые 50 страниц? Во сколько раз тогда сократится вероятность промаха?

Еще есть сложность в том, что некоторые факторы нам просто негде будет взять, например, мы ни как не сможем учесть поведенческие факторы. Даже если все сайты из выдачи будут под нашим контролем, мы не сможем этого сделать, потому как скорей всего учитываются именно то, как пользователь ведет себя на выдаче, отсюда появляется вторая неизвестная в нашем уравнении, помимо самой позиции.

Что нам даст такой софт после реализации? Нет, точную формулу поисковика он не даст, но точно покажет, какой из факторов влияет на ранжирование сильней, а какой вообще не значительный. А при продвижении мы сможем в эту формулу подставить страницу своего сайта, со своими параметрами, и еще до того, как начать ее продвижение, увидим, на какой позиции будет страница по определенному запросу после того, как поисковик учтет все изменения.

В общем, это очень сложная тема, и очень полезная информация для ума, потому как заставляет подумать, хватит, например, мощности одного компьютера на такие вычисления? А если и хватит, то сколько это займет времени к примеру? Если не удовлетворит результат, то формулу как-то можно усложнять, менять, пока не будет 100% точного результата на 100 страницах выдачи. Более того, можно для чистоты эксперимента подключить около 100 различных сайтов и внедрить на них несуществующую ключевую фразу, а потом по этой же ключевой фразе и отследить алгоритм. Вариантов масса. Нужно работать.

Источник

Что такое алгоритм ранжирования поисковых систем и почему это важно знать

что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

Главной функцией любой поисковой системы является формирование релевантной поисковой выдачи. В ответ на тематический запрос пользователь должен увидеть ссылки на сайты соответствующей тематики. Например: при поиске горных велосипедов, в Яндексе должны выходить предложения именно по горным, а не скоростным велосипедам. При этом поисковая выдача располагается в порядке убывания полезности для пользователя, с точки зрения поисковой системы. То есть сайт, который максимально соответствует поисковому запросу стоит выше. Содержание и порядок выдачи определяется алгоритмом ранжирования. Что это такое? Как он работает в Яндекс и Google?

Что такое алгоритм ранжирования

Алгоритм ранжирования – это особый метод фильтрации и сортировки сайтов в поисковой выдаче, формирующейся в ответ на поисковый запрос пользователя. Он представляет собой совокупность правил, которые автоматически генерируют результат, наиболее близкий к введенному запросу. По другому говоря, это свод правил поисковых систем, по которым выстраивается последовательность сайтов в поисковой выдаче.

что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

Рис.1 Поисковая выдача Яндекса

Алгоритмы ранжирования Яндекса, Google и других поисковых систем меняются в лучшую сторону из года в год. Сегодня в их основе лежит реальная полезность сайта, а не просто наполненность ключевывми словами или ссылками, как это было в первые годы появления поисковиков. Тогда выдача напоминала «свалку», где найти нужный сайт было непросто.

Современные алгоритмы ранжирования строятся на так называемых факторах ранжирования, которые отличаются у разных поисковых систем. С помощью них вычисляется полезность сайта для пользователя.

Как работает алгоритм ранжирования

Принцип функционирования алгоритма ранжирования той или иной поисковой системы официально не раскрывается. При этом сами алгоритмы у Яндекса и Google тоже отличаются. В открытом доступе имеются лишь их рекомендации по работе и содержимому сайта. Однако общие принципы работы известны СЕО-специалистам.

Формирование поисковой выдачи в любой поисковой системе проводится в два больших этапа:

Индексация сайта

Индексация – это процесс сканирования сайта поисковым роботом. Подробно мы рассказывали о ней в статье «Что такое поисковый робот. Индексация сайтов поисковыми системами».

Индексация осуществляется в несколько этапов:

1. Отправка запроса поисковой системе (вручную или автоматически);

2. Сканирование ресурса поисковым роботом;

3. Обработка полученных результатов;

4. Запись результатов в базу данных поисковой системы.

Прежде чем попасть в поисковую выдачу, сайт индексируется поисковой системой. Если сайт еще не проиндексирован, то он не попадет в выдачу, каким релевантным он бы не был. Индексация происходит периодически, а не во время ввода поискового запроса.

Вводя запрос, пользователь обращается к базе данных поисковика – проиндексированным ресурсам.

Ранжирование сайта

Ранжирование – это сортировка проиндексированных сайтов на релевантность пользовательского запроса.

После ввода запроса запускается процесс ранжирования:

1. Обработка запроса;

2. Выборка максимально близких к запросу результатов;

3. Фильтрация дублей и ошибочных ресурсов;

4. Сортировка отобранных сайтов;

5. Формирование поисковой выдачи.

Алгоритм ранжирования определяет, какие сайты из базы данных поисковой системы соответствуют запросу. Выбранные ресурсы он сортирует по полезности с помощью факторов ранжирования. Наиболее подходящие страницы находятся на верхних строчках выдачи. Топовые сайты делят между собой основную часть трафика и клиентов.

Факторы ранжирования в Google

Алгоритм ранжирования Google использует более 200 факторов ранжирования. Относительно важности тех или иных факторов достоверной информации нет, а мнения экспертов расходятся.

Основные группы факторов:

Чтобы соответствовать требованиям Google, стоит начать с получения сертификата https и наращивания внешней ссылочной массы (особенно с авторитетных ресурсов, в том числе и местного значения). Теги и заголовки должны соответствовать содержимому и быть понятными посетителю. Также следует зарегистрироваться в других продуктах Google, например, Google Мой Бизнес.

Особенность Google – быстрая работы поисковых роботов и алгоритмов ранжирования. Модернизация сайта скажется на позиции в выдаче в течение 24 часов после внесения улучшений.

Алгоритмы и фильтры Google

Google использует алгоритмы и фильтры, отвечающие за те или иные факторы ранжирования. Наиболее известные из них:

1. Панда – понижает позиции сайтов с неуникальным контентом и переспамом ключевых слов;

2. Пингвин – проверяет ссылочную массу на наличие покупных ссылок и спам-ссылок;

3. Пират – борется с пиратским и ворованным контентом;

4. Колибри – проверяет качество текстового контента;

5. Голубь – направлен на улучшение локального поиска;

6. Mobile Friendly – повышает позиции ресурсов, хорошо оптимизированных под мобильные платформы;

7. RankBrain – анализирует поведенческие факторы;

8. Опоссум – алгоритм для повышения релевантности местных запросов;

9. Фред – понижает ранжирование сайтов без контента и обилием ссылок и рекламы.

Внедрение алгоритмов и фильтров не происходит бесследно. Например, после выхода Панды 12% сайтов потеряли свои позиции. Все обновления направлены на повышение качества поиска в Google.

Факторы ранжирования в Яндексе

Приоритетность факторов ранжирования Яндекса можно расположить в следующем порядке:

что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

Рис.5 Факторы ранжирования Яндекса

Яндекс ориентирован на Россию и страны СНГ. Это отразилось на факторах ранжирования, которые использует отечественная поисковая система.

Основные группы факторов:

Яндекс большое внимание уделяет региональности. Выдача по одним и тем же запросам в разных регионах отличается. Это дает толчок к развитию местных фирм, но усложняет рост федеральных компаний.

Если в Google возраст домена не играет никакой роли, то в Яндексе это один из основных факторов. Противоположная ситуация со ссылочными факторами: в Google они имеют большее значение, в Яндексе же упор делается на текстовое содержимое.

Еще одно важное отличие алгоритма ранжирования Яндекса от Google – скорость работы. Изменения могут вноситься неделями.

что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

Рис.3 Принцип работы поисковых систем

Алгоритмы и фильтры Яндекса

Как и Google, Яндекс периодически улучшал качество своего поиска введением новых алгоритмов и фильтров. Наиболее значимы из них:

1. Арзамас – разделение всех запросов на геозависимые и геонезависимые;

2. Снежинск – добавление огромного количества новых факторов ранжирования;

3. Конаково – улучшение релевантности местных запросов;

4. Дублин – персонализация выдачи;

5. Владивосток – повышение позиции сайтов с мобильной версией;

6. Королев – улучшение качества выдачи на редкие запросы;

7. Магадан – усиление релевантности выдачи и понижение позиций для сайтов с ворованным контентом;

8. Минусинск – понижение ранжирование для ресурсов с избытком ссылок;

9. Баден-Баден – попадание под фильтр сайтов с текстовым контентом низкого качества;

10. Андромеда – ориентация на борьбу с накруткой поведенческих факторов и улучшение качества выдачи в целом.

Яндекс вводит обновления каждые 1-2 недели, поэтому выдача меняется скачкообразно. Отечественный гигант не скрывает причин, по которым наказывает сайты. Поэтому подстраиваться под его требования проще.

Итоги

Алгоритм ранжирования – это принцип сортировки сайтов поисковой системой, в соответствии с которым формируется поисковая выдача. Существует множество алгоритмов и факторов ранжирования, которые меняются и совершенствуются из года в год. Чтобы сайт попал в топ выдачи, необходимо их знать и учитывать.

Следование рекомендациям поисковых систем и знание алгоритмов ранжирования обеспечат сайту высокие позиции.

Источник

Алгоритм ранжирования

16 декабря 2015 Опубликовано в разделах: Азбука терминов. 8635

что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

Алгоритмы ранжирования – методы оценки качества сайтов

что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

Какие критерии учитывает алгоритм ранжирования

Поисковики оценивают сайты по многим параметрам. Среди наиболее значимых критериев следует отметить:

Понимая, как работает алгоритм поисковых систем, вебмастер может оказывать влияние на выдачу своего сайта. Для этого необходимо «подогнать» страницы web-проекта под требования ПС. В частности, потребуется внедрить ключевые фразы в метатеги title и description, а также непосредственно в текст страницы. Если выполняется продвижение по геозависимому запросу, то, кроме ключей, следует добавить название нужного города или региона.

Это интересно! Периодически происходит апгрейд поисковой системы, что приводит к кардинальному изменению действующих алгоритмов. Такие меры направлены на борьбу с поисковым спамом. Нередко смена алгоритма Яндекса приводит к ухудшению позиций сайтов, продвигавшихся «черными» и «серыми» методами.

Поисковые санкции

Если вебмастер явно пытается манипулировать алгоритмами ранжирования Яндекса, то поисковая система может применять к нему разнообразные санкции. Могут возникнуть следующие проблемы:

Алгоритмы Яндекса предполагают санкции за избыточную оптимизацию текстов, например, за размещение на страницах списков ключевых фраз. Фильтр может быть наложен за «невидимый» текст, сливающийся с фоном. Также под санкции попадают сайты-дорвеи и интернет площадки, копирующие чужой контент.

Новый алгоритм Яндекса – Минусинск

Этот алгоритм предполагает пессимизацию web-проекта за использование SEO-ссылок. Речь идет о сайтах, закупающих тысячи ссылок с помощью автоматизированных бирж типа Sape. С точки зрения Яндекса, ссылка считается «сеошной», если она ведет с некачественного сайта-донора и имеет коммерческий анкор.

Основанием для применения фильтра «Минусинск» может стать резкий прирост ссылочной массы. Поэтому чтобы обезопасить свой web-проект от возможности применения подобной санкции, следует закупать ссылки постепенно и разбавлять анкорные линки безанкорными гиперссылками.

что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

Специалисты студии SEMANTICA проведут комплексный анализ сайта по следующему плану:

– Технический аудит.
– Оптимизация.
– Коммерческие факторы.
– Внешние факторы.

Мы не просто говорим, в чем проблемы. Мы помогаем их решить

Источник

Ранжирование в деталях

Самым важным процессом поисковых систем для продвижения сайта является ранжирование — процесс выстраивания элементов множества web-страниц в последовательность, определяемую убыванием рангов релевантности этих ресурсов. Для определения ранга релевантности разрабатываются алгоритмы, которые определяют, что должно влиять на позицию, при каких запросах и условиях.

С каждым годом алгоритмы ранжирования совершенствуются: добавляются новые факторы, усложняются механизмы обработки информации – и все для того, чтобы идти в ногу со временем и отвечать на запрос пользователя всегда актуальной и действительно релевантной выдачей. Как спрос определяет предложение, так и алгоритмы ранжирования стимулируют развитие сайта в направлении, востребованном посетителем.
Отсутствие механизма ранжирования привело бы к хаосу в выдаче, когда нужная информация находилась бы далеко за первой десяткой, а наличие собственного сайта не имело бы смысла, кроме как лишний штрих в визитке. Тоже касается и усложнения алгоритмов определения ранга релевантности: если бы определение происходило по индексу цитируемости и ключевым вхождениям, то мы до сих пор бы смотрели на одностраничные сайты без дизайна, не задумываясь о юзабилити.
На определение ранга релевантности влияют различные факторы ранжирования, которых очень много на сегодняшний день и которые можно объединить между собой в группы. Поисковые системы оперируют одними понятиями группировки, оптимизаторы другими. При этом влияние фактора остается неизменным в алгоритме ранжирования. Некоторые факторы могут быть равноценными, что не позволяет линейно сравнивать между собой конкурентов. Однако основные направления задать и определить можно.

В данной статье речь пойдет преимущественно о текстовой и ссылочной составляющей.

Поисковая система Яндекс является наиболее интересным исследуемым объектом в данном плане не только потому, что в ней чаще, чем в других происходят сильные изменения в алгоритме, но и потому, что данная система является первой в Рунете по работе с коммерческими или продающими запросами.

Факторы ранжирования – это те или иные признаки запроса и страницы сайта, которые важны для ранжирования и которые дают оценку странице по заданному запросу.
Можно выделить несколько групп. Первая – статические факторы, которые связаны с самой страницей, например, количество ссылок на эту страницу в интернете. Вторая группа – динамические факторы, связанные одновременно с запросом и страницей – например, присутствие на странице слов запроса, их количество и расположение. Третья группа — запросные факторы – признаки поискового запроса, например, геозависимость.
Если поисковые системы классификацию основывают на принадлежности их к запросу или странице, то seo-специалисты в основу деления ставят направления влияния факторов. Таким образом, специалист по продвижению разделяют все факторы на следующие группы:
— Факторы, оценивающие техническую составляющую сайта, которая в первую очередь влияет на возможность и качество индексации сайта;
— Факторы, оценивающие текстовую составляющую страницы и сайта, которая показывает релевантность содержимого запросу;
— Факторы, оценивающие ссылочную составляющую, как внешнюю, так и внутреннюю, как анкорную, так и трастовую, как страницы, так и всего сайта;
— Факторы, оценивающие поведенческую составляющую, нравится ли сайт посетителям, удобен ли он, отвечает требованиям пользователей;
— Факторы дополнительного назначения, такие как определение соответствия региону пользователя, задающего запрос, и сайта, определение наличия аффилиатов и другие.

Каждое направление работы с сайтом важно и нужно подходить комплексно к работе с сайтом во всех направлениях, чтобы охватить все факторы влияния на ранжирование.
В механизме ранжирования самой важной является оценка документа по релевантности содержания запросу, введенного пользователем. Для ранжирования используется текст запроса, текст документа и некоторые элементы html-разметки документа. Это основные элементы, которые использует поисковая система для составления индексных баз и для определения релевантности документа. Поэтому первое, с чем необходимо работать – это текстовая составляющая web-страницы.
Для понимания механизма оценки релевантности, важности текста и указанных ограничений требуется знать примерные модели поиска, которые представляют собой формулы и подходы, позволяющие программе поисковых систем принимать решение: какой документ считать надежным и как его ранжировать. После принятия модели коэффициенты в формулах часто приобретают физический смысл, позволяя находить свое оптимальное значение для повышения качества поиска.

Представление всего содержимого документа может быть различным – теоретико-множественные модели (булевская, нечетких множеств, расширенная булевская), алгебраические (векторная, обобщенная векторная, латентно-семантическая, нейросетевая) и вероятностные.
Примером первой модели является полнотекстовый поиск, когда документ считается найденным, если найдены все слова запроса. Однако булевское семейство моделей крайне жестко и непригодно для ранжирования. Поэтому в свое время Джойсом и Нидхэмом было предложено учитывать частотные характеристики слов, что повлекло за собой использование векторной модели.
Ранжирование в алгебраической модели основано на естественном статистическом наблюдении, что чем больше локальная частота термина в документе (TF) и больше «редкость» (т.е. обратная встречаемость в документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину. Обозначение TF*IDF широко используется как синоним векторной модели.
Сущность метрики TF*IDF — отфильтровать значимые слова от менее значимых (предлогов, союзов и т.д.). TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа:
что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования
где ni – количество вхождений слова из запроса в документ,
nk – количество всех слов в документе.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции, рассчитывается по-разному:
что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования
где D – число документов в коллекции,
DF – количество документов, в которых встречается лемма,
CF – число вхождений леммы в коллекцию,
TotalLemms – общее число вхождений всех лемм в коллекции.
Согласно открытым экспериментам Яндекса из всех приведенных вариантов лучший результат показал ICF.
Также существует большое множество функций нормирования и сглаживания внутри-документной частоты при вычислении контрастности TF*IDF.
что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования
Со временем приведенные формулы совершенствуются и претерпевают изменения.
В 2006-2007 годах использовалась формула подобная (2), когда были попытки добиться высокой релевантности за счет «тошноты» — переспамливания текста ключевыми словами, и это следовало наказывать.
Когда пришла необходимость бороться с «портянками» — большие тексты с ключевыми словами, стала использоваться формула (3). Затем формула еще больше усложнилась, в новом алгоритме поисковые системы используют различные тезаурусы, расширяющие запрос, определяют переспамленность текста не только большим количеством ключей, но и его шлейфом и неудобством оформления текста тегами, неграмотное написание или сочетание слов.
Релевантность в вероятностных моделях основана на оценке вероятности, окажется ли рассматриваемый документ интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-либо упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной, «нерелевантной» части коллекции.

В каждой из простейших моделей присутствует предположение о взаимонезависимости слов и условие фильтрации: документы, не содержащие слова запроса, никогда не бывают найденными. На сегодняшний день модели, используемые в ранжировании и определении релевантности, не считают слова запроса взаимонезависимыми, а, кроме того, позволяют находить документы, не содержащие ни одного слова из запроса.
Частично данную задачу решает механизм предпроцессинга запроса, который позволяет устанавливать эмпирически подобранные контекстные ограничения: на каком расстоянии искать слова из запроса, все ли слова должны присутствовать в документе, какими словами можно расширить поиск. Также происходит фактическое объединение по умолчанию контента документа и его анкор-файла в одну поисковую зону.
Механизм фильтрации по кворуму позволяет определять релевантные пассажи в документе. Релевантными считаются все полные пассажи и те неполные, сумма весов слов, которых превосходит необходимый кворум.

В 2004 году использовалась следующая формула кворума:
что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования
где QuorumWeight – значение кворума;
Softness – мягкость, соответствует величина от 0 до 1, в документированных записях Яндекса указывается коэффициент 0,06;
QL — длина запроса в словах.

Таким образом, основываясь на известных фактах, кворум для фразы будет иметь следующий вид, с помощью данной формулы определяются какое сочетание слов обязательно, а каким словом можно пренебречь:
что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования
где QL* — количество слов из запроса в неполном пассаже;
deg – значение степени 0.38, выведенное экспериментально

Ранжирование документа происходит на основе рассчитанного коэффициента контекстуальной схожести запросу. По факту объединяются все сведения о весе различных пассажей документа, и делается вывод о показателе релевантности документа. В одной из статей Яндекса приводится пример аддитивной модели, которая представляет собой сумму весов каждого слова, пар слов, всех слов, запроса целиком, многих слов в одном предложении и бонуса документам, похожим на помеченные экспертом, т.е. хорошие. Это показывает, что все на странице будет оценено, и доказывает, что к написанию текста нужно подходить очень ответственно.

Далее рассмотрим ссылочную составляющую.

Согласно теории поиска пользователи информационно-поисковых систем определяют ценность документа путем информационных ключей – анкора ссылки. А наличие самих ссылок увеличивает попадание посетителя на страницу. Поэтому поисковые системы используют для выделения одного документа среди кластера также принцип цитируемости.
Индекс цитирования — показатель, указывающий на значимость данной страницы и вычисляющийся на основе ссылающихся страниц на данную. Этот принцип заимствован из научных сообществ, который использовался для оценки ученых и научных организаций.
В простейшей разновидности индекса цитирования учитывается только количество ссылок на ресурс. Но он имеет ряд ограничений. Этот фактор не отражает структуру ссылок в каждой тематике, а также слабозначимые ссылки и ссылки с большой значимостью могут иметь одинаковый индекс цитируемости. Поэтому был введен термин фактор популярности (англ. Popularity Factor) или взвешенный индекс цитирования или вес ссылки, в разных поисковиках этот фактор называется по разному: PageRank в Google, вИЦ в Яндексе. Сами ссылки участвуют в статическом передачи веса, показывая популярность ресурса, и анкорном – по заданным ключам. Также существует тематический индекс цитирования (тИЦ), учитывающий также тематику ссылающихся на ресурс сайтов.
Первоначально, до того как для продвижения сайта стали работать с ссылочной составляющей, индекс цитирования реально отражал популярность соответствующего ресурса в интернете. Как-то в одной из статей технический директор Яндекса Илья Сегалович упомянул, что введение ссылочного поиска и статической ссылочной популярности помогло поисковым системам справиться с примитивным текстовым спамом, который полностью разрушал традиционные статистические алгоритмы информационного поиска, полученные в свое время для контролируемых коллекций.
В 1998 году появилась статья с описанием принципов алгоритма PageRank, используемого в Google. Взвешенный индекс цитирования, как и другие ссылочные факторы ранжирования, рассчитывается из ссылочного графа.
что такое алгоритм ранжирования. Смотреть фото что такое алгоритм ранжирования. Смотреть картинку что такое алгоритм ранжирования. Картинка про что такое алгоритм ранжирования. Фото что такое алгоритм ранжирования

PR — PageRank рассматриваемой страницы,
d — коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети),
PRi — PageRank i-й страницы, ссылающейся на страницу,
Ci — общее число ссылок на i-й странице.

Основная идея заключается в том, что страница передает свой вес распределяя его на все исходящие ссылки, поэтому чем больше ссылок на странице доноре, тем меньший вес каждой достанется. Другая не менее важная идея заключается в понимании принципа цитируемости – это оценка вероятности перехода посетителя по одной из ссылки, а следовательно, вероятность популярности самой страницы сайта, на который ставятся ссылки. Соответственно, чем больше качественных ссылок, тем вероятность популярности ресурса выше.
На сегодняшний день ссылки часто наносят вред качеству поиска, поэтому поисковые системы стали вести борьбу с ссылочной накруткой – размещение Seo-ссылок на сторонних сайтах на коммерческой основе и предназначенные для манипуляции алгоритмами ранжирования. Они принимают все меры, чтобы сайты, продающие ссылки, потеряли способность влиять таким способом на ранжирование, а покупка ссылок с сайтов не могла бы привести к повышению ранга сайта-покупателя.
Алгоритмы, применяемые в современных поисковых системах для оценки ссылочной составляющей, претерпели большие изменения, но качество и количество ссылок сохранили свое прямое влияние при выделении страницы среди кластера копий. Чем авторитетней и тематически схожа с вашим ресурсом страница-донор, тем больший вес будет передан сайту, тем выше будет его позиция в поиске.

Автор статьи: Неелова Н.В. (к.т.н., руководитель отдела ПП Ingate).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *