22:02
Как работает поисковая машина Яндекса
|
|
![]() Каждый из нас считает себя уникальным. Каждый из нас думает, что прекрасно знает себя. Каждый ответ поисковой системы на любой наш запрос доказывает обратное. Мы не так уникальны, как думаем: миллионы людей до нас озадачивали и миллионы после нас озадачат поисковик почти одинаковыми вопросами. С другой стороны, мы слишком непредсказуемы: на формулировку нашего запроса влияет огромное количество неосознаваемых нами факторов. И хотя бы поэтому запрос каждого из нас, каким бы банальным он ни был, требует индивидуального подхода. Фактически вся работа поисковика «Яндекс» сводится к двум простым вещам: понять, что на самом деле хочет узнать человек, и за несколько секунд найти для него среди миллиардов документов в Сети подходящие. Снять отпечаткиСистема работы поисковика чем-то похожа на Матрицу, а поисковый робот (созданная ею сложная, самостоятельно принимающая решения программа) — на агента Смита.
Собранная роботами информация образует так называемый слепок Интернета. Он хранится на тысячах серверов Яндекса и постоянно обновляется. Слепок похож на список, в котором указано, в каком месте какую информацию можно найти. В этом списке у каждого ключевого слова указана не одна, а миллионы «страниц». Чтобы все обновления слепка были доступны пользователям, их переносят из хранилища на «базовый поиск». Данные от основного робота переносятся раз в несколько дней, а от быстрого — в реальном времени. Вывести на чистую водуРазыскивая ответ на заданный вопрос в подготовленной базе, машина сталкивается с двумя основными сложностями. Первая сложность — язык. Прежде чем искать ответ на вопрос, машине важно понять, на каком языке это делать. Например, для русскоязычного человека на запрос «дружина князя Игоря» поиск найдет документы с информацией о войске, а для украинца на «дружина князя Iгоря» выдаст также документы, упоминающие княгиню Ольгу, его супругу, так как по-украински «жена» — это «дружина». Да и в богатом русском языке одно и то же слово или его производные могут означать разные вещи. Например, слово «стали» — это одна из форм существительного «сталь» и глагола «стать». Вторая сложность — человеческая психология. Вводя запрос, мы ожидаем быстрого и точного ответа, не заботясь, естественно, о соответствии формулировки запроса принципам математического анализа, по которым работает мозг машины. Например, введя в поисковую строку слово «наполеон», что человек хочет получить: рецепт торта или биографию французского императора, купить коньяк или найти адрес психиатрической больницы? В таких ситуациях в дело вступают сразу несколько технологий. Можно выдать вам под строкой поиска несколько подсказок, конкретизирующих запрос. Мол, выберите, что вам нужно: наполеон-рецепты или Наполеон — Бонапарт. Если пользователь не реагирует на просьбу машины и не добавляет к «наполеону» слов, то делу помогает технология «Спектр»: не надеясь на помощь, машина сразу ищет информацию по нескольким категориям (и про торт, и про императора, и про конь як...). Кроме того, понять пользователя помогают механизмы персонализации — знания машины о том, что этот пользователь искал со своего компьютера день-два-три-месяц назад: если вы часто задавали Яндексу вопросы про кулинарию, то машина вначале покажет вам результаты, говорящие, что наполеон — торт. Комбинации: клубы по интересамЗадача поисковой машины не сводится к тому, чтобы просто отобрать документы, в которых встречаются слова и словосочетания из поискового запроса. Машина должна понять, какие документы соответствуют нашим противоречивым требованиям и почему они им соответствуют. Хотим ли мы получить информацию о наполеоне — пирожном, или, может быть, мы пару лет посещали фитнес-клуб с пафосным названием, а то и вовсе озабочены комплексами людей невысокого роста. В любом случае решение задачи требует нетривиального подхода.
Оценки. Руки помощиМатрица, конечно, сама решает (с помощью высшей математики), что и в какой последовательности нужно показать пользователям на основании десятков тысяч критериев. Но живых людей Матрица тоже использует — 1000 сотрудников Яндекса, так называемых асессоров, оценивают результаты поиска по тому или иному запросу (конечно, не каждый запрос подвергается оценке, и делается это не в режиме реального времени) на предмет их соответствия ожиданиям обычного пользователя. Может быть не такого рационального, как машина, не такого точного в формулировках, противоречивого и эмоционального. |
|
Просмотров: 2253 | | | |

Понравилась статья? Поставьте оценку, выскажите свое мнение
Еще статьи, которые вас заинтересуют
Публикации сайта Интересное и необычное рядом
