Moscow-Live.ru
Компания "Яндекс" 2 ноября представила новый поисковый алгоритм под названием "Палех", который использует в работе нейросети и способен находить страницы, которые соответствуют не только ключевым словам, но и смыслу запроса пользователя.

"Каждый день поиск "Яндекса" отвечает примерно на 280 миллионов запросов. Какие-то из них, например "ВКонтакте", люди вводят в поисковую строку практически каждую секунду. Какие-то запросы уникальны - их задают один раз, и они, возможно, больше никогда не повторятся. Уникальных и просто редких запросов очень много - около ста миллионов в день", - говорится в сообщении, опубликованном в блоге компании.

Своим названием новый алгоритм обязан специфике графика частотного распределения запросов в "Яндексе", который представляют в виде птицы с клювом, туловищем и длинным хвостом. Так, короткий "клюв" включает самые распространенные и часто задаваемые запросы. Запросы средней частотности образуют "туловище" птицы. Наконец, низкочастотные запросы по отдельности встречаются чрезвычайно редко, но вместе составляют существенную часть поискового потока и поэтому складываются в длинный "хвост".

"Новый алгоритм позволяет поиску Яндекса лучше отвечать на сложные запросы из "длинного хвоста". Такой хвост есть у сказочной Жар-птицы, которая часто появляется на палехской миниатюре. Поэтому мы дали алгоритму название "Палех", - поясняют в компании.

Сложные запросы из хвоста можно разделить на несколько групп. Например, одна из них представляет собой запросы пользователей, которые общаются с поисковиком как с живым собеседником, а другая - запросы тех, кто пытается вспомнить название книги или фильма по содержанию, например "фильм про человека который выращивал картошку на другой планете" ("Марсианин").

"Особенность запросов из "длинного хвоста" в том, что обычно они более сложны для поисковой системы. Запросы из "клюва" задают многократно, и для них есть масса разнообразной пользовательской статистики. Чем больше знаний о запросах, страницах и действиях пользователей накопил поиск, тем лучше он находит релевантные результаты. В случае с редкими запросами поведенческой статистики может не быть - а значит, "Яндексу" гораздо труднее понять, какие сайты хорошо подходят для ответа, а какие не очень. Задача осложняется тем, что далеко не всегда на релевантной страничке встречаются слова из запроса - ведь один и тот же смысл в запросе и на странице может быть выражен совершенно по-разному", - говорится в сообщении.

Новый алгоритм решает эту задачу при помощи нейронных сетей, которые были обучены на накопленной базе текстов поисковых запросов и заголовках веб-страниц. В результате нейросеть научилась понимать смысловое соответствие между запросом и заголовками страниц.

"Компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Мы научили нейронную сеть переводить миллиарды известных "Яндексу" заголовков веб-страниц в числа - а точнее, в группы из трехсот чисел каждая. В результате все документы из базы данных Яндекса получили координаты в трехсотмерном пространстве", - говорится в сообщении.

Представить такое пространство и описанную систему координат достаточно трудно, поэтому для упрощения в компании предлагают представить, что каждой веб-странице соответствует группа не из трехсот, а из двух чисел. Тогда получится, что каждое число - это определенная координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости. Такой способ обработки запроса и его сопоставления с вероятными ответами в компании назвали семантическим вектором.

"Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов - это позволит еще точнее сопоставлять запросы и веб-страницы. В виде семантического вектора можно представить и профиль пользователя в интернете - то есть его интересы, предыдущие поисковые запросы, переходы по ссылкам", - говорится в релизе.

По мнению создателей алгоритма, далекая цель состоит в том, чтобы получить на основе нейронных сетей модели, способные "понимать" семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека.