Нигма в первом приближении: от крыс в лабиринте до любимца МИНОА

Мы уже рассказывали о решении ввести в учебную программу вебинаров / семинаров МИНОА поисковую систему Нигма. Потенциал этого удивительного проекта моих коллег по альма-матер столь впечатляющий, что, на мой взгляд, уже сегодня (система все ещё находится в стадии интенсивной разработки) Нигма претендует на роль ключевого инструмента на этапе изыскания информации в алгоритме МИНОА.

Очевидно, что мы будем постоянно возвращаться к этой теме в открытых публикациях и рассказывать читателям о частных аспектах работы с Нигма. Сегодня — в качестве первой презентации — мы остановимся лишь на одной особенности этой поисковой системы, которая, впрочем, и делает её уникальной.

Если попытаться определить Нигму одной фразой, то неизбежно выйдем на кластерный анализ. Авторство концепции cluster analysis принадлежит американскому психологу Роберту Трайону (Robert Tryon), описавшему в своей одноименной работе (1939 г.) результаты экспериментов по наследственной передаче у крыс способности к обучению (т.н. Tryon’s Rat Experiment).

Эксперимент был незамысловатым: грызунов запускали в лабиринт, а затем сортировали в зависимости от интенсивности блуждания и скорости прохождения на maze-bright (лабиринтосмышленых) и maze-dull (лабиринтотупых) — термины более, чем оправданы: ведь не станем же мы, в самом деле, рассуждать об интеллекте сородичей Реми из «Рататуя»?

Роберт Трайон в дальнейшем скрещивал мышей между собой по данному признаку (то есть лабиринтотупые спаривались с лабиринтотупыми, а лабиринтосмышленые с себе же подобными) и отслеживал развитие «таланта» в потомстве. Оказалось, что качество maze-bright с каждым новым поколением усиливалось, равно как и качество maze-dull. Из чего был сделан вывод о том, что поведенческие навыки можно культивировать с помощью генетического отбора.

Непосредственно генетические аспекты эксперимента Трайона оказали огромное влияние на последующее развитие бихевиористской психологии и генетической науки, тогда как его концептуальные алгоритмы  (в частности: объединение объектов по уникальному признаку в отдельные группы — кластеры) легли в основу аналитических трендов, ставших мейнстримом в лингвистике, социологии, антропологии, маркетинге и всех современных учений по извлечению и обработке информации (дата-майнинге).

Именно в таком, предельно обобщённом, виде и реализуется концепция кластерного анализа в Нигме: первоочередная задача эффективного поиска (в понимании разработчиков движка, да и всякого ответственного пользователя) — структурировать информацию по кластерам, то есть группам, обладающим уникальным признаком (типа maze-bright или maze-dull). Для чего это нужно делать?

В традиционных поисковых системах вроде Google и Yandex на любой запрос мы получаем десятки тысяч результатов, сваленных в бессмысленную кучу. Единственная структуризация, на которую можно надеяться, определяется в худшем случае корыстными рекламными интересами поисковиков, в лучшем — «пузырем фильтров», подгоняющим ответы поисковой системы под частные интересы и вкусы кверента (то есть пользователя, обращающегося с поисковым запросом).

Нигма, в отличие от традиционных поисковых систем, претендует на полноценную кластеризацию, то есть распределение множественных результатов поискового запроса по уникальным значимым семантическим группам.

Вот как это выглядит на простом примере. Предположим, мы хотим собрать материал на тему «МИНОА». Вводим запрос в поисковую строку Нигма:

009_1

Обратите внимание на то, как система пытается помочь пользователю с помощью алгоритма «умной строки поиска», подсказывая семантические варианты запроса. Уникальность «умной строки» Нигма в слове «семантические», поскольку поисковая система работает именно со смыслами, а не с примитивом вроде голой частотности других запросов, как то мы наблюдаем у Google:

009_2

или Yandex:

009_3

Иными словами, традиционные поисковики сообщают мне, что ищут другие люди в интернете на созвучные темы, тогда как Нигма пытается помочь пользователю непосредственно в его изыскательной работе, давая «умные» подсказки на уровне семантики.

Однако мы отвлеклись от темы. Вот как выглядит список результатов по нашему запросу:

009_4

Я, конечно, понимаю, что глаз сам по себе тянется к правому краю экрана, где размещается конъюнктурная замануха с торрентами :), однако настоящее сокровище обнаруживается аккурат на противоположном крае веб-страницы.  Так называемый «Фильтр» — это и есть результат уникальной кластеризации нашего запроса, то есть разнесения линков по уникальным семантическим группам!

Обратите внимание на иерархизацию кластеров (она доступна через выкидное меню — кликом на +): мы не только можем мгновенно оценить ситуацию с нашим запросом на родовом уровне (ex. Minoa Palace, Крит, отель, фото, цены, отзывы), но и уточнить запрос по видовому признаку (об отеле, остров, туры и т.д.)

Вся титаническая мощь кластерного анализа отстоит от нас на расстоянии двух кликов мыши: сначала нажимаем на «отключить», чтобы удалить из результатов запроса все, что связано с греческой гостиницей (названной, кстати, в честь древнего города Миноа :)), а затем устанавливаем галочку на «Русскоязычных сайтах».

009_5

Может показаться, что смысловой кластер «Русскоязычные сайты» слишком широк, чтобы вывести нас туда, куда нам надо (то есть на вебинары / семинары МИНОА), однако это иллюзия: ведь мы уже исключили все запросы, связанные с одноименным греческим отелем и одновременно находящиеся в кластере Рунета! Как следствие получаем предельно таргетированный список линков по интересующей нас тематике.

009_6

Обратите внимание: Нигма априорно относится к нам как к исследователям информации, а не праздно шатающимся по паутине обывателям: список линков предваряет аналитический мини-отчёт о проделанной кластерной фильтрации (списки «Выбрано» и «Исключено»). Делается это для того, чтобы мы постоянно отдавали себе отчёт, на каком этапе изыскательной работы мы находимся и, в случае необходимости, могли отыграть назад, модифицировать тот или иной кластерный фильтр, либо добавить новый аспект структуризации результатов запроса.

Короче говоря, полагаю, вы уже поняли: Нигма — не просто феерия (на уровне эмоционального восприятия проекта!), но и подлинная революция в изыскательной работе и дата-майнинге.

Продолжение следует.