Часть 1. Этапы Data Mining

В 2000 году я столкнулся с неожиданной проблемой: моим статьям потребовалась солидная «информационная подушка». Раньше ничего подобного не возникало: извлекаешь из головы очередные крамольные мысли-соображения да и оформляешь их в причудливой художественно-провокационной форме. Однако новая колонка, которую мне когда-то предложили вести в «Бизнес-журнале», требовала совершенно иного подхода.

Рубрика «Великие аферы ХХ века» в той или иной форме апеллировала к обширнейшей фактографии: каждую неделю на протяжении вот уже десяти лет мне приходится собирать около 150–200 газетных заметок, журнальных статей, библиографических ссылок, дайджестов, квартальных и годовых отчетов, протоколов судебных заседаний, сенатских слушаний, интервью и автобиографических откровений — ради того, чтобы, проанализировав всю эту разноплановую информацию, подготовить эссе-исследование по новой, в подавляющем большинстве случаев незнакомой для меня теме. На самом деле такого рода задачи стоят каждый день не только перед журналистами, но и перед биржевыми игроками, руководителями, маркетологами и бог знает кем еще.

Проблемы кратковременной памяти

Прочитать обилие материалов за несколько дней оказывается делом хоть и тяжким, но все же посильным. Дальше, однако, начинались настоящие сложности: оказавшись один на один с чистым листом бумаги, я быстро понимал, что ровным счетом… ничего не помнил из прочитанного! В голове роились обрывки разрозненных сюжетных линий биографии, дат, цифр, имен фигурантов. Творческий процесс выглядел примерно так: «В начале статьи расскажем о детстве создателя Daewoo… как его?.. ах да! Ким Ву Чуна! Замечательно. Только где он там родился? В каком городе? А как назывался университет, в котором учился Ким? Помню-помню: об альма-матер он рассказывал в одной из своих автобиографических книг. Вот только какой?..»

За спецификой моих сложностей проглядывают самые заурядные закономерности физиологических процессов в работе человеческой памяти. Для переработки и усвоения информации требуется определенное время. Скажем, за месяц-другой после изучения биографии Ким Ву Чуна все географические названия, имена людей, названия университетов и книг спокойно разместятся по мозговым полочкам и станут любезно предлагать себя при первом запросе. Проблема же в том, что через месяц-другой мне вся эта информация окажется уже ни к чему. Желательно даже будет поскорее ее забыть, чтобы освободить место для новой информации, фактов, статей.

Но как же быть с освоением информации по горячим следам? То есть не через месяц-другой, а в тот день, когда вы информацию получили. Здесь мы сталкиваемся с особенностью устройства нашего мозга, которую можно обозначить как малый объем и неструктурированность кратковременной памяти. Дело в том, что вся свежеполученная информация существует в виде бесформенного клубка хаотических воспоминаний, обрывков фраз, цифр, имен, из которых, как правило, весьма проблематично выуживать мало-мальски полезные сведения.

Нечто подобное мы наблюдаем, кстати, и при изучении иностранных языков. Мы учим грамматические правила, читаем тексты, записываем в тетрадку слова, прилежно выполняем упражнения, переводя со словарем с родного языка на чужой и обратно. Если на этом этапе заставить нас поговорить с носителем изучаемого языка, попытка гарантированно завершится фиаско. Причина проста: все наши познания пока еще находятся в стадии пассивного владения. Если к нам обратятся с вопросом на языке, мы, скорее всего (при условии, что слова окажутся знакомыми), смысл вопроса уловим, однако ответить не сможем, даже если будем знать всю необходимую лексику и грамматику. Потому что для ответа требуется активное владение. Для активного же владения нужно время.

В современном мире, к величайшему сожалению, времени у нас как раз и нет. Знание биографии Ким Ву Чуна мне не нужно через неделю, оно актуально только сейчас. Через неделю я буду уже изучать какого-нибудь Тода Комбса или братьев Амбани, а о Ким Ву Чуне желательно как раз поскорее забыть. Да не подумает читатель, что описанная выше ситуация специфична только для работы журналиста! Напротив — она бесконечно универсальна.

Усвоение массивов

Каждый день биржевому трейдеру приходится перелопачивать тонны информационного сырья, чтобы извлечь из него несколько зерен бесценного знания, только и способных оказать прямое воздействие на котировки будущих периодов. Если, конечно, речь идет о серьезном трейдере, а не той его наивно-детской ипостаси, столь популярной, к сожалению, в родном отечестве, которая верит в возможность предсказания рынка на основе индикаторного анализа!

Также, например, в любой день работника бэк-офиса начальник может ошарашить предложением (от которого нельзя отказаться!) подготовить аналитическую записку или тематический обзор по той или иной малознакомой теме, так что приходится все бросать и судорожно собирать материалы, а затем как-то их изучать, перерабатывать и систематизировать. Точно такие же вызовы наполняют повседневную жизнь биржевых и банковских аналитиков, госчиновников, преподавателей, врачей, инженеров…

Короче говоря, искусство управления информацией в эпоху информационной перенасыщенности является едва ли не самым универсальным и востребованным знанием. Волею судеб мне довелось формировать представления соотечественников в сфере компьютерного программного обеспечения: еженедельно уже более десяти лет в бумажном (а с прошлого года и онлайн) журнале «Компьютерра» я веду рубрику «Голубятня», в которой рассказываю о лучших софтверных разработках для платформ Windows, Windows Mobile, Palm OS, Mac OS X и iOS. За все это время через мои руки прошли буквально десятки тысяч компьютерных программ, которые я скрупулезно тестировал, извлекая все лучшее, самое полезное и функциональное.

Именно знание компьютерных программ позволило мне создать, отладить и неоднократно проверить на практике уникальный алгоритм работы, который позволяет с поразительной эффективностью справляться со сложностями усвоения массивных информационных потоков, продуктивно их перерабатывать и получать на выходе добротный дайджест, аналитическое исследование либо художественное эссе. Мой алгоритм целиком и полностью основан на использовании компьютерных технологий, тесно связанных между собой и взаимодействующих сразу на нескольких уровнях:

  •  программ, позволяющих собирать информацию и в реальном времени, не отрываясь от чтения материалов, формировать из нее целостную базу данных;
  •  программ, индексирующих эту базу данных с поразительной скоростью, что помогает в дальнейшем мгновенно находить нужные факты (те самые ответы на вопросы о месте рождения Ким Ву Чуна, его университете и т. п.);
  •  специальных программ, обеспечивающих эффективное усвоение этих материалов;
  •  программ, облегчающих и сам процесс создания статьи (отчета, аналитической записки, дайджеста, реферата и пр.).

После многолетнего практического и успешного тестирования созданного алгоритма я решил, что было бы слишком эгоистично держать столь полезные наработки под замком. Так на свет появился семинар по современным методам изыскания, накопления, обработки и анализа информации (МИНОА — мнемотехническое сокращение по первым буквам), который я организовал и провел несколько лет назад в московском Международном институте рекламы.

Искренне надеюсь, что читателям D’ МИНОА пригодится в повседневной работе ничуть не меньше, чем маркетологам и журналистам. Поэтому постараюсь максимально емко (однако же и не в ущерб качеству) изложить в серии публикаций на страницах нашего журнала основные положения созданного алгоритма, пройти вместе с читателями по всем этапам цепи data mining1, изучить необходимые софтверные и аналитические инструменты.

Этапы Data Mining

Для того чтобы вы наглядно представили себе эффективность МИНОА, предлагаю окинуть с высоты птичьего полета всю последовательность этапов алгоритма, которые для удобства усвоения будут совпадать с основными разделами нашего учебного курса.

Этап 1. Мы начнем со сбора информации. Я расскажу об основных современных источниках информации (уверяю вас: существуют гораздо более эффективные места, чем «Яндекс»!), опишу глобальный алгоритм Data Mining, перечислю компьютерные программы, которые понадобятся нам для полноценной работы, приведу примеры креативных затруднений, возникающих именно на этапе информационного сбора.

Этап 2. Мы внимательно изучим главные источники информации. Я расскажу о принципах работы с открытыми поисковыми системами, форумами и новостными конференциями Usenet, порталами периодической печати, «Википедией», блогами и закрытыми (подписными) поисковыми системами (TimesSelect, Highbeam и др.).

Этап 3. Google — мощнейший инструмент информационного дознания, который подавляющее большинство людей использует от силы на 5%. Мы познакомимся с основами поискового языка (фраза, булеан, выраженное включение, синонимы, цифровые ряды, использование групповых символов, поиск в диапазоне слов), изучим продвинутый синтаксис (операторы intitle:, intext:, inanchor:, site:, inurl:, link:, cache:, daterange:, filetype:, related:, info:, phonebook:, daterange), поисковую надстройку Soople, комбинаторный анализ ключевых слов (техника Search Grid), технику смешения синтаксиса, рассмотрим структуру результатов поиска и научимся их анализировать, научимся применять программу визуализации результатов TouchGraph Google Browser, разберемся с директориями Google и спецификой поиска изображений.

Этап 4. Чрезвычайно полезный источник информации IRC (Internet Relay Chat), о котором все слышали, но практически никто не умеет пользоваться. Мы изучим несколько программ-клиентов IRC, познакомимся с протоколом DCC (Direct Client Connection) и его синтаксисом и на практических примерах удостоверимся в эффективности работы этого источника информации.

Этап 5. Накопление информации — следующая стадия МИНОА. Мы изучим самые удобные базы данных, предназначенные для хранения разнообразных исходных материалов: текстов, графиков, таблиц, изображений и мультимедийного контента. Сформулируем понятие индивидуального информационного архива и займемся его формированием и наполнением. Научимся пользоваться программами-посредниками между информационным сырьем и базами данных, разнообразие которых варьируется от простых плагинов для браузера до изысканнейших stand-alone автоматизированных коллекторов.

Этап 6. Форматы — подводный камень, в самый неожиданный и неподходящий момент нарушающий плавное течение data mining. Мы рассмотрим самые популярные форматы: PDF, CHM, DOC, FB2, EPUB — в плане их мобильного пользования (на платформах iOS, Windows Mobile и Android) и удобства индексирования в базе данных.

Этап 7. Обработка информации — третья стадия МИНОА. Познакомимся с понятием реляционной индексируемой базы данных, научимся наполнять информацией лучшие ПИМы (персональные информационные менеджеры) для Windows и Mac OS X — программы «Архивариус 3000», Evernote и EagleFiler.

Этап 8. Анализ информации — связующее звено между компилятивным и эвристическим этапами data mining. Мы изучим поисковый синтаксис популярных ПИМов, предложим на выбор несколько альтернативных баз данных, обсудим преимущества и недостатки встроенных в ОС поисковых систем (Search в Windows и Spotlight в Mac OS X).

Этап 9. Креатив. Мы определим критерии качественного усвоения информации, установим баланс между эвристическим началом и компиляцией, четко оговорим критерии плагиата. Я познакомлю читателей с современной техникой творческого осмысления материалов (визуализацией процессов мышления) и ее основным инструментом — интеллект-картами (Mind Maps). После обзора теории Тони Бьюзена и изучения основных принципов эффективной визуализации рассмотрим две лучшие кросс-платформенные программы для составления интеллект-карт — MindManager и MindMap. Рассмотрим типы интеллект-карт и определим сферы и специфику их применения в конкретных ситуациях.

Интеллект-карты, на мой взгляд, являются не только самым эффективным, но и эффектным аспектом МИНОА, поэтому не могу удержаться, чтобы не продемонстрировать читателю типичный продукт, связующий компилятивные и эвристические этапы моего собственного творчества. Например, как выглядит рядовая интеллект-карта, которую я составляю после сбора, накопления, индексации, анализа и изучения материалов непосредственно перед написанием самой статьи.

Этап 10. Глобальный алгоритм. В заключительной части нашего курса мы научимся задействовать уже знакомые нам информационные техники и компьютерные программы на креативном уровне. Проведем пошаговый анализ этапов создания авторского контента с учетом специфики тех или иных задач, поставленных в области, наиболее близкой читателям D’, — биржевом трейдинге.

Такое вот у нас планов громадье. Остается надеяться, что всем нам хватит сил пройти намеченный путь и — главное — получить от него удовольствие!

1 Интеллектуальный анализ данных. Процесс обнаружения в неструктурированных данных неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний.

2 Long-Term Capital Management — хедж-фонд, контролировавший в 1998 году, накануне своего краха, более… $1,2 трлн! Работал в России, в том числе с гособлигациями. Учредителями фонда были помимо прочих изобретатели модели опционного ценообразования, по которой учились и продолжают учиться все без исключения финансисты мира (модель Блэка—Шоулза).