Часть 2. Сбор информации

В прошлом номере D’ мы составили план по изучению data mining — как решаются задачи накопления и анализа информации биржевиками. Свое погружение мы начнем с определения информационных источников.
 
Противоречия и дополнения реальности
Прежде чем выдать на-гора собственный оригинальный, неповторимый и, главное, эвристически ценный контент, необходимо от чего-то отталкиваться. В идеале делать это лучше исходя из фактов, хотя в современной журналистике пользуется популярностью технология домысливания. Оно понятно: фактов много, ковыряться-копаться-лопатить лень, вот и приходит на помощь стандартная схема — открываем первый попавшийся под руку источник информации, читаем, мечтательно зажмуриваемся… м-м-м… вот и потекла патока фантазии. Реальную фактографию дополняем собственными вымыслами, как правило, таковыми становятся мелкие частности и детали, придумываем сюжет и — voila! — оригинальный контент готов!
 
Домысленный контент и в самом деле оригинален. Я бы даже сказал, уникален: ведь у него нет ни малейшего фактографического подтверждения, а значит, созданное вами существует в единственном в мире экземпляре. Насколько такой «экземпляр» ценен для читателя — вопрос неоднозначный. Проще всего было бы напрочь отказать контекстуальному домысливанию в праве на существование. В самом деле, какая может быть ценность у высосанной из пальца истории?! Это даже не информация, а чистой воды дезинформация!
 
Не будем, однако, спешить с выводами. Не хочу отклоняться от темы, поэтому ограничусь лишь небольшой ремаркой, которая, впрочем, способна сильно поколебать уверенность в собственной правоте противников «субъективного осмысления»: беспристрастный анализ информационного потока, который изливается на нас ежедневно по тысяче разношерстных каналов, «субъективно осмыслен»! Не рискну давить процентами, но, думаю, от половины до двух третей информации, предоставляемой к потреблению, сегодня либо придумано, либо высосано из пальца, либо дополняет реальность, либо напрямую противоречит этой реальности. Так уж устроен наш глобализированный мир, никуда не денешься. Не верите? Извольте самый свежий пример.
 
Критерий осева
Если вы наберете в поисковой строке Google имя Джулиана Ассанжа, то подавляющее большинство ссылок (около 90%) будет так или иначе связано не с разоблачением Wikileaks афганской аферы США и не со скандалом вокруг публикации 250 тыс. дипломатических депеш, а с… изнасилованием (rape)! Да-да, героический человек сегодня ассоциируется в информационном поле именно с насильником беззащитных женщин. Откройте сегодня любую официальную газету, и вы прочитаете в ней о том, что Джулиан Ассанж разыскивается Интерполом (а теперь уже и арестован) по обвинению в «изнасиловании, сексуальных домогательствах и противоправном принуждении» — именно в такой формулировке, зеркально ретранслируемой из одного СМИ в другое.
 
Казалось бы, перед нами образец информационного факта. На самом деле это лишь продукт циничной лжи, эдакий элегантный аспект psy-ops2, которую ведет американская машина пропаганды со всем миром. Фраза «rape, sexual molestation, and unlawful coercion» была сфабрикована где-то между CNN и The New York Times (а скорее всего, спущена туда из ФБР или ЦРУ) и затем внедрена в общественное сознание по всему миру с единственной целью — дискредитировать и уничтожить имидж Джулиана Ассанжа. На самом деле в обвинении шведской прокуратуры, положенном в основу ордера Интерпола, речь идет о такой уникальной шведской юридической заморочке, как sex by surprise. В случае с Ассанжем речь идет о презервативе, который порвался в процессе полового акта. По шведским законам ему полагалось срочно надеть новый, а наивный австралиец не надел. В результате он совершил преступление sex by surprise, которое американские СМИ и приравняли к изнасилованию.
 
Рассказываю все это к тому, что сегодня никто не может с полной уверенностью утверждать, что та или иная информация является фактом или домыслом. А потому рекомендую к практическому потреблению простую формулу, которая поможет вам уверенно балансировать на грани дозволенного в плане контекстуального домысливания: если те или иные художественные украшения и излишества, добавленные к истории, не вступают в прямое противоречие и не отрицают ключевые факты сюжета, их (эти украшения и излишества) можно считать допустимыми.
 
Сбор фактов
Задав таким образом довольно либеральную планку для взаимодействия фактов и вымыслов, мы можем смело переходить непосредственно к сбору фактов (с домыслами, полагаю, у вас затруднений не возникнет). 15 лет назад и ранее основным источником информации служили библиотеки и архивы. Они и сегодня не утратили своего значения, однако в большинстве случаев библиотеки и архивы полезны при сборе информации для какого-то фундаментального труда: диплома, диссертации, научной монографии, исторической книги и пр. При этом весь последующий алгоритм МИНОА сохраняется в неизменном виде — модифицируется лишь первая его стадия (сбор информации): вы отправляетесь в библиотеку, работаете с каталогом, составляете библиографию, читаете материалы, затем сканируете все ключевые работы, оцифровываете копии с помощью программ OCR (Optical Character Recognition — оптического распознания символов) вроде ABBYY FineReader, вводите текстовые материалы в базу данных, индексируете их и далее со всеми остановками.
 
Мы, однако, займемся не библиотеками и архивами, а мировой компьютерной сетью, которая — думаю, ни у кого нет в этом сомнения — сегодня является основным источником информации. По целому ряду причин. Во-первых, в интернете при желании можно получить доступ ко всем крупнейшим библиотекам мира. Во-вторых, работа с материалами периодической печати в Сети гораздо эффективнее, чем в архивах real life. В-третьих, в условиях перманентного цейтнота интернет оказывается наиболее оптимальным источником информации, ибо поиск в нем осуществляется несопоставимо быстрее всех альтернативных вариантов.
 
Итак, где искать в Сети. Первое, что приходит в голову, — в «Гугле», и это правильно. Google — король информации (и дезинформации), и, усвоив его довольно специфический поисковый язык, можно творить поистине чудеса. Поэтому мы займемся «Гуглом» несколько позже, а пока пройдемся по основным альтернативам.
 
Во-первых, это, конечно, «Википедия» (www.wikipedia.org). Если «Гугл» — король, то «Вики» — королева. К тому же явная фаворитка народных масс. Причина народной любви к «Вики», наверное, кроется в ее открытой структуре: теоретически каждый желающий может дополнить информацией любую статью в онлайн-энциклопедии, хотя на практике и требуется утверждение и одобрение со стороны консорциума постоянных разработчиков. Несмотря на то что чисто технически манипулировать информацией и общественным мнением в «Википедии» почти также просто, как и в «Гугле», у пользователей все же гораздо больше шансов получить достоверную информацию в народной энциклопедии, чем в заповеднике Сергея Брина. По простой причине: информация в «Вики» унифицирована по дефинициям.
 
Консенсус определений
Поясню на том же примере. Вы вбиваете в поисковую строку «Википедии» «Джулиан Ассанж» и получаете энциклопедическую статью, посвященную этому замечательному человеку. Предположим, первому автору этой статьи очень хочется представить Ассанжа сексуальным маньяком и насильником, и для этого он без зазрения совести ретранслирует поток лжи из американских СМИ. Для пущей академичности дает линки на почтенных товарищей вроде Ларри Кинга и Джеффри Кунера.
 
Что происходит дальше? Поскольку все дефиниции в «Википедии» унифицированы (в том смысле, что нельзя написать две или три статьи на одну и ту же тему), сразу же набегает толпа разъяренных либертинов и камня на камне не оставляет от гипотезы сексуальной перверсии, единодушно удаляя все порочащие пассажи из унифицированной энциклопедической статьи про Джулиана Ассанжа. На толпу либертинов кидается толпа звездно-полосатых патриотов, которые таки проталкивают в унифицированную статью фразы типа «порванный презерватив» и «принуждение к соитию». Ну и так далее. В результате мы получаем в «Википедии» более или менее уравновешенный и объективный источник информации.
 
В Google все гораздо более запущено. В нем и вообще в любой публичной поисковой системе чистая фигура умолчания используется редко, разве что по просьбе китайских или арабских государственных товарищей. Нет в поисковике и унифицированных дефиниций. Казалось бы, идеальная объективность. Куда там! Инструмент информационной деформации, используемый «Гуглом», совершенен и современен. Имя его — статистика. Вернее, статистическая избирательность. Когда вы размещаете в Google запрос по фразе «Джулиан Ассанж», вы получаете 35,7 млн линков, от которых вам… не холодно и не жарко. Почему? Да потому что вы даже за 100 жизней все эти линки не пересмотрите. Максимум — первую тысячу ссылок (я лично дальше первой сотни никогда не ходил).
 
И что же мы видим в этой первой тысяче? Именно то, что и требуется доказать: ссылки на Интерпол, сексуальные преступления, изнасилования, на то, что «Джулиан Ассанж хуже Усамы бен Ладена» и т. д. Безусловно, где-нибудь на 1 189 589-м месте мы найдем ссылку на сайт, на котором популярно и на пальцах расскажут обо всех трюках современной психологической войны, о лжи мейнстримных СМИ, о реальной подоплеке «шведского дела об изнасиловании» и пр. Если повезет, то этот же линк мы найдем не на миллион какой-то, а на 557-й позиции в «Гугле», однако это ничего не меняет.
 
Суть же такова, что с помощью статистической избирательности Google (как и любая другая публичная поисковая система) легко превращается в инструмент информационной пропаганды и обработки народных масс. Собственно, для этих целей он и создавался3.
 
Что делать? Во-первых, учиться преодолевать статистическую избирательность Google с помощью поискового языка. Умение работать с этим языком даст нам шанс получить альтернативную информацию не на миллион какой-то странице, а в первой сотне линков. Во-вторых, использовать альтернативные источники информации.
 
Закрытые библиотеки
Один такой источник я назвал — это «Википедия». Другой не менее ценный — это порталы периодической печати. Не ссылки и референсы на СМИ, а непосредственно их родные веб-страницы. Для меня лично было большим откровением, когда я узнал, что практически у всех крупных журналов и газет есть страницы на английском языке. Кроме того, в каждой стране есть более или менее крупные СМИ, которые издаются на английском. Я столкнулся с этой приятной неожиданностью в процессе сбора и изучения материалов о Ёшиаки Цуцуми и компании «Сейбу», а в дальнейшем — корейских чаеболов (Daewoo, Samsung, LG) и южноазиатских «тигров». Оказалось, что и в Японии, и в Корее, и в Таиланде, и в Индонезии, и в Малайзии, и в Сингапуре есть множество газет и журналов, публикующих на английском языке море бесценной и уникальной фактографии. Такой фактографии, что днем с огнем не сыскать на страницах The New York Times и Le Monde.
 
Третьим ценным источником информации сегодня после «Википедии» и региональных порталов периодической печати я бы назвал закрытые подписные системы вроде HighBeam (www.highbeam.com) и TimesSelect (Timesselect.com). HighBeam (в переводе с англ. — «дальний свет фар») собрал в одном месте более 80 млн публикаций из 6,5 тыс. газет, журналов, еженедельников и подписных листов. Его архив уходит в глубину истории на 20 лет — вполне достаточно для сбора информации по большинству насущных тем современности.
 
Если кому-то 20 лет не хватит, добро пожаловать на TimesSelect — полное собрание публикаций почтенной газеты The New York Times, начиная с середины XIX века (!). В этой сокровищнице информации мне лично удалось почерпнуть не один десяток уникальных сюжетов (например, историю первых самоубийств, связанных с биржами, о которых D’ поведал читателям пару месяцев назад).
 
Следующим ключевым источником сетевой информации в наши дни выступают конференции Usenet, пользовательские блоги и каналы IRC (Internet Relay Chat). О последних (IRC) мы поговорим отдельно, поскольку для их использования (весьма и весьма плодотворного) требуется определенная техническая подготовка, сегодня же займемся блогами и Usenet.
 
Конференции usenet
Еще десять лет назад новостные конференции, объединенные протоколом Usenet, выступали главной площадкой для общения в интернете. Эдакий дедушка (или бабушка) социальных сетей и блогов. Все эти ники, смайлы, подписи, флеймы, тролли, флуды, модеры и баны, без которых сегодня немыслимо существование любого уважающего себя нетизана, зародились в сетях FIDO и новостных конференциях Usenet.
 
В настоящее время Usenet прочно занял место площадки для маргинального сообщества, в той или иной мере неудовлетворенного возможностями, которые предоставляют пользователям блогосфера, социальные сети и Twitter. У такого позиционирования для потребителя информации есть свои плюсы и минусы. Сама по себе маргинальность предполагает отсутствие авторитета у носителей информации — это, конечно, минус. Однако мера анонимности Usenet и возможность получить выход на совершенно уникальную штучную информацию — это огромный плюс. Думаю, овчинка выделки стоит, и попытаться поискать в новостных конференциях Usenet определенно нужно. Представление о том, что такое Usenet, можно получить на сайте www.newzbot.com (альтернативный вариант — www.top1000.org) — своеобразном веб-каталоге действующих сегодня новостных конференций, поддерживающих протокол NNTP. Взгляните на первые десять позиций в объединенном списке серверов на Newsbot.
 
Теперь оцените размах: на голландском сервере cambrium (первый в списке) прописано 206 339 новостных конференций! На русском сервере neva проживает 58 тыс. групп, на греческом grnet — 56 тыс. и т. д. По всему видать — есть где разгуляться мнениям, фантазиям и слухам.
 
Как этим добром пользоваться? Очень просто. Для начала скачайте и установите клиентскую программу для работы с протоколом NNTP. Подобных программ море — на любой вкус и цвет. Пользователям Windows могу порекомендовать бесплатный Usenet Explorer (www.usenetexplorer.com) либо платный, хотя и недорогой, зато сильно навороченный News Leecher (www.newsleecher.com). Для пользователей Mac OS X подойдет Unison (www.panic.com/unison/).
 
После установки программы первым делом нужно указать сервер Usenet, с которым вы будете работать. Лет десять назад подобные серверы были у каждого провайдера доступа в интернет, сегодня же приходится довольствоваться либо подписными (платными), либо общественными вариантами. На свое усмотрение вы можете выбрать приглянувшийся вариант из списка Newzbot. Возьмем, к примеру, news2.neva.ru.
 
Любая программа для работы с конференциями новостей Usenet позволяет работать с любым числом серверов NNTP, и, думаю, со временем, освоившись в новом информационном пространстве, вы добавите свои любимые «заповедные» места. Советую, однако, не злоупотреблять количеством серверов, поскольку в большинстве своем они дублируют одни и те же новостные группы.
 
В следующий момент программа автоматически загрузит полный список конференций, хранящихся на сервере, и вам потребуется выбрать из него то, что интересует.
 
С общей структурой, иерархией и системой наименований в Usenet можно познакомиться в соответствующей статье «Википедии». Мы пойдем банальным путем: наберем в поисковой строке ключевое слово, например «политика». Программа выдаст огромный список конференций, связанных именно с политикой. Полагаю, для начала за глаза хватит популярнейшей группы alt.politics, в которой дожидаются вашего прочтения… 1 196 694 сообщения! Подписываемся на эту новостную конференцию (обычно достаточно кликнуть на название дважды мышкой либо выбрать опцию из контекстного меню Subscribe). Программа автоматически начнет загружать все сообщения на ваш компьютер. Происходит это потому, что по умолчанию выбрана опция All Messages, которую вы вольны заменить на любой альтернативный вариант (обычно делается это через панель программных настроек).
 
После загрузки всех сообщений мы приступаем к тому, ради чего пришли: набираем в поисковом окне заветное Assange. Программа мгновенно выдает полный список сообщений из новостной конференции alt.politics, в которых так или иначе фигурирует имя Джулиана Ассанжа. Достаточно беглого взгляда, чтобы оценить качество информации, — как вам такое: «Одна из женщин, выдвинувших обвинение против Ассанжа, связана с ЦРУ?!» Поверьте на слово: для выхода на такую фактуру нам бы пришлось ковыряться в Google полдня (без использования всех тонкостей поискового языка, разумеется!). Конференции же Usenet в полном соответствии с его подпольно-маргинальным статусом мгновенно дают нам выход на самую шоковую и яркую информацию.
 
Думаю, можно не продолжать: читатели достаточно заинтригованы, чтобы самостоятельно продолжить изыскания в новом информационном пространстве в интересующих их областях знания. Скажу лишь, что сегодня в Usenet (как и 30, 20, 10 лет назад) можно найти не только практически любую информацию, но и любой объект информационного поля — книгу, фильм, фотографию, судебный протокол и пр.
 
Последний источник информации, запланированный для сегодняшнего обзора, — блогосфера. Полагаю, читатели не нуждаются в инструкциях о том, как пользоваться всеми этими «живыми журналами», «фейсбуками», «одноклассниками» и «в контактами». Открыл аккаунт — и вперед: общайся, ищи, узнавай, расспрашивай. Главное осознавать, что блогосфера и социальные сети не только убийцы свободного времени, но и ценный источник информации в первую очередь в плане локального изыскания. Я имею в виду информацию, находящуюся в непосредственной территориальной и временной близости к изучаемому сюжету (событию): например, в Facebook очень легко с помощью поиска по ключевым словам найти очевидцев и непосредственных свидетелей событий, которые только начинают добираться до средств массовой информации.
 
В следующий раз мы плотно займемся Google и хитрыми тонкостями его поискового синтаксиса.
 
1 МИНОА — методы изыскания, накопления, обработки и анализа информации.
 
2 Psy-ops — операции в психологической войне.
 
3 Многие читатели наверняка помнят, что в конце 1990-х существовало множество замечательных поисковиков: и AltaVista, и Lycos, и Excite, и Galaxy, и WebCrawler, и InfoSeek, и HotBot, — все они без исключения были удавлены и уничтожены Google.