Большие данные: Как они меняют наши представления о мире

Избранное в Рунете

Кеннет Нил Кукьер, Виктор Майер-Шёнбергер

Большие данные: Как они меняют наши представления о мире

Кукьер Кеннет (Cukier, Kenneth) – редактор отдела данных журнала The Economist. Майер-Шёнбергер Виктор (Mayer-Schönberger, Viktor) – профессор Оксфордского института интернета, Оксфордский университет.

Все знают, что интернет изменил работу предприятий, государственных органов и жизнь людей. Однако еще одна, не столь заметная, тенденция в технологии вызывает столь же кардинальные перемены. Это использование «больших данных»: из огромного массива можно получить знания, недоступные при использовании лишь небольших порций. «Взрыв данных» трансформирует не только процесс обработки информации, но и сам подход к познанию. Мировоззрение, опирающееся на анализ причинно-следственной связи, оспаривается преимуществами корреляции. Большие данные вносят капитальные изменения в методы управления и влияют на природу политики. Обладание ими и умение поставить их себе на службу помогает предвидеть будущее и дает новый ключ к власти. Но открывая и используя возможности технологии, стоит помнить о ее ограничениях и темных сторонах.

Все знают, что интернет изменил работу предприятий, государственных органов и жизнь людей. Однако новая, не столь заметная тенденция в технологии вызывает столь же кардинальные перемены. Это использование «больших данных». Сегодня мы получаем существенно больше информации, чем когда-либо прежде, и способы ее применения все более нестандартны. Большие данные – не то же самое, что интернет, хотя всемирная паутина значительно упрощает способы сбора и обмена информацией. Большие данные – не просто средство коммуникации: смысл в том, что из огромного массива есть возможность получить знания, которые недоступны при использовании лишь небольших порций.

В III в. до н.э. считалось, что весь интеллектуальный багаж человечества хранится в Александрийской библиотеке. Сегодня в мире накоплено столько информации, что на каждого живущего приходится в 320 раз больше того набора данных, который, как считают историки, хранился в александрийских фолиантах – ее объем оценивается в 1200 эксабайтов (квадриллионов килобайтов). Если все это поместить на CD-диски, которые затем разложить в пять стопок, то каждая из них будет высотой до Луны.

Взрыв данных, о котором идет речь, – сравнительно новое явление. Еще в 2000 г. лишь четверть всех накопленных в мире сведений была оцифрована. Остальное хранилось на бумаге, пленках и других аналоговых носителях. Но поскольку объем цифровых данных быстро увеличивается, удваиваясь каждые три года, положение дел быстро меняется, и сегодня не оцифрованной остается менее 2% всей хранящейся информации.

С учетом этого гигантского масштаба возникает искушение рассматривать большие данные исключительно с точки зрения их размера. Но это может сбить с толку. Большие данные способны обращать в «цифру» то, что никогда раньше не оценивалось количественно: назовем это датификацией (datafication). Например, местоположение объекта на поверхности Земли стало возможным датифицировать сначала с открытием долготы и широты, а сравнительно недавно – с изобретением спутниковых систем GPS. Слова превращаются в цифры, когда компьютеры раскапывают в старинных книгах наслоения эпох. Даже дружеские отношения и симпатии датифицируются через Facebook («лайки»).

Для этого вида данных возможны новые невероятные применения с помощью недорогой компьютерной памяти, мощных процессоров, умных алгоритмов, программного обеспечения и математики, которая заимствует цифры из фундаментальной статистики. Вместо того чтобы пытаться обучить компьютер вождению автомобиля или переводу с одного языка на другой, над чем специалисты по искусственному интеллекту безуспешно бились десятилетиями, новый подход заключается в закачивании достаточно большого объема данных в компьютер. В результате выводится вероятность того, что светофор даст зеленый, а не красный свет, или что в определенном контексте lumiere – ближе по значению к понятию «свет», чем leger.

Подобное использование информационного массива требует трех глубоких изменений в наших подходах. Первое заключается в подборке из множества данных, когда люди уже не довольствуются небольшими объемами или выборками, как более 100 лет назад начали делать специалисты по статистике. Второе – отказ от предпочтительного использования кристально чистых и проверенных данных в пользу естественного беспорядка: все большее число сценариев и ситуаций допускает некоторую неточность, поскольку большой поток разного качества эффективнее и менее затратен, чем ограниченная выжимка очень точных сведений. В-третьих, во многих случаях нам придется отказаться от поиска причин и принять на вооружение непричинные виды детерминации. Вместо того чтобы пытаться точно понять, почему ломается двигатель или исчезает побочный эффект какого-то лекарства, исследователи могут собирать и анализировать большие массивы информации об этих вещах и явлениях и обо всем, что с ними связано, в поиске стереотипов и шаблонов, которые помогут предсказывать их появление сегодня или в будущем. То есть отвечать на вопрос «что?», а не «почему?», но часто этого достаточно.

Интернет изменил принципы общения между людьми. Большие данные отличаются от обычных: они трансформируют процесс обработки знаний обществом, а со временем смогут изменить наши представления о мире. Получая доступ к массиву сведений, мы, вероятно, в какой-то момент откроем для себя, что многие жизненные аспекты носят вероятностный, а не динамический характер.

Приближаясь к «N = ВСЕ»

На протяжении большей части своей истории человечество работало с относительно небольшими объемами данных, потому что инструменты их сбора, организации, хранения и анализа были несовершенны. Люди сводили информацию к минимуму, чтобы ее было проще исследовать. Гениальность современной статистики, которая впервые вышла на передний план в конце XIX века, состоит в том, что она позволила обществу разобраться в сложных реалиях даже при ограниченном объеме показателей. Сегодня технологические условия повернулись на 179 градусов. По-прежнему существует, да и всегда останется, ограниченность данных, которые мы способны переработать, но по сравнению с прошлым границы расширяются и со временем станут еще шире.

В прошлом люди отыскивали информацию методом выборки. Когда сбор данных был дорогостоящим, а их обработка трудоемкой, иного подхода быть и не могло. Современная выборка основана на том, что в пределах определенной погрешности можно сделать какие-то выводы об общем народонаселении на основе анализа небольшой группы его представителей, отобранных случайно. Например, экзит-поллы в ночь выборов преследуют цель предсказать итоги голосования на основе произвольного опроса группы избирателей из нескольких сот человек. Положительный результат получается в случае прямых вопросов, но если мы стремимся исследовать конкретные подгруппы, данный метод никуда не годится. Что если работник службы общественного мнения захочет узнать, за какого кандидата проголосует незамужняя женщина младше 30 лет? А как насчет незамужних американок азиатского происхождения младше 30 лет с университетским образованием? Произвольная выборка оказывается бессмысленной, поскольку в ней может оказаться лишь двое людей, отвечающих данным характеристикам, а этого недостаточно для объективной оценки того, как могут проголосовать люди из данной социальной подгруппы. Но если мы соберем все данные, то есть, выражаясь языком специалистов по сбору статистики, когда n = все, то проблема исчезает.

Этот пример выявляет еще один недостаток использования только части, а не всей совокупности сведений. В прошлом, когда люди опирались на ограниченный объем данных, им часто приходилось решать с самого начала, что собирать и как использовать собранное. Сегодня, когда мы аккумулируем все, не нужно заранее знать цель. Конечно, не всегда возможно объять необъятное, но с каждым годом все реальнее нацеливаться на исчерпывающие данные о том или ином явлении. Супермассив – вопрос не просто создания более крупных выборок, но использования максимально возможного количества имеющихся сведений о предмете. Нам по-прежнему нужна статистика, но нет необходимости опираться на небольшие выборки.

Однако без компромисса не обойтись. При кратном увеличении масштаба целесообразно отказаться от недвусмысленных, тщательно отобранных данных и смириться с некоторой их беспорядочностью. Это противоречит тому, как люди пытались работать на протяжении многих веков. Однако одержимость аккуратностью и точностью – артефакт эпохи, для которой была характерна известная ограниченность информации. Когда данные собирались буквально по крупицам, ученым требовалась уверенность в том, что полученные ими цифры абсолютно точны или близки к идеалу. Доступ к значительно большему объему означает, что мы можем позволить некоторую неточность (при условии, что собранные сведения не являются полностью неверными), чтобы получать выгоду от глубины проникновения в суть предмета, которую обеспечивает огромный массив.

Рассмотрим проблему перевода с одного языка на другой. Казалось бы, компьютеры должны быть хорошими переводчиками, поскольку способны хранить большие объемы информации и быстро ее отыскивать. Но если просто подставлять слова из англо-французского словаря, перевод получится отвратительным. Язык – сложная субстанция. Прорыв произошел в 1990-е гг., когда компания IBM углубилась в статистический машинный перевод. Она загрузила в компьютер стенографические отчеты парламентских слушаний на французском и английском языках и запрограммировала его на то, чтобы делать выводы, какое слово в одном языке наиболее точно соответствует слову в другом. Перевод превратился в колоссальную вероятностно-математическую задачу. Но после начального прорыва процесс забуксовал, и дальнейшего прогресса не последовало.

Тогда за дело взялась компания Google. Вместо того чтобы использовать сравнительно небольшое количество высококачественных переводов, гигант поиска информации использовал больший массив данных, но из менее упорядоченного интернета – данные «в естественных условиях», так сказать. Google заимствовал переводы с корпоративных сайтов, документы на всех языках у Европейского союза, даже переводы из своего гигантского проекта сканирования книг. Проанализировали не миллионы, а миллиарды страниц. Результат получился достаточно добротным, лучше, чем у IBM, и притом на 65 разных языках. Большие массивы беспорядочных данных перебили небольшие более «чистые» выборки.

От казуальности к корреляции

Два сдвига в нашем подходе (от использования отдельных данных к их совокупности, а также от упорядоченных к беспорядочным сведениям) обусловили третье изменение. От причинно-следственной (каузальной) связи мы перешли к непричинным видам детерминации (корреляции). Это переход от постоянных попыток понять глубинные причины мироздания к познанию непричинной связи состояний и явлений и ее применению.

Конечно, желательно знать причины тех или иных явлений. Проблема в том, что их подчас чрезвычайно трудно установить, и во многих случаях, когда нам кажется, что мы выявили причины, это оказывается не более чем иллюзией. Поведенческие теории экономики продемонстрировали, что людям свойственно видеть причины там, где их нет. Поэтому нужно постоянно быть начеку, чтобы наше предвзятое отношение не вводило нас в заблуждение. Иногда достаточно предоставить свободу слова самим данным.

Возьмем для примера компанию по доставке грузов UPS. Она прикрепляет датчики на некоторые части автомобиля для выявления перегрева или вибрации, которые в прошлом ассоциировались с выходом этих частей из строя. Таким способом компания может предсказать поломку до того, как она случится, и заменить деталь, когда удобно, а не на обочине дороги. Данные не раскрывают точной взаимосвязи между перегревом, вибрацией и выходом из строя. Из этих данных компания UPS не может сделать вывод, почему в том или ином механизме возникают неисправности. Но информации достаточно, чтобы стало ясно, что сделать в ближайшее время. Она позволяет вполне точно обнаружить неисправность в том или ином механизме или части автомобиля.

Аналогичный подход используется для исправления «поломок» в человеческом организме. Канадские ученые разрабатывают метод больших данных для выявления инфекций у недоношенных младенцев до появления у них явных, видимых симптомов. Преобразуя 16 жизненно важных сигналов, включая пульс, кровяное давление, дыхание и уровни кислорода в крови в информационный поток скоростью свыше тысячи единиц информации в секунду, они выявили корреляции между совсем ничтожными изменениями и по-настоящему серьезными проблемами. В конечном итоге эта техника позволит врачам раньше начинать действия по спасению жизней. Со временем запись этих наблюдений могла бы также объяснить, в чем причины сбоев в организме. Но, когда под угрозой здоровье новорожденного, простое знание того, что, вероятно, произойдет, важнее, чем точное понимание причин.

Медицина дает нам еще один хороший пример, почему при наличии больших данных фиксировать взаимосвязь состояний может быть чрезвычайно ценно, даже если глубинные причины неясны. В феврале 2009 г. компания Google спровоцировала ажиотаж в медицинских кругах. Исследователи опубликовали статью в журнале Nature, в которой изложили, как можно отслеживать сезонные вспышки гриппа, используя всего лишь архивные записи поиска компании Google. Каждый день поисковик в одних только Соединенных Штатах обрабатывает более миллиарда запросов и сохраняет все их без исключения. Компания сопоставила 50 млн терминов, которые чаще всего фигурировали в поисковых запросах в период с 2003 по 2008 гг., с данными о гриппе из Центров профилактики и контроля заболеваний. Идея заключалась в том, чтобы обнаружить, не совпадает ли область поиска определенных терминов в системе Google с темой вспышек гриппа – другими словами, посмотреть, не коррелирует ли частота поиска определенных терминов в системе Google с данными центров по контролю заболеваемости о вспышках гриппа в конкретной географической местности. Центры отслеживают число фактических обращений в клиники по всей стране; однако выпускаемая ими информация опаздывает на неделю-другую, а это целая вечность в случае пандемии. Напротив, Google работает практически в режиме реального времени.

Google не претендовал на знание того, какие запросы – наилучшие индикаторы. Он пропускал все термины через алгоритм, который ранжирует их корреляцию с вспышками гриппа. Затем система комбинировала термины и оценивала потенциальные улучшения существующей модели. Прогнав почти полмиллиарда вычислений на базе имеющихся данных, Google выявил 45 терминов – такие слова и фразы как «головная боль», «из носа течет», – которые явно коррелировали с данными центров по вспышкам гриппа. Все 45 терминов были так или иначе связаны с гриппом. Но при миллиарде поисковых запросов в день трудно увидеть невооруженным глазом, какие из них сработают и будут пригодны для проверки.

Более того, данные были несовершенны. Поскольку изначально никто не собирался так использовать эту информацию, неверное написание терминов и незаконченные фразы были обыденным явлением. Однако сам по себе массив данных с лихвой компенсировал их беспорядочность. Конечно, результатом стала простая корреляция. Не было никакой классификации причин, из-за чего осуществлялись поиски по конкретному термину – будь то недомогание человека, его сообщение о чихании в соседней квартире или же тревога по поводу прочитанного в газете. Системе Google это неизвестно, и ей нет до этого дела. На самом деле в декабре прошлого года система Google, похоже, переоценила число случаев заболевания гриппом в США. Это напоминает нам о том, что предсказания и прогнозы – всего лишь вероятности, которые не всегда оказываются верными, особенно когда основанием для прогноза служат постоянно меняющиеся поисковые запросы в интернете, подверженные внешнему влиянию, такому как сообщения в СМИ. И все же большие данные могут давать общее направление развития ситуации, и именно это было использовано в системе Google.

BACK-END OPERATIONS (вычисления на машине базы данных)

Многие технологи полагают, что историю больших данных следует отсчитывать с цифровой революции 1980-х гг., когда прорывы в области микропроцессоров и компьютерной памяти дали возможность анализировать и хранить все больше информации. Но это лишь внешняя сторона дела. Компьютеры и интернет, несомненно, способствуют получению больших данных, снижая затраты на сбор, хранение, обработку и распространение информации. Но по своей сути большие данные – сравнительно позднее открытие человечества в его попытке понять и количественно оценить окружающий мир. Для наглядности бросим беглый взгляд за спину.

Оценка поз сидящих людей – это искусство и наука Сигеоми Косимицу, профессора Института передовых промышленных технологий в Токио. Мало кому придет в голову, что сидячие позы несут важную информацию, но это так. Когда человек сидит, контуры тела, позу и распределение веса можно количественно оценить и свести полученные данные в таблицу. С помощью датчиков, размещаемых в 360 разных точках на сиденье автомобиля, Косимицу и группа инженеров снимают данные о давлении, оказываемом «зоной ниже спины» водителя, оценивая каждую точку по шкале от 0 до 256 баллов. Получается цифровой код, уникальный для каждого человека. Во время судебного разбирательства эта система способна отличать одного человека от другого с точностью до 98%.

Это не исследование выживших из ума ученых. Косимицу планирует использовать технологию для создания нового поколения противоугонных систем. Оборудованный такой системой автомобиль способен распознать «чужака» за рулем и потребовать пароль для запуска двигателя. Преобразование поз в данные означает жизненно важные услуги населению и потенциально прибыльный бизнес. Польза выходит далеко за рамки предотвращения краж автомобилей. Агрегированные данные помогут выявить связь между позой водителя и безопасностью на дорогах – например, зафиксировать изменение позы перед дорожно-транспортным происшествием. Система способна также «почувствовать» замедление реакции по причине утомления и послать сигнал тревоги или автоматически нажать на тормоза.

Косимицу взялся за материю, которая никогда не исследовалась с точки зрения данных, и никто даже представить себе не мог, что она способна обладать информационными качествами – и преобразовал ее в цифровой, количественный формат. Пока не придумано подходящего термина для обозначения такого рода преобразований, но датификация представляется уместным словом. Датификация – не то же самое, что оцифровка, при которой аналоговый контент – книги, фильмы, фотографии – превращается в цифровую информацию или последовательность единиц и нулей, считываемую компьютером. Датификация – гораздо более широкая деятельность, при которой любые аспекты жизни преобразуются в данные. «Очки» расширенной реальности Google трансформируют человеческий взгляд в данные. «Твиттер» датифицирует бессвязные мысли, а LinkedIn – профессиональные сети.

Когда мы датифицируем что-либо, мы изменяем предназначение этого объекта и конвертируем информацию в новые виды стоимости. Например, компания IBM получила в 2012 г. патент США за «решение в области безопасности в помещении с помощью плоскостной вычислительной технологии» – технического способа описания поверхности пола, реагирующей на прикосновения, нечто вроде гигантского дисплея смартфона. Датификация открывает здесь самые разные возможности. Так, пол сможет обнаруживать расположенные на нем предметы и включать освещение или открывать двери, когда человек входит в помещение.

Более того, он способен опознавать людей по весу или по тому, как они стоят или ходят. Определить, когда кто-то упал и не может подняться, что важно для стариков. С помощью этой технологии торговые компании получат возможность отслеживать поток клиентов в магазинах. Такого рода данные, которые хранят и анализируют, помогут узнать о вещах и явлениях, о которых мы никогда бы не задумались, потому что не умели их легко и дешево измерить.

Большие данные и «Большое яблоко»

Возможности больших данных простираются далеко за рамки медицины и потребительских товаров: они вносят фундаментальные изменения в методы работы правительств и влияют на природу политики. Если говорить об ускорении экономического роста, оказании услуг населению или о ведении войн, преимущества получат те, кто сможет поставить большие данные себе на службу. Сегодня наиболее захватывающий интерес вызывает работа на муниципальном уровне, где легче получить доступ к данным и экспериментировать с информацией. Мэр Нью-Йорка («Большого яблока») Майкл Блумберг (сделавший себе состояние на обработке данных) возглавил движение за переход муниципальных служб города на большие данные для улучшения услуг населению и снижения издержек. Один из примеров – противопожарная стратегия.

Здания с незаконно возведенными перегородками в наибольшей степени подвержены риску возгорания. Город получает ежегодно 25 тыс. жалоб на перенаселенные здания, но в его распоряжении только 200 пожарных инспекторов. Немногочисленная команда аналитиков мэрии подсчитала, что большие данные способны устранить диспропорции между потребностями и имеющимися ресурсами. Их усилиями создана база данных всех 900 тыс. зданий города и дополнена информацией, собранной 19 муниципальными управлениями: реестр арестованного имущества за неуплату налогов, случаи незаконного использования коммунальных сетей, перебои с обслуживанием сетей, неуплаты коммунальных платежей, частота вызовов скорой помощи, рейтинг местной преступности, жалобы на грызунов и т.д. Затем они сравнили эту базу с информацией о пожарах за последние пять лет в порядке убывания причиненного ими урона, надеясь обнаружить корреляции. Неудивительно, что среди факторов, по которым прогнозировался риск возникновения пожара, немаловажную роль играл тип здания и год его постройки. Менее ожидаемым стало выявление закономерности, в соответствии с которой риск сильных пожаров снижался у зданий, получивших разрешение на внешнюю кирпичную кладку.

Все это позволило работникам мэрии разработать систему, помогающую определить число перенаселенных зданий, которые нуждались в немедленном реагировании. Ни одна из конструктивных особенностей этих зданий напрямую не вызывала пожары; скорее такие особенности коррелировали с возрастанием или снижением риска возникновения пожара. Знания оказались чрезвычайно ценными: в прошлом инспекторы строительных работ выписывали ордера на эвакуацию людей и освобождение помещений в 13% посещаемых ими объектов; после перехода на новую методику этот процент вырос до 70%, колоссальный рост эффективности.

Конечно, страховые компании давно действуют по подобной схеме, оценивая риски возникновения пожара, но они вынуждены лишь интуитивно полагаться на ограниченный набор факторов. В отличие от страховщиков мэрия Нью-Йорка использовала метод больших данных, который позволял ей изучить гораздо больше переменных, включая те, что на первый взгляд не имели отношения к риску возникновения пожара. Модель, используемая городом, дешевле и эффективнее. Что самое важное, прогнозы на основе больших данных отличаются также большей избирательностью.

Большие данные повышают прозрачность демократического управления. Вокруг идеи «открытых данных» возникло целое движение, призывающее пойти дальше законов о свободе информации, которые обычно действуют в развитых демократиях. Его сторонники призывают открыть для широкой общественности доступ к массивам несекретных сведений. Соединенные Штаты стали пионерами, создав специальный сайт Data.gov (государственные данные), и их примеру последовали многие другие страны.

Переходя к использованию больших данных, государственные власти также должны защитить граждан от нездорового рыночного доминирования. Такие компании как Google, Amazon и Facebook, а также менее известные «брокеры данных», такие как Acxiom и Experian, накапливают гигантские массивы информации обо всех и вся. Антитрестовские законодательства призваны защищать граждан от монополизации рынков товаров и услуг, таких как программное обеспечение или СМИ, поскольку размер этих рынков несложно оценить. Но как применять антимонопольные принципы к большим данным? Ведь этот рынок не поддается описанию, постоянно меняя очертания. Еще большее беспокойство вызывает неприкосновенность личной жизни и переписки, поскольку большие объемы данных почти наверняка приведут к раскрытию части личной информации и, похоже, нынешнее законодательство и технологии не способны с этим бороться.

Попытки законодательно оформить большие данные, связанные с управлением, вполне могут привести к трениям между государствами. Европейские страны уже занимаются расследованием деятельности компании Google на предмет нарушения антитрестовского законодательства и посягательства на личную информацию. Это напоминает антимонопольную кампанию, инициированную Европейской комиссией против Microsoft десять лет тому назад. Facebook может также стать мишенью для судебного преследования в разных странах мира, поскольку компания владеет большими массивами информации об отдельных гражданах и их частной жизни. Дипломатам придется ломать копья, споря о том, подпадает ли информация под законы о свободной торговле. В будущем, когда Китай начнет вводить цензуру на поиск информации в интернете, он столкнется с жалобами не только на ограничение свободы слова, но и на незаконное ограничение торговли.

Большие данные или «Большой брат»?

Государствам понадобится защищать своих граждан и свои рынки от неприятностей, связанных с большими данными. Однако люди не застрахованы от того, что могут столкнуться еще с одной темной стороной больших данных – риском их превращения в «Большого брата». Во всех странах, особенно недемократических, большие данные усугубляют асимметрию власти между государством и простыми людьми.

Она может достичь таких пропорций, что приведет к диктатуре больших данных. Эта возможность с большой силой воображения раскрыта в таких фильмах в жанре научной фантастики, как «Особое мнение» (Minority Report). Действие фильма, вышедшего на экраны в 2002 г., происходит в антиутопии ближайшего будущего. Персонаж Тома Круза возглавляет в полиции отдел профилактики преступлений, который работает с ясновидящими. Они помогают выявить людей, собирающихся совершить преступление. В сюжете показан очевидный потенциал ошибок и заблуждений, заложенный в этой системе и, что еще хуже, возможность посягательства на свободу волеизъявления.

Хотя идея выявления потенциальных нарушителей закона до совершения ими преступления кажется фантастикой, большие данные позволили властям отнестись к ней серьезно. В 2007 г. Департамент внутренней безопасности приступил к реализации научно-исследовательского проекта FAST (Future Attribute Screening Technology – технология просеивания и выявления признаков, проявляющихся в будущем). С ее помощью идентифицируются потенциальные террористы. Как и детектор лжи, эта технология основана на различных физиологических индикаторах состояния человека – от направления взгляда до сердечного ритма и жестикуляции. Полиция многих городов, включая Лос-Анджелес, Мемфис, Ричмонд и Санта-Крус, взяла на вооружение «прогностическое полицейское» программное обеспечение, которое анализирует данные о ранее совершенных преступлениях, чтобы определить, где и когда могут быть совершены будущие.

Пока эти системы не выявляют в качестве подозреваемых конкретных лиц, но они развиваются именно в этом направлении. Возможно, впредь будут обнаруживаться молодые люди, наиболее склонные к магазинным кражам. Веские причины для большей спецификации поведения появляются, когда речь заходит о предотвращении негативных социальных явлений, не связанных с криминалом. Например, если бы у социальных работников была возможность предсказывать с 95-процентной точностью, какие девушки-подростки могут забеременеть или кто из старшеклассников являются претендентами на исключение из школы, разве они не постарались бы своевременно вмешаться для предотвращения нежелательных исходов? Звучит заманчиво. В конце концов, профилактика лучше наказания. Но даже вмешательство с целью оказания реальной помощи, а не порицания или выговора, может истолковываться как наказание – как минимум есть риск опозорить человека в глазах окружающих, которые начнут считать его социально неблагонадежным. В этом случае действия государства будут восприниматься как наказание до совершения конкретных предосудительных поступков, а также посягательство на свободу волеизъявления.

Еще один повод для беспокойства – чрезмерное доверие государственных властей массивам данных. В своей книге 1999 г. издания «Глазами государства» («Seeing Like a State») антрополог Джеймс Скотт с цифрами и фактами в руках свидетельствует о том, как государство в своей неуемной страсти к количественной оценке информации и сбору данных иногда превращает жизнь отдельного человека в кошмар. Чиновники используют географические карты как исходный материал, чтобы определить способы реорганизации отдельных поселений, не выяснив, какие люди там живут. Исходя из сводных таблиц данных об урожайности, совершенно несведущие бюрократы принимают решение о целесообразности коллективизации в сельском хозяйстве. Они исследуют и используют в своих целях самые несовершенные и примитивные способы взаимодействия между людьми всех времен, которые порой необходимы им лишь для удобства вычислений.

Эта неоправданная привычка полагаться на данные может подвести. Институты нередко поддаются магии цифр и придают им более глубокий смысл, чем они того заслуживают. Вспомним один из уроков вьетнамской войны. Министр обороны США Роберт Макнамара был буквально одержим идеей использования статистики в качестве способа измерения военных успехов. Он и его коллеги уделяли главное внимание потерям противника. Количество убитых вражеских солдат стало определяющим параметром: цифры постоянно публиковались в печати, и на них ориентировались командиры. Для сторонников войны эта статистика демонстрировала успехи, а для критиков служила доказательством ее безнравственности. Вместе с тем статистика совершенно не раскрывала сложных реалий конфликта. Цифры зачастую оказывались неточными и бесполезными для оценки реального положения. Информация, конечно, способна улучшить жизнь, но при анализе статистических данных следует больше полагаться на здравый смысл.

Человеческий фактор

Большие данные неизбежно изменят наш образ жизни, труда и мышления. Мировоззрение, опирающееся на анализ причинно-следственной связи, оспаривается преимуществами корреляции. Обладание знаниями, когда-то означавшее понимание прошлого, теперь помогает предвидеть будущее. Не так легко ответить на вызов, брошенный большими данными. Скорее всего, они – просто очередной шаг в бесконечных дебатах о том, как познавать мир.

И все же большие данные станут неотъемлемой частью решения многих насущных проблем. Чтобы остановить процесс изменения климата, необходимо проанализировать информацию о загрязнении окружающей среды и принять обоснованное решение о том, на чем сосредоточить главные усилия и как хотя бы немного снизить остроту проблемы. Датчики, размещенные по всему миру, включая те, что встроены в смартфоны, дают климатологам исчерпывающую картину, позволяющую точнее моделировать процессы глобального потепления. Тем временем улучшение качества здравоохранения и снижение стоимости медицинских услуг, особенно для бедных слоев населения, потребует автоматизации задач, которые решаются человеком, но вполне по силам компьютеру. Например, исследование раковых клеток или обнаружение инфекций до появления первых симптомов.

В конечном итоге большие данные знаменуют собой момент, когда информационное общество наконец-то начинает соответствовать своему многообещающему названию. Информация выходит на авансцену. Собранные цифровые биты находят новое применение и порождают новые виды стоимости. Но это требует нового мышления, бросает вызов сложившимся институтам и укладу общественной жизни. Какая же роль отводится людям, их интуиции, способности идти против фактов в мире, где все больше и больше решений принимается на базе анализа данных? Если все апеллируют к большим данным и пользуются их инструментарием, наверное, главным отличием человека становится его непредсказуемость. Он способен проявлять инстинкты, идти на риск, справляться с непредвиденными обстоятельствами и ошибками. Если это так, то придется предусмотреть поле деятельности для человека: зарезервировать место для интуиции, здравого смысла и способности к случайным открытиям. Важно позаботиться о том, чтобы эти ценные человеческие качества не были вытеснены компьютерными алгоритмами.

Такое понятие как общественный прогресс оказывается под влиянием описанных изменений. Большие данные позволяют быстрее экспериментировать и исследовать широкий круг проблем. Эти преимущества должны порождать больше инноваций. Но порой искра изобретательности становится тем, о чем умалчивают любые данные. Это нечто, что нельзя подтвердить никакими объемами имеющейся информации, поскольку оно должно появиться в будущем. Если бы Генри Форд обращался к алгоритмам больших данных для выявления желаний и потребностей клиентов, все свелось бы к необходимости придумать «лошадь побыстрее» (перефразируя его знаменитое высказывание). В мире больших данных необходимо развивать и продвигать присущие человеку качества – творческое мышление, интуицию и интеллектуальное честолюбие, изобретательность. Они двигают прогресс.

Большие данные – это ресурс и инструмент, призванный скорее информировать, чем объяснять. Они ведут к пониманию разных явлений, но иногда провоцируют ошибочные выводы – все зависит от того, как их использовать. Но какой бы яркой и ослепительной ни казалась власть больших данных, их обманчивая мишура и привлекательность не должны затмить присущие им несовершенства. Принимая и используя технологию, нельзя забывать о ее ограничениях.

Россия в глобальной политике

Опубликовано на сайте 08/10/2013