Проклятие Big Data

Большие данные, или, если использовать оригинальный термин, Big Data сегодня многими воспринимается как универсальный инструмент поиска какого-то нового знания. Но всего несколько десятилетий назад амбиции любителей статистических данных были серьёзно ограничены уровнем развития технологий. Данные надо было не только собрать и систематизировать, но и как-то хранить. Сегодня средств хранения предостаточно, а стоимость хранения одного байта снизилось настолько, что многие о не задумываются о расходах на хранение уже собранных данных. Хотя некоторыми авторами, к примеру, иногда поднимается вопрос о целесообразности сохранения гигантского количества фотографий, сливаемых пользователями в облако, и более никогда ими не просматриваемыми. Ну, эти данных хотя бы полезны корпорациям для тренировки искусственного интеллекта. Но полноценным использованием классических статистических данных, собираемых в промышленных масштабах, практически никто так и не занимается.

Смотрите, то, что раньше предлагалось нам как аналитика на основе неких данных, сегодня преподносится как нечто, полученное на основе Big Data. Термин настолько удобен, что теперь его используют повсеместно. Раньше нужно было объяснять, откуда взялись данные, кто и как производил их анализ, то сегодня достаточно выкрикнуть Big Data, а если кто-то и попробует поинтересоваться, что же кроется за этим термином, то можно сделать круглые глаза и назвать вопрошающего старовером. Между тем, проклятие больших данных заключается не столько в том, что большое количество переменных часто снижает ценность и точность выводов на их основе, сколько в появлении возможности манипулировать ими в промышленных масштабах.

Мы уже неоднократно критиковали такой метод исследований, как опрос. Главной проблемой любого опроса состоит в двойной его субъективности. С одной стороны, социологи (назовём их так) при составлении вопросов могут сознательно формулировать их таким образом, что респонденты будут предрасположены к определённому ответу. Да что далеко ходить, мы постоянно после размещения какого-нибудь опроса в канале получаем сообщения от читателей, возмущённых отсутствием того или иного варианта ответа. Получается, что на всех стадиях получения и анализа данных практически невозможно избежать манипуляций. И в результате нам предлагают принять некие тезисы, сформулированные и обоснованные данными, которые назвать объективными язык не поворачивается.

А что же «объективные» данные? Ну те, что используются, например, в индексах доступности связи или стоимости гигабайта? Надо признать, что и они имеют налёт субъективности. Для получения максимально полной картины, нужно иметь не только данные о стоимости связи, которые в принципе можно брать на сайтах операторов, но и иметь на руках полные расклады по абонентам и выбранным ими тарифам, что, разумеется, никто и никогда не даст не то, что стороннему агентству, но даже регуляторам.

Николас Талеб, автор термина «чёрный лебедь» и концепции антихрупкости считает, что количество ложных выводов прямопропорционально количеству переменных, используемых в анализе. Другими словами, чем больше используется данных для анализа и принятия некоего решения, тем больше шанс промахнуться. Шансы промахнуться растут настолько серьёзно, что сами по себе большие данные становятся не благом, но проклятием современного менеджмента.

Конечно, во многом выводы, изложенные выше, касаются извращённой интерпретации термина Big Data. Он в силу своей молодости до сих пор трактуется сильно по-разному, и зачастую трактовка его зависит от обстоятельств и контекста. Но даже в обозримом будущем большие данные будут разумнее будет использовать разве что для решения масштабных задач. Или по крайней мере, хотя бы исключить ссылку на «большие данные» как на серьёзный аргумент в пользу того или иного тезиса.

Ведь даже те, кто без ума от Big Data сегодня, соглашаются с тем, что важно не количество данных, а умение задавать вопросы, решению которых эти данные могут поспособствовать.