Data-Centric Alliance - Большие возможности больших данных.
Спонсор рубрики компания Data-Centric Alliance

Жителей московских районов разделили на потребительские сегменты

Российская компания DCA (Data-Centric Alliance) изучила потребительский портрет жителей разных районов Москвы. Исследование строилось на основании массива обезличенных онлайн и офлайн данных с помощью технологий Big Data и искусственного интеллекта. В результате удалось выделить топ-5 потребительских сегментов, наиболее характерных для того или иного района города.

Москва — мегаполис с многомиллионным населением. Как в любой другой столице оно постепенно кластеризуется: появляются районы притяжения креативного класса, престижные и фешенебельные кварталы, зоны яркой ночной жизни, отдыха и рекреации, депрессивные районы. Развитая дорожная сеть, ярко выраженный центр, разветвленный общественный транспорт — условия, в которых внутригородская миграция приобретает огромные масштабы.

Жители Москвы привыкли отождествлять определенные районы и места с соответствующими слоями и социальными группами горожан: ЦПКиО им Горького с хипстерами, Воробьевы Горы — со спортсменами и «ЗОЖниками», Патриаршие — с экспатами. Но это места, куда люди приезжают. А где они живут?

Современные технологии обработки данных и цифровая реальность Сети позволили аналитическому центру DCA (Data-Centric Alliance) сопоставить анонимное потребительское поведение московских пользователей Интернета с районами их проживания. Таким образом удалось выделить топ-5 потребительских сегментов, которые обычно используют рекламодатели, для каждого района города (см. вложение)

Например, удалось выяснить, что представители креативных профессий (сегмент «Хипстеры») из парка Горького, Флакона, Армы и других центров притяжения отправляются ночевать домой в Академический, Гольяново (самые аффинитивные территории для сегмента по данным DMP Facetz.DCA), Алексеевкий, Аэропорт, Гагаринский и даже Зябликово.
Аудитория с самым высоким уровнем дохода концентрируется в Крылатском, Проспекте Вернадского и Аэропорте.

В исследовании участвовали 17 самых популярных аудиторных сегментов платформы DCA (на основе статистики спроса рекламодателей в 2015-2016 годах в Москве), основанных на интересах и ближайших намерениях пользователей, отраженных в их поведении в Сети. Среди таких сегментов высокая и низкая покупательская способность, интерес к моде, образованию, путешествиям по России, за границу, а также привычки и стиль жизни: гики, хипстеры, кофеманы. Больше интересных связей и градаций можно найти в матрице «Район-Сегмент».

В исследовании использовалась методика привязки и корреляции существующих аудиторных сегментов, в которых состоят пользователи Рунета (данные собственной DMP-платформы), с историей их перемещений в черте города (GPS-данные, полученные через мобильные устройства).

Сначала был определен район проживания пользователя. Фактически эта область Москвы, откуда в будние дни поступает наибольшее количество запросов вне рабочего времени, а по выходным и праздникам — в течение всего дня. Важным критерием здесь является наличие достаточного количества данных для достоверного определения района проживания. Поэтому в выборку попадали только те пользователи, по которым было накоплено не менее 25 фактов с указанием текущей геопозиции на протяжении 2 недель. Исключили из выборки всех тех, кто был размечен в менее чем 5 аудиторных сегментов.

В итоге для каждого района были получены выборки объемом от нескольких тысяч до десятков тысяч пользователей, которые в основном коррелировали с численностью населения в этих районах. Далее мы исключили районы, для которых не смогли собрать более 2000 пользователей. На Рис.2 представлена получившаяся гистограмма распределения числа жителей по районам.

Далее для каждой пары «район — сегмент» был посчитан индекс аффинитивности (или индекс соответствия), который в данном случае характеризует, насколько разным сегментам характерно проживание в том или ином районе Москвы, по сравнению с общим значением. Аффинитивность — популярная метрика в интернет-маркетинге, которая выражает то, насколько принадлежность случайного представителя определенной аудитории к тому или иному сегменту является более или менее типичным, чем для всей генеральной совокупности. В случае данного исследования «аудиторией» являются жители различных районов, а сегмент образует множество cookies.

Наиболее интересные сегменты, для которых можно было бы достаточно точно посчитать индексы аффинитивности, представлены в виде матрицы на Рис.1. Индексы аффинитивности изображены цветными пикселями: более холодные цвета соответствуют низкой аффинитивности района данному сегменту, т.е. концентрация сегмента в районе минимальна, а более теплые показывают высокую аффинитивность, т.е. наибольшую концентрацию сегмента в районе.

В ходе такого сравнительного анализа выявлены интересные закономерности:

  • Наибольшее число мигрантов (проживающих в Москве, но часто посещающих сайты в доменной зоне СНГ, *.tj, *.az и прочие) сосредоточено в Савеловском и Рязанском районах, меньше всего — в Ясенево и Братеево
  • Люди с высокой покупательской способностью выбирают район Крылатское, а меньше всего их в Марьино и Печатниках
  • Вегетарианцы проживают в Даниловском и Преображенском районах, избегая при этом Пресненский район и Аэропорт
  • Молодых незамужних девушек больше всего в Тимирязевском и Хорошевском районах и меньше всего — в Орехово-Борисово и Дорогомилово
  • Больше всего людей, планирующих завести домашнего питомца, проживает в районе Братеево и меньше всего в Крылатском

Изучив данную матрицу, несложно провести множество других интересных наблюдений.