Как понять клиента: вариации RFM, кластеры и другие "танцы с бубном"
ТЕХНОЛОГИИ КЛИЕНТСКОЙ АНАЛИТИКИ
Андрей Муратов
Управляющий директор
04.07.23
При росте размера базы клиентов компания сталкивается с рядом вызовов в области CRM маркетинга. Например, начинает падать доход на коммуникацию (revenue per communication, RPС).

По нашим данным доходность пушей у крупных брендов (от 1 млн клиентов) упала на 40% за последние 2 года.

Общепринято, для поддержки высокого CTR и доходности брендам нужно проводить много АБ тестов и хорошо сегментировать базу, моделировать оптимальное время отправки сообщения и формат оффера. Однако по статистике более 80% всех коммуникаций остаются массовыми, что неумолимо тянет их КПД вниз.

Что же компании могут делать для улучшения эффективности CRM стратегии? Обратим взгляд на доступные данные, подходящие аналитические подходы и попробуем разобраться.
Содержание
Старый родной RFM
Рождение мини-кластеров
Как получить быстрые результаты
Еще интересные пары
Сводим в инструмент анализа
Генерируем гипотезы
Старый родной RFM для CRM задач
Классический подход - посегментировать базу и улучшить качество коммуникаций через фокус на отдельные сегменты (здесь и далее термины "Сегменты" и "Кластеры" используются взаимозаменяемо). С такой идеей маркетолог по умолчанию приходит к RFM.

Основанный на 3х транзакционных признаках (Recency, Frequency, Monetary), данный фреймворк логично разбивает базу клиентов на 8 - 27 частей и более (по количеству отсечек на каждой оси). В результате в принципе можно увидеть как распределена аудитория.

Однако RFM разрабатывался в эпоху (лет этак 40-60 назад) как интуитивное решение за отсутствием лучших альтернатив и оперирует только знанием на уровне истории транзакций. Без учета их содержания и иных сопутствующих факторов к ней приведших. Как следствие - интерпретируемость причин поведения клиентов в каждой группе весьма низка.

Только за последние 10 лет возможности компаний по сбору "объясняющих" данных (поведенческих, клиентских, лояльность) кратно убежали вперед. Классический RFM с ними не особо дружит. Хотя есть и лайфхаки, о них в самом конце.

К другим снижающим применимость инструмента RFM отнесем неудобство думать в трех признаках одновременно, те в трехмерном пространстве. Кодификация сегментов отчасти 321, 213 итд отчасти решает проблему, но предлагает держать все эти номера у себя в памяти.

В завершение, точность разбиения снижается разделением базы строго по горизонтально-вертикальным границам. Использование наклонных прямых увеличивает качество сегментации, снижает ошибку.
Рождение мини-кластеров
Однако пул доступных данных значительно шире: это и Клиентский профиль, Поведение на сайте / в приложении, Категории / Коллекции товаров, Баллы лояльности, Скидки, География / Время покупок многое другое.

Последний год наша команда активно тестировала вариации RFM и подходы к классической кластеризаций на основе k-means с целью нахождения оптимального решения. И "мини-кластеры" стали таким инструментом, легким для понимания и гибким в использовании.

Строятся такие срезы в 2-х мерном пространстве на парах переменных.
Процесс сборки
Cначала аналитик формирует список подходящих признаков, в анализе которых потенциально выделить гипотезы. Каждая из таких переменных поможет выделить характерность в поведении клиентов. На практике список может включать до 50 разных признаков, доступных бренду из CDP и внешних данных.

Далее проверяются подходящих 15-20 пар, которые визуализируются в 2-мерном пространстве. В результате остается 5-10 срезов (назовем "мини-кластерами"), на которые и делается акцент в последующей работе.
На примере выше разберем кластеризацию по популярной паре признаков:
● cumsum_revenue – сумма покупок клиента по всем выкупленным товарам;
● life_time – время жизни клиента в днях.

Показатель cumsum_revenue отвечает на вопрос об общей сумме сделанных покупок, а life_time – указывает на время, за которое эта сумма была накоплена. Таким образом, более ценными будут клиенты, которые за короткий промежуток (life_time) сделали покупок на большую сумму (cumsum_revenue).

Алгоритм выделил 7 сегментов по цветам от зеленого до фиолетового. Аналитик проинтерпретировал и назвал их: rookies, econom, econom_old, middle, middle_old, premium, vip.

Данная сегментация позволяет определить ценность клиента с позиции реальной готовности тратить деньги.
Отметим,
  1. Специально отображается скопление клиентов для лучшей интерпретации (черные точки на иллюстрации справа);
  2. Для минимизации ошибки алгоритм использует наклонные линейные границы, а не строго вертикально-горизонтальные как в классическом RFM

Быстрым развитием любой сегментации на паре признаков является выделение важных групп клиентов в области критичных "приграничных зон". На рисунке слева показаны 3 белые границы. Они захватывают 25% своего сегмента, клиентов наиболее близких к переходу в более ценный сегмент.
В погоне за быстрыми победами
Далее эти группы максимального внимания анализируются в двух аспектах: относительный размер в динамике. Например, принято отслеживать % клиентов в оттоке относительно всей базы. И бить тревогу, если этот % превышает важную границу, те компания теряет больше клиентов, чем возвращает из оттока. Аналогично, анализируется куда, в какие кластеры, перетекает эта аудитория.

Набор таких оцифрованных красных флагов в компании принято выводить в дашборд "Здоровье базы", часть которого предсталена ниже.
Поэтому, в поиске причин изменения размеров важных сегментов показательно декомпозировать входящие и исходящие потоки. Для этого в дашборде выделяются положительные (хотим их растить) и негативные (наоборот, уменьшать) перетоки.

Однако само это знание сложно интерпретировать, нужны причинно-следственные связи. Поэтому аналитик добавляет контекст в анализ.

Например, стоит посмотреть реакцию базы на коммуникации, вариации офферов, цены итд и оценить как весь сегмент реагирует на них относительно других. За счет высокой однородности клиентов в каждом сегменте получается быстро находить показательные закономерности.
Аналогично, таким же образом изучать клиентов, которые поменяли свой статус в этом же периоде, те оказались в важном (положительном или отрицательном) перетоке.

А теперь переходим к самому "вкусному".
Поиск идей через пересечение кластеров
Итак, мы выяснили, что клиенты, попавшие в определенный сегмент, представляют собой однородную группу по паре признаков в данном мини-кластере (пока мы рассмотрели пару "Lifetime - Revenue"). Однако по остальным признакам, они будет распределены совершенно иным образом. Другими словами, появляется возможность пристального изучения важных групп клиентов под разными углами.

Возьмем к примеру сегмент Econom, и рассмотрим как только эти клиенты относятся к скидкам.
Коротко, данная сегментация предназначена для выявления чувствительности клиентов к скидкам, те смотрится с каким средним уровнем скидки каждый клиент исторически совершал покупки.

Признаки:
● cumcount_orders - накопленный итог по числу оформленных заказов;
● share_sale - доля по стоимости всего накопленного дохода, оплаченная скидкой.

Таким образом выделяются 5 групп для анализа: от тех, кто покупал со скидкой до 20% и менее 10 раз (indifferent), до покупателей выше 20% и более 10 покупок.
Стратегия коммуникации компании для каждого сегмента будет отличаться, например:

  1. "синей" группе сделать предложение с ценностью от 10-15% на разовую покупку, первым показать новую коллекцию;
  2. "оранжевой" - на несколько покупок, возможно с накопленным эффектом;
  3. "зеленой" - предложить оптимизацию выше, до 25% или же временно придержать к ним оффер;
  4. "фиолетовой" и "красной" - не делать оффера вообще или же придержать их на распродажу.

Это пример, вариантов интерпретации и действий тут множество. Как и пересечений с другими мини-кластерами. Имея к ним доступ, аналитик быстро доходит до 3-х уровней "вложенности", те пересекает 3 мини-кластера и группы на стыке все еще остаются достаточно крупными для проработки точечных коммуникаций для каждой.
Еще интересные пары
Красота таится в деталях. И как раз ими богат предлагаемый фреймворк. Для каждой индустрии, бизнес модели, ситуации на рынке подбираются свои признаки и пары.

На практике из следующего списка - наиболее часто встречающиеся в проектах:
● По регулярности покупки;
● По ширине потребительской корзины;
● По использованию баллов лояльности;
● По разнообразию категорий товаров;
● По среднему количеству дней между заказами;
● По максимальному числу важного товара в чеке;
● По предпочтению времени дня / дня недели;
● По приоритетности покупок в ценовых категориях;
● По половому признаку / детям.
Сводим в инструмент анализа
Подключаем к поиску идей "мудрость толпы". Дать возможность любому члену команды работать с кластерами - достаточно развернуть простой инструмент в формате сводной таблицы google sheets. Он позволяет не только использовать отдельные сегменты в качестве фильтров, но и выводить любые нужные статистики (средний чек, интервал между покупками, товаров в чеке, итд), а также быстро считать доли для сравнения.
На простом срезе пересечения мини-кластеров по оттоку и использование скидки сразу видны закономерности и критические зоны внимания:

  1. доля "охотников за скидками" (dh) увеличивается по мере движения к оттоку;
  2. стабильно индифферентных (indifferent_robust) к ним большое всего в Active, и эти 65к - самые ценные;
  3. dh_evil больше всего в subchurn_right и нет смысла удерживать их стандартными офферами;
  4. сравнительно большая доля indifferent в области subchurn и эти 118к - должен быть макс фокус компании

Аналитик, подключаясь напрямую к подготовленной таблице в базе данных, быстро перебирает подходящие срезы и находит точки роста, переводит их в гипотезы.
Генерируем гипотезы (бесконечно)
Одним из финальных аккордов использования описываемого инструмента является применение его в генерировании гипотез роста. Где найденные закономерности переводятся на язык бизнес возможности и идей для Аб тестов в CRM коммуникациях (и не только).

Используя сочетание ЦЕЛЕВЫХ и ОПИСАТЕЛЬНЫХ сегментаций мы разработали целый подход к их поиску. Но об этом уже в следующей статье цикла.

Ключавая задача - по итогу создания мини-кластеризаций компания должна получить достаточное кол-во идей для проверки. И, в идеале, могла самостоятельно продолжить их поиск. Данные в дашбордах и сводных обновляются регулярно и дают бесконечный материал для изучения.

Сильной гипотезой назовем:
- она охватывает достаточный по размеру сегмент базы (обсуждается заранее) с четкими характеристиками;
- понятна цель(и) воздействия на аудитория;
- в доступе у компании есть механики достижения этих целей.

Таким образом, на одном HADI цикле удобно выделить до 20 сильных идей для последующей проверки за 2-3 месяца. Пример оформления ниже.
Удастся ли таким методом перебора идей попасть в золотую жилу? Не исключено. Но скорее сам процесс и перебор ответов на возникающие вопросы приблизит вас к значимо лучшему пониманию собственных клиентов.

Полезное по теме:
Приходите с интересными задачами.
Error get alias