Как с помощью поведения пользователей сайта спрогнозировать их готовность к покупке?
В чем заключается влияние человеческого фактора на работу ML-системы?
Как разработанная ML-модель позволила в 3 раза снизить процент отказа по рекламе?
Machinе Learning часто применяют для построения персональных взаимодействий с потребителями. Лучших результатов удается добиться, если совместить знания маркетологов о потребительском поведении и умение data scientist работать с данными. В этой статье мы приводим подобный кейс, реализованный для официального дилера автомобильного бренда премиум-класса.
С помощью ML-решения нужно было анализировать поведение посетителей на сайте дилера и выявлять тех пользователей, которые находятся на этапе выбора марки автомобиля, для последующей персональной коммуникации с ними.
Сбор данных
Любое ML-моделирование начинается со сбора и подготовки данных. В нашем случае, помимо статистической информации, предстояло детально погрузиться в предметную область. Для этого мы попросили экспертов (специалистов автодилера) разделить клиентов на типовые сегменты с разными потребительскими мотивами — на 4 категории (рис. 1):
Первая группа. Низкий ценовой диапазон. Выбирают машину по цене, без учета марки.
Вторая группа. Средний ценовой диапазон. Для них в первую очередь важны характеристики автомобиля.
Третья группа. Средний ценовой диапазон. Лояльные к бренду клиенты, выбирающие авто из его продуктовой линейки.
Четвертая группа. Клиенты в поиске бренда, которые сначала определяются с маркой желаемого автомобиля, а затем — с конкретной моделью.
Нас интересовали пользователи сайта, попадающие в 4-ю группу.
Мы взяли данные о поведении пользователей на сайте за несколько месяцев. Для нас были важны участки веб-страниц с наибольшим временем просмотра, кликабельность ссылок, кнопок и других элементов (получить эту информацию можно с «Яндекс.Метрики», Google Analytics или аналогичных сервисов сбора статистики).
Кластеризация и классификация
После того как данные о поведении пользователей были собраны, мы решили соотнести их с категориями — аудиторными сегментами, — которые выделили эксперты. Для учета взаимодействия пользователей с UI/UX-элементами веб-страницы, то есть для непосредственного анализа клиентских действий на сайте, нужно было кластеризовать их.
Для упрощения мы решили считать, что поведение пользователей в различных сегментах существенно отличается: классы посетителей сайта изолированы друг от друга и не пересекаются. Благодаря этому допущению мы получили задачу одноклассовой классификации, когда нужно было установить принадлежность объектов к единственной выделенной группе. Например, идентифицировать, лоялен ли к бренду новый пользователь, пришедший на сайт.
На заметку
Для одно- и двухклассовой классификации чаще всего используются деревья решений, алгоритм случайного леса, логистическая регрессия, искусственные нейронные сети и машины опорных векторов (support vector machine, SVM). Именно инструмент SVM был выбран в качестве основы для ML-алгоритма, так как он слабо зависит от коллинеарности предикторов, имеет множество программных реализаций на разных языках программирования (SVM-Light, LIBSVM и LIBLINEAR для C++, scikit-learn для Python, функция SVM из пакета {e1071} для R) и в целом отлично подходит для задач классификации и кластеризации.
Таким образом, сегментация посетителей сайта свелась к типовой задаче классификации, которая была решена с помощью ML-алгоритма.
Специалист автодилера, анализируя полученную нами кластеризацию, не мог точно сказать, кто из пользователей выбирает именно марку (4-я группа). Зато он мог сориентировать, на что обращают внимание клиенты, выбирающие машину по характеристикам (2-я группа) или конкретную модель (3-я группа).
Например, 2-я группа пользователей уделяла больше внимания той части экрана, где представлены технические характеристики автомобилей. 3-я группа, выбирающая конкретную модель, как правило, просматривала информацию, посвященную именно ей, не обращая внимания на другие авто из продуктовой линейки.
Остальных посетителей сайта мы разделили на 2 категории: те, кто выбирают марку, и просто интересующиеся.
Мы проанализировали конверсию пользователей, находящихся в верхней части рис. 2. Выяснилось, что она очень низкая, то есть здесь были представлены посетители сайта, которые не планировали покупать машину.
Мы решили, что все остальные выбирают марку (на рис. 3 они находятся в зеленой зоне). Это была именно та группа, которую мы искали. Далее с этими пользователями выстраивалась персональная коммуникация.
Результаты тестирования
Тестовая эксплуатация ML-модели длилась 3 месяца и решала задачу повышения лояльности к бренду среди пользователей 4-й группы. Для них была разработана рекламная кампания, демонстрирующая преимущества бренда. Для заинтересованного в покупке клиента автоматически формировалось персональное pop-up-окно с рекламой товара или бренда (видеоролик, картинка или текст).
Успешность применения подхода оценивали по прямым бизнес-метрикам: процент отказов по рекламе и уровень продаж. В результате маркетинговой кампании процент отказов снизился в 3 раза, а продажи показали рост на 12%.
Сложности ML-проектов
Построение системы предиктивной аналитики пользовательского поведения на основе заранее неизвестных интересов клиента — весьма непростая задача.
Во-первых, она требует множества ресурсов (времени, знаний и опыта) для сбора статистических данных и организации совместной работы экспертов предметной области и специалистов по анализу данных и машинному обучению.
Во-вторых, обязательно потребуется программное и аппаратное обеспечение для хранения и обработки данных. Альтернативой является использование облачных ML-сервисов: MS Azure, AWS, Mail Cloud Solutions и т.д.
Еще одна особенность — привязка к экспертному мнению: в работе использовалась частично размеченная выборка. Экспертный фактор является ключевым для построения ML-алгоритмов и последующего определения маркетинговых стратегий. При некорректном определении пользовательских сегментов точность модели в боевом режиме будет значительно ниже, чем на обучающих и тестовых датасетах.
Но даже подробный датасет и эффективный ML-алгоритм не гарантируют успеха проекта в целом, если задача сформулирована некорректно с точки зрения бизнеса. Предиктивная аналитика с помощью машинного обучения является лишь инструментом воплощения идей, направленных на улучшение вполне конкретных целевых метрик. Перед запуском подобного масштабного проекта следует сравнить выгоду от его реализации с затратами с учетом перспективы использования и текущего состояния бизнеса.
Например, для стартапа с малой посещаемостью сайта и фактическим отсутствием информации о пользователях разработка такой системы будет слишком дорогой и нецелесообразной. А вот крупный бизнес с широкой продуктовой линейкой однотипных продуктов, зрелыми бизнес-процессами и большим объемом знаний о клиентском поведении с ее помощью, наоборот, сэкономит на рекламе и сократит неэффективные коммуникации с нецелевыми клиентами.