Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностейстатья
Статья опубликована в журнале из списка RSCI Web of Science
Статья опубликована в журнале из перечня ВАК
Статья опубликована в журнале из списка Web of Science и/или Scopus
Дата последнего поиска статьи во внешних источниках: 23 сентября 2021 г.
Аннотация:Рассмотрены две задачи, связанные с поведением клиентов сети супермаркетов: прогнозирование даты следующего визита каждого клиента и суммы его покупок. Первая задача сведена к задаче оценки вероятностей визитов, вторая – к задаче восстановления плотностей распределений сумм покупок каждого пользователя. Для решения указанных задач предложено использовать взвешенные схемы: каждой точке выборки ставится в соответствие вещественное неотрицательное число (вес). Веса позволяют учитывать дополнительную информацию, например устаревание данных (точки соответствующие старым данным имеют меньшие веса). В работе рассмотрено несколько весовых схем (способов приписывания весов точкам выборки), произведена их настройка (оптимизация качества оценки вероятности или плотности по параметрам весовой схемы). Показано, что использование весовых схем не приводит к переобучению, т.е. настройка весов на обучении не понижает качество на независимой контрольной выборке. Показана возможность использования ансамблирования для повышения качества решения рассмотренных задач, т.е. построения нескольких алгоритмов и составления их линейной комбинации. Все эксперименты произведены на реальных данных крупного Международного конкурса по разработке алгоритмов анализа данных. Специфика данных (отсутствие праздников на финальном временном отрезке статистики) позволила при решении указанных задач сосредоточиться исключительно на статистических методах решения. Кроме того, рассмотрены вопросы построения алгоритмов, которые одновременно решают обе задачи: прогнозирования даты следующего визита и суммы покупок. Показано, что не всегда их можно решать независимо. Предложен метод оптимизации функционала, который оценивает решение обеих задач.