Логистическая регрессия

Материал из Энциклопедия интернет-маркетинга MarketWiki

Логистическая регрессия - это метод машинного обучения и статистики, используемый для задач бинарной классификации, который предсказывает вероятность принадлежности объекта к одному из двух классов (например, «клиент уйдёт или останется», «кликнет или не кликнет») на основе одного или нескольких признаков (факторов).

В интернет-маркетинге логистическая регрессия широко применяется для прогнозирования оттока клиентов (churn prediction), оценки вероятности клика по рекламе (pCTR), вероятности конверсии, скоринга лидов, сегментации аудитории и оценки эффективности каналов. Например, маркетинговый аналитик строит модель логистической регрессии, которая на основе признаков клиента (частота покупок, средний чек, давность последнего визита) предсказывает вероятность оттока в следующем месяце. Клиенты с вероятностью выше 70 процентов получают персональную скидку.

Логистическая регрессия - один из базовых и наиболее интерпретируемых алгоритмов машинного обучения. В отличие от сложных нейросетей, она позволяет понять, какие именно факторы влияют на результат, и измерить силу этого влияния. В маркетинге это критически важно для обоснования решений перед руководством.

Главное

[править]

Логистическая регрессия - это формула, которая вычисляет вероятность: клиент уйдёт или останется, пользователь кликнет или нет, покупка будет или нет. Простая, понятная, и главное - понятно, какие факторы на что влияют.

Что такое логистическая регрессия

[править]

Логистическая регрессия - это расширение линейной регрессии для задач классификации. В отличие от линейной регрессии, которая предсказывает любое числовое значение, логистическая регрессия «сжимает» результат в диапазон от 0 до 1 (вероятность).

Математическая основа

[править]
  • Линейная комбинация признаков: z = b0 + b1 × x1 + b2 × x2 + ... + bn × xn
  • Сигмоидная функция: p = 1 / (1 + e^(-z)), где p - вероятность принадлежности к классу 1.

Интерпретация коэффициентов

[править]
  • Положительный коэффициент (b больше 0) означает: увеличение признака повышает вероятность наступления события.
  • Отрицательный коэффициент (b меньше 0) означает: увеличение признака снижает вероятность.
  • Абсолютное значение коэффициента показывает силу влияния.

Пример в маркетинге (прогнозирование оттока)

[править]
Признак Коэффициент Интерпретация
Давность последней покупки (Recency) +0.5 Чем дольше не покупал, тем выше риск оттока
Частота покупок (Frequency) -0.8 Чем чаще покупает, тем ниже риск оттока
Средний чек (Monetary) -0.2 Чем выше чек, тем чуть ниже риск
Количество жалоб в поддержку +1.2 Самый сильный фактор: жалобы - высокий риск

Метрики качества модели

[править]
Метрика Описание Целевое значение
Accuracy Доля правильных ответов Больше 80 процентов
Precision Из предсказанных положительных - сколько действительно положительных Больше 70 процентов
Recall Из реальных положительных - сколько модель нашла Больше 70 процентов
F1-score Гармоническое среднее Precision и Recall Больше 0.7
AUC-ROC Способность различать классы Больше 0.8
Log Loss Ошибка вероятностных прогнозов Чем меньше, тем лучше

Преимущества логистической регрессии

[править]
Преимущество Описание
Интерпретируемость Понятно, какие факторы и как влияют на результат
Быстрота Быстро обучается даже на больших данных
Устойчивость Менее подвержена переобучению, чем сложные модели
Вероятность на выходе Не просто класс, а вероятность - можно настраивать пороги

Недостатки

[править]
Недостаток Описание
Линейное разделение Плохо работает, если зависимость сложная, нелинейная
Чувствительность к выбросам Выбросы могут сильно искажать коэффициенты
Требует подготовки данных Нужно нормализовать числовые признаки, кодировать категориальные

Применение в маркетинге

[править]
Задача Применение
Прогнозирование оттока (Churn Prediction) Оценка вероятности, что клиент перестанет покупать
Скоринг лидов Оценка вероятности, что лид станет покупателем
pCTR (вероятность клика) Прогноз вероятности клика по рекламному объявлению
Вероятность конверсии На сайтах, в email-рассылках
Оценка кредитного риска Для финансовых маркетинговых продуктов

Реализация на Python

[править]
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split

# Подготовка данных (признаки X, целевая переменная y)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

# Предсказание вероятностей
y_proba = model.predict_proba(X_test)[:, 1]

# Оценка качества
auc = roc_auc_score(y_test, y_proba)
print(f'AUC: {auc:.3f}')

# Коэффициенты влияния признаков
coefficients = dict(zip(feature_names, model.coef_[0]))

Часто задаваемые вопросы

[править]

Что такое логистическая регрессия простыми словами?

[править]

Это математическая формула, которая вычисляет вероятность: случится событие или нет. Похоже на «70 процентов дождя» в прогнозе погоды, только вместо дождя - «клиент уйдёт», «кликнет по рекламе», «купит».

Чем логистическая регрессия отличается от линейной?

[править]

Линейная регрессия предсказывает любое число (например, сумму покупки). Логистическая регрессия предсказывает вероятность от 0 до 1.

Где в маркетинге используется логистическая регрессия?

[править]

Прогнозирование оттока клиентов (churn prediction), скоринг лидов (кто купит), pCTR (вероятность клика по рекламе), оценка вероятности конверсии на сайте.

Почему логистическая регрессия лучше подходит для классификации, чем линейная?

[править]

Линейная регрессия может предсказывать значения меньше 0 и больше 1, что не имеет смысла для вероятности. Логистическая регрессия через сигмоидную функцию «сжимает» выход в диапазон от 0 до 1, что корректно интерпретируется как вероятность.

Связанные термины

[править]