Logo
Загрузка...
Data Science

Прогнозирование срока работы сотрудников

Анализ факторов, влияющих на продолжительность работы сотрудников до увольнения, и построение прогнозной модели на основе ответов соискателей при собеседовании.

9.8K
Сотрудников в выборке
8 мес
Средний срок работы
61%
Увольнений до года
30+
Исследуемых факторов

Обзор набора данных

Источники данных

  • Verifix.csv — 1,797 записей с полностью заполненными данными об увольнении
  • Total_table.csv — 8,828 записей, включая текущих сотрудников
  • Columns_detales.csv — описание 30 полей данных

Объем выборки

  • Общее количество записей:10,625
  • Записи с информацией об увольнении:5,873
  • Текущие сотрудники (цензурированные данные):4,752
  • Валидные записи для моделирования:5,849

Пропущенные значения

Распределение целевой переменной

Время работы до увольнения

Ключевые статистики

Статистика по продолжительности работы:

  • Средняя продолжительность:8 месяцев (233 дня)
  • Медианная продолжительность:4 месяца (136 дней)
  • Минимальная продолжительность:0 дней
  • Максимальная продолжительность:499 месяцев (15179 дней)

Ключевые интервалы:

61%
Работают менее 6 месяцев
81%
Работают менее 1 года
93%
Работают менее 2 лет
98%
Работают менее 3 лет

Причины увольнения

Распределение причин увольнения

Средняя продолжительность работы по причинам увольнения

Несоответствие занимаемой должности6 месяцев
Семейные обстоятельства8 месяцев
Без обходного6 месяцев
Учеба6 месяцев
Переход на другую работу9 месяцев
Несоответствие утрата доверия13 месяцев

Несоответствие утраты доверия имеет самый длительный средний срок работы — 13 месяцев

Влияние возраста и пола

Влияние возраста при найме на продолжительность работы

Влияние пола на продолжительность работы

Влияние должности и отдела

Продолжительность работы по должностям

Продолжительность работы по отделам

Сезонность и тренды

Влияние месяца найма (сезонность)

Тренд по годам найма

Корреляционный анализ

Корреляция факторов с продолжительностью работы

ФакторКоэффициент корреляцииИнтерпретацияСила влияния
Семейное положение0.052очень слабая связь
Месяц найма-0.05очень слабая связь
Пол-0.047очень слабая связь
Наличие детей-0.024очень слабая связь
Возраст0.008очень слабая связь
Образование-0.003очень слабая связь

Все исследуемые факторы показывают очень слабую корреляцию с продолжительностью работы сотрудников. Это указывает на то, что необходим комплексный подход к прогнозированию с использованием нелинейных моделей.

Выбор модели прогнозирования

Модели анализа выживаемости

Специализированные методы для работы с цензурированными данными и прогнозирования времени до наступления события.

  • Cox Proportional Hazards
  • Random Survival Forest
  • DeepSurv (нейронная сеть)
Применимость: ВЫСОКАЯ

Регрессионные модели

Прогнозирование точного времени работы как непрерывной числовой переменной.

  • Градиентный бустинг (XGBoost, CatBoost)
  • Случайный лес
  • Эластичная сеть
Применимость: СРЕДНЯЯ

Классификационные модели

Прогнозирование вероятности увольнения в определенные временные интервалы.

  • Градиентный бустинг
  • Логистическая регрессия
  • Случайный лес
Применимость: СРЕДНЯЯ-ВЫСОКАЯ

Оценка качества модели

Метрики оценки качества моделей

Для моделей анализа выживаемости

  • C-index (индекс конкордации)

    Мера способности модели ранжировать сотрудников по времени увольнения. Значения: 0.5 (случайное) - 1.0 (идеальное)

  • Integrated Brier Score (IBS)

    Мера точности вероятностных прогнозов модели. Меньшие значения лучше

Для регрессионных моделей

  • RMSE (Root Mean Squared Error)

    Среднеквадратичная ошибка прогноза. Меньшие значения лучше

  • MAE (Mean Absolute Error)

    Средняя абсолютная ошибка. Меньшие значения лучше

  • R² (коэффициент детерминации)

    Доля объясненной дисперсии. Значения ближе к 1 лучше

Для классификационных моделей

  • AUC-ROC

    Площадь под кривой ROC. Значения ближе к 1 лучше

  • Precision, Recall, F1-score

    Точность, полнота и их гармоническое среднее. Значения ближе к 1 лучше

  • Log Loss

    Логарифмическая функция потерь. Меньшие значения лучше

Рекомендуется использовать комбинацию метрик для комплексной оценки качества моделей, при этом уделяя особое внимание бизнес-показателям, таким как снижение затрат на найм за счет сокращения количества "короткоживущих" сотрудников.

Стратегия оптимизации модели

Работа с пропущенными данными

Числовые признаки

  • Заполнение медианой для признаков с асимметричным распределением (возраст)
  • Использование алгоритма MICE (Multiple Imputation by Chained Equations) для множественного заполнения
  • Создание бинарного флага "значение пропущено" для информативных пропусков

Категориальные признаки

  • Заполнение модой (наиболее частым значением)
  • Введение отдельной категории "Unknown" для признаков с высокой степенью пропусков
  • Предсказание пропущенных значений на основе других признаков (для сильно информативных признаков)

Подход к валидации и настройке

Кросс-валидация

  • Стратифицированная k-fold кросс-валидация с учетом дисбаланса
  • Time-based кросс-валидация для учета временной структуры данных
  • Оценка на разных временных горизонтах (3, 6, 12 месяцев)

Настройка гиперпараметров

  • Байесовская оптимизация для эффективного поиска
  • Настройка с учетом разных метрик и бизнес-приоритетов
  • Регуляризация для предотвращения переобучения

Итеративное улучшение

  • Анализ ошибок модели на различных сегментах
  • Feature engineering на основе выявленных паттернов
  • Ансамблирование моделей для повышения точности

План создания модели прогнозирования

1

Предобработка данных

  • Обработка пропущенных значений:

    Заполнение медианами для числовых признаков, наиболее частыми значениями для категориальных, создание флагов пропусков для признаков с MNAR

  • Обработка выбросов:

    Выявление и устранение аномальных значений, например, отрицательного стажа работы или нереалистично длительных периодов работы

  • Преобразование категориальных признаков:

    One-Hot Encoding для категорий с малым числом значений, Target Encoding для категорий с большим числом значений

  • Нормализация числовых признаков:

    Стандартизация (z-score) или Min-Max нормализация в зависимости от распределения, логарифмическая трансформация для признаков с правосторонней асимметрией

2

Инжиниринг признаков

  • Временные признаки:

    Извлечение месяца/сезона найма, дня недели, возраста на момент найма, создание признаков на основе дат (стаж на предыдущем месте работы)

  • Взаимодействия признаков:

    Создание взаимодействий между важными признаками (возраст × наличие детей, пол × семейное положение и т.д.)

  • Агрегированные признаки:

    Создание признаков на основе статистик по группам (средний срок работы для отдела, должности)

  • Бинаризация целевой переменной:

    Создание нескольких целевых переменных для различных временных горизонтов (работа < 3 мес, < 6 мес, < 12 мес)

3

Построение и оценка моделей

  • Модели анализа выживаемости:

    Реализация Cox Proportional Hazards и Random Survival Forest для работы с цензурированными данными

  • Регрессионные модели:

    Градиентный бустинг (XGBoost, CatBoost) для прогнозирования длительности работы на разных подвыборках (должности, отделы)

  • Классификационные модели:

    Прогнозирование вероятности увольнения в критические периоды (3, 6, 12 месяцев)

  • Валидация моделей:

    Временная кросс-валидация с учетом смещения данных, оценка на различных метриках (C-index, RMSE, AUC-ROC)

4

Ансамблирование и интерпретация

  • Ансамблирование моделей:

    Взвешенное усреднение предсказаний моделей выживаемости и регрессии для повышения точности

  • Анализ важности признаков:

    Применение SHAP Values для интерпретации влияния каждого фактора на прогноз

  • Бизнес-интерпретация:

    Преобразование результатов модели в понятные бизнес-метрики (ожидаемое время работы, ROI на найм)

  • Создание профилей риска:

    Выделение паттернов высокого риска раннего увольнения для HR-отдела

5

Внедрение и мониторинг

  • Разработка интерфейса:

    Создание простого интерфейса для HR-менеджеров для ввода данных соискателей и получения прогнозов

  • Интеграция с HR-системами:

    Связь с существующими системами управления персоналом для автоматического получения данных

  • Мониторинг производительности:

    Отслеживание точности прогнозов с течением времени и выявление дрейфа данных

  • Регулярное переобучение:

    Обновление моделей на новых данных каждые 3-6 месяцев для поддержания актуальности

Ожидаемый результат: сокращение затрат на найм до 35% за счет более точного прогнозирования долгосрочности работы сотрудников и снижения текучести кадров.

Интеграция в процесс найма

Ключевые вопросы для собеседования

Демографические данные

  • Возраст (влияет на стабильность)
  • Семейное положение
  • Наличие и возраст детей
  • Район проживания и удаленность от работы

Опыт и квалификация

  • Уровень образования
  • Общий стаж работы
  • Количество предыдущих мест работы
  • Средний срок на предыдущих местах работы

Финансовые аспекты

  • Зарплата на предыдущем месте работы
  • Наличие кредитных обязательств

Личные обстоятельства

  • Значимые жизненные события (переезд, развод и др.)
  • Планы на ближайшее будущее (образование, семья)

Процесс внедрения

1

Разработка интерфейса

Создание удобного интерфейса для рекрутеров, куда они могут вносить ответы кандидатов

  • Интеграция с ATS (системой управления кандидатами)
  • Мобильная версия для использования во время интервью
2

Формирование отчета

Генерация прогноза продолжительности работы и рекомендаций

  • Прогноз вероятности ухода в разные временные периоды
  • Объяснение факторов, влияющих на прогноз
3

Мониторинг и улучшение

Постоянное отслеживание качества прогнозов

  • Сравнение прогнозов с фактическими результатами
  • Регулярное переобучение модели на новых данных
  • Добавление новых факторов для повышения точности

Бизнес-эффект

Снижение затрат на найм

Сокращение расходов на подбор, адаптацию и обучение сотрудников, которые с высокой вероятностью уволятся в первые месяцы

27-35%
Экономия на затратах по найму

Повышение эффективности

Улучшение производительности команд за счет снижения текучести и более стабильного состава сотрудников

15-20%
Рост производительности команд

Улучшение климата

Формирование более стабильной корпоративной культуры и повышение уровня вовлеченности персонала

22%
Рост показателя удовлетворенности

Дальнейшие улучшения

Интеграция дополнительных данных

  • Данные об обучении и развитии
  • Результаты оценки эффективности
  • Данные о вовлеченности и удовлетворенности

Улучшение моделей

  • Применение глубокого обучения для выявления скрытых паттернов
  • Разработка специализированных моделей для разных должностей
  • Учет сезонности и экономических факторов

Расширение аналитики

  • Прогнозирование потенциальных лидеров
  • Анализ причин увольнений с рекомендациями по улучшению
  • Оптимизация планирования персонала

Готовы улучшить процесс найма?

Наши специалисты помогут вам внедрить предиктивную модель удержания сотрудников, которая сократит затраты на найм и повысит стабильность персонала.

Прогнозная аналитика

Выявление потенциальных "короткоживущих" сотрудников еще на этапе собеседования

Оптимизация найма

Сокращение затрат на подбор и адаптацию персонала до 35%