Хей, Хакер! Норникель – это передовая стабильная компания, в которой приветствуется использование data driven подходов в любых бизнес-процессах, в том числе в HR. Ведь планирование персонала является одним из самых важных процессов в любой крупной компании. Мы предлагаем вам принять участие в следующей интересной и актуальной для Норникеля задаче, для решения которой нужны будут ваши знания в машинном обучении.
В Норникеле выполнение производственных планов и целевых показателей̆ подразумевает высокую интенсивность работы персонала. Поэтому любое внеплановое отсутствие каждого сотрудника компании может негативно сказаться на производственный процесс.
В связи с этим в Компании крайне актуальна задача прогнозирования ухода сотрудника на больничный̆.
Потенциально решение данной задачи будет тиражировано на большое количество подразделений всех основных региональных филиалов Компании.
На хакатоне предлагается построить модель предсказания ухода на больничный по каждому сотруднику в одном из основных производственных цехов в Кольском филиале (Мурманская область). Прогноз необходимо делать на 12 месяцев вперед.
При этом будет интересно выявление закономерностей в данных, построение профилей рабочих, которые наиболее подвержены ухода на больничный.
Необходимые данные собраны из систем управления персоналом (HR) и агрегированы на уровне сотрудника и месяца.
Данные для train собраны за период с января 2015 года по август 2019 года. Находятся в трех структурированных файлах csv:
1. Файл с обезличенной информацией о сотрудниках цеха (sotrudniki):
• hash_tab_num (идентификатор сотрудника, хешированный);
• date (год и месяц, за которые сформирована в системе HR);
• date_of_birth (год рождения сотрудника);
• is_local (булева переменная, означающая, родился ли сотрудник в Мурманской области или нет);
• gender (пол сотрудника);
• category (категория должности сотрудника);
• name_post_lvl4 (название отделения по постоянной должности хешированное);
• name_post_lvl5 (название передела по постоянной должности хешированное);
• prof_post (постоянная должность хешированная);
• razryad_post (разряд сотрудника по постоянной должности);
• name_post_lvl4 (название отделения по фактической должности хешированное);
• name_post_lvl5 (название передела по фактической должности хешированное);
• prof_fact. (фактическая должность хешированная);
• razryad_fact (разряд сотрудника по фактической должности);
• married (семейное положение);
• child_num (количество детей);
• work_experience_company (стаж работы в Группе компаний);
• work_experience_factory (стаж работы в текущей Компании);
• work_experience_all (весь стаж работы);
• education (уровень образования сотрудника);
• sick (факт ухода на больничный в данный месяц);
• home_to_work_distance (расстояние от дома до работы в метрах);
• home_to_work_duration (время пути от дома до работы в минутах)
2. Файл с обезличенной информацией о родственниках сотрудника (rodstvenniki):
• hash_tab_num (идентификатор сотрудника, хешированный);
• rel_type (степень родства);
• rel_birth (год рождения).
3. Коды однодневного графика рабочего времени (ogrv):
• hash_tab_num (идентификатор сотрудника, хешированный);
• date (год и месяц, за которые сформирована в системе HR);
• graphic_rule_level_2 (детальный код расписания);
• graphic_rule_level_1 (агрегированный код расписания);
• number_of_working_hours (количество отработанных часов в смене);
• work_shift_type (название смены).
Данные для test представляют с собой перечень сотрудников, работающих в Компании на момент августа 2019 года, по которым нужно сделать прогноз на 12 месяцев: с сентября 2019 года по август 2020 года
Алгоритмы оцениваются по метрике F1 score
$$ F_1 = 2\cdot\frac{precision\cdot recall}{precision + recall} $$
В рамках соревнования считается две метрики F_1: на всём файле ответов (test_score) и на некоторой его подвыборке (validation_score). Во время соревнования в проверяющей системе вам будет доступен только validation_score, а итоговый результат будет оценен по test_score.
Для каждого сотрудника в test вы должны предсказать его уход на больничный на 12 месяцев: в период с сентября 2019 года по август 2020 года.