Хей, Хакер! Норникель – это передовая стабильная компания, в которой приветствуется использование data driven подходов в любых бизнес-процессах, в том числе в HR. Ведь планирование персонала является одним из самых важных процессов в любой крупной компании. Мы предлагаем вам принять участие в следующей интересной и актуальной для Норникеля задаче, для решения которой нужны будут ваши знания в машинном обучении.

Контекст

В Норникеле выполнение производственных планов и целевых показателей̆ подразумевает высокую интенсивность работы персонала. Поэтому любое внеплановое отсутствие каждого сотрудника компании может негативно сказаться на производственный процесс.

В связи с этим в Компании крайне актуальна задача прогнозирования ухода сотрудника на больничный̆.

Потенциально решение данной задачи будет тиражировано на большое количество подразделений всех основных региональных филиалов Компании.

Описание задачи

🧩 Формулировка ****

На хакатоне предлагается построить модель предсказания ухода на больничный по каждому сотруднику в одном из основных производственных цехов в Кольском филиале (Мурманская область). Прогноз необходимо делать на 12 месяцев вперед.

При этом будет интересно выявление закономерностей в данных, построение профилей рабочих, которые наиболее подвержены ухода на больничный.

📊 Данные

Необходимые данные собраны из систем управления персоналом (HR) и агрегированы на уровне сотрудника и месяца.

Данные для train собраны за период с января 2015 года по август 2019 года. Находятся в трех структурированных файлах csv:

1.	Файл с обезличенной информацией о сотрудниках цеха (sotrudniki): 
•	hash_tab_num (идентификатор сотрудника, хешированный);
•	date (год и месяц, за которые сформирована в системе HR);
•	date_of_birth (год рождения сотрудника);
•	is_local (булева переменная, означающая, родился ли сотрудник в Мурманской области или нет);
•	gender (пол сотрудника);
•	category (категория должности сотрудника);
•	name_post_lvl4 (название отделения по постоянной должности хешированное);
•	name_post_lvl5 (название передела по постоянной должности хешированное);
•	prof_post (постоянная должность хешированная); 
•	razryad_post (разряд сотрудника по постоянной должности);
•	name_post_lvl4 (название отделения по фактической должности хешированное);
•	name_post_lvl5 (название передела по фактической должности хешированное);
•	prof_fact. (фактическая должность хешированная);
•	razryad_fact (разряд сотрудника по фактической должности);
•	married (семейное положение);
•	child_num (количество детей);
•	work_experience_company (стаж работы в Группе компаний);
•	work_experience_factory (стаж работы в текущей Компании);
•	work_experience_all (весь стаж работы);
•	education (уровень образования сотрудника);
•	sick (факт ухода на больничный в данный месяц);
•	home_to_work_distance (расстояние от дома до работы в метрах);
•	home_to_work_duration (время пути от дома до работы в минутах)

2.	Файл с обезличенной информацией о родственниках сотрудника (rodstvenniki):
•	hash_tab_num (идентификатор сотрудника, хешированный);
•	rel_type (степень родства);
•	rel_birth (год рождения).

3.	Коды однодневного графика рабочего времени (ogrv): 
•	hash_tab_num (идентификатор сотрудника, хешированный);
•	date (год и месяц, за которые сформирована в системе HR);
•	graphic_rule_level_2 (детальный код расписания);
•	graphic_rule_level_1 (агрегированный код расписания);
•	number_of_working_hours (количество отработанных часов в смене);
•	work_shift_type (название смены).

Данные для test представляют с собой перечень сотрудников, работающих в Компании на момент августа 2019 года, по которым нужно сделать прогноз на 12 месяцев: с сентября 2019 года по август 2020 года

Скор задачи

Алгоритмы оцениваются по метрике F1 score

$$ F_1 = 2\cdot\frac{precision\cdot recall}{precision + recall} $$

В рамках соревнования считается две метрики F_1: на всём файле ответов (test_score) и на некоторой его подвыборке (validation_score). Во время соревнования в проверяющей системе вам будет доступен только validation_score, а итоговый результат будет оценен по test_score.

Отправка решения

Для каждого сотрудника в test вы должны предсказать его уход на больничный на 12 месяцев: в период с сентября 2019 года по август 2020 года.