Lead Data Scientist (Навчання аналітиків + ML Delivery)
АТБ-маркет
Запрошуємо приєднатися до нашої команди Lead Data Scientist
Роль:
- Побудувати процеси аналітики так, щоб дані були стабільні, відтворювані й контрольовані;
- запустити навчання аналітиків та забезпечити delivery рішень ML від постановки задачі до продакшну.
Обов’язки:
- Дата інжиніринг & пайплайни: налаштування Dagster + dbt; тести даних, алерти, контроль витоків (leakage).
- Аналітичні вітрини: проєктування узгоджених marts (клієнт/чек/товар/магазин/промо/канал) з правильним grain та історичністю.
- ML для табличних даних: побудова та валідація моделей (LightGBM/XGBoost/CatBoost), регуляризація, CV, робота з дисбалансом класів, інтерпретація (SHAP).
- Оцінка якості моделей: ROC-AUC/PR-AUC, F1, calibration та інші.; підготовка метрик та звітів для бізнесу.
- Повний ML/DS цикл: постановка задач - підготовка датасетів - моделювання - інтерпретація - продакшн (batch/API), Docker.
- Навчання/менторинг: системне апскілл-навчання аналітиків (Excel-рівень і вище), регулярні заняття та рев’ю задач.
- Стандарти команди: Git, code review, шаблони ноутбуків/звітів, документація; впровадження “Data Platform Playbook”.
- Data mining: пошук патернів і гіпотез на реальних даних, спільна робота з бізнесом.
- Додатково - Архітектура та платформа даних: участь у розгортанні MinIO + Apache Iceberg + Catalog + Trino; забезпечення якості та керованості даних.
Вимоги (технічні):
1. Python + SQL (strong): pandas/numpy, scikit-learn; CTE, window functions, оптимізація запитів.
2. Математична база (практична):
- ймовірність і статистика: розподіли, маточікування/дисперсія, довірчі інтервали, p-value;
- перевірка гіпотез, A/B-тести, статистична потужність;
- лінійна алгебра: матриці/вектори, базове розуміння градієнтів.
3. ML для табличних даних: LightGBM/XGBoost/CatBoost, регуляризація, bias-variance, cross-validation, контроль leakage.
4. Оцінка моделей: ROC-AUC/PR-AUC, F1, calibration; робота з дисбалансом; інтерпретація (SHAP).
5. End-to-end DS: від постановки задачі до продакшну (batch/API), Docker.
6.Навчання/менторинг: робота з аналітиками рівня Excel; системні заняття + рев’ю.
7.Апскілл-програма: вміння проектувати план на 3–6 міс (практика/домашки/skills matrix).
8.Командні стандарти: Git, code review, шаблони, документація.
Буде плюсом: досвід з Lakehouse, Trino performance tuning, продакшн-ML рішень у Retail/FMCG, досвід CI/CD для DS.
Задачі на пілот (перші 6 місяців):
- Долучитися до проєкту розгортання “фабрики даних” (MinIO + Iceberg + Catalog + Trino) — забезпечити стабільність, відтворюваність, контроль.
- Побудувати базові вітрини даних під клієнтську аналітику (клієнт/чек/товар/магазин/промо/канал) з узгодженим grain та історичністю.
- Налаштувати автоматичні пайплайни (Dagster + dbt), тести даних і алерти.
- Вибудувати процеси обробки та аналізу даних, data mining.
Внутрішні навчання (обов’язково):
5. Провести SQL Bootcamp для пілотної групи (3–4 людини): SELECT/JOIN/GROUP BY, віконні функції, логіка grain, правила “як не зламати метрики”.
6. Створити “Data Platform Playbook”: як підключатися, де які таблиці, що таке “джерело правди”, як просити нові поля/таблиці (процес заявок).
7. Запустити office hours 2 рази/тиждень: розбір реальних задач аналітиків на реальних даних.
Компанія пропонує:
- дистанційний або гібридний формат роботи;
- працевлаштування на умовах гіг-контракту або в штат (є можливість бронювання);
- оплачувану щорічну відпустку 24 календарних дня, оплачуваний лікарняний;
- регулярну виплату заробітної плати без затримок та в обумовлених обсягах, регулярний перегляд заробітної плати;
- можливість професійного та кар'єрного росту;
- курси підвищення кваліфікації.
Контактна особа: Катерина, тел.0984567857 (t.me/KaterynaB_HR)
Як відгукнутися?
Щоб відгукнутися на цю вакансію, вам необхідно авторизуватися на нашому сайті. Якщо у вас ще немає облікового запису, будь ласка, зареєструйтесь.
Розмістити резюмеСхожі вакансії
Кухар
Директор з управління ланцюгами постачання корпорації
Продавець-консультант в магазин косметики