Machine Learning Engineer (Профессиональный уровень)

Курс «Machine Learning Engineer (Профессиональный уровень)» предназначен для тех, кто хочет овладеть глубокими знаниями и практическими навыками в разработке и внедрении масштабируемых ML-решений. Программа включает продвинутые темы: оптимизация моделей, работа с большими данными, проектирование ML-инфраструктуры, деплой, MLOps и best practices индустрии.

Описание образовательного курса:

Учебная программа курса «Machine Learning Engineer (Профессиональный уровень)» направлена на подготовку инженеров, способных проектировать, разрабатывать и эксплуатировать масштабируемые ML-системы в промышленных условиях. Курс охватывает теоретические основы, практическую реализацию моделей, интеграцию в production и управление ML-инфраструктурой.

Что предстоит пройти:

Продвинутые алгоритмы машинного и глубокого обучения.
Архитектуры нейронных сетей: CNN, RNN, Transformer, GAN.
Feature engineering и обработка больших данных с использованием Spark, Dask.
Оптимизация моделей: hyperparameter tuning, pruning, quantization, AutoML.
Разработка и деплой ML-моделей: Docker, Kubernetes, Flask/FastAPI.
MLOps: CI/CD для ML, мониторинг, версионирование данных и моделей, MLflow, Kubeflow.
Построение scalable ML-архитектур: batch/stream inference, pipeline orchestration.
Проектное обучение: от идеи до production-ready решения, code review, документация.

После прохождения курса выпускник должен уметь:

Разрабатывать и оптимизировать модели под конкретные задачи бизнеса.
Интегрировать ML в производственную среду с учётом отказоустойчивости и масштабируемости.
Строить автоматизированные ML-pipelines и управлять жизненным циклом моделей.
Работать с современными инструментами MLOps и облачными платформами.

Выпускник должен знать:

Современные архитектуры ML-систем и паттерны проектирования.
Принципы построения MLOps и управления ML-инфраструктурой.
Библиотеки и фреймворки: PyTorch, TensorFlow, Scikit-learn, XGBoost, LightGBM, MLflow и др.
Методологии тестирования, валидации и мониторинга ML-моделей в production.

Формат обучения:
Менторские сессии, лекции, практика на реальных кейсах, командные проекты, code review, защита дипломного проекта.

Хотите узнать, насколько вам необходим этот курс и действительно ли вы
разобрались в теме?
Пройдите короткий тест — он поможет определить, стоит ли углубляться в эту тему,
или вы уже готовы двигаться дальше.

? Пройти тест

Вопросы

Что такое MLOps и зачем он нужен?
MLOps (Machine Learning Operations) — это практики, объединяющие разработку ML-моделей с их эксплуатацией в production. Он обеспечивает автоматизацию процессов обучения, тестирования, деплоя, мониторинга и управления версиями моделей, что критично для масштабируемой и надёжной работы ML-систем.
Какие основные этапы жизненного цикла ML-модели?
Этапы: определение задачи, сбор и подготовка данных, обучение модели, оценка качества, деплой, мониторинг в production, переобучение и поддержание актуальности модели.
В чём разница между online и batch inference?
Batch inference используется для обработки больших объёмов данных пакетами, обычно асинхронно. Online inference — это обработка запросов в реальном времени, где задержка критична, например, при работе API сервиса.
Как устроены ML-pipelines и почему они важны?
ML-pipeline — это последовательность шагов от получения сырых данных до вывода предсказаний. Важность заключается в стандартизации, автоматизации и воспроизводимости ML-процессов, особенно при интеграции в production.
Что такое feature store и как он используется в ML-инфраструктуре?
Feature store — это централизованное хранилище признаков, которое позволяет повторно использовать вычисленные фичи, ускоряет разработку моделей и обеспечивает согласованность между training и inference.
Какие инструменты используются для контейнеризации ML-приложений?
Наиболее популярны Docker и Singularity. Контейнеризация позволяет изолировать окружение, обеспечить воспроизводимость и легко разворачивать модели на разных платформах.
Что такое CI/CD для ML и как он отличается от классического CI/CD?
CI/CD для ML включает автоматизацию не только кода, но и данных, метрик, моделей и даже окружения. Тестирование здесь сложнее из-за зависимости от качества данных и стабильности метрик.
Как реализуется versioning данных и моделей в промышленных системах?
Для данных применяются такие инструменты, как DVC или lakeFS, а для моделей — MLflow Model Registry или собственные системы версионирования, где каждая модель имеет уникальный идентификатор и метаданные.
Что такое model drift и как с ним бороться?
Model drift — это изменение распределения входных данных со временем, ведущее к снижению качества модели. Для борьбы используются регулярная перетренировка, мониторинг метрик и детектирование дрейфа с помощью статистических методов.
Какие существуют подходы к оптимизации производительности ML-моделей?
Оптимизация включает уменьшение размера модели (pruning, quantization), использование более эффективных архитектур, компиляцию моделей (TorchScript, ONNX Runtime), параллельную обработку и оптимизацию I/O.
Что такое A/B тестирование в ML и когда оно применяется?
A/B тестирование используется для сравнения двух или более моделей в боевой среде по бизнес-метрикам, чтобы выбрать наиболее эффективную без риска полного переключения.
Какие метрики используются для оценки качества ML-моделей в production?
Метрики включают accuracy, precision, recall, F1-score, ROC-AUC, MAE, RMSE и другие, а также специфические бизнес-метрики. Также важно отслеживать стабильность предсказаний и дрейф данных.
Что такое transfer learning и в каких случаях его применяют?
Transfer learning — это подход, при котором предобученная модель дообучается на новой задаче. Применяется, когда мало данных, или требуется быстрая адаптация под конкретный домен.
Как работает система рекомендаций и какие алгоритмы в ней применяются?
Системы рекомендаций строятся на основе collaborative filtering, content-based подходов, матричных факторизаций, deep learning (например, Wide & Deep, Two Tower). Они учитывают поведение пользователей и свойства объектов.
Какие требования предъявляются к логированию в ML-сервисах?
Логирование должно быть структурированным, содержать информацию о входных данных, предсказаниях, времени выполнения, ошибки и исключения. Это необходимо для диагностики, отладки и анализа дрейфа.
Какие инструменты используются для orchestration ML-пайплайнов?
Apache Airflow, Luigi, Prefect, Kubeflow Pipelines. Эти инструменты позволяют управлять зависимостями, запускать задачи в нужном порядке и отслеживать их выполнение.
Как происходит масштабирование ML-инфраструктуры?
Масштабирование достигается через горизонтальное увеличение worker-узлов, использование Kubernetes для оркестрации, load balancing, шардинг данных и моделей, а также через распределённое обучение.
Что такое distributed training и как он реализуется?
Distributed training — это обучение модели на нескольких GPU/TPU/устройств. Реализуется через data parallelism, model parallelism, использование фреймворков (PyTorch Distributed, Horovod, TensorFlow MirroredStrategy).
Какие проблемы возникают при деплое ML-моделей в production?
Проблемы: несоответствие окружений, высокая задержка, непредсказуемое поведение на новых данных, сложности с мониторингом, необходимость поддержки нескольких версий модели и управление зависимостями.
Какие библиотеки используются для feature engineering?
Scikit-learn, Featuretools, Pandas, PySpark, Polars, Category Encoders, NumPy. Для сложных pipeline могут применяться Luigi, Kedro, Airflow.
Что такое explainable AI и зачем она нужна?
Explainable AI (XAI) — это методы интерпретации решений ML-моделей. Необходима для соблюдения регуляторных требований, повышения доверия к модели и выявления потенциальных проблем.
Какие типы тестирования применяются в ML-проектах?
Unit-тесты для кода, integration-тесты для пайплайнов, data validation, schema validation, model testing (на различных срезах данных), regression testing после обновлений.
Как организовать мониторинг ML-модели в production?
Мониторинг включает логирование входных/выходных данных, метрики качества, дрейф признаков, аномалии, SLI/SLO, alerting через Prometheus, Grafana, Evidently, WhyLogs.
Какие облачные платформы поддерживают ML-разработку и какие инструменты они предоставляют?
AWS (SageMaker, Lambda), GCP (Vertex AI, BigQuery ML), Azure (ML Studio, Databricks), Yandex Cloud (Managed Services for ML). Предоставляют compute, storage, AutoML, MLOps tools.
Как проектируется архитектура ML-системы в enterprise-среде?
Архитектура включает слои: данные → preprocessing → training → serving → monitoring. Используются микросервисы, message queues (Kafka), базы данных (feature store), orchestration, security, RBAC, CI/CD.

Какие подходы используются для обнаружения аномалий в данных перед обучением модели?
Для обнаружения аномалий применяются статистические методы (IQR, Z-score), алгоритмы кластеризации (Isolation Forest, DBSCAN), autoencoder-based подходы и использование библиотек, таких как PyOD, Scikit-learn.
Что такое data leakage и как его избежать при построении ML-пайплайнов?
Data leakage — это ситуация, когда модель использует данные, недоступные на момент inference, что приводит к переобучению. Чтобы избежать — корректно разделять выборки, не использовать future data, проверять feature engineering на зависимость от целевой переменной.
Как реализовать безопасность ML-моделей от adversarial атак?
Меры безопасности включают регулярное тестирование на устойчивость к атакам, добавление шума в данные, использование adversarial training, применение детекторов аномалий и ограничение доступа к модели через API с rate limiting.
Какие существуют стратегии деплоя новых версий моделей в production?
Стратегии: blue-green deployment, canary release, shadow deployment, A/B testing. Они позволяют минимизировать риски и обеспечить плавный переход между версиями моделей.
В чём отличие между model registry и model versioning?
Model registry — это централизованное хранилище моделей с метаданными, статусами и разрешениями. Model versioning — процесс управления версиями конкретной модели, обычно реализуется через теги или хэши.
Как организовать автоматическое переобучение модели в production?
Автоматизация включает триггеры на основе дрейфа данных или ухудшения метрик, pipeline обучения с cross-validation, сохранение лучшей модели и автоматический деплой после прохождения тестов.
Что такое drift detection и какие методы его реализации?
Drift detection — выявление изменения распределения входных данных. Используются статистические тесты (K-S, PSI), обучаемые детекторы (Drift Detection Method, ADWIN) и визуализация.
Как работает online learning и в каких задачах он применим?
Online learning — это обучение модели на потоке данных в реальном времени. Применяется в системах рекомендаций, мониторинге, где данные быстро устаревают и требуют адаптации.
Какие существуют best practices по документированию ML-проектов?
Хорошая документация включает README с описанием проекта, CHANGELOG, API docs, описание фичей, инструкции по запуску, ссылки на эксперименты в MLflow и артефакты обучения.
Какие типы нагрузки необходимо учитывать при масштабировании ML-сервиса?
Стоит учитывать peak load, sustained load, latency-sensitive запросы, batch processing, асинхронные задачи и их влияние на производительность и стоимость инфраструктуры.
Какие компоненты должны быть в техническом задании на ML-проект?
TЗ должно включать бизнес-задачу, KPI, источники данных, требования к точности и задержке, сроки, ограничения, архитектуру решения, план интеграции и SLA.
Как реализовать управление зависимостями в ML-проектах?
Управление зависимостями осуществляется через virtual environments (venv, conda), lock-файлы (pip-compile, Poetry), контейнеризацию (Docker) и CI/CD для тестирования совместимости.
Что такое bias-variance tradeoff и как он влияет на выбор модели?
Bias-variance tradeoff — это баланс между недообучением и переобучением. Высокий bias приводит к низкой точности, высокая variance — к нестабильности предсказаний. Это влияет на выбор сложности модели и методов регуляризации.
Какие инструменты используются для отслеживания экспериментов в ML?
MLflow, Neptune, Weights & Biases, TensorBoard, Sacred. Эти инструменты позволяют логировать параметры, метрики, артефакты и сравнивать результаты различных запусков.
Какие проблемы возникают при использовании unbalanced data и как их решать?
Проблемы: смещённая оценка качества, недообучение на редких классах. Решения: oversampling (SMOTE), undersampling, веса классов, метрики (F1, ROC-AUC), cost-sensitive learning.
Какие аспекты важно учитывать при разработке ML-модели под GDPR?
Необходимо обеспечить право на объяснение, конфиденциальность данных, возможность удаления персональной информации, шифрование, аудит использования данных и соблюдение принципа data minimization.
Как происходит параллельная обработка данных в Spark и Dask?
Spark и Dask разбивают данные на партиции и обрабатывают их параллельно на разных worker-узлах, используя DAG для оптимизации выполнения задач и fault tolerance.
Какие существуют подходы к интерпретации black-box моделей?
SHAP, LIME, Partial Dependence Plots, Integrated Gradients, attention visualization. Эти методы помогают понять, как модель принимает решения, особенно в критических доменах.
Какие факторы влияют на latency в ML-сервисах?
Факторы: сложность модели, размер входного запроса, I/O операции, сетевые задержки, количество одновременных запросов, тип вычислений (CPU/GPU), эффективность кода и сериализации.
Какие практики используются для unit-тестирования ML-кода?
Проверка корректности feature engineering, воспроизводимости обучения, валидации данных, тестирование предиктов, сравнение выходов с эталонными значениями и mock-объекты для имитации окружения.
Какие существуют методы ускорения обучения глубоких моделей?
Использование mixed precision, distributed training, gradient checkpointing, data augmentation on GPU, оптимизация загрузки данных через DataLoader и prefetch.
Как реализовать кэширование результатов в ML-пайплайнах?
Кэширование выполняется через memoization, Redis, Memcached, или встроенную поддержку в Airflow/Prefect. Оно полезно для дорогостоящих преобразований и часто повторяющихся запросов.
Какие аспекты важны при выборе метрики оценки модели?
Метрика должна соответствовать бизнес-цели, учитывать характер ошибок, быть чувствительной к изменению данных и устойчивой к шуму. Нужно также учитывать domain-specific особенности.
Как организовать CI/CD для ML-проектов?
CI/CD включает автоматическую проверку кода (linting, tests), обучение модели на новых данных, оценку качества, сравнение с baseline и автоматический деплой при успешных тестах.
Какие ключевые роли участвуют в команде ML-инженеров на enterprise-проекте?
ML Engineer, Data Scientist, DevOps Engineer, MLOps Engineer, Product Manager, Data Engineer, QA Engineer. Каждый отвечает за свою часть ML-системы и взаимодействует с другими для обеспечения end-to-end workflow.

Какие существуют подходы к оптимизации памяти при работе с большими моделями?
Используются методы: gradient checkpointing, model parallelism, offloading на CPU/GPU, quantization-aware training, использование библиотек вроде DeepSpeed и HuggingFace Accelerate для эффективного распределения вычислений.
Что такое feature leakage и как его обнаружить на практике?
Feature leakage — это использование информации извне обучающей выборки. Обнаруживается через анализ корреляции фичей с целевой переменной вне контекста обучения, проверку pipeline на тестовых данных и аудит кода feature engineering.
Как реализовать реальное время inference с низкой задержкой?
Используются легковесные модели (например, MobileNet, DistilBERT), компиляция и оптимизация через ONNX Runtime или TorchScript, GPU-ускорение, async обработка, использование gRPC вместо REST, caching результатов.
Какие особенности проектирования ML-систем в edge computing средах?
Важно учитывать ограниченную вычислительную мощность, энергопотребление, безопасность передачи данных, частичную автономность работы, необходимость локального хранения и обработки данных без постоянного подключения к облаку.
Какие инструменты используются для построения real-time dashboards для мониторинга ML-моделей?
Grafana, Kibana, Prometheus, Evidently AI, WhyLogs, ELK Stack, Superset. Они позволяют визуализировать метрики качества, дрейф данных, latency и другие параметры в режиме реального времени.
Как происходит управление ресурсами при запуске ML-задач в Kubernetes?
Управление осуществляется через request/limit на CPU/GPU, Horizontal Pod Autoscaler (HPA), Custom Metrics Autoscaler, использование Taint/Toleration и Affinity для распределения задач, а также namespace-based isolation.
Какие стратегии используются для отладки нестабильных метрик во время обучения модели?
Анализ датасета на наличие шума, проверка разметки, детектирование class imbalance, использование cross-validation, контроль seed, визуализация learning curves и сравнение с baseline-моделями.
Как организовать rollback ML-модели в production при обнаружении проблем?
Rollback выполняется через versioned model registry, автоматическое переключение на предыдущую версию в CI/CD, использование shadow deployment для тестирования, roll-out через canary release.
Какие существуют best practices по управлению секретами в MLOps?
Хранение через Vault, AWS Secrets Manager, HashiCorp Vault, использование Kubernetes Secrets, избегание hardcode в коде, автоматическая загрузка на этапе исполнения, регулярная ротация ключей.
Как реализовать масштабируемый feature store на основе open-source решений?
Реализуется через Apache Parquet + Redis (или Cassandra) для онлайн-хранилища, Feast или Ludwig Feature Store, Apache Hive/Spark для offline-части, синхронизация между ними через ETL-пайплайны.
Какие проблемы возникают при использовании pre-trained моделей в приватных средах?
Ограничения лицензий, сложности с адаптацией под специфику домена, зависимость от сторонних библиотек, потенциальные уязвимости, необходимость fine-tuning и переобучения без доступа к интернету.
Какие аспекты важны при построении data lake под ML-проекты?
Схема хранения (raw/cleaned/aggregated), форматы данных (Parquet, Delta Lake), политики доступа, metadata management, тегирование данных, возможность обратной связи между storage и обучением.
Какие существуют методы валидации данных на входе в ML-пайплайн?
Schema validation (Great Expectations, TensorFlow Data Validation), проверка на пропуски, диапазоны значений, типы данных, соответствие статистикам, обнаружение аномалий.
Как организовать A/B тестирование нескольких ML-моделей на уровне API?
API Gateway направляет часть запросов на разные модели, используется weighted routing или random assignment, затем собираются метрики и проводится статистический анализ различий.
Какие существуют стратегии обработки missing values в production-данных?
Imputation (среднее, медиана, модель), отдельный флаг-признак, использование алгоритмов, поддерживающих NaN (XGBoost), обучение на данных с missing и явное моделирование этого фактора.
Какие проблемы могут возникнуть при сериализации и десериализации ML-моделей?
Потеря точности (float32 vs float64), несовместимость версий библиотек, изменение структуры объекта, увеличение размера файла, проблемы с восстановлением custom layers или preprocessors.
Как реализовать интерпретируемость модели в scale?
Интеграция SHAP или LIME в batch processing, сохранение объяснений вместе с предсказаниями, использование surrogate моделей, precompute explanations для часто встречающихся случаев.
Какие метрики можно использовать для оценки fairness ML-модели?
Demographic parity, equalized odds, disparate impact, statistical parity difference, consistency score. Используются библиотеки FairML, IBM AI Fairness 360, Themis-ML.
Как организовать обработку категориальных признаков в больших датасетах?
Embedding слои, target encoding с регуляризацией, frequency encoding, использование CatBoost/LightGBM, применение Spark/Polars для параллельной обработки и feature generation.
Какие инструменты применяются для load testing ML-сервисов?
Locust, JMeter, Gatling, Vegeta. Позволяют имитировать высокую нагрузку, тестировать производительность, устойчивость к отказам и latency under pressure.
Какие аспекты нужно учитывать при проектировании ML-инфраструктуры для многонациональных сервисов?
Локализация данных, соблюдение локальных законодательств (например, GDPR, CCPA), языковая адаптация моделей, географическое распределение инфраструктуры, latency и SLA в разных регионах.
Какие существуют способы уменьшения carbon footprint ML-моделей?
Использование более эффективных архитектур, mixed precision, early stopping, оптимизация hyperparameter search, облачные решения с green energy, reuse предобученных моделей.
Как реализовать эксперименты с reinforcement learning в production?
Использование offline RL, imitation learning, safe exploration strategies, симуляторы, online evaluation с ограничениями, monitoring reward функции и поведения агента.
Какие существуют best practices по управлению техническим долгом в ML-проектах?
Регулярный рефакторинг, документирование legacy кода, code review, автоматические тесты, refactoring sprints, tracking debt через Jira или Confluence, обучение команды.
Какие аспекты важны при выборе compute backend для обучения и inference?
Доступность GPU/TPU, стоимость, интеграция с остальной системой, поддержка фреймворков, скорость сетевых подключений, возможность autoscaling, SLA и uptime.

Тесты

Какой из следующих фреймворков не используется для MLOps?
A) MLflow
B) Kubeflow
C) Airflow
D) TensorFlow Serving
Ответ: D) TensorFlow Serving
Что означает термин "model drift"?
A) Изменение окружения запуска модели
B) Снижение производительности из-за устаревшей архитектуры
C) Изменение распределения входных данных со временем
D) Ошибка в коде модели
Ответ: C) Изменение распределения входных данных со временем
Какой инструмент не подходит для контейнеризации ML-приложений?
A) Docker
B) Singularity
C) Kubernetes
D) Jenkins
Ответ: D) Jenkins
Какой тип тестирования не применяется в ML-проектах?
A) Unit-тестирование
B) Regression testing
C) Stress testing
D) Schema validation
Ответ: C) Stress testing
Что такое feature store?
A) Место хранения моделей
B) Хранилище обученных весов
C) Централизованное хранилище признаков
D) База данных с логами ошибок
Ответ: C) Централизованное хранилище признаков
Какой из следующих методов не используется для оптимизации моделей?
A) Quantization
B) Pruning
C) Data augmentation
D) Hyperparameter tuning
Ответ: C) Data augmentation
Что такое online inference?
A) Обработка данных пакетами
B) Обработка запросов в реальном времени
C) Обучение модели на потоковых данных
D) Автоматическое переобучение модели
Ответ: B) Обработка запросов в реальном времени
Какой метрикой не стоит оценивать качество бинарной классификации при несбалансированных данных?
A) F1-score
B) Accuracy
C) ROC-AUC
D) Precision
Ответ: B) Accuracy
Какой подход используется для интерпретации black-box моделей?
A) Cross-validation
B) SHAP
C) Early stopping
D) Dropout
Ответ: B) SHAP
Что такое distributed training?
A) Обучение на одном GPU
B) Обучение нескольких моделей параллельно
C) Обучение одной модели на нескольких устройствах
D) Обучение с использованием CPU только
Ответ: C) Обучение одной модели на нескольких устройствах
Какой из следующих компонентов не относится к MLOps?
A) CI/CD
B) Feature store
C) GAN
D) Model registry
Ответ: C) GAN
Какой из следующих методов используется для обнаружения дрейфа данных?
A) PCA
B) K-S тест
C) SGD
D) Adam
Ответ: B) K-S тест
Какой из следующих форматов используется для сериализации ML-моделей?
A) JSON
B) ONNX
C) CSV
D) XML
Ответ: B) ONNX
Что такое canary release в контексте MLOps?
A) Полный деплой новой версии
B) Деплой новой версии для небольшой части пользователей
C) Откат к предыдущей версии
D) Тестирование на тестовой выборке
Ответ: B) Деплой новой версии для небольшой части пользователей
Какой из следующих инструментов используется для orchestration ML-пайплайнов?
A) Prometheus
B) Grafana
C) Airflow
D) ELK Stack
Ответ: C) Airflow
Что такое explainable AI (XAI)?
A) Методы увеличения точности
B) Подходы к интерпретации решений модели
C) Стратегии масштабирования
D) Инструменты для автоматического тестирования
Ответ: B) Подходы к интерпретации решений модели
Какой из следующих факторов влияет на latency модели?
A) Размер датасета
B) Количество эпох обучения
C) Использование GPU
D) Сложность архитектуры модели
Ответ: D) Сложность архитектуры модели
Какой из следующих подходов используется для защиты от adversarial атак?
A) Увеличение числа слоёв
B) Adversarial training
C) Упрощение модели
D) Удаление нормализации
Ответ: B) Adversarial training
Какой из следующих инструментов не используется для отслеживания экспериментов?
A) MLflow
B) Neptune
C) PyTorch Lightning
D) Weights & Biases
Ответ: C) PyTorch Lightning
Что такое data leakage?
A) Потеря данных
B) Использование future data
C) Наличие пропусков
D) Переобучение на тестовой выборке
Ответ: B) Использование future data
Какой из следующих методов используется для работы с unbalanced данными?
A) Oversampling
B) Batch normalization
C) Regularization
D) Dropout
Ответ: A) Oversampling
Какой из следующих параметров не используется для управления ресурсами в Kubernetes?
A) CPU request
B) GPU limit
C) Memory request
D) Epoch limit
Ответ: D) Epoch limit
Какой из следующих подходов используется для реализации online learning?
A) Full retraining
B) Incremental learning
C) Transfer learning
D) Ensemble learning
Ответ: B) Incremental learning
Какой из следующих аспектов важен при проектировании ML-инфраструктуры для GDPR?
A) Упрощение модели
B) Удаление персональных данных
C) Ускорение inference
D) Увеличение точности
Ответ: B) Удаление персональных данных
Какой из следующих методов используется для ускорения обучения глубоких моделей?
A) Gradient checkpointing
B) Cross-validation
C) PCA
D) Grid search
Ответ: A) Gradient checkpointing

Какой из следующих инструментов не используется для логирования метрик в ML-проектах?
A) TensorBoard
B) Neptune
C) Prometheus
D) Scikit-learn
Ответ: D) Scikit-learn
Что такое feature engineering pipeline?
A) Процесс сбора данных
B) Последовательность преобразований признаков
C) Обучение модели
D) Деплой модели
Ответ: B) Последовательность преобразований признаков
Какой из следующих методов не используется для деплоя ML-моделей?
A) Flask API
B) TensorFlow Serving
C) Spark Streaming
D) ONNX Runtime
Ответ: C) Spark Streaming
Какой тип данных не подходит для хранения в feature store?
A) Временные ряды
B) Каталожные данные
C) Логи с предсказаниями
D) Сырые необработанные данные
Ответ: D) Сырые необработанные данные
Какой из следующих подходов используется для оптимизации памяти при обучении больших моделей?
A) Batch normalization
B) Gradient checkpointing
C) Dropout
D) Early stopping
Ответ: B) Gradient checkpointing
Какой из следующих инструментов не используется для реализации CI/CD в MLOps?
A) GitHub Actions
B) Jenkins
C) Docker
D) Grafana
Ответ: D) Grafana
Что означает термин "shadow deployment"?
A) Полный откат модели
B) Параллельный запуск новой и старой версий модели
C) Тестирование на тестовой выборке
D) Постепенный переключатель трафика
Ответ: B) Параллельный запуск новой и старой версий модели
Какой из следующих методов не применяется для обработки категориальных признаков?
A) One-hot encoding
B) Target encoding
C) PCA
D) Frequency encoding
Ответ: C) PCA
Какой из следующих аспектов не относится к MLOps?
A) Управление жизненным циклом модели
B) Автоматизация обучения
C) Оптимизация алгоритма обучения
D) Мониторинг производительности модели
Ответ: C) Оптимизация алгоритма обучения
Какой из следующих инструментов используется для построения ML-pipelines в Apache экосистеме?
A) Kafka
B) Airflow
C) Zookeeper
D) Hadoop
Ответ: B) Airflow
Какой из следующих параметров не влияет на latency в online inference?
A) Размер входного запроса
B) Использование GPU
C) Число эпох обучения
D) Сложность модели
Ответ: C) Число эпох обучения
Какой из следующих методов используется для интерпретации модели?
A) Cross-validation
B) SHAP
C) Regularization
D) Hyperparameter tuning
Ответ: B) SHAP
Какой из следующих подходов не используется для борьбы с data leakage?
A) Корректное разделение выборок
B) Использование future data
C) Проверка feature engineering
D) Unit-тестирование кода
Ответ: B) Использование future data
Какой из следующих инструментов не предназначен для мониторинга ML-моделей в production?
A) Prometheus
B) Grafana
C) Evidently AI
D) PyTorch Lightning
Ответ: D) PyTorch Lightning
Какой из следующих методов используется для масштабирования ML-инфраструктуры?
A) Feature selection
B) Horizontal scaling
C) Data augmentation
D) Model compression
Ответ: B) Horizontal scaling
Какой из следующих аспектов важен при проектировании ML-системы в edge computing?
A) Высокая точность модели
B) Низкое энергопотребление
C) Большое количество слоёв
D) Использование GPU
Ответ: B) Низкое энергопотребление
Какой из следующих факторов не влияет на carbon footprint модели?
A) Эффективность архитектуры
B) Использование mixed precision
C) Количество фичей
D) Регулярное переобучение
Ответ: C) Количество фичей
Какой из следующих подходов используется для реализации A/B тестирования?
A) Full rollout
B) Random assignment
C) Canary release
D) Shadow deployment
Ответ: B) Random assignment
Какой из следующих инструментов не используется для работы с big data в ML?
A) Apache Spark
B) Dask
C) Pandas
D) Flink
Ответ: C) Pandas
Какой из следующих методов не используется для ускорения обучения модели?
A) Distributed training
B) Gradient checkpointing
C) Data augmentation on CPU
D) Batch normalization
Ответ: D) Batch normalization
Какой из следующих аспектов важен при работе с GDPR в ML-проектах?
A) Хранение данных на одном сервере
B) Шифрование данных
C) Использование open-source моделей
D) Увеличение числа фичей
Ответ: B) Шифрование данных
Какой из следующих методов используется для реализации reinforcement learning в production?
A) Online evaluation с ограничениями
B) Полное обучение с нуля
C) Использование CNN
D) Batch processing
Ответ: A) Online evaluation с ограничениями
Какой из следующих инструментов не используется для управления зависимостями в ML-проектах?
A) Poetry
B) Conda
C) Kubernetes
D) Pipenv
Ответ: C) Kubernetes
Какой из следующих подходов используется для реализации rollback модели?
A) Полное удаление модели
B) Переключение на предыдущую версию через model registry
C) Обучение новой модели
D) Изменение окружения
Ответ: B) Переключение на предыдущую версию через model registry
Какой из следующих аспектов важен при проектировании scalable ML-архитектур?
A) Наличие большого количества фичей
B) Поддержка нескольких версий модели
C) Использование только CPU
D) Упрощение модели
Ответ: B) Поддержка нескольких версий модели

Какой из следующих инструментов не используется для реализации feature store?
A) Feast
B) Redis
C) MLflow
D) Hopsworks
Ответ: C) MLflow
Что такое model registry?
A) Хранилище сырых данных
B) Централизованное хранилище обученных моделей с метаданными
C) Инструмент для логирования экспериментов
D) База данных с логами запросов
Ответ: B) Централизованное хранилище обученных моделей с метаданными
Какой из следующих методов не используется для сериализации модели?
A) Pickle
B) ONNX
C) JSON
D) TorchScript
Ответ: C) JSON
Какой из следующих подходов не используется для обнаружения дрейфа признаков?
A) PSI (Population Stability Index)
B) KL-дивергенция
C) PCA
D) K-S тест
Ответ: C) PCA
Какой из следующих факторов влияет на стоимость inference в облаке?
A) Точность модели
B) Частота переобучения
C) Использование GPU
D) Количество слоёв
Ответ: C) Использование GPU
Какой из следующих аспектов не учитывается при проектировании ML-системы для GDPR?
A) Право на объяснение
B) Шифрование данных
C) Увеличение точности
D) Возможность удаления персональной информации
Ответ: C) Увеличение точности
Какой из следующих методов используется для снижения размера модели?
A) Quantization
B) Batch normalization
C) Dropout
D) Early stopping
Ответ: A) Quantization
Какой из следующих инструментов не используется для построения real-time dashboards?
A) Grafana
B) Kibana
C) Superset
D) PyTorch
Ответ: D) PyTorch
Какой из следующих параметров не указывается в Kubernetes для управления ресурсами?
A) CPU limit
B) Memory request
C) Epoch limit
D) GPU request
Ответ: C) Epoch limit
Какой из следующих методов используется для автоматического переобучения модели?
A) Manual trigger
B) Canary release
C) Trigger по дрейфу данных
D) Shadow deployment
Ответ: C) Trigger по дрейфу данных
Какой из следующих аспектов важен при разработке ML-модели под edge computing?
A) Высокая точность
B) Малый размер модели
C) Использование GPU
D) Большое количество слоёв
Ответ: B) Малый размер модели
Какой из следующих инструментов используется для реализации MLOps в AWS?
A) SageMaker
B) Vertex AI
C) Azure ML Studio
D) Yandex DataSphere
Ответ: A) SageMaker
Какой из следующих подходов не применяется для борьбы с overfitting?
A) Regularization
B) Pruning
C) Hyperparameter tuning
D) Feature leakage
Ответ: D) Feature leakage
Какой из следующих методов используется для интерпретации NLP-моделей?
A) Attention visualization
B) PCA
C) Cross-validation
D) Grid search
Ответ: A) Attention visualization
Какой из следующих аспектов влияет на latency в online inference?
A) Размер обучающей выборки
B) Сложность модели
C) Число эпох обучения
D) Использование cross-validation
Ответ: B) Сложность модели
Какой из следующих инструментов не используется для orchestration ML-пайплайнов?
A) Prefect
B) Airflow
C) Luigi
D) Prometheus
Ответ: D) Prometheus
Какой из следующих методов используется для масштабируемого хранения фичей?
A) Feature store
B) Model registry
C) Artifact store
D) Experiment tracker
Ответ: A) Feature store
Какой из следующих факторов не влияет на carbon footprint модели?
A) Использование mixed precision
B) Длительность обучения
C) Количество фичей
D) Регулярное переобучение
Ответ: C) Количество фичей
Какой из следующих подходов используется для реализации load testing в ML-сервисах?
A) JMeter
B) Locust
C) Gatling
D) Все вышеперечисленные
Ответ: D) Все вышеперечисленные
Какой из следующих методов используется для реализации online learning?
A) Full retraining
B) Incremental updates
C) Transfer learning
D) Ensemble learning
Ответ: B) Incremental updates
Какой из следующих инструментов не используется для отладки ML-кода?
A) PDB
B) PyCharm Debugger
C) TensorBoard
D) Scikit-learn
Ответ: D) Scikit-learn
Какой из следующих аспектов важен при работе с многонациональными данными в ML?
A) Языковая адаптация
B) Географическое распределение инфраструктуры
C) Локализация данных
D) Все вышеперечисленные
Ответ: D) Все вышеперечисленные
Какой из следующих методов используется для реализации explainable AI?
A) SHAP
B) Adam optimizer
C) PCA
D) Batch normalization
Ответ: A) SHAP
Какой из следующих подходов используется для реализации CI/CD в MLOps?
A) Автоматический деплой при успешных тестах
B) Ручная проверка изменений
C) Полное переобучение без тестирования
D) Все вышеперечисленные
Ответ: A) Автоматический деплой при успешных тестах
Какой из следующих инструментов не используется для мониторинга ML-моделей?
A) Evidently AI
B) WhyLogs
C) PyTorch Lightning
D) Prometheus
Ответ: C) PyTorch Lightning

Билеты

Экзаменационный билет №1

Теоретическая часть:

Опишите основные этапы жизненного цикла ML-модели в промышленной среде.
В чём заключается разница между online и batch inference? Какие архитектурные особенности необходимо учитывать при их реализации?

Ответы на теоретическую часть:

Основные этапы жизненного цикла ML-модели:
- Определение задачи и сбор требований.
- Исследование данных, предобработка и feature engineering.
- Обучение модели с кросс-валидацией.
- Тестирование и оценка качества на тестовой выборке.
- Деплой модели (в staging или production).
- Мониторинг метрик, дрейфа данных и качества модели.
- Переобучение и обновление модели по мере изменения условий.
Online inference — это обработка запросов в реальном времени, где важна низкая задержка и высокая доступность (например, API для рекомендательных систем). Для неё требуется оптимизация под latency, использование легковесных моделей и горизонтальное масштабирование.
Batch inference — это обработка больших объёмов данных пакетами, обычно асинхронно, без жёстких требований к задержке (например, еженедельный пересчёт рейтингов). Используется для offline анализа, позволяет использовать тяжёлые модели и распределённую обработку.

Практическая часть:

Напишите скрипт на Python, который обучает модель градиентного бустинга (LightGBM) на наборе данных sklearn.datasets.fetch_openml('breast-cancer'), сохраняет модель в формате ONNX и выполняет инференс над случайным примером из тестовой выборки.

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from lightgbm import LGBMClassifier
from skl2onnx import convert_sklearn
from skl2onnx.common.data_types import FloatTensorType
import numpy as np

# Загрузка данных
from sklearn.datasets import fetch_openml
data = fetch_openml('breast-cancer', version=1, as_frame=True)
X, y = data.data, data.target

# Кодирование целевой переменной
le = LabelEncoder()
y = le.fit_transform(y)

# Разделение выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LGBMClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Конвертация в ONNX
initial_type = [('float_input', FloatTensorType([None, X_train.shape[1]]))]
onnx_model = convert_sklearn(model, 'LGBMClassifier', initial_types=initial_type)

# Сохранение модели
with open("lgbm_breast_cancer.onnx", "wb") as f:
    f.write(onnx_model.SerializeToString())

# Инференс на случайном примере
random_sample = X_test.iloc[np.random.randint(0, len(X_test))].values.reshape(1, -1)
print("Predicted class:", model.predict(random_sample)[0])

Экзаменационный билет №2

Теоретическая часть:

Что такое MLOps и как он связан с DevOps? Какие ключевые практики MLOps вы знаете?
Охарактеризуйте основные проблемы, возникающие при деплое ML-моделей в production, и методы их решения.

Ответы на теоретическую часть:

MLOps — это практики, сочетающие ML и DevOps, направленные на автоматизацию и стандартизацию процессов от разработки до эксплуатации моделей. Связан с DevOps через CI/CD, контейнеризацию, мониторинг и управление окружением. Ключевые практики:
- Автоматизация обучения и деплоя.
- Управление версиями данных и моделей.
- Мониторинг дрейфа и качества.
- Логирование и аудит.
- Интеграция с облачными платформами.
Проблемы при деплое ML-моделей:
- Несоответствие окружений : решается через контейнеризацию (Docker), strict dependency management.
- Высокая задержка : оптимизация модели (pruning, quantization), GPU-ускорение.
- Дрейф данных : мониторинг входов и выходов, автоматическое переобучение.
- Управление версиями : использование model registry (MLflow, Neptune).
- Масштабируемость : Kubernetes, load balancing, autoscaling.

Практическая часть:

Напишите Dockerfile для запуска Flask API, предоставляющего эндпоинт /predict для модели, сохранённой в формате .pkl. Предположите, что модель принимает JSON с числовыми значениями.

# Dockerfile
FROM python:3.9-slim

WORKDIR /app

COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY . .

EXPOSE 5000

CMD ["gunicorn", "--bind", "0.0.0.0:5000", "app:app"]

# app.py
from flask import Flask, request, jsonify
import joblib
import numpy as np

app = Flask(__name__)
model = joblib.load('model.pkl')

@app.route('/predict', methods=['POST'])
def predict():
    data = request.get_json(force=True)
    prediction = model.predict(np.array(data['features']).reshape(1, -1))
    return jsonify({'prediction': int(prediction[0])})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

# requirements.txt
flask
gunicorn
scikit-learn
numpy

Экзаменационный билет №3

Теоретическая часть:

Что такое feature store и зачем он нужен в ML-инфраструктуре? Какие компоненты он включает?
Охарактеризуйте основные стратегии деплоя новых версий моделей в production.

Ответы на теоретическую часть:

Feature store — это централизованное хранилище признаков, позволяющее повторно использовать фичи, ускорить разработку и обеспечить согласованность между training и inference.
Основные компоненты:
- Offline feature store — хранение исторических данных (например, Apache Parquet, Delta Lake).
- Online feature store — низколатентное хранение актуальных фич (Redis, Cassandra).
- Feature registry — метаданные, описание, версионирование.
- Compute engine — обработка и генерация фичей (Spark, Flink).
Основные стратегии деплоя новых версий моделей:
- Blue-Green deployment : параллельный запуск старой и новой версий, переключение трафика после проверки.
- Canary release : постепенный перевод части пользователей на новую модель.
- Shadow deployment : одновременная обработка запроса обеими версиями без влияния на пользователя.
- A/B testing : разделение трафика между моделями для сравнения метрик.
- Rolling update : поэтапное обновление без полного downtime.

Практическая часть:

Напишите скрипт на Python, который загружает данные из CSV-файла, проводит простую предобработку (StandardScaler, OneHotEncoder), обучает модель LogisticRegression и сохраняет pipeline с помощью joblib

import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import joblib

# Загрузка данных
df = pd.read_csv('data.csv')
X = df.drop(columns=['target'])
y = df['target']

# Определение категориальных и числовых колонок
cat_cols = X.select_dtypes(include=['object']).columns
num_cols = X.select_dtypes(include=['number']).columns

# Пайплайн предобработки и модели
preprocessor = ColumnTransformer([
    ('num', StandardScaler(), num_cols),
    ('cat', OneHotEncoder(handle_unknown='ignore'), cat_cols)
])

pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression())
])

# Обучение
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
pipeline.fit(X_train, y_train)

# Сохранение
joblib.dump(pipeline, 'logreg_pipeline.pkl')

Экзаменационный билет №4

Теоретическая часть:

Что такое distributed training и какие подходы к нему существуют? Какие фреймворки поддерживают эту функциональность?
Охарактеризуйте понятие model drift и способы его обнаружения и устранения.

Ответы на теоретическую часть:

Distributed training — это обучение модели на нескольких устройствах (GPU/TPU/узлы). Основные подходы:
- Data parallelism — дублирование модели на каждом устройстве, обучение на разных частях данных.
- Model parallelism — распределение разных частей модели по разным устройствам.
- Pipeline parallelism — комбинация data и model parallelism с последовательной обработкой батчей.
Фреймворки:
- PyTorch Distributed
- TensorFlow MirroredStrategy / MultiWorkerMirroredStrategy
- Horovod
- DeepSpeed
- HuggingFace Accelerate
Model drift — изменение статистических свойств входных данных со временем, приводящее к снижению качества модели.
Способы обнаружения:
- Сравнение распределений входов (K-S тест, PSI).
- Анализ дрейфа метрик (F1, accuracy).
- Использование библиотек: Evidently AI, WhyLogs, Alibi Detect.
  Способы устранения:
- Автоматическое переобучение по триггеру дрейфа.
- Ручная коррекция фичей и модели.
- Добавление новых источников данных.

Практическая часть:

Напишите скрипт на PyTorch, который создаёт простую полносвязную нейросеть, обучает её на датасете MNIST и сохраняет модель в формате TorchScript.

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# Гиперпараметры
batch_size = 64
lr = 0.001
epochs = 3

# Подготовка данных
transform = transforms.ToTensor()
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Модель
class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc = nn.Sequential(
            nn.Linear(28 * 28, 128),
            nn.ReLU(),
            nn.Linear(128, 10)
        )

    def forward(self, x):
        return self.fc(x.view(-1, 28*28))

model = Net()

# Обучение
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=lr)

for epoch in range(epochs):
    for images, labels in train_loader:
        outputs = model(images)
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    print(f'Epoch {epoch+1}, Loss: {loss.item():.4f}')

# Сохранение в TorchScript
script_model = torch.jit.script(model)
torch.jit.save(script_model, "mnist_model.pt")

Экзаменационный билет №5

Теоретическая часть:

Что такое explainable AI и зачем она нужна? Какие основные методы интерпретации моделей вы знаете?
Охарактеризуйте best practices по документированию ML-проектов и управления техническим долгом.

Ответы на теоретическую часть:

Explainable AI (XAI) — это набор методов, позволяющих интерпретировать поведение ML-модели. Необходима для соблюдения регуляторных требований, повышения доверия к модели и выявления потенциальных проблем.
Основные методы:
- SHAP (SHapley Additive exPlanations)
- LIME (Local Interpretable Model-agnostic Explanations)
- Partial Dependence Plots (PDP)
- Integrated Gradients
- Attention visualization (в NLP)
Best practices по документированию:
- README с описанием проекта, зависимостями, установкой.
- CHANGELOG с изменениями версий.
- API documentation (Swagger/OpenAPI).
- Описание фичей и их происхождения.
- Логирование экспериментов (MLflow, Neptune).
- Документация по архитектуре решения и pipeline-ам.
- Учет бизнес-требований и KPI.
По управлению техническим долгом:
- Регулярный рефакторинг.
- Code review и pair programming.
- Тестирование (unit, integration, regression).
- Отслеживание долга через Jira/Confluence.
- Выделение времени на refactoring в спринтах.

Практическая часть:

Напишите скрипт, который использует библиотеку SHAP для интерпретации модели XGBoost на примере набора данных boston

import shap
import xgboost
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# Загрузка данных
boston = load_boston()
X, y = boston.data, boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = xgboost.XGBRegressor()
model.fit(X_train, y_train)

# Интерпретация с помощью SHAP
explainer = shap.Explainer(model)
shap_values = explainer(X_test)

# Визуализация
shap.summary_plot(shap_values.values, X_test, feature_names=boston.feature_names)

Экзаменационный билет №6

Теоретическая часть:

Что такое CI/CD в контексте MLOps? Какие особенности отличают его от классического DevOps CI/CD?
Охарактеризуйте основные стратегии обработки missing values в production-данных.

Ответы на теоретическую часть:

CI/CD в MLOps — это автоматизация процессов обучения, тестирования и деплоя ML-моделей. В отличие от классического DevOps, здесь тестируются не только код и инфраструктура, но и данные, метрики качества, корректность моделирования. Также проверяется соответствие новой версии модели baseline-результатам и её готовность к production.
Основные стратегии:
- Imputation : заполнение пропусков средним, медианой, модой.
- Использование флаг-признака , указывающего на наличие NaN.
- Обучение модели с учётом пропусков , например, XGBoost или LightGBM.
- Предобработка перед inference , чтобы избежать ошибок при наличии пустых значений.

Практическая часть:

Напишите скрипт на Python, который использует библиотеку MLflow для логирования параметров, метрик и обученной модели (например, RandomForestRegressor) на датасете boston.

import mlflow
import mlflow.sklearn
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Загрузка данных
boston = load_boston()
X, y = boston.data, boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Настройки MLflow
mlflow.set_tracking_uri("http://localhost:5000")
mlflow.set_experiment("Boston Housing")

# Обучение модели
with mlflow.start_run():
    params = {"n_estimators": 100, "max_depth": 5, "random_state": 42}
    model = RandomForestRegressor(**params)
    model.fit(X_train, y_train)

    # Предикт и оценка
    predictions = model.predict(X_test)
    rmse = mean_squared_error(y_test, predictions, squared=False)

    # Логирование
    mlflow.log_params(params)
    mlflow.log_metric("rmse", rmse)
    mlflow.sklearn.log_model(model, "model")

Экзаменационный билет №7

Теоретическая часть:

Что такое feature leakage и как он влияет на качество модели? Как его можно обнаружить и предотвратить?
Охарактеризуйте понятие bias-variance tradeoff и его влияние на выбор модели.

Ответы на теоретическую часть:

Feature leakage — это использование информации, недоступной во время inference, что приводит к переобучению. Например, использование future data или целевой переменной в признаках. Обнаруживается через корреляционный анализ, валидацию pipeline и unit-тестирование. Предотвращается через правильное разделение выборок и аудит кода feature engineering.
Bias-variance tradeoff — это баланс между недообучением (высокий bias) и переобучением (высокая variance). Высокий bias приводит к систематическим ошибкам, high variance — к нестабильным предсказаниям. При выборе модели важно учитывать сложность задачи и объем данных, применяя регуляризацию и подбор гиперпараметров.

Практическая часть:

Напишите скрипт, который реализует простую систему мониторинга дрейфа данных с использованием библиотеки evidently

import pandas as pd
from evidently.test_suite import TestSuite
from evidently.tests import TestColumnDrift

# Загрузка данных
reference_data = pd.read_csv('train.csv')
current_data = pd.read_csv('test.csv')

# Тест на дрейфт по числовому столбцу 'age'
test_age_drift = TestColumnDrift(column_name='age', stattest='ks')

# Создание набора тестов
data_drift_suite = TestSuite(tests=[test_age_drift])
data_drift_suite.run(reference_data=reference_data, current_data=current_data)

# Сохранение результата в HTML
data_drift_suite.save_html("data_drift_report.html")

Экзаменационный билет №8

Теоретическая часть:

Что такое distributed training и какие типы параллелизма используются при его реализации?
Охарактеризуйте best practices по управлению зависимостями в ML-проектах.

Ответы на теоретическую часть:

Distributed training — это обучение модели на нескольких GPU/TPU/узлах. Используются два типа параллелизма:
- Data parallelism — разные части датасета обрабатываются разными устройствами.
- Model parallelism — разные части модели распределены по устройствам. Фреймворки: PyTorch Distributed, TensorFlow MirroredStrategy, Horovod.
Best practices:
- Использование virtual environments (venv, conda).
- Lock-файлы (requirements.txt, Pipfile.lock, poetry.lock).
- Контейнеризация (Docker).
- Автоматическое тестирование совместимости в CI/CD.
- Четкое разделение dev/prod зависимостей.

Практическая часть:

Напишите скрипт на Python, который реализует online learning с помощью River, обрабатывая поток данных.

from river import linear_model, preprocessing
from river import metrics
from river.datasets import synth

# Синтетический поток данных
dataset = synth.ConceptDriftStream(stream=synth.STAGGER(), drift_stream=synth.Agrawal(), position=500, width=10)

# Модель и метрика
model = preprocessing.StandardScaler() | linear_model.LogisticRegression()
metric = metrics.Accuracy()

# Обработка потока
for x, y in dataset:
    y_pred = model.predict_one(x)
    model = model.learn_one(x, y)
    if y_pred is not None:
        metric = metric.update(y, y_pred)

print(f'Final accuracy: {metric.get():.4f}')

Экзаменационный билет №9

Теоретическая часть:

Что такое explainable AI и зачем она нужна? Приведите примеры библиотек и методов.
Охарактеризуйте основные проблемы при работе с категориальными признаками в больших датасетах.

Ответы на теоретическую часть:

Explainable AI (XAI) — это подходы к интерпретации решений ML-моделей. Необходима для соблюдения регуляторных требований, повышения доверия к модели и выявления потенциальных проблем.
Примеры методов:
- SHAP
- LIME
- Partial Dependence Plots
- Attention visualization Примеры библиотек:
- SHAP
- Captum
- Alibi
- ELI5
Проблемы:
- Высокая размерность после one-hot encoding → использование embedding-слоёв или target encoding.
- Редкие категории → объединение в группу "other" или использование CatBoost/LightGBM.
- Нестабильность признаков → статистическое тестирование на стабильность.
- Сложность обработки в scale → применение Spark/Polars для параллельной обработки.

Практическая часть:

Напишите скрипт, который реализует feature store на базе Feast с одной offline и одной online feature.

from feast import FeatureStore, Entity, FeatureView, Feature, FileSource
from datetime import timedelta
import pandas as pd

# Создание entity
user = Entity(name="user_id", description="User identifier")

# Определение источника данных
source = FileSource(
    path="data/user_features.parquet",
    event_timestamp_column="event_timestamp"
)

# Feature View
user_fv = FeatureView(
    name="user_features",
    entities=["user_id"],
    ttl=timedelta(days=1),
    features=[
        Feature(name="age", dtype=ValueType.INT32),
        Feature(name="income", dtype=ValueType.FLOAT)
    ],
    online=True,
    source=source,
    description="User static features"
)

# Инициализация store
store = FeatureStore(repo_path=".")
store.apply([user, user_fv])

# Загрузка данных в offline store
df = pd.DataFrame({
    "user_id": [1, 2, 3],
    "age": [25, 30, 35],
    "income": [50000, 70000, 90000],
    "event_timestamp": pd.to_datetime(["2023-01-01", "2023-01-02", "2023-01-03"])
})
store.write_to_offline_store(user_fv, df)

# Получение онлайн-признаков
online_features = store.get_online_features(
    features=["user_features.age", "user_features.income"],
    entity_rows=[{"user_id": 1}]
).to_dict()
print(online_features)

Экзаменационный билет №10

Теоретическая часть:

Что такое feature store и какие компоненты он включает? Какие библиотеки используются для его реализации?
Охарактеризуйте основные факторы, влияющие на latency модели в production.

Ответы на теоретическую часть:

Feature store — это централизованное хранилище признаков, позволяющее повторно использовать фичи, ускорить разработку и обеспечить согласованность между training и inference.
Компоненты:
- Offline store (Parquet, Delta Lake)
- Online store (Redis, Cassandra)
- Feature registry
- Compute engine (Spark, Flink)
  Библиотеки: Feast, Hopsworks, Ludwig Feature Store.
Факторы, влияющие на latency:
- Сложность модели (глубина нейросети, количество деревьев).
- Размер входного запроса.
- Использование CPU vs GPU.
- Сеть (API latency, serialization overhead).
- Параллелизм и оптимизация I/O.

Практическая часть:

Напишите скрипт, который использует PyTorch Lightning для обучения модели и сохраняет её в формате ONNX.

import torch
from torch import nn
from torch.nn import functional as F
from torch.utils.data import DataLoader
from torchvision.datasets import MNIST
from torchvision import transforms
import pytorch_lightning as pl

class LitModel(pl.LightningModule):
    def __init__(self):
        super().__init__()
        self.layer_1 = nn.Linear(28 * 28, 128)
        self.layer_2 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(x.size(0), -1)
        x = self.layer_1(x)
        x = F.relu(x)
        return self.layer_2(x)

    def training_step(self, batch, batch_idx):
        x, y = batch
        y_hat = self(x)
        loss = F.cross_entropy(y_hat, y)
        self.log("train_loss", loss)
        return loss

    def configure_optimizers(self):
        return torch.optim.Adam(self.parameters(), lr=1e-3)

# Подготовка данных
transform = transforms.ToTensor()
dataset = MNIST(".", download=True, transform=transform)
loader = DataLoader(dataset, batch_size=32)

# Обучение
model = LitModel()
trainer = pl.Trainer(max_epochs=3, accelerator="cpu")
trainer.fit(model, loader)

# Экспорт в ONNX
dummy_input = torch.randn(1, 1, 28, 28)
torch.onnx.export(model, dummy_input, "mnist_model.onnx", export_params=True)

Экзаменационный билет №11

Теоретическая часть:

Что такое feature drift и как он влияет на качество ML-модели? Какие метрики и инструменты используются для его обнаружения?
Охарактеризуйте основные аспекты проектирования ML-систем в условиях GDPR.

Ответы на теоретическую часть:

Feature drift — это изменение статистических характеристик входных данных со временем, что может привести к ухудшению качества модели. Он особенно критичен в production-средах, где данные динамичны.
Для обнаружения применяются:
- Статистические тесты: K-S тест, PSI (Population Stability Index), KL-дивергенция.
- Библиотеки: Evidently AI, WhyLogs, Alibi Detect, Scikit-learn.
- Мониторинг корреляций и распределений фичей.
При проектировании ML-систем под GDPR необходимо учитывать:
- Право на объяснение решений модели (Explainable AI).
- Шифрование и анонимизация персональных данных.
- Возможность удаления данных пользователя («право на забвение»).
- Локализация хранения данных.
- Документирование сбора и использования данных.
- Учет согласия пользователя на использование его данных.

Практическая часть:

Напишите скрипт на Python, который реализует мониторинг дрейфа признаков с помощью библиотеки evidently и сохраняет отчёт в формате HTML.

import pandas as pd
from evidently.test_suite import TestSuite
from evidently.tests import TestColumnDrift

# Загрузка данных
reference_data = pd.read_csv('train.csv')
current_data = pd.read_csv('test.csv')

# Тест на дрейфт по числовому столбцу 'age'
test_age_drift = TestColumnDrift(column_name='age', stattest='ks')

# Создание набора тестов
data_drift_suite = TestSuite(tests=[test_age_drift])
data_drift_suite.run(reference_data=reference_data, current_data=current_data)

# Сохранение результата в HTML
data_drift_suite.save_html("data_drift_report.html")

Экзаменационный билет №12

Теоретическая часть:

Что такое online learning и в каких задачах он применим? Какие библиотеки поддерживают этот подход?
Охарактеризуйте основные проблемы при работе с категориальными признаками в больших датасетах и методы их решения.

Ответы на теоретическую часть:

Online learning — это обучение модели на потоке данных по одному примеру или маленькому батчу. Применяется в системах рекомендаций, детектировании мошенничества, финансовых прогнозах.
Поддерживающие библиотеки:
- River
- Vowpal Wabbit
- Scikit-learn (partial_fit)
- TensorFlow Dataset Streaming API
Проблемы при работе с категориальными признаками:
- Высокая размерность после one-hot encoding → использование embedding-слоёв или target encoding.
- Редкие категории → группировка в "other" или применение CatBoost/LightGBM.
- Нестабильность признаков → статистическое тестирование на стабильность.
- Обработка в scale → Spark/Polars для параллельной обработки.

Практическая часть:

Напишите скрипт на Python, который реализует online learning с помощью River, обрабатывая поток данных.

from river import linear_model, preprocessing
from river import metrics
from river.datasets import synth

# Синтетический поток данных
dataset = synth.ConceptDriftStream(stream=synth.STAGGER(), drift_stream=synth.Agrawal(), position=500, width=10)

# Модель и метрика
model = preprocessing.StandardScaler() | linear_model.LogisticRegression()
metric = metrics.Accuracy()

# Обработка потока
for x, y in dataset:
    y_pred = model.predict_one(x)
    model = model.learn_one(x, y)
    if y_pred is not None:
        metric = metric.update(y, y_pred)

print(f'Final accuracy: {metric.get():.4f}')

Экзаменационный билет №13

Теоретическая часть:

Что такое explainable AI и зачем она нужна? Приведите примеры библиотек и методов.
Охарактеризуйте best practices по управлению зависимостями в ML-проектах.

Ответы на теоретическую часть:

Explainable AI (XAI) — это подходы к интерпретации решений ML-моделей. Необходима для соблюдения регуляторных требований, повышения доверия к модели и выявления потенциальных проблем.
Примеры методов:
- SHAP
- LIME
- Partial Dependence Plots
- Integrated Gradients
- Attention visualization Примеры библиотек:
- SHAP
- Captum
- Alibi
- ELI5
Best practices:
- Использование virtual environments (venv, conda).
- Lock-файлы (requirements.txt, Pipfile.lock, poetry.lock).
- Контейнеризация (Docker).
- Автоматическое тестирование совместимости в CI/CD.
- Четкое разделение dev/prod зависимостей.

Практическая часть:

Напишите Dockerfile для запуска Flask API, предоставляющего эндпоинт /predict для модели, сохранённой в формате .pkl. Предположите, что модель принимает JSON с числовыми значениями.

FROM python:3.9-slim

WORKDIR /app

COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY . .

EXPOSE 5000

CMD ["gunicorn", "--bind", "0.0.0.0:5000", "app:app"]

# app.py
from flask import Flask, request, jsonify
import joblib
import numpy as np

app = Flask(__name__)
model = joblib.load('model.pkl')

@app.route('/predict', methods=['POST'])
def predict():
    data = request.get_json(force=True)
    prediction = model.predict(np.array(data['features']).reshape(1, -1))
    return jsonify({'prediction': int(prediction[0])})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

# requirements.txt
flask
gunicorn
scikit-learn
numpy

Экзаменационный билет №14

Теоретическая часть:

Что такое distributed training и какие типы параллелизма используются при его реализации?
Охарактеризуйте основные факторы, влияющие на latency модели в production.

Ответы на теоретическую часть:

Distributed training — это обучение модели на нескольких GPU/TPU/узлах. Используются два типа параллелизма:
- Data parallelism — разные части датасета обрабатываются разными устройствами.
- Model parallelism — разные части модели распределены по устройствам. Фреймворки: PyTorch Distributed, TensorFlow MirroredStrategy, Horovod.
Факторы, влияющие на latency:
- Сложность модели (глубина нейросети, количество деревьев).
- Размер входного запроса.
- Использование CPU vs GPU.
- Сеть (API latency, serialization overhead).
- Параллелизм и оптимизация I/O.

Практическая часть:

Напишите скрипт на PyTorch, который создаёт простую полносвязную нейросеть, обучает её на датасете MNIST и сохраняет модель в формате TorchScript.

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# Гиперпараметры
batch_size = 64
lr = 0.001
epochs = 3

# Подготовка данных
transform = transforms.ToTensor()
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Модель
class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc = nn.Sequential(
            nn.Linear(28 * 28, 128),
            nn.ReLU(),
            nn.Linear(128, 10)
        )

    def forward(self, x):
        return self.fc(x.view(-1, 28*28))

model = Net()

# Обучение
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=lr)

for epoch in range(epochs):
    for images, labels in train_loader:
        outputs = model(images)
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    print(f'Epoch {epoch+1}, Loss: {loss.item():.4f}')

# Сохранение в TorchScript
script_model = torch.jit.script(model)
torch.jit.save(script_model, "mnist_model.pt")

Экзаменационный билет №15

Теоретическая часть:

Что такое feature store и какие компоненты он включает? Какие библиотеки используются для его реализации?
Охарактеризуйте основные стратегии деплоя новых версий моделей в production.

Ответы на теоретическую часть:

Feature store — это централизованное хранилище признаков, позволяющее повторно использовать фичи, ускорить разработку и обеспечить согласованность между training и inference.
Компоненты:
- Offline store (Parquet, Delta Lake)
- Online store (Redis, Cassandra)
- Feature registry
- Compute engine (Spark, Flink)
  Библиотеки: Feast, Hopsworks, Ludwig Feature Store.
Основные стратегии деплоя новых версий моделей:
- Blue-Green deployment : параллельный запуск старой и новой версий, переключение трафика после проверки.
- Canary release : постепенный перевод части пользователей на новую модель.
- Shadow deployment : одновременная обработка запроса обеими версиями без влияния на пользователя.
- A/B testing : разделение трафика между моделями для сравнения метрик.
- Rolling update : поэтапное обновление без полного downtime.

Практическая часть:

Напишите скрипт, который реализует feature store на базе Feast с одной offline и одной online feature.

from feast import FeatureStore, Entity, FeatureView, Feature, FileSource
from datetime import timedelta
import pandas as pd

# Создание entity
user = Entity(name="user_id", description="User identifier")

# Определение источника данных
source = FileSource(
    path="data/user_features.parquet",
    event_timestamp_column="event_timestamp"
)

# Feature View
user_fv = FeatureView(
    name="user_features",
    entities=["user_id"],
    ttl=timedelta(days=1),
    features=[
        Feature(name="age", dtype=ValueType.INT32),
        Feature(name="income", dtype=ValueType.FLOAT)
    ],
    online=True,
    source=source,
    description="User static features"
)

# Инициализация store
store = FeatureStore(repo_path=".")
store.apply([user, user_fv])

# Загрузка данных в offline store
df = pd.DataFrame({
    "user_id": [1, 2, 3],
    "age": [25, 30, 35],
    "income": [50000, 70000, 90000],
    "event_timestamp": pd.to_datetime(["2023-01-01", "2023-01-02", "2023-01-03"])
})
store.write_to_offline_store(user_fv, df)

# Получение онлайн-признаков
online_features = store.get_online_features(
    features=["user_features.age", "user_features.income"],
    entity_rows=[{"user_id": 1}]
).to_dict()
print(online_features)

Кейсы

Кейс №1: "Модель рекомендаций для онлайн-ритейла"

Описание ситуации

Вы работаете в команде Data Science в крупной онлайн-платформе, которая занимается продажей товаров повседневного спроса. В рамках стратегии улучшения пользовательского опыта руководство приняло решение внедрить персонализированные рекомендации на главной странице и в email-рассылках.

На старте проекта вы получаете доступ к следующим данным:

Логи кликов и просмотров товаров (clickstream).
История заказов.
Каталог товаров с описаниями и категориями.
Демографическая информация пользователей (частично заполненная).
Сезонные акции и данные по предыдущим A/B тестам.

Был выбран подход collaborative filtering , а именно — модель Matrix Factorization, обученная на матрице user-item interactions. После нескольких месяцев работы в production команда заметила падение ключевых метрик: CTR упал на 12%, конверсия в покупку снизилась на 8%.

Задача

Проанализируйте ситуацию, выявите возможные причины снижения эффективности модели и предложите пути решения проблемы.

Анализ и выявление проблем

Проблема 1: Отсутствие обновления модели

Симптом: Модель не переобучалась с момента запуска.
Причина: Нет автоматизированного pipeline для регулярного переобучения.
Решение: Реализовать CI/CD pipeline для переобучения модели раз в неделю или при обнаружении дрейфа данных.

Проблема 2: Дрейф данных (data drift)

Симптом: Изменение структуры пользовательского трафика, например, рост доли новых пользователей.
Причина: Модель плохо справляется с cold start, так как обучена на исторических данных, где преобладают активные пользователи.
Решение: Добавить гибридный подход — использовать content-based фичи для новых пользователей и items.

Проблема 3: Отсутствие мониторинга качества модели

Симптом: Проблема была замечена слишком поздно.
Причина: Нет системы мониторинга метрик (CTR, NDCG, дрейф входных данных).
Решение: Интеграция инструментов вроде Evidently AI, Prometheus + Grafana, MLflow для отслеживания KPI и дрейфа.

Проблема 4: Cold start для новых товаров

Симптом: Новые товары почти никогда не попадают в рекомендации.
Причина: Модель не имеет данных о взаимодействиях с новыми товарами.
Решение: Внедрить методы content-based filtering или использовать эмбеддинги товаров на основе их текстовых описаний и категорий.

Проблема 5: Бизнес-метрики не были учтены на этапе обучения

Симптом: Рекомендуются товары с низкой маржинальностью.
Причина: Модель оптимизировалась только под точность, без учета бизнес-приоритетов.
Решение: Настроить ранжирование с учетом весов, связанных с бизнес-показателями (например, маржа, популярность, сезонность).

Выводы и рекомендации

Необходимо внедрить систему регулярного переобучения модели.
Установить мониторинг дрейфа данных и качества рекомендаций.
Расширить модель до гибридной (collaborative + content-based), чтобы лучше справляться с cold start.
Учитывать бизнес-приоритеты при формировании рекомендаций.
Подключить A/B тестирование для сравнения версий моделей перед full rollout.

Дополнительные вопросы для обсуждения:

Как бы вы реализовали автоматическое обнаружение дрейфа данных?
Какие метрики вы бы использовали для оценки качества рекомендательной системы?
Как обеспечить fairness в рекомендациях, чтобы избежать дискриминации групп пользователей?

Кейс №2: "Снижение точности модели детекции мошенничества в онлайн-банке"

Описание ситуации

Вы работаете ML-инженером в команде по борьбе с мошенничеством в крупном онлайн-банке. Ваша команда разработала и внедрила модель машинного обучения, которая предсказывает вероятность мошеннической транзакции на основе следующих данных:

История транзакций пользователя (время, сумма, тип).
Геолокация и IP-адрес.
Данные о устройстве (модель, ОС, browser).
Поведенческие метрики (частота операций, отклонения от привычного поведения).
Результаты прошлых проверок модераторами.

Модель представляет собой ансамбль градиентного бустинга (XGBoost) и нейросети, обученную на размеченных данных (мошенничество / не мошенничество). Модель работала стабильно в течение нескольких месяцев, показывая высокую чувствительность (recall ~92%) и приемлемый уровень ложных срабатываний (~7%).

Однако за последние 3 недели наблюдается резкое снижение recall до ~65%, при этом количество ложных срабатываний выросло до ~18%. Пользователи начали жаловаться на блокировку легитимных операций, а служба поддержки перегружена запросами.

Задача

Проанализируйте ситуацию, выявите возможные причины падения качества модели и предложите пути решения проблемы.

Анализ и выявление проблем

Проблема 1: Обновление поведения мошенников

Симптом: Резкий рост числа случаев, которые модель классифицирует как легитимные, но они являются мошенническими.
Причина: Мошенники изменили тактику — стали использовать более мелкие суммы, новые устройства и имитировать поведение реальных пользователей.
Решение: Пересмотреть стратегию сбора и разметки данных, добавить данные о новых инцидентах, улучшить feedback loop между модерацией и ML-командой.

Проблема 2: Дрейф входных данных

Симптом: Изменение распределения фичей, например, рост доли мобильных транзакций или изменение средней суммы операции.
Причина: Модель обучена на старых данных, где характер транзакций был другим.
Решение: Внедрить систему обнаружения дрейфа данных (например, с помощью Evidently AI), автоматическое переобучение модели при обнаружении значительных изменений.

Проблема 3: Устаревшие фичи и отсутствие новых сигналов

Симптом: Некоторые признаки потеряли свою информативность.
Причина: Не было обновления feature engineering pipeline, новые источники данных не были учтены (например, device fingerprinting, biometric signals).
Решение: Регулярный анализ важности фичей, добавление новых признаков, связанных с новыми видами атак.

Проблема 4: Отсутствие онлайн-обучения или адаптивности

Симптом: Модель не адаптируется к новым шаблонам поведения.
Причина: Модель статичная, переобучается только раз в месяц.
Решение: Реализовать частичное обучение (online learning) для быстрой адаптации к изменениям, либо сократить цикл переобучения.

Проблема 5: Смещение целевой переменной (label shift)

Симптом: Процент мошеннических транзакций в тренировочных данных стал отличаться от реального распределения.
Причина: Модель недооценивает вероятность мошенничества из-за дисбаланса классов.
Решение: Применить техники коррекции дисбаланса (cost-sensitive learning, threshold tuning), обновить датасет с учетом новых примеров.

Выводы и рекомендации

Необходимо внедрить регулярный процесс переобучения модели и обновления фичей.
Запустить систему мониторинга дрейфа данных и качества модели в production.
Улучшить взаимодействие с модерационной командой для получения свежих примеров мошенничества.
Рассмотреть возможность перехода на полу-онлайн или онлайн-обучение.
Настроить веса классов и пороговые значения для лучшего баланса precision/recall.

Дополнительные вопросы для обсуждения:

Как можно автоматизировать сбор и разметку новых примеров мошенничества?
Какие метрики наиболее подходят для оценки модели детекции мошенничества?
Как обеспечить объяснимость модели перед регуляторами и внутренними аудиторами?

Ролевые игры

Ролевая игра №1: "ML Crisis — Сбой в Production"

Цель игры

Научить участников принимать решения в условиях критической ситуации с ML-моделью в production. Развить навыки диагностики проблем, работы в команде и применения MLOps-практик.

Формат

Интерактивная ролевая симуляция в формате «игры на принятие решений». Участники делятся на команды по 4–6 человек. Каждый участник получает роль. Задача — выявить причину инцидента и предложить решение за ограниченное время (30–40 минут).

Сеттинг

Вы работаете в компании, которая предоставляет онлайн-кредитование. Модель машинного обучения используется для автоматической оценки кредитного риска клиента и выдачи одобрения/отказа. Внезапно команда получает тревожный сигнал: модель начала массово отклонять заявки от клиентов с хорошей кредитной историей и принимать заявки от мошеннических аккаунтов.

Роли в команде

ML Engineer — отвечает за модель, pipeline и мониторинг.
Data Scientist — анализирует данные, проверяет качество модели.
DevOps Engineer — управляет окружением, CI/CD, логированием.
MLOps Engineer — следит за состоянием инфраструктуры и метриками.
Product Manager — представляет интересы бизнеса, ставит приоритеты.
QA / Risk Analyst — фокусируется на контроле качества и рисках.

Этапы игры

Этап 1: Получение инцидента

Команды получают уведомление об аномалии:

«В последний час конверсия одобрения легитимных заявок упала на 25%, количество подозрительных одобрений выросло на 40%. Что произошло?»

Этап 2: Анализ данных и системы

Участникам предоставляется:

Логи ошибок
Графики метрик (precision, recall, feature drift)
Примеры входных данных
Текущие версии модели и кода

Этап 3: Диагностика проблемы

Команда совместно определяет возможные причины:

Дрейф данных?
Баг в коде пайплайна?
Ошибка в feature store?
Неправильный переобучение или версия модели?

Этап 4: Принятие решений

Команда выбирает стратегию:

Откат модели?
Быстрое исправление и деплой?
Активация бэкапной модели?
Запуск A/B теста?

Этап 5: Презентация решения

Каждая команда представляет свой план действий перед экспертами или преподавателем, объясняя:

Почему возникла проблема
Какие действия были выполнены
Какие метрики будут использоваться для оценки успешности решения

Обучающие эффекты

Понимание типичных проблем в production ML-системах.
Практика анализа логов, метрик и дрейфа данных.
Работа в мультидисциплинарной команде.
Применение MLOps-практик: мониторинг, rollback, CI/CD.
Принятие решений под давлением времени и неопределенности.

Возможные проблемы и вызовы во время игры

Команды могут потерять время на обсуждение, а не на поиск корня проблемы.
Участники могут не увидеть очевидные сигналы дрейфа или ошибки в данных.
Возникают разногласия в приоритетах между технической командой и бизнесом.
Не все понимают термины других ролей — это может замедлить процесс.

Дополнительно

После завершения можно провести рефлексию:

Какие действия оказались наиболее эффективными?
Как можно было избежать инцидента?
Какие практики стоит внедрить в будущих проектах?

Ролевая игра №2: "ML Launch — Запуск модели в Production"

Цель игры

Научить участников планировать и реализовывать запуск ML-модели в production с нуля. Развить понимание жизненного цикла модели, взаимодействия между командами и ключевых MLOps-практик.

Формат

Командная ролевая игра с элементами квеста и принятия решений. Участники делятся на группы по 4–6 человек. Каждый получает роль. Команды проходят этапы от идеи до деплоя, сталкиваясь с реальными проблемами и принимая решения.

Сеттинг

Вы работаете в стартапе, который предоставляет сервис персонализированного обучения (adaptive learning platform). Вам нужно запустить новую ML-модель, которая будет рекомендовать студентам следующий урок на основе их прогресса, активности и результатов тестов.

Менеджер проекта объявляет:

«У нас есть MVP-данные и гипотеза. Нужно вывести модель в production за 4 недели. Но ресурсы ограничены, а ожидания высоки. Как это сделать правильно?»

Роли в команде

ML Engineer — разрабатывает модель и pipeline.
Data Scientist — исследует данные, подбирает алгоритмы.
MLOps Engineer — строит инфраструктуру и pipeline для CI/CD.
DevOps Engineer — отвечает за интеграцию с backend и API.
Product Manager — формулирует бизнес-задачу и приоритеты.
QA / Risk Analyst — проверяет качество и соответствие требованиям.

Этапы игры

Этап 1: Постановка задачи

Команда получает описание продукта и бизнес-цели:

Модель должна работать в реальном времени.
Важна персонализация и низкая задержка.
Данные частично подготовлены, но не структурированы.

Задача: определить scope, KPI, метрики успеха, тип модели и формат интеграции.

Этап 2: Подготовка данных

Участникам предоставляется набор сырых данных:

Логи кликов
История просмотров
Оценки
Сессии

Проблемы:

Пропуски
Аномалии
Неочевидные фичи

Команда должна выбрать strategy feature engineering, обработку missing values, версионирование данных.

Этап 3: Обучение модели

Команда выбирает:

Алгоритм (LightGBM, XGBoost, простая нейросеть).
Метрики (accuracy, precision@k, recall@k, AUC).
Pipeline (train/test split, cross-validation).

Преподаватель или ведущий даёт обратную связь о возможных проблемах (overfitting, data leakage).

Этап 4: Интеграция и деплой

Команда определяет:

Формат хранения модели (pickle, ONNX, TorchScript).
Тип inference (online/batch).
Архитектура (REST API, gRPC, микросервис).
CI/CD (GitHub Actions, Jenkins, GitLab CI).

Появляются вызовы: совместимость окружения, latency, проблемы с сериализацией.

Этап 5: Мониторинг и управление рисками

Команда решает:

Какие метрики отслеживать?
Как организовать логирование и alerting?
Как бороться с дрейфом данных и моделей?
Как обеспечить воспроизводимость?

Этап 6: Презентация решения

Команда представляет:

Выбранное решение.
Почему был выбран тот или иной подход.
Как были решены возникшие проблемы.
Какие технические и организационные риски учтены.

Обучающие эффекты

Понимание полного жизненного цикла ML-модели.
Опыт работы в мультидисциплинарной команде.
Применение практик MLOps: CI/CD, мониторинг, feature store, model registry.
Практика выбора технологий и архитектур под конкретную задачу.
Анализ trade-offs между точностью, скоростью и затратами.

Возможные проблемы и вызовы во время игры

Конфликты между техническими и бизнес-приоритетами.
Недооценка сложности интеграции.
Отсутствие четкой документации по пайплайну.
Неверный выбор метрик, приводящий к плохому user experience.
Нехватка времени на тестирование перед выпуском.

Дополнительно

После игры проводится обсуждение:

Что бы сделали иначе?
Какие практики стоит внедрять в будущих проектах?
Как улучшить коммуникацию между ролями?

Ролевая игра №3: "ML Audit — Расследование сбоя системы рекомендаций"

Цель игры

Научить участников анализировать причины сбоев в ML-системах, выявлять технические и организационные проблемы, а также предлагать решения для предотвращения подобных ситуаций в будущем. Игра развивает навыки аудита ML-проектов и применения MLOps-практик.

Формат

Командная ролевая игра с элементами кейс-расследования и анализа. Участники делятся на команды по 4–6 человек. Каждый получает роль. Командам предоставляется ситуация с произошедшим инцидентом, логи, метрики и фрагменты документации. Задача — провести внутреннее расследование, найти корневые причины и подготовить отчет с рекомендациями.

Сеттинг

Вы работаете в крупной онлайн-платформе с рекомендательной системой (например, видеохостинг или маркетплейс). После очередного обновления модель начала рекомендовать несоответствующий контент, что вызвало жалобы пользователей, падение engagement и негативный PR.

Внутренний комитет по качеству поручил вашей команде провести технический и процессный аудит инцидента и подготовить подробный отчет с выводами.

Роли в команде

ML Engineer — анализирует модель и её версионирование.
Data Scientist — проверяет данные, качество признаков и оценку модели.
MLOps Engineer — исследует pipeline, CI/CD, мониторинг и логирование.
DevOps Engineer — проверяет интеграцию и окружение запуска.
Product Manager — оценивает влияние на бизнес и пользователей.
Compliance / Risk Analyst — анализирует этические и юридические риски.

Этапы игры

Этап 1: Описание инцидента

Участникам предоставляется формализованное описание ситуации:

«После автоматического деплоя новой версии рекомендательной системы пользователи начали получать несоответствующие запросам рекомендации. Система начала показывать детям взрослый контент, а бизнес-пользователям — развлекательные видео. В результате сервис получил сотни жалоб, а доверие пользователей упало.»

Этап 2: Изучение доступных данных

Командам предоставляются:

Логи модели (training и inference).
Графики метрик (precision, recall, coverage, drift).
Описание изменений в коде и модели.
Документация (или её отсутствие).
Примеры входных данных.
Информация о последнем тестировании и A/B экспериментах.

Этап 3: Выявление проблем

Команда совместно ищет возможные причины:

Была ли протестирована новая модель перед деплоем?
Произошел ли data leakage во время обучения?
Был ли нарушен pipeline feature engineering?
Нарушены ли SLI/SLO после обновления?
Есть ли признаки дрейфа данных или моделей?

Этап 4: Анализ процессов

Команда оценивает процессы:

Как происходит управление жизненным циклом модели?
Какие механизмы контроля качества были задействованы?
Как организованы документация и коммуникация между командами?
Есть ли система мониторинга и alertingа?
Какие метрики использовались при принятии решения о деплое?

Этап 5: Подготовка отчета и презентация

Каждая команда составляет:

Краткое описание инцидента.
Перечень выявленных технических и процессных проблем.
Причины возникновения ошибок.
Рекомендации по предотвращению аналогичных случаев.

Затем проводится презентация отчета перед экспертами или преподавателем.

Обучающие эффекты

Понимание типовых причин сбоев в ML-системах.
Навыки анализа ML-инфраструктуры и pipeline’ов.
Практика чтения логов, метрик и диагностики дрейфа.
Умение применять практики MLOps: model registry, CI/CD, monitoring, logging.
Формирование культуры ответственности за ML-проекты.

Возможные проблемы и вызовы во время игры

Неполные или противоречивые данные.
Отсутствие понимания между ролями (например, Data Scientist не знает, как работает CI/CD).
Сложность интерпретации метрик и логов без дополнительных инструментов.
Неочевидные причины сбоя (например, data leakage из future data).
Нехватка времени на полноценный анализ.

Дополнительно

После завершения можно провести рефлексию:

Какие действия помогли бы предотвратить инцидент?
Какие практики MLOps оказались наиболее важными?
Как можно улучшить документацию и коммуникацию между командами?

Ролевая игра №4: "ML Battle — Соревнование команд за лидерство в проекте"

Цель игры

Научить участников работать в условиях конкуренции, принимать стратегические решения при разработке ML-решений и отстаивать свою точку зрения. Развить понимание trade-offs между точностью, скоростью, масштабируемостью и затратами.

Формат

Командная ролевая игра с элементами соревнования и презентации решений. Участники делятся на 2–3 команды по 4–6 человек. Каждая команда представляет собой ML-подрядчика, который претендует на реализацию ключевого ML-проекта. Задача — предложить лучшее техническое и организационное решение.

Сеттинг

Вы работаете в крупной fintech-компании, которая хочет автоматизировать обработку заявок на кредитование. Проект объявлен тендерным: несколько внутренних команд (или внешних подрядчиков) предлагают свои подходы к решению задачи.

Директор по данным собирает совещание:

«Нам нужна модель классификации, которая будет оценивать риски по заявкам на кредит. Но у нас ограниченный бюджет, жёсткие SLA и высокие требования к интерпретируемости и fairness. Кто сможет предложить лучшее решение?»

Роли в команде

ML Engineer — отвечает за архитектуру модели и pipeline.
Data Scientist — занимается исследованием данных и выбором метрик.
MLOps Engineer — проектирует CI/CD, мониторинг, деплой.
DevOps Engineer — обеспечивает интеграцию с backend и безопасность.
Product Manager — формулирует бизнес-требования и приоритеты.
QA / Risk Analyst — проверяет качество, fairness и соответствие регуляторным нормам.

Этапы игры

Этап 1: Постановка задачи

Командам предоставляется ТЗ:

Данные: исторические данные клиентов (доход, история кредитов, возраст и т.д.).
Целевая переменная: одобрение / отказ.
Бизнес-требования: низкая задержка, интерпретируемость, fairness, low false negatives.
Технические ограничения: CPU-only inference, бюджет на обучение ограничен.

Каждая команда получает одинаковые данные и требования.

Этап 2: Исследование данных и гипотез

Команды проводят быстрый EDA, выявляют проблемы:

Пропуски
Несбалансированные классы
Признаки с шумом или leakage
Возможные источники bias

Этап 3: Выбор подхода

Команды выбирают:

Алгоритм (XGBoost, LightGBM, Logistic Regression, Neural Net, TabNet).
Pipeline обработки данных.
Feature engineering strategy.
Метрики оценки качества.
Архитектура deployment (REST API, batch processing, embedded).

Этап 4: Оценка производительности

Командам предоставляется тестовый набор данных и симуляция production нагрузки. Команды должны:

Обучить модель.
Оценить latency и точность.
Протестировать на edge cases.
Показать воспроизводимость и стабильность.

Этап 5: Презентация решения

Каждая команда готовит презентацию:

Подход к решению задачи.
Обоснование выбора модели и pipeline.
Анализ trade-offs (точность vs скорость vs стоимость).
Как решены вопросы fairness, explainability, compliance.
План внедрения и эксплуатации.

Преподаватель или экспертная группа выступает в роли заказчика и оценивает каждую команду по заранее определенным критериям.

Обучающие эффекты

Понимание компромиссов между различными ML-подходами.
Опыт работы в команде и распределения ролей.
Применение MLOps-практик: CI/CD, model registry, monitoring.
Развитие soft skills: презентация, защита идеи, работа в условиях ограниченных ресурсов.
Анализ этических и юридических аспектов ML-решений.

Возможные проблемы и вызовы во время игры

Разногласия внутри команды по поводу архитектуры.
Конфликты между технической эффективностью и бизнес-требованиями.
Недооценка сложности интеграции и эксплуатации.
Неочевидные ошибки в pipeline (например, data leakage).
Сложности с интерпретацией результатов и согласованием метрик.

Дополнительно

После игры проводится разбор:

Какие архитектурные решения оказались наиболее удачными?
Какие команды лучше всего учли все ограничения?
Что можно улучшить в подходах к документации, тестированию и управлению рисками?

Ментальная карта, диаграмма связей

Интеллект-карта №1: "Полный путь Machine Learning Engineer"

Центральный узел:

Machine Learning Engineer (Профессиональный уровень)

Основные ветки:

Математика и статистика
- Линейная алгебра
- Теория вероятностей
- Математический анализ
- Статистический вывод
- Байесовские методы
Программирование и инженерия
- Python (Pandas, NumPy, Scikit-learn)
- ООП и чистый код
- Работа с API (REST/gRPC)
- Unit- и интеграционное тестирование
- Ошибки, логирование, отладка
ML / DL модели
- Алгоритмы ML (XGBoost, LightGBM, CatBoost)
- Нейронные сети (CNN, RNN, Transformers)
- Transfer learning
- Reinforcement learning (базовые концепции)
- AutoML и гиперпараметрическая оптимизация
Feature Engineering
- Feature store
- Обработка категориальных данных
- Missing values
- Scaling, encoding, discretization
- Feature selection и dimensionality reduction
MLOps
- CI/CD для ML
- Model registry
- Контейнеризация (Docker)
- Orchestration (Airflow, Kubeflow)
- Monitoring и alerting
Production deployment
- Batch vs online inference
- Модель как микросервис
- Load balancing и масштабируемость
- Latency и throughput
- Rollback и A/B testing
Работа с данными
- ETL / ELT процессы
- Работа с большими данными (Spark, Dask)
- Data quality monitoring
- Schema validation
- Data drift detection
Soft Skills и практика
- Работа в команде
- Документация и code review
- Презентация решений
- Аналитическое мышление
- Управление техническим долгом

Интеллект-карта №2: "Технологическая стек-дорожка ML-инженера"

Центральный узел:

ML-Инженер: Технологический стек и инструменты

Основные ветки:

Языки программирования
- Python
- SQL
- Bash (для скриптинга и автоматизации)
Фреймворки и библиотеки
- PyTorch / TensorFlow
- Scikit-learn
- XGBoost / LightGBM
- FastAPI / Flask / TorchServe
- ONNX / TFX
Обработка данных
- Pandas
- NumPy
- Spark / Dask
- Polars (для high-performance вычислений)
- Great Expectations / Deequ
MLOps и DevOps
- Docker
- Kubernetes
- Helm
- Jenkins / GitHub Actions
- Airflow / Prefect / Argo Workflows
Хранилища и базы данных
- PostgreSQL / MySQL
- Redis / Cassandra (online feature store)
- Delta Lake / Parquet (offline feature store)
- Kafka / RabbitMQ (stream processing)
Мониторинг и наблюдаемость
- Prometheus + Grafana
- MLflow / Neptune / Weights & Biases
- Evidently AI / WhyLogs
- Logging (ELK, Loki)
Облачные платформы
- AWS SageMaker / Lambda / S3
- GCP Vertex AI / BigQuery ML
- Azure ML Studio / Databricks
- Yandex Cloud Managed Services for ML
Коммуникация и документация
- Swagger/OpenAPI
- Markdown / Jupyter / Sphinx
- Git / GitFlow
- CI/CD pipeline design

Интеллект-карта №3: "Жизненный цикл ML-модели в промышленной среде"

Центральный узел:

Жизненный цикл ML-модели (MLLC)

Основные этапы:

Определение задачи
- Понимание бизнес-задачи
- Формулировка ML-проблемы
- Выбор метрик оценки
- SLI/SLO/SLA
Сбор и подготовка данных
- Источники данных
- ETL/ELT процесс
- Предобработка данных
- Feature engineering
- Версионирование данных (DVC, lakeFS)
Обучение модели
- Подготовка окружения
- Cross-validation
- Hyperparameter tuning
- Работа с дисбалансом классов
- Отслеживание экспериментов (MLflow, Neptune)
Оценка и тестирование
- Unit-тесты для фичей
- Интеграционное тестирование
- A/B тестирование
- Тестирование на edge-кейсах
- Fairness и explainability
Деплой модели
- Online / batch inference
- Масштабируемость
- Canary release / blue-green deployment
- Контейнеризация (Docker)
- Микросервисная архитектура
Мониторинг и обслуживание
- Data drift detection
- Model drift detection
- Performance degradation
- Alerting по метрикам
- Автоматическое переобучение
Управление жизненным циклом
- Версионирование моделей
- Воспроизводимость
- Документация
- Коммуникация с бизнесом
- Feedback loop

Справочные издания и словари

1. Книга: "Machine Learning Engineering" — Андрей Карпатый, Ричард Саксена и др.

Описание: Практическое руководство по разработке и эксплуатации ML-моделей в промышленных условиях.
Что полезного: Упор на реальные процессы: тестирование, переобучение, деплой, CI/CD, мониторинг.
Для кого: Инженеры, разработчики, MLOps-специалисты.

2. Книга: "Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" — Aurélien Géron

Описание: Практическое введение в машинное обучение и глубокое обучение с использованием популярных библиотек.
Что полезного: Примеры кода, реализация моделей, работа с данными, deployment.
Для кого: Data Scientists, ML Engineers, студенты.

3. Книга: "Designing Machine Learning Systems" — Chip Huyen

Описание: Современный взгляд на проектирование масштабируемых ML-систем от идеи до production.
Что полезного: Практические методики сборки pipeline, управление данными, MLOps, feature store.
Для кого: ML инженеры, архитекторы, технические руководители проектов.

4. Методическое пособие: "MLOps: From Model to Production" — O'Reilly Media

Описание: Гайд по внедрению ML-моделей в production, включающий практики CI/CD, контейнеризацию, orchestration и мониторинг.
Что полезного: Структурированный подход к созданию MLOps-инфраструктуры.
Для кого: Практикующие специалисты, DevOps, MLOps-инженеры.

5. Задачник: "Hands-On Machine Learning Engineering Challenges" — GitHub / Community Edition

Описание: Коллекция задач и кейсов для развития навыков ML-инженера: от обучения модели до её обслуживания в production.
Что полезного: Реальные практические задания с решениями.
Для кого: Слушатели курсов, self-taught engineers, преподаватели.

Каталог-идей, образцы названий уч. программ, курсов

Курс: "ML Engineering Pro"
Анонс: Глубокое погружение в разработку, оптимизацию и производственную эксплуатацию ML-моделей с акцентом на MLOps, CI/CD и масштабируемость.

Курс: "Инженерия машинного обучения в промышленности"
Анонс: Научитесь строить надежные и воспроизводимые ML-системы, готовые к работе в enterprise-среде.

Курс: "MLOps: от прототипа до production"
Анонс: Полный цикл внедрения моделей в production: деплой, мониторинг, автоматизация, безопасность и управление жизненным циклом модели.

Курс: "Advanced Machine Learning Engineering"
Анонс: Углубленная подготовка инженеров по разработке, оптимизации и эксплуатации ML-решений в реальных условиях.

Курс: "Production-ML: Масштабируемые решения"
Анонс: Создание высоконадежных и отказоустойчивых систем на основе машинного обучения, адаптированных под бизнес-потребности.

Курс: "Машинное обучение в реальном времени"
Анонс: Обучение построению онлайн-пайплайнов, low-latency inference и обработке потоковых данных.

Курс: "ML-инфраструктура от A до Z"
Анонс: Проектирование и реализация ML-архитектур, включая feature store, model registry, orchestration и monitoring.

Курс: "Продвинутый MLOps"
Анонс: Расширенные практики построения CI/CD для ML, управления версиями данных и моделей, автоматизации и наблюдаемости.

Курс: "Глубокое погружение в ML Engineering"
Анонс: От теории к практике — создание full-stack решений с использованием современных фреймворков и инструментов.

Курс: "Data-Centric ML Engineering"
Анонс: Акцент на качество и структуру данных в ML-проектах. Feature engineering, data validation, drift detection и другие best practices.

Курс: "ML Engineering в облаке"
Анонс: Практическая реализация ML-систем на платформах AWS, GCP и Azure. Интеграция с облачными сервисами и оркестровка.

Курс: "Разработка ML-приложений в продакшене"
Анонс: Программа, ориентированная на практическую реализацию моделей в боевых условиях: deployment, scaling, rollback и monitoring.

Курс: "Контейнеризация и микросервисы для ML"
Анонс: Освоение Docker, Kubernetes и других технологий для построения устойчивых и масштабируемых ML-сервисов.

Курс: "ML как инженерная дисциплина"
Анонс: Подход к машинному обучению как к полноценной инженерной практике: код, данные, процессы, культура.

Курс: "Построение ML-систем в enterprise"
Анонс: Подготовка специалистов к проектированию и внедрению ML-решений в крупных компаниях с жёсткими требованиями к безопасности и надёжности.

Курс: "ML Engineering: Full Stack"
Анонс: От разработки модели до её обслуживания в production. Полный стек знаний для профессионального ML-инженера.

Курс: "Оптимизация и производительность ML-моделей"
Анонс: Техники ускорения и минимизации ML-моделей для эффективного исполнения в edge-устройствах и high-load средах.

Курс: "Автоматизация ML-процессов"
Анонс: Построение полностью автоматизированных пайплайнов для обучения, тестирования и деплоя моделей.

Курс: "Работа с большими данными в ML"
Анонс: Обработка, анализ и использование big data в масштабируемых ML-системах с применением Spark, Dask и распределённых вычислений.

Курс: "ML-системы в реальном времени"
Анонс: Разработка и запуск моделей для online inference, stream processing и event-driven архитектур.

Курс: "ML-инженер: экспертный уровень"
Анонс: Комплексная программа для тех, кто хочет стать экспертом в области ML-инженерии: от математики до MLOps.

Курс: "ML-инфраструктура как искусство"
Анонс: Практическое руководство по построению ML-экосистем в компаниях любого масштаба.

Курс: "ML-инженер 2.0"
Анонс: Современный подход к разработке ML-систем: explainability, fairness, security, compliance и производственные бест-практики.

Курс: "От идеи до ML-продукта"
Анонс: Как трансформировать исследовательский прототип в готовый продукт с полным жизненным циклом.

Курс: "Профессиональный ML-инженер: все грани профессии"
Анонс: Все необходимые компетенции для работы в роли ML-инженера: алгоритмы, инфраструктура, deployment, мониторинг, документирование и коммуникация.

Заявка ученика, студента, слушателя