Data Scientist (Профессиональный уровень)

Курс «Data Scientist (Профессиональный уровень)» предназначен для тех, кто уже владеет основами и хочет выйти на новый уровень. Вы углубите знания в машинном обучении, освоите продвинутую работу с данными, научитесь строить и оптимизировать модели, а также разворачивать решения в production. Курс включает практику с реальными датасетами, облачными платформами и современными инструментами Data Science.

Описание образовательного курса:

Курс предназначен для тех, кто уже имеет базовые знания в области Data Science и хочет выйти на профессиональный уровень. Программа охватывает углублённые методы анализа данных, машинного обучения, оптимизации моделей, обработки больших данных и деплоя решений в реальной среде.

Что предстоит пройти на курсе:

Продвинутая работа с данными (очистка, трансформация, feature engineering)
Машинное обучение: от регрессии до ансамблевых методов
Работа с библиотеками Scikit-learn, XGBoost, CatBoost
Оценка и оптимизация моделей: кросс-валидация, подбор гиперпараметров
Введение в глубокое обучение (на уровне понимания и применения)
Работа с большими данными (Pandas Pro, Dask, Spark)
Облачные технологии и деплой моделей (Docker, Flask, AWS/GCP/Azure)
Проектная работа: от идеи до работающего прототипа

Ожидаемые результаты после прохождения курса:

Должен знать: принципы построения и оптимизации ML-моделей, архитектуры систем обработки данных, основы облачных решений и деплоя.
Должен уметь: проводить EDA на высоком уровне, строить и сравнивать модели, готовить данные для продвинутого анализа, разворачивать модели в production-среду.

Формат обучения:
Онлайн/офлайн, лекции + практикумы, домашние задания, групповые проекты и финальный capstone-проект с защитой.

Хотите узнать, насколько вам необходим этот курс и действительно ли вы
разобрались в теме?
Пройдите короткий тест — он поможет определить, стоит ли углубляться в эту тему,
или вы уже готовы двигаться дальше.

? Пройти тест

Вопросы

Что такое feature engineering и почему он важен в машинном обучении?
Feature engineering — это процесс создания новых признаков или преобразования существующих для улучшения качества модели. Он важен, так как от качества признаков напрямую зависит эффективность модели.
Какие методы масштабирования данных вы знаете и когда их использовать?
Методы: StandardScaler (для нормального распределения), MinMaxScaler (для равномерного распределения), RobustScaler (при наличии выбросов). Используются перед обучением моделей, чувствительных к масштабу признаков.
В чём разница между L1- и L2-регуляризацией?
L1-регуляризация (Lasso) добавляет штраф за сумму абсолютных весов, способствуя разрежению модели. L2-регуляризация (Ridge) добавляет штраф за сумму квадратов весов, предотвращая большие значения весов.
Что такое cross-validation и зачем он нужен?
Cross-validation — это метод оценки обобщающей способности модели, при котором данные разбиваются на несколько частей, и модель тестируется на разных подвыборках для более надёжной оценки.
Как работает алгоритм случайного леса (Random Forest)?
Случайный лес строит множество деревьев решений на случайных подвыборках данных и объединяет их результаты, чтобы повысить точность и снизить переобучение.
Что такое градиентный бустинг и какие реализации вы знаете?
Градиентный бустинг — это ансамблевый метод, построенный на последовательном улучшении ошибок предыдущих моделей. Примеры: XGBoost, LightGBM, CatBoost.
Какие метрики используются в задачах регрессии?
MAE, MSE, RMSE, R². Каждая из них показывает разные аспекты качества модели: от средней ошибки до объяснённой дисперсии.
Какие метрики используются в задачах классификации?
Accuracy, Precision, Recall, F1-score, ROC-AUC. Они помогают оценить качество модели в зависимости от баланса классов и задачи.
Что такое матрица ошибок и как она используется?
Матрица ошибок показывает количество истинно положительных, ложно положительных, истинно отрицательных и ложно отрицательных прогнозов, что позволяет глубже анализировать поведение модели.
Что такое GridSearchCV и RandomizedSearchCV?
GridSearchCV перебирает все комбинации заданных гиперпараметров, тогда как RandomizedSearchCV выбирает случайные комбинации, что быстрее и часто даёт хороший результат.
Что такое PCA и зачем он нужен?
PCA (Principal Component Analysis) — это метод снижения размерности, который находит новые оси, сохраняющие максимальную информацию, тем самым упрощая модель и уменьшая переобучение.
Что такое пайплайны (Pipelines) в Scikit-learn и зачем они нужны?
Пайплайны позволяют объединить этапы предобработки и моделирования в один объект, что делает код чище, упрощает повторное использование и предотвращает утечку данных.
Что такое утечка данных (data leakage) и как её избежать?
Утечка данных происходит, когда информация из тестовой выборки влияет на обучение модели. Избегают с помощью корректного разделения данных и применения пайплайнов.
Что такое рекомендательная система и какие типы систем вы знаете?
Рекомендательные системы предлагают пользователям релевантный контент. Типы: коллаборативная фильтрация, content-based, гибридные.
Что такое A/B-тестирование и как оно проводится?
A/B-тестирование — это метод сравнения двух версий продукта. Пользователи случайным образом распределяются по группам, собираются метрики, и проводится статистический анализ различий.
Какие инструменты используются для деплоя моделей машинного обучения?
Flask, FastAPI, Streamlit, Docker, Kubernetes, AWS SageMaker, Google AI Platform.
Что такое REST API и как он связан с Data Science?
REST API — это стандарт взаимодействия между клиентом и сервером. В Data Science он используется для предоставления моделей как сервиса, чтобы другие приложения могли получать предсказания.
Как работают встраивания (embeddings) в машинном обучении?
Embeddings — это числовые представления категориальных данных, которые сохраняют семантическое значение. Часто используются в NLP и рекомендательных системах.
Что такое кластеризация и какие алгоритмы к ней относятся?
Кластеризация — это задача машинного обучения без учителя, цель которой — группировать данные по схожести. Алгоритмы: K-means, DBSCAN, Hierarchical Clustering.
Что такое валидационная и тестовая выборки и чем они отличаются?
Валидационная выборка используется для настройки гиперпараметров и выбора модели, тестовая — для окончательной оценки её качества.
Что такое недообучение и переобучение? Как их диагностировать?
Недообучение — модель не может уловить закономерности, переобучение — модель "запоминает" тренировочные данные. Диагностируются через разницу в ошибках на тренировочной и тестовой выборках.
Какие методы работы с несбалансированными данными вы знаете?
Upsampling/downsampling, SMOTE, изменение порога классификации, использование метрик, учитывающих дисбаланс (F1-score, ROC-AUC).
Что такое time series и какие методы анализа вы знаете?
Time series — это данные, упорядоченные по времени. Методы: ARIMA, SARIMA, Prophet, LSTM, экспоненциальное сглаживание.
Какие инструменты используются для работы с большими данными в Data Science?
Apache Spark, Dask, Pandas (оптимизация), SQL, Parquet/Feather, облачные решения (AWS S3, BigQuery, Azure Blob Storage).
Что такое MLOps и зачем он нужен?
MLOps — это практика интеграции машинного обучения в производственные процессы. Он обеспечивает автоматизацию, мониторинг, управление версиями моделей и их масштабируемость.

Что такое ensemble learning и какие его виды вы знаете?
Ensemble learning — это подход, при котором используются несколько моделей для повышения общей точности. Виды: бэггинг (Random Forest), бустинг (XGBoost), стекинг.
Какие метрики используются в задачах кластеризации?
Silhouette Score, Adjusted Rand Index (ARI), Davies–Bouldin Index. Эти метрики оценивают качество группировки данных без наличия истинных меток.
Что такое градиентный спуск и как он работает?
Градиентный спуск — это метод оптимизации, используемый для минимизации функции потерь. Он последовательно корректирует веса модели в направлении наискорейшего убывания ошибки.
В чём разница между batch, stochastic и mini-batch градиентным спуском?
Batch — использует все данные, медленный, но стабильный; Stochastic — случайная точка, быстрый, но шумный; Mini-batch — компромисс между скоростью и стабильностью.
Что такое dropout и зачем он используется в нейронных сетях?
Dropout — это метод регуляризации, при котором случайные нейроны отключаются во время обучения, чтобы предотвратить переобучение.
Что такое TF-IDF и где он применяется?
TF-IDF (Term Frequency-Inverse Document Frequency) — мера важности слова в документе относительно коллекции. Применяется в NLP для преобразования текста в числовые векторы.
Что такое bag-of-words и в чём его ограничения?
Bag-of-words — простой способ представления текста через частоту слов. Ограничения: игнорирует порядок слов и семантику.
Что такое precision-recall trade-off и как с ним работать?
Это компромисс между точностью и полнотой. Его можно регулировать изменением порога классификации или использованием F1-score как обобщающей метрики.
Что такое confusion matrix и как по ней рассчитать precision и recall?
Confusion matrix — таблица, показывающая количество TP, FP, TN, FN. Precision = TP / (TP + FP), Recall = TP / (TP + FN).
Что такое K-fold cross-validation и когда его использовать?
K-fold — разбиение данных на K частей, обучение на K-1 из них и тестирование на одной. Используется для более надёжной оценки качества модели.
Что такое валидационная кривая и как она помогает в анализе модели?
Валидационная кривая показывает, как меняется качество модели при изменении одного гиперпараметра. Помогает находить оптимальные значения параметров.
Какие типы регуляризации используются в линейной регрессии?
L1 (Lasso), L2 (Ridge), ElasticNet (комбинация L1 и L2). Они помогают уменьшить переобучение и улучшить обобщающую способность модели.
Что такое SMOTE и когда он применяется?
SMOTE (Synthetic Minority Over-sampling Technique) — метод увеличения количества примеров редкого класса путём генерации синтетических образцов. Применяется при дисбалансе классов.
Что такое визуализация ROC-кривой и как по ней интерпретировать модель?
ROC-кривая отражает зависимость TPR от FPR. Чем выше площадь под кривой (AUC), тем лучше модель различает классы.
Какие основные этапы подготовки данных в машинном обучении?
Очистка данных, заполнение пропусков, кодирование категориальных переменных, масштабирование, создание новых признаков, разделение на train/test выборки.
Что такое one-hot encoding и в чём его недостаток?
One-hot encoding — преобразование категориальных переменных в бинарные столбцы. Недостаток — рост размерности данных, особенно при большом числе уникальных значений.
Какие методы борьбы с выбросами вы знаете?
Удаление, замена на среднее/медиану, логарифмическое преобразование, использование робастных моделей (например, деревьев).
Что такое фича (feature) и как её правильно выбрать?
Feature — это входной признак, используемый моделью. Выбор осуществляется через корреляционный анализ, RFE, SHAP, LASSO и другие методы.
Что такое Shapley values и как они используются в объяснении моделей?
Shapley values — метод из теории кооперативных игр, используемый для интерпретации влияния каждого признака на предсказание модели.
Что такое bias-variance trade-off?
Это компромисс между смещением (bias) и дисперсией (variance). Смещение — ошибка упрощённой модели, дисперсия — чувствительность к данным. Баланс между ними улучшает качество модели.
Что такое overfitting и как его диагностировать?
Overfitting — переобучение модели, когда она идеально подстраивается под тренировочные данные, но плохо работает на тестовых. Диагностируется через большую разницу в ошибках на трейне и тесте.
Что такое underfitting и как его избежать?
Underfitting — недообучение, когда модель не может уловить закономерности в данных. Избегается через усложнение модели, добавление признаков или уменьшение регуляризации.
Что такое API и как он используется в деплое моделей?
API — это интерфейс взаимодействия между программами. В Data Science он позволяет интегрировать модель в веб-приложение или сервис, предоставляя предсказания через запросы.
Какие шаги включает процесс деплоя модели?
Подготовка модели, сериализация, создание API, контейнеризация (Docker), развертывание на сервере (AWS, GCP, Heroku), мониторинг производительности.
Что такое Docker и зачем он нужен в Data Science?
Docker — платформа для создания, запуска и управления контейнерами. В Data Science он используется для изолированного запуска моделей с необходимыми зависимостями, что упрощает деплой и тестирование.

Что такое MLOps и какие задачи он решает?
MLOps — это набор практик, объединяющих разработку и эксплуатацию моделей машинного обучения. Он решает задачи автоматизации, мониторинга, управления версиями моделей и их масштабируемости в production.
Какие основные компоненты включает архитектура MLOps?
Pipeline обработки данных, pipeline обучения модели, система оценки качества, деплой модели, мониторинг и логирование, управление версиями и CI/CD для ML.
Что такое CI/CD и как он применяется в MLOps?
CI/CD — это подход к автоматизации тестирования и развертывания кода. В MLOps он используется для автоматического запуска обучения модели при изменении данных или кода и последующего деплоя.
Что такое drift данных и почему он важен?
Data drift — это изменение распределения входных данных со временем. Это может привести к ухудшению качества модели, поэтому его важно отслеживать и реагировать на него.
Какие типы drift вы знаете?
Covariate shift (изменение распределения входов), concept drift (изменение зависимости между входом и выходом), label drift (изменение распределения целевой переменной).
Что такое feature store и зачем он нужен?
Feature store — это централизованное хранилище признаков, которое позволяет повторно использовать вычисленные фичи, синхронизировать их между тренировкой и инференсом и ускорить процесс подготовки данных.
Что такое модельный долг и как его избежать?
Модельный долг — это технические сложности и проблемы, возникающие при использовании ML-моделей в продакшене. Избегают через чистый код, документацию, тестирование и регулярную ретрейнировку.
Какие метрики используются для мониторинга производительности модели в production?
Accuracy, F1-score, AUC-ROC, стабильность предсказаний, данные о дрейфе признаков и целевой переменной.
Что такое инференс и как он организуется в production?
Инференс — это применение обученной модели к новым данным. Организуется через API, батч-обработку или потоковые системы (например, Apache Kafka).
Что такое batch inference и когда он используется?
Batch inference — это обработка данных пакетами. Используется, когда требуется обработать большое количество записей, и нет необходимости в немедленном ответе.
Что такое online inference и когда он используется?
Online inference — это обработка одного запроса за раз, с низкой задержкой. Применяется в системах, где важна скорость ответа, например, в рекомендательных системах.
Что такое model registry и зачем он нужен?
Model registry — это система хранения и управления версиями моделей. Он помогает отслеживать, одобрять и разворачивать лучшие версии моделей.
Что такое feature drift и как его обнаружить?
Feature drift — изменение распределения входных данных. Обнаруживается через статистические тесты (например, KS-тест) или визуализацию распределений.
Что такое concept drift и как с ним работать?
Concept drift — изменение зависимости между входными данными и целевой переменной. С этим борются через периодическую переобученку модели или использование адаптивных алгоритмов.
Что такое ETL и как он связан с Data Science?
ETL (Extract, Transform, Load) — это процесс извлечения, преобразования и загрузки данных. В Data Science он используется для подготовки данных перед обучением или инференсом.
Какие инструменты используются для реализации ETL?
Apache Airflow, Luigi, Prefect, Pandas, Spark, SQL, Talend, AWS Glue.
Что такое data pipeline и как он строится?
Data pipeline — это последовательность шагов по сбору, обработке и анализу данных. Он строится с помощью DAG (направленных ациклических графов) и инструментов типа Airflow.
Что такое DAG и как он используется в Airflow?
DAG — направленный ациклический граф, описывающий порядок выполнения задач. В Airflow он используется для планирования и отслеживания зависимостей между этапами pipeline.
Какие способы сериализации моделей вы знаете?
Pickle, Joblib, ONNX, PMML, TorchScript (для PyTorch), SavedModel (для TensorFlow).
В чём разница между Pickle и Joblib в сериализации моделей?
Pickle — стандартный Python-метод, но медленно работает с массивами NumPy. Joblib оптимизирован под NumPy и лучше справляется с большими объектами.
Что такое ONNX и зачем он нужен?
ONNX (Open Neural Network Exchange) — формат представления моделей, позволяющий переносить модели между различными фреймворками.
Что такое Feature Store и какие платформы его реализуют?
Feature Store — централизованное хранилище для признаков. Реализуется через Feast, Hopsworks, Tecton и другие платформы.
Что такое модельный пайплайн и из чего он состоит?
Это полный цикл работы модели: сбор данных, предобработка, обучение, оценка, деплой, мониторинг, переобучение.
Какие инструменты используются для мониторинга моделей в production?
Prometheus + Grafana, MLflow, Neptune.ai, Weights & Biases, custom логирование.
Что такое модельная этика и почему она важна?
Модельная этика — это принципы, обеспечивающие справедливость, прозрачность и безопасность ML-систем. Важна для защиты от дискриминации, ошибочных решений и злоупотреблений.

Тесты

Какой метод регуляризации добавляет штраф за сумму квадратов весов?
A) Lasso
B) ElasticNet
C) Ridge
D) PCA
Правильный ответ: C) Ridge
Какая метрика используется для оценки качества регрессионных моделей и представляет собой среднеквадратичную ошибку?
A) MAE
B) R²
C) MSE
D) Accuracy
Правильный ответ: C) MSE
Какой алгоритм машинного обучения использует деревья решений в качестве базовых моделей и строит ансамбль?
A) KNN
B) Random Forest
C) SVM
D) Logistic Regression
Правильный ответ: B) Random Forest
Что такое cross-validation?
A) Обучение модели на всех данных сразу
B) Оценка модели на тестовой выборке один раз
C) Разбиение данных на несколько частей для многократной оценки
D) Упрощение модели для уменьшения переобучения
Правильный ответ: C) Разбиение данных на несколько частей для многократной оценки
Какой из следующих методов используется для снижения размерности признакового пространства?
A) GridSearchCV
B) PCA
C) SMOTE
D) TF-IDF
Правильный ответ: B) PCA
Какой тип обучения используется в задачах кластеризации?
A) Обучение с учителем
B) Полуобучаемое обучение
C) Обучение без учителя
D) Подкрепление
Правильный ответ: C) Обучение без учителя
Какой параметр в Scikit-learn отвечает за количество соседей в методе KNN?
A) n_estimators
B) n_neighbors
C) max_depth
D) learning_rate
Правильный ответ: B) n_neighbors
Какая метрика оценивает качество бинарной классификации, учитывая дисбаланс классов?
A) Accuracy
B) F1-score
C) MAE
D) R²
Правильный ответ: B) F1-score
Какой метод позволяет автоматически объединить этапы предобработки и обучения модели в Scikit-learn?
A) Pipeline
B) GridSearch
C) CrossValScore
D) LabelEncoder
Правильный ответ: A) Pipeline
Какой из следующих методов не является алгоритмом градиентного бустинга?
A) XGBoost
B) CatBoost
C) AdaBoost
D) KMeans
Правильный ответ: D) KMeans
Какой инструмент позволяет сохранять и загружать обученные модели в Scikit-learn?
A) pickle
B) numpy.save
C) pandas.to_pickle
D) matplotlib.pyplot
Правильный ответ: A) pickle
Какой из следующих методов используется для работы с несбалансированными данными?
A) One-Hot Encoding
B) SMOTE
C) MinMaxScaler
D) PCA
Правильный ответ: B) SMOTE
Какая функция активации чаще всего используется в нейронных сетях для задачи бинарной классификации?
A) ReLU
B) Softmax
C) Sigmoid
D) Tanh
Правильный ответ: C) Sigmoid
Какой из следующих фреймворков используется для глубокого обучения?
A) Scikit-learn
B) Pandas
C) TensorFlow
D) Matplotlib
Правильный ответ: C) TensorFlow
Что означает термин "underfitting"?
A) Модель слишком сложная и запоминает данные
B) Модель плохо работает как на трейне, так и на тесте
C) Модель идеально подходит под тестовые данные
D) Модель переобучена
Правильный ответ: B) Модель плохо работает как на трейне, так и на тесте
Какой из следующих методов масштабирования наиболее устойчив к выбросам?
A) StandardScaler
B) MinMaxScaler
C) RobustScaler
D) Normalizer
Правильный ответ: C) RobustScaler
Какой из следующих показателей характеризует долю истинно положительных среди всех предсказанных положительных?
A) Recall
B) Precision
C) Accuracy
D) ROC-AUC
Правильный ответ: B) Precision
Какой из следующих методов используется для кодирования категориальных переменных в числовые значения?
A) PCA
B) LabelEncoder
C) StandardScaler
D) PolynomialFeatures
Правильный ответ: B) LabelEncoder
Какой из следующих подходов позволяет находить оптимальные гиперпараметры модели?
A) Feature Engineering
B) GridSearchCV
C) PCA
D) SMOTE
Правильный ответ: B) GridSearchCV
Какая метрика используется для оценки качества рекомендательных систем?
A) MSE
B) MAP@K (Mean Average Precision at K)
C) R²
D) Accuracy
Правильный ответ: B) MAP@K
Какой из следующих методов позволяет работать с временными рядами?
A) ARIMA
B) PCA
C) SMOTE
D) LabelEncoder
Правильный ответ: A) ARIMA
Какой из следующих алгоритмов не является алгоритмом кластеризации?
A) K-means
B) DBSCAN
C) Hierarchical Clustering
D) Logistic Regression
Правильный ответ: D) Logistic Regression
Что такое A/B-тестирование?
A) Сравнение двух версий сайта по скорости загрузки
B) Сравнение двух моделей по точности
C) Сравнение двух версий продукта на основе пользовательских метрик
D) Оптимизация гиперпараметров модели
Правильный ответ: C) Сравнение двух версий продукта на основе пользовательских метрик
Какой из следующих методов применяется для интерпретации моделей машинного обучения?
A) GridSearch
B) SHAP
C) PCA
D) KFold
Правильный ответ: B) SHAP
Что означает термин "data leakage"?
A) Потеря части данных
B) Наличие пропусков в данных
C) Использование информации из тестовой выборки в обучении
D) Переобучение модели
Правильный ответ: C) Использование информации из тестовой выборки в обучении

Какой из следующих методов используется для визуализации важности признаков модели?
A) PCA
B) Permutation Importance
C) MinMaxScaler
D) LabelEncoder
Правильный ответ: B) Permutation Importance
Какой из следующих параметров в XGBoost отвечает за скорость обучения?
A) max_depth
B) learning_rate
C) n_estimators
D) subsample
Правильный ответ: B) learning_rate
Какой тип машинного обучения используется для прогнозирования числовых значений?
A) Классификация
B) Регрессия
C) Кластеризация
D) Ассоциация
Правильный ответ: B) Регрессия
Что такое precision в задачах классификации?
A) Доля истинно положительных среди всех реальных положительных
B) Доля истинно положительных среди всех предсказанных положительных
C) Доля правильных предсказаний среди всех
D) Среднее между precision и recall
Правильный ответ: B) Доля истинно положительных среди всех предсказанных положительных
Какой инструмент используется для автоматизации процесса переобучения моделей в MLOps?
A) Docker
B) CI/CD
C) Jupyter Notebook
D) SQL
Правильный ответ: B) CI/CD
Какой из следующих методов позволяет обнаружить выбросы в наборе данных?
A) Z-score
B) One-Hot Encoding
C) TF-IDF
D) SMOTE
Правильный ответ: A) Z-score
Какой из следующих методов не является способом оценки качества кластеризации?
A) Silhouette Score
B) Adjusted Rand Index
C) F1-score
D) Davies–Bouldin Index
Правильный ответ: C) F1-score
Какое уравнение используется в линейной регрессии для предсказания?
A) y = e^x
B) y = w₁x₁ + w₂x₂ + ... + b
C) y = log(x)
D) y = x²
Правильный ответ: B) y = w₁x₁ + w₂x₂ + ... + b
Что такое feature drift?
A) Изменение распределения целевой переменной
B) Изменение зависимости между входными и выходными данными
C) Изменение распределения входных признаков
D) Потеря точности модели со временем
Правильный ответ: C) Изменение распределения входных признаков
Какой из следующих методов используется для работы с категориальными признаками в CatBoost?
A) One-Hot Encoding
B) Target Encoding
C) Label Encoding
D) Все вышеперечисленные
Правильный ответ: D) Все вышеперечисленные
Какой из следующих подходов используется для выбора наиболее информативных признаков?
A) PCA
B) RFE (Recursive Feature Elimination)
C) LabelEncoder
D) GridSearchCV
Правильный ответ: B) RFE (Recursive Feature Elimination)
Какой формат данных оптимизирован для хранения больших датасетов и быстрого чтения?
A) CSV
B) JSON
C) Parquet
D) XML
Правильный ответ: C) Parquet
Какой из следующих методов используется для обработки пропущенных значений в данных?
A) One-Hot Encoding
B) Interpolation
C) KFold
D) Label Smoothing
Правильный ответ: B) Interpolation
Какая метрика лучше подходит для оценки качества модели при дисбалансе классов?
A) Accuracy
B) MAE
C) ROC-AUC
D) MSE
Правильный ответ: C) ROC-AUC
Что означает термин "bias-variance trade-off"?
A) Компромисс между скоростью и памятью
B) Компромисс между сложностью и интерпретируемостью
C) Компромисс между ошибкой смещения и дисперсии
D) Компромисс между обучением и тестированием
Правильный ответ: C) Компромисс между ошибкой смещения и дисперсии
Какой из следующих алгоритмов использует деревья решений как базовые модели?
A) Logistic Regression
B) Linear Regression
C) Gradient Boosting
D) KNN
Правильный ответ: C) Gradient Boosting
Какой из следующих инструментов используется для управления зависимостями и окружением в Data Science?
A) Docker
B) Git
C) Matplotlib
D) Numpy
Правильный ответ: A) Docker
Какой из следующих методов используется для построения рекомендательных систем?
A) Collaborative Filtering
B) PCA
C) Ridge Regression
D) ARIMA
Правильный ответ: A) Collaborative Filtering
Какой из следующих фреймворков чаще всего используется для обработки больших данных?
A) Pandas
B) NumPy
C) Apache Spark
D) Scikit-learn
Правильный ответ: C) Apache Spark
Какой из следующих методов применяется для кодирования текстовых данных?
A) Bag-of-Words
B) PCA
C) StandardScaler
D) LabelEncoder
Правильный ответ: A) Bag-of-Words
Какой из следующих методов позволяет проводить A/B-тестирование?
A) T-test
B) PCA
C) Linear Regression
D) Cross-validation
Правильный ответ: A) T-test
Какой из следующих методов используется для борьбы с переобучением в нейронных сетях?
A) Batch normalization
B) Dropout
C) PCA
D) LabelEncoder
Правильный ответ: B) Dropout
Как называется подход, при котором модель обучается на части данных и тестируется на другой?
A) Feature Engineering
B) Train-test split
C) Hyperparameter Tuning
D) Cross-validation
Правильный ответ: D) Cross-validation
Какой из следующих файлов используется для контейнеризации приложений?
A) .py
B) .json
C) Dockerfile
D) .csv
Правильный ответ: C) Dockerfile
Какой из следующих методов используется для сериализации модели в Scikit-learn?
A) joblib.dump()
B) model.save()
C) pickle.dumps()
D) Все вышеперечисленное
Правильный ответ: D) Все вышеперечисленное

Какой из следующих методов используется для визуализации важности фичей с учетом их влияния на предсказание модели?
A) PCA
B) SHAP (SHapley Additive exPlanations)
C) KMeans
D) TF-IDF
Правильный ответ: B) SHAP (SHapley Additive exPlanations)
Какой параметр в градиентном бустинге отвечает за количество деревьев в ансамбле?
A) learning_rate
B) max_depth
C) n_estimators
D) subsample
Правильный ответ: C) n_estimators
Что означает термин "concept drift"?
A) Изменение распределения входных признаков
B) Изменение зависимости между входными и выходными данными
C) Появление новых категорий в данных
D) Увеличение количества пропущенных значений
Правильный ответ: B) Изменение зависимости между входными и выходными данными
Какой из следующих инструментов позволяет управлять зависимостями и окружением в MLOps?
A) Kubernetes
B) Conda
C) SQL
D) Matplotlib
Правильный ответ: B) Conda
Какая метрика лучше всего подходит для оценки качества модели, если данные сильно несбалансированы?
A) Accuracy
B) ROC-AUC
C) F1-score
D) MSE
Правильный ответ: C) F1-score
Какой тип рекомендательной системы основывается на поведении пользователей и похожести между ними?
A) Content-based
B) Collaborative Filtering
C) Hybrid
D) Knowledge-based
Правильный ответ: B) Collaborative Filtering
Какой из следующих подходов используется для автоматизации процесса обучения и деплоя моделей?
A) ETL
B) MLOps
C) PCA
D) A/B Testing
Правильный ответ: B) MLOps
Какой из следующих алгоритмов использует принцип максимизации маржи между классами?
A) Random Forest
B) SVM
C) Logistic Regression
D) Decision Tree
Правильный ответ: B) SVM
Какой из следующих методов позволяет сохранять модель вместе с её гиперпараметрами и архитектурой?
A) Pickle
B) ONNX
C) JSON
D) CSV
Правильный ответ: B) ONNX
Какой из следующих паттернов используется в машинном обучении для работы с последовательностями?
A) CNN
B) RNN
C) PCA
D) DBSCAN
Правильный ответ: B) RNN
Какой из следующих файлов чаще всего используется для описания зависимостей в Python-проектах?
A) Dockerfile
B) requirements.txt
C) README.md
D) .gitignore
Правильный ответ: B) requirements.txt
Какой из следующих методов используется для обработки категориальных переменных с большим числом уникальных значений?
A) One-Hot Encoding
B) Target Encoding
C) LabelEncoder
D) Ordinal Encoder
Правильный ответ: B) Target Encoding
Какой из следующих подходов позволяет организовать поток данных и управления задачами в MLOps?
A) CI/CD
B) REST API
C) Docker
D) Flask
Правильный ответ: A) CI/CD
Какой из следующих форматов данных поддерживает хранение вложенных структур и часто используется в NLP?
A) CSV
B) JSON
C) Parquet
D) XML
Правильный ответ: B) JSON
Какой из следующих методов используется для оценки значимости признаков через случайное перемешивание?
A) Feature Importance
B) Permutation Importance
C) SHAP
D) LIME
Правильный ответ: B) Permutation Importance
Какой из следующих методов используется для преобразования категориальных признаков в числовые значения с учётом целевой переменной?
A) One-Hot Encoding
B) Label Encoding
C) Target (Mean) Encoding
D) Ordinal Encoding
Правильный ответ: C) Target (Mean) Encoding
Какой из следующих инструментов используется для логирования и отслеживания экспериментов в Data Science?
A) MLflow
B) Git
C) Docker
D) Jupyter Notebook
Правильный ответ: A) MLflow
Какой из следующих терминов описывает изменение распределения целевой переменной со временем?
A) Concept Drift
B) Label Drift
C) Feature Drift
D) Model Decay
Правильный ответ: B) Label Drift
Какой из следующих инструментов используется для создания и запуска контейнеров с моделями?
A) Kubernetes
B) TensorFlow Serving
C) Docker
D) All of the above
Правильный ответ: D) All of the above
Какой из следующих методов применяется для интерпретации отдельных предсказаний модели?
A) PCA
B) SHAP
C) GridSearchCV
D) Cross-validation
Правильный ответ: B) SHAP
Какой из следующих подходов используется для сравнения нескольких версий модели?
A) A/B тестирование
B) PCA
C) T-test
D) ANOVA
Правильный ответ: A) A/B тестирование
Какое из следующих понятий описывает проблему, когда модель работает хорошо на тренировочных данных, но плохо на тестовых?
A) Underfitting
B) Overfitting
C) Generalization
D) Bias
Правильный ответ: B) Overfitting
Какой из следующих инструментов позволяет создавать DAG-ориентированные pipeline'ы для обработки данных?
A) Apache Airflow
B) Docker
C) Flask
D) FastAPI
Правильный ответ: A) Apache Airflow
Какой из следующих методов позволяет находить оптимальные гиперпараметры модели, перебирая все возможные комбинации?
A) RandomizedSearchCV
B) GridSearchCV
C) BayesianSearchCV
D) GeneticSearchCV
Правильный ответ: B) GridSearchCV
Какой из следующих показателей используется для оценки стабильности кластеризации?
A) Silhouette Score
B) Adjusted Rand Index
C) Davies–Bouldin Index
D) Все вышеперечисленные
Правильный ответ: D) Все вышеперечисленные

Билеты

Экзаменационный билет №1

Теория:

Что такое MLOps и какие задачи он решает в жизненном цикле модели?
Какие метрики используются для оценки качества моделей в задачах регрессии?

Ответы на теорию:

MLOps — это набор практик, объединяющих разработку и эксплуатацию моделей машинного обучения. Он решает задачи автоматизации pipeline'ов, управления версиями моделей, мониторинга их производительности и деплоя в production.
В задачах регрессии применяются такие метрики, как MAE (Mean Absolute Error), MSE (Mean Squared Error), RMSE (Root Mean Squared Error), R² (коэффициент детерминации).

Практика:

Реализуйте функцию на Python, которая принимает X и y, делит данные на обучающую и тестовую выборки (80/20), обучает модель линейной регрессии и выводит значение R².

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

def evaluate_regression(X, y):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    model = LinearRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    return r2_score(y_test, y_pred)

# Пример использования:
# score = evaluate_regression(X, y)
# print(f"R²: {score:.2f}")

Экзаменационный билет №2

Теория:

Что такое feature drift и как его можно обнаружить?
Охарактеризуйте метод Random Forest и его преимущества.

Ответы на теорию:

Feature drift — это изменение распределения входных признаков со временем. Его можно обнаружить с помощью статистических тестов (например, KS-тест) или визуализации распределений.
Random Forest — это ансамблевый метод, состоящий из множества деревьев решений. Преимущества: устойчивость к переобучению, возможность работы с категориальными данными, высокая точность без тонкой настройки.

Практика:

С использованием библиотеки Scikit-learn реализуйте классификацию данных из датасета iris, построив модель случайного леса и выведя матрицу ошибок.

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

# Загрузка данных
data = load_iris()
X, y = data.data, data.target

# Разделение выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучение модели
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Предсказания
y_pred = model.predict(X_test)

# Матрица ошибок
print(confusion_matrix(y_test, y_pred))

Экзаменационный билет №3

Теория:

Что такое градиентный бустинг и какие его реализации вы знаете?
Что такое SHAP и зачем он используется в Data Science?

Ответы на теорию:

Градиентный бустинг — это ансамблевый метод, при котором модели строятся последовательно, исправляя ошибки предыдущих. Реализации: XGBoost, LightGBM, CatBoost.
SHAP (SHapley Additive exPlanations) — это метод интерпретации модели, основанный на кооперативной теории игр. Позволяет понять, какой вклад вносит каждый признак в финальное предсказание.

Практика:

Загрузите датасет breast_cancer из Scikit-learn, обучите модель градиентного бустинга и выведите значения важности фичей.

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import GradientBoostingClassifier
import pandas as pd

# Загрузка данных
data = load_breast_cancer()
X, y = data.data, data.target

# Обучение модели
model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
model.fit(X, y)

# Важность фичей
feature_importance = pd.DataFrame({
    'Feature': data.feature_names,
    'Importance': model.feature_importances_
}).sort_values(by='Importance', ascending=False)

print(feature_importance)

Экзаменационный билет №4

Теория:

Что такое A/B-тестирование и как оно проводится?
Какие метрики используются в задачах кластеризации?

Ответы на теорию:

A/B-тестирование — это метод сравнения двух версий продукта. Пользователи случайным образом распределяются по группам, собираются метрики, и проводится статистический анализ различий.
Для кластеризации используются метрики: Silhouette Score, Adjusted Rand Index (ARI), Davies–Bouldin Index, Calinski-Harabasz Index.

Практика:

Используя датасет make_blobs, примените алгоритм KMeans, визуализируйте кластеры и рассчитайте Silhouette Score.

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

# Создание данных
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=42)

# Кластеризация
kmeans = KMeans(n_clusters=4, random_state=42)
labels = kmeans.fit_predict(X)

# Silhouette Score
score = silhouette_score(X, labels)
print(f"Silhouette Score: {score:.2f}")

# Визуализация
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], s=200, c='red', label='Центры')
plt.title('KMeans кластеризация')
plt.legend()
plt.show()

Экзаменационный билет №5

Теория:

Что такое CI/CD и как он применяется в MLOps?
Что такое concept drift и как с ним работать?

Ответы на теорию:

CI/CD — это подход к автоматизации сборки, тестирования и развертывания кода. В MLOps он используется для автоматического запуска обучения модели при изменении данных или кода и последующего деплоя.
Concept drift — это изменение зависимости между входными данными и целевой переменной. С этим борются через периодическое переобучение модели или использование адаптивных алгоритмов.

Практика:

Напишите функцию, которая принимает датафрейм, проверяет наличие пропусков, заменяет их медианой и масштабирует данные с помощью StandardScaler.

import pandas as pd
from sklearn.preprocessing import StandardScaler

def preprocess_data(df):
    # Заполнение пропусков медианой
    df.fillna(df.median(), inplace=True)

    # Масштабирование
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(df)

    return scaled_data

# Пример использования:
# processed_data = preprocess_data(df)
# print(processed_data)

Экзаменационный билет №6

Теория:

Что такое модельный долг (model debt) и как его избежать?
Какие метрики используются для оценки качества рекомендательных систем?

Ответы на теорию:

Модельный долг — это совокупность технических сложностей, возникающих при использовании ML-моделей в production. Избегают его через чистый код, документирование, регулярную ретрейнировку и тестирование.
В рекомендательных системах применяются такие метрики, как MAP@K (Mean Average Precision at K), NDCG (Normalized Discounted Cumulative Gain), Recall@K.

Практика:

Создайте функцию, которая принимает датасет с категориальными переменными и выполняет Target Encoding для указанного столбца.

import pandas as pd
from sklearn.model_selection import StratifiedKFold

def target_encode(df, cat_col, target_col, n_splits=5, smoothing=1):
    kf = StratifiedKFolds(n_splits=n_splits, shuffle=True, random_state=42)
    df_encoded = df.copy()
    mean_target = df[target_col].mean()
    skf = StratifiedKFold(n_splits=n_splits)

    for train_idx, val_idx in skf.split(df, df[target_col]):
        X_tr, X_val = df.iloc[train_idx], df.iloc[val_idx]
        target_mean = X_tr.groupby(cat_col)[target_col].mean()
        count = X_tr.groupby(cat_col)[target_col].size()
        smooth = (count * target_mean + smoothing * mean_target) / (count + smoothing)
        df_encoded.loc[X_val.index, cat_col] = X_val[cat_col].map(smooth).fillna(mean_target)
    
    return df_encoded

Экзаменационный билет №7

Теория:

Что такое ETL и как он связан с Data Science?
Какие инструменты используются для реализации ETL?

Ответы на теорию:

ETL (Extract, Transform, Load) — процесс извлечения, преобразования и загрузки данных. В Data Science он используется для подготовки данных перед обучением или инференсом.
Для реализации ETL используются: Apache Airflow, Luigi, Prefect, Pandas, Spark, SQL, AWS Glue.

Практика:

Напишите скрипт, который загружает данные из CSV, фильтрует строки с пропущенными значениями в колонке 'price', заполняет их медианой и сохраняет очищенный датафрейм в новый файл.

import pandas as pd

# Загрузка данных
df = pd.read_csv('products.csv')

# Фильтрация пропусков
missing_mask = df['price'].isnull()

# Заполнение медианой
median_price = df['price'].median()
df['price'].fillna(median_price, inplace=True)

# Сохранение результата
df.to_csv('products_cleaned.csv', index=False)

Экзаменационный билет №8

Теория:

Что такое feature store и зачем он нужен?
Какие основные компоненты архитектуры MLOps?

Ответы на теорию:

Feature store — это централизованное хранилище для признаков, которое позволяет повторно использовать вычисленные фичи, синхронизировать их между тренировкой и инференсом и ускорить процесс подготовки данных.
Основные компоненты MLOps: pipeline обработки данных, pipeline обучения модели, система оценки качества, деплой модели, мониторинг производительности, управление версиями.

Практика:

Используя библиотеку mlflow, запустите эксперимент, где обучается модель линейной регрессии и логируются параметры и метрики.

import mlflow
import mlflow.sklearn
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# Генерация данных
X, y = make_regression(n_features=10, n_informative=5, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Настройка эксперимента
mlflow.set_experiment("LinearRegression_Experiment")

with mlflow.start_run():
    model = LinearRegression()
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)

    # Логирование параметров и метрик
    mlflow.log_params(model.get_params())
    mlflow.log_metric("mse", mean_squared_error(y_test, predictions))
    mlflow.log_metric("r2", r2_score(y_test, predictions))

    # Логирование модели
    mlflow.sklearn.log_model(model, "model")

Экзаменационный билет №9

Теория:

Что такое data drift и какие типы drift вы знаете?
Какие способы сериализации моделей вы знаете?

Ответы на теорию:

Data drift — изменение распределения входных данных со временем. Типы: covariate shift, concept drift, label drift.
Сериализация моделей: Pickle, Joblib, ONNX, PMML, TorchScript (PyTorch), SavedModel (TensorFlow).

Практика:

Напишите код, который обучает модель градиентного бустинга, сохраняет её в формате .pkl и загружает обратно.

import pickle
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import load_breast_cancer

# Загрузка данных
data = load_breast_cancer()
X, y = data.data, data.target

# Обучение
model = GradientBoostingClassifier(random_state=42)
model.fit(X, y)

# Сохранение модели
with open('gb_model.pkl', 'wb') as f:
    pickle.dump(model, f)

# Загрузка модели
with open('gb_model.pkl', 'rb') as f:
    loaded_model = pickle.load(f)

print("Модель успешно загружена.")

Экзаменационный билет №10

Теория:

Что такое DAG и как он используется в Airflow?
Какие подходы к подбору гиперпараметров вы знаете?

Ответы на теорию:

DAG (Directed Acyclic Graph) — направленный ациклический граф, описывающий порядок выполнения задач. В Airflow он используется для планирования и отслеживания зависимостей между этапами pipeline.
Подходы к подбору гиперпараметров: GridSearchCV, RandomizedSearchCV, Bayesian Optimization, Optuna, Hyperopt.

Практика:

Реализуйте GridSearchCV для поиска оптимальных гиперпараметров модели случайного леса на датасете iris.

from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# Загрузка данных
data = load_iris()
X, y = data.data, data.target

# Параметры для поиска
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5]
}

# Поиск
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X, y)

# Лучшие параметры
print("Лучшие параметры:", grid_search.best_params_)
print("Лучшая точность:", grid_search.best_score_)

Экзаменационный билет №11

Теория:

Что такое feature engineering и какие методы вы знаете?
Какие инструменты используются для деплоя моделей машинного обучения?

Ответы на теорию:

Feature engineering — это процесс создания новых признаков или преобразования существующих для улучшения качества модели. Методы: создание полиномиальных фич, биннинг, кодирование категорий, масштабирование, взаимодействия между признаками.
Для деплоя моделей используются: Flask, FastAPI, Streamlit, Docker, Kubernetes, AWS SageMaker, Google AI Platform, ONNX Runtime.

Практика:

Напишите функцию, которая принимает датафрейм и список числовых колонок, нормализует их с помощью MinMaxScaler и возвращает обновлённый датафрейм.

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def normalize_features(df, numeric_cols):
    scaler = MinMaxScaler()
    df[numeric_cols] = scaler.fit_transform(df[numeric_cols])
    return df

# Пример использования:
# normalized_df = normalize_features(df, ['age', 'salary'])

Экзаменационный билет №12

Теория:

Что такое ROC-AUC и как интерпретировать его значение?
Что такое bias-variance trade-off?

Ответы на теорию:

ROC-AUC — это площадь под ROC-кривой, показывающая, насколько хорошо модель различает классы. Значение от 0 до 1, где 1 — идеальная модель, 0.5 — случайная.
Это компромисс между смещением (ошибка упрощённой модели) и дисперсией (чувствительность к данным). Баланс между ними улучшает качество модели.

Практика:

Создайте функцию, которая строит ROC-кривую и рассчитывает AUC для бинарной классификации.

from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

def plot_roc_curve(y_true, y_scores):
    fpr, tpr, _ = roc_curve(y_true, y_scores)
    roc_auc = auc(fpr, tpr)

    plt.figure()
    plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {roc_auc:.2f})')
    plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC Curve')
    plt.legend(loc="lower right")
    plt.show()

# Пример вызова:
# plot_roc_curve(y_test, model.predict_proba(X_test)[:, 1])

Экзаменационный билет №13

Теория:

Что такое SHAP и зачем он используется в Data Science?
Что такое пайплайн в Scikit-learn и почему он важен?

Ответы на теорию:

SHAP (SHapley Additive exPlanations) — метод интерпретации модели, основанный на теории кооперативных игр. Он позволяет понять, какой вклад вносит каждый признак в предсказание.
Пайплайн в Scikit-learn объединяет этапы предобработки и моделирования в один объект. Он важен для чистоты кода, повторного использования и предотвращения утечки данных.

Практика:

Создайте пайплайн, который выполняет StandardScaler, PCA и обучает модель LogisticRegression на датасете breast_cancer.

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

# Загрузка данных
data = load_breast_cancer()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание пайплайна
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('pca', PCA(n_components=10)),
    ('classifier', LogisticRegression())
])

# Обучение
pipeline.fit(X_train, y_train)

# Оценка
score = pipeline.score(X_test, y_test)
print(f"Accuracy: {score:.2f}")

Экзаменационный билет №14

Теория:

Что такое TF-IDF и где он применяется?
Какие типы рекомендательных систем вы знаете?

Ответы на теорию:

TF-IDF (Term Frequency-Inverse Document Frequency) — мера важности слова в документе относительно коллекции. Применяется в NLP для преобразования текста в числовые векторы.
Типы рекомендательных систем: content-based, collaborative filtering, гибридные, knowledge-based, demographic.

Практика:

Преобразуйте набор текстовых документов в числовые векторы с использованием TF-IDF и обучите простую модель классификации.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split

# Исходные данные
texts = ["I love programming", "Machine learning is fun", "Python is great", "Deep learning is powerful"]
labels = [1, 1, 0, 1]  # 1 - технические, 0 - не технические

# Разделение выборки
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.25, random_state=42)

# Пайплайн
model = make_pipeline(TfidfVectorizer(), LogisticRegression())
model.fit(X_train, y_train)

# Оценка
score = model.score(X_test, y_test)
print(f"Accuracy: {score:.2f}")

Экзаменационный билет №15

Теория:

Что такое dropout и зачем он используется в нейронных сетях?
Что такое модельный пайплайн и из чего он состоит?

Ответы на теорию:

Dropout — это метод регуляризации, при котором случайные нейроны отключаются во время обучения, чтобы предотвратить переобучение.
Модельный пайплайн — это полный цикл работы модели: сбор данных, предобработка, обучение, оценка, деплой, мониторинг, переобучение.

Практика:

Обучите простую нейросеть с dropout на датасете digits и протестируйте её точность.

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.utils import to_categorical

# Загрузка данных
digits = load_digits()
X, y = digits.data, digits.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Подготовка целевой переменной
y_train_cat = to_categorical(y_train)
y_test_cat = to_categorical(y_test)

# Архитектура сети
model = Sequential([
    Dense(128, activation='relu', input_shape=(64,)),
    Dropout(0.5),
    Dense(64, activation='relu'),
    Dropout(0.5),
    Dense(10, activation='softmax')
])

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Обучение
model.fit(X_train, y_train_cat, epochs=10, batch_size=32, validation_split=0.2, verbose=0)

# Оценка
loss, accuracy = model.evaluate(X_test, y_test_cat, verbose=0)
print(f"Test Accuracy: {accuracy:.2f}")

Кейсы

Кейс №1: "Оптимизация цепочки поставок с помощью машинного обучения"

Описание ситуации:

Вы — специалист по данным в крупной розничной компании «SmartRetail» , которая управляет сетью магазинов по всей стране. Компания сталкивается с проблемой избыточных запасов в одних магазинах и дефицита в других, что приводит к убыткам и снижению удовлетворённости клиентов.

Вам поручено проанализировать данные о продажах, запасах и поставках за последние 6 месяцев и предложить модель прогнозирования спроса, которая поможет оптимизировать логистику и уровень товарных запасов.

Вам предоставлен датасет supply_chain_data.csv, содержащий следующие столбцы:

Столбец	Описание
store_id	Уникальный ID магазина
product_id	Уникальный ID товара
date	Дата продажи
sales_quantity	Количество проданных единиц
stock_level	Уровень остатков на начало дня
reorder_point	Точка повторного заказа (минимальный уровень, при котором нужно делать поставку)
lead_time_days	Время доставки товара с центрального склада до магазина
promo	Признак акции (1 – товар участвует в акции, 0 – нет)
holiday	Признак выходного дня (1 – выходной/праздник, 0 – обычный день)
weather	Погода в регионе (температура, осадки, категория погоды)

Цель анализа:

Построить модель прогнозирования спроса на основе исторических данных.
Выявить ключевые факторы, влияющие на уровень продаж.
Предложить рекомендации по автоматизации заказов и сокращению издержек.

Предварительная инструкция:

Данные содержат несколько скрытых проблем, которые могут исказить результаты модели. Ваша задача — не только построить модель, но и обнаружить эти проблемы и предложить пути их решения.

Задачи:

1. Подготовка данных

Загрузите датасет.
Проверьте наличие пропусков и аномальных значений.
Обратите внимание на значения в lead_time_days и reorder_point.

Скрытая проблема №1: Некоторые значения lead_time_days равны 0 или отрицательным числам, что физически невозможно.

2. Анализ продаж

Рассчитайте среднемесячные продажи по каждому товару.
Исследуйте сезонность и влияние внешних факторов (акции, погода, праздники).
Постройте графики зависимости продаж от времени и событий.

Скрытая проблема №2: В данных есть выбросы в столбце sales_quantity. Некоторые значения значительно превышают нормальный уровень продаж.

3. Формирование признаков

Создайте новые признаки: день недели, месяц, наличие акции, температурный диапазон.
Преобразуйте категориальные переменные (например, тип погоды) в числовые.

Скрытая проблема №3: Категории погоды имеют разные названия в разных регионах (например, «дождь», «небольшой дождь», «ливень»), что затрудняет кодирование.

4. Прогнозирование спроса

Разделите данные на тренировочную и тестовую выборки.
Обучите простую модель регрессии (например, Random Forest).
Оцените её качество с помощью MAE и R².

Скрытая проблема №4: Временные метки (date) имеют разный формат, что может привести к некорректной группировке по времени.

5. Рекомендации по улучшению системы

На основе проведённого анализа:

Какие товары наиболее предсказуемы в спросе?
Какие магазины чаще всего сталкиваются с дефицитом?
Какие изменения можно внести в систему управления запасами?

Решение скрытых проблем:

Проблема №1:
Некорректные значения lead_time_days.
Решение:
Фильтруйте и заменяйте отрицательные значения медианой или удаляйте такие строки.

df = df[df['lead_time_days'] > 0]

Проблема №2:
Выбросы в sales_quantity.
Решение:
Используйте IQR для обнаружения и удаления выбросов.

Q1 = df['sales_quantity'].quantile(0.25)
Q3 = df['sales_quantity'].quantile(0.75)
IQR = Q3 - Q1
df = df[~((df['sales_quantity'] < (Q1 - 1.5 * IQR)) | (df['sales_quantity'] > (Q3 + 1.5 * IQR))]

Проблема №3:
Несогласованность в категориях погоды.
Решение:
Объедините близкие категории.

weather_mapping = {
    'дождь': 'дождь',
    'небольшой дождь': 'дождь',
    'ливень': 'дождь',
    'солнечно': 'солнечно',
    'пасмурно': 'пасмурно'
}
df['weather'] = df['weather'].map(weather_mapping)

Проблема №4:
Несогласованный формат дат.
Решение:
Приведите все значения к единому формату даты.

df['date'] = pd.to_datetime(df['date'], errors='coerce')

Итог:

Этот кейс позволяет студентам профессионального уровня получить опыт работы с реальными данными из бизнеса, научиться выявлять сложные аномалии, строить прогнозные модели и предлагать практические решения. Он подходит как для самостоятельной работы, так и для групповой проектной деятельности.

Кейс №2: "Обнаружение мошеннических транзакций с помощью машинного обучения"

Описание ситуации:

Вы — специалист по данным в компании «FinSecure» , которая занимается онлайн-платежами и цифровыми кошельками. В последнее время резко возросло число жалоб пользователей на несанкционированные операции, что привело к увеличению числа споров, блокировок аккаунтов и убытков.

Вам поручено разработать систему обнаружения подозрительных транзакций с использованием методов машинного обучения. Ожидается, что система будет выявлять потенциально мошеннические операции с высокой точностью и минимальным количеством ложных срабатываний.

Вам предоставлен датасет fraud_transactions.csv, содержащий следующие столбцы:

Столбец	Описание
transaction_id	Уникальный ID транзакции
user_id	ID пользователя
amount	Сумма транзакции
time	Время проведения (в формате Unix)
location	Географическое местоположение (город, страна)
device_used	Тип устройства (мобильное/десктоп/планшет)
is_card_foreign	Использовалась ли карта, выпущенная за пределами страны (1/0)
was_online	Совершена ли транзакция онлайн (1/0)
merchant_category	Категория магазина или сервиса
user_behavior_score	Оценка поведения пользователя (от 0 до 1)
is_fraud	Целевая переменная: 1 — мошенничество, 0 — легитимная транзакция

Цель анализа:

Построить модель классификации, способную определять, является ли транзакция мошеннической.
Выявить ключевые признаки, связанные с мошенничеством.
Предложить рекомендации по интеграции модели в производственную систему для автоматического анализа транзакций.

Предварительная инструкция:

Данные содержат скрытые проблемы, такие как дисбаланс классов, некачественные значения и сложные зависимости между признаками. Ваша задача — провести EDA, подготовить данные, обучить модель и предложить решение, которое можно внедрить в реальную систему.

Задачи:

1. Подготовка данных

Загрузите датасет.
Проверьте типы данных и наличие пропусков.
Обратите внимание на значение user_behavior_score.

Скрытая проблема №1: Пропуски в user_behavior_score заполнены значением 0, хотя это может быть неверно интерпретировано моделью.

2. Исследовательский анализ данных (EDA)

Изучите распределение целевой переменной is_fraud.
Проанализируйте корреляции между суммой, временем, геолокацией и риском мошенничества.
Постройте графики распределения для категориальных переменных.

Скрытая проблема №2: Дисбаланс классов: менее 0.5% транзакций помечены как мошеннические.

3. Инженерия признаков

Преобразуйте столбец time в признаки: час дня, день недели, количество дней с последней транзакции.
Закодируйте категориальные переменные (location, device_used, merchant_category).
Создайте новые фичи, например, частота транзакций пользователя за последние 24 часа.

Скрытая проблема №3: Некоторые категории в merchant_category имеют очень мало примеров, что затрудняет их использование в модели.

4. Обучение модели

Разделите данные на train/test выборки.
Обучите модель (например, CatBoost, XGBoost или Random Forest).
Используйте метрики Precision, Recall, F1-score и ROC-AUC для оценки качества.

Скрытая проблема №4: Модель показывает высокую accuracy, но низкий recall — она почти не обнаруживает мошенничество.

5. Рекомендации

На основе проведённого анализа:

Какие факторы наиболее сильно влияют на вероятность мошенничества?
Какие действия можно предпринять для снижения уровня мошеннических транзакций?
Какую модель и почему вы бы внедрили в production?

Решение скрытых проблем:

Проблема №1:
Некорректно закодированные пропуски в user_behavior_score.
Решение:
Добавьте отдельный бинарный признак, указывающий на пропуск, и замените пропуски средним или медианой.

df['user_behavior_score_missing'] = df['user_behavior_score'].isnull().astype(int)
df['user_behavior_score'].fillna(df['user_behavior_score'].median(), inplace=True)

Проблема №2:
Сильный дисбаланс классов.
Решение:
Используйте техники oversampling (SMOTE), undersampling или взвешивание классов в модели.

from imblearn.over_sampling import SMOTE

X_res, y_res = SMOTE().fit_resample(X_train, y_train)

Проблема №3:
Редкие категории в merchant_category.
Решение:
Сгруппируйте редкие категории в общую группу 'Other'.

value_counts = df['merchant_category'].value_counts()
to_keep = value_counts[value_counts > 10].index
df['merchant_category'] = df['merchant_category'].where(df['merchant_category'].isin(to_keep), 'Other')

Проблема №4:
Модель игнорирует важные случаи мошенничества из-за высокой accuracy.
Решение:
Фокусируйтесь на метриках, учитывающих дисбаланс: F1-score, ROC-AUC, PR-AUC. Также используйте пороговые значения для классификации.

y_pred = model.predict_proba(X_test)[:, 1] > 0.3

Итог:

Этот кейс предоставляет возможность применить знания по работе с несбалансированными данными, построению моделей классификации, feature engineering и интерпретации результатов. Он особенно полезен для понимания, как строить системы обнаружения аномалий в реальном мире. Подходит для практической работы на профессиональном уровне Data Science.

Ролевые игры

Ролевая игра №1: "DataOps Challenge: Спасение системы прогнозирования"

Цель игры:

Подготовить обучающихся к работе в условиях реального проекта, связанного с разработкой и внедрением ML-моделей в production. Развить понимание жизненного цикла модели, практики MLOps, а также навыков командной работы, управления задачами и принятия решений под давлением.

Формат:

Командная ролевая игра с элементами имитации рабочего процесса Data Science / MLOps-команды.
Продолжительность: 3–4 академических часа.
Участники: 5–7 человек в команде (можно провести как соревновательный формат между группами).

Сеттинг:

Вы — команда специалистов в компании «DataTech Solutions» , которая разрабатывает решения для автоматизации бизнес-процессов. Клиент — крупная розничная сеть, обратившаяся с запросом на внедрение системы прогнозирования спроса на товары.

Однако за час до презентации клиента выясняется, что:

данные содержат скрытые проблемы,
модель показывает плохие метрики,
pipeline сломан,
нет логирования и мониторинга.

Вам нужно за ограниченное время восстановить систему , собрать отчет и защитить решение перед техническим комитетом.

Роли в команде:

Project Manager – координирует команду, распределяет задачи, следит за сроками.
Data Engineer – чистит данные, устраняет баги в ETL-процессах, готовит фичи.
ML Engineer – обучает и оптимизирует модель, подбирает гиперпараметры.
MLOps Engineer – разворачивает модель, проверяет работоспособность API, настраивает логирование и мониторинг.
Data Scientist – анализирует данные, предлагает признаки, интерпретирует результаты модели.
QA / Tester – тестирует модель и инфраструктуру, проверяет корректность данных и предсказаний.

Примечание: При меньшем количестве участников роли можно совмещать.

Этапы игры:

Этап 1: Получение задания и диагностика проблем (20 мин)

Команда получает:

Описание ситуации: «Модель не работает правильно, pipeline падает, клиент ждёт презентацию».
Доступ к кодовой базе, данным и логам.
Задача: найти основные проблемы и расставить приоритеты.

Этап 2: Восстановление pipeline (30 мин)

Команда:

Исправляет ошибки в данных (например, пропуски, некорректные типы, дрейф фич).
Обновляет фичи и пересобирает модель.
Проверяет работу pipeline и стабильность кода.

Этап 3: Переобучение и оптимизация модели (30 мин)

Команда:

Обучает новую версию модели.
Выбирает лучшую по метрикам.
Находит компромисс между точностью и скоростью работы.

Этап 4: Деплой и мониторинг (20 мин)

Команда:

Упаковывает модель в Docker.
Разворачивает её через Flask или FastAPI.
Настраивает простой мониторинг (например, логирование предсказаний и ошибок).

Этап 5: Презентация решения клиенту (10–15 мин)

Команда представляет:

Какие проблемы были найдены и исправлены.
Как была улучшена модель.
Как реализован деплой и мониторинг.
Какие рекомендации даются для дальнейшей эксплуатации

Обучающие эффекты:

Опыт работы в условиях стресса и ограниченного времени.
Навыки диагностики и устранения проблем в pipeline.
Практика обучения, оценки и деплоя моделей.
Понимание роли MLOps в жизненном цикле модели.
Работа в команде с четким разделением ролей и взаимодействием между ними.

Возможные проблемы и вызовы во время игры:

Проблема	Возможное решение
Конфликты в команде	PM должен четко распределить задачи и контролировать общение
Модель не обучается из-за ошибок в данных	DE должен проверить данные на наличие выбросов, дрейфа и пропусков
Pipeline падает при запуске	Все участники должны регулярно проверять изменения и тестировать код
Не хватает знаний по Docker и API	Можно использовать шаблоны и подсказки от преподавателя
Модель имеет высокий bias или variance	DS и ML Engineer должны совместно выбрать правильную модель и подход к регуляризации

Материалы для игры:

CSV-файл с данными (sales_data.csv) — может содержать пропуски, дрейф, выбросы.
Шаблон модели и pipeline (с намеренными багами).
Dockerfile и REST API шаблон (с частичными ошибками).
Таблица ролей и обязанностей.
Бланк оценки от технического комитета (преподавателя).

Итог:

Эта ролевая игра демонстрирует, как выглядит работа профессионального уровня в реальных условиях. Она позволяет участникам прочувствовать полный цикл от анализа данных до деплоя модели и научиться быстро принимать технические решения в команде. Игра отлично подходит для практической подготовки специалистов по Data Science и MLOps.

Ролевая игра №2: "AI Crisis: Деплой под угрозой"

Цель игры:

Научить обучающихся работать с полным циклом внедрения ML-модели в production, диагностировать и решать критические проблемы на этапе деплоя. Развить навыки командной работы, технического мышления и способности принимать решения под давлением времени.

Формат:

Командная ролевая игра с элементами MLOps-симуляции и реального проектного подхода.
Продолжительность: 3–4 академических часа.
Участники: 5–7 человек в команде (можно провести в формате соревнования между группами).

Сеттинг:

Вы — команда специалистов по машинному обучению в компании «DataShield» , которая разрабатывает решение для автоматической модерации пользовательских комментариев в соцсетях.

Ваша модель прошла все этапы разработки, готова к запуску... но за час до релиза вы получаете сообщение:

«Модель не отвечает на запросы. API падает. Логи показывают ошибки. Времени мало. Клиент ждёт. Нужно срочно спасать деплой».

Вам предстоит разобраться, что сломалось, исправить pipeline, перезапустить сервис и защитить его перед техническим советом.

Роли в команде:

Project Lead – руководит командой, распределяет задачи, контролирует время.
ML Engineer – проверяет корректность модели, её совместимость с инфраструктурой.
MLOps Engineer – разворачивает модель, настраивает API, логирование и мониторинг.
DevOps Engineer – работает с контейнерами, сервером, Docker, CI/CD.
QA / Testing Specialist – тестирует API, проверяет работу модели и инфраструктуры.
Data Engineer – проверяет входные данные, фичи, ETL-процесс.

Примечание: При меньшем количестве участников роли можно совмещать.

Этапы игры:

Этап 1: Получение задания и диагностика проблем (20 мин)

Команда получает:

Описание ситуации: система не отвечает, API недоступен, модель не принимает данные.
Доступ к репозиторию, Dockerfile, Flask-приложению, данным и модели.
Задача: найти основные баги, понять, почему модель не работает, и восстановить систему.

Этап 2: Анализ кода и данных (30 мин)

Команда:

Проверяет корректность сериализации модели.
Диагностирует работу API и контейнера.
Проверяет соответствие входных данных ожидаемому формату.
Устраняет ошибки в pipeline и зависимости.

Этап 3: Восстановление системы (30 мин)

Команда:

Фиксит ошибки в Dockerfile и сборке образа.
Перезапускает сервис через Flask или FastAPI.
Тестирует API (например, curl или Postman).
Обеспечивает стабильную работу и корректный вывод модели.

Этап 4: Настройка мониторинга и логирования (20 мин)

Команда:

Добавляет базовое логирование (в консоль или файл).
Проверяет, как система реагирует на некорректные входные данные.
Предлагает минимальный механизм мониторинга (например, метрики времени ответа, частоты ошибок).

Этап 5: Презентация решения (10–15 мин)

Команда представляет:

Что было сломано и как это исправили.
Как была восстановлена работа модели.
Какие изменения были внесены в архитектуру и почему.
Как предотвратить подобные инциденты в будущем.

Обучающие эффекты:

Практика деплоя ML-моделей и взаимодействия с API.
Навыки диагностики и устранения технических сбоев в production.
Опыт работы с Docker, Flask, сериализацией моделей.
Понимание жизненного цикла модели в продакшене.
Работа в условиях стресса и ограниченного времени.

Возможные проблемы и вызовы во время игры:

Проблема	Возможное решение
Модель не загружается из-за неверного пути	Использовать абсолютные пути или проверить структуру проекта
API возвращает ошибку 500	Проверить логи, типы данных, зависимости
Модель работает медленно	Снизить размер данных, использовать более быстрые методы
Несовместимые версии библиотек	Использовать requirements.txt и virtualenv / Docker
Неверный формат входных данных	Добавить валидацию и преобразование в API

Материалы для игры:

CSV-файл с данными (comments.csv) и предобученная модель (model.pkl).
Flask-приложение с API (app.py) — содержит ошибки.
Dockerfile и requirements.txt — с намеренными багами.
Пример POST-запроса (curl) для тестирования API.
Бланк оценки от технического совета.

Итог:

Эта ролевая игра даёт участникам возможность прочувствовать, как выглядит настоящий процесс деплоя модели в production, какие могут возникнуть проблемы и как их быстро решить. Она особенно полезна для студентов и специалистов профессионального уровня, которые хотят развивать карьеру в направлении MLOps, Data Engineering или ML Engineering.

Ролевая игра №3: "AI Ethics Audit: Этическая проверка модели"

Цель игры:

Научить обучающихся анализировать ML-модели с точки зрения этики, справедливости и потенциального вреда. Развить навыки критического мышления, понимания биаса в данных и моделях, а также умения формулировать рекомендации по улучшению этической стороны ИИ-систем.

Формат:

Командная ролевая игра с элементами анализа данных, моделирования и презентации решений.
Продолжительность: 2–3 академических часа.
Участники: 5–6 человек в команде (можно провести в формате экспертного совета или защиты перед клиентом).

Сеттинг:

Вы — группа экспертов по этике искусственного интеллекта из компании «EthiTech» , приглашённая для проведения аудита ML-модели, используемой в рекрутерской платформе крупной IT-компании. Модель используется для автоматической фильтрации резюме и предварительного отбора кандидатов.

Однако появились жалобы:

женщины получают меньше приглашений на собеседования,
возрастные кандидаты реже проходят отбор,
некоторые группы пользователей систематически оцениваются ниже.

Ваша задача — провести этический аудит системы машинного обучения , выявить возможные источники дискриминации и предложить изменения, которые помогут сделать модель более справедливой.

Роли в команде:

Lead Ethicist – координирует работу команды, следит за соблюдением этических принципов.
Data Auditor – анализирует данные на наличие биаса, дисбаланса, стереотипов.
ML Engineer – работает с моделью, анализирует её поведение на разных группах.
Fairness Analyst – специализируется на метриках справедливости, тестирует модель на fairness.
Policy Advisor – формулирует юридические и этические рекомендации, взаимодействует с заказчиком.
Communications Officer – готовит финальный отчет и объясняет технические выводы неспециалистам.

Примечание: При меньшем количестве участников роли можно совмещать.

Этапы игры:

Этап 1: Получение задания и знакомство с моделью (10 мин)

Команда получает:

Бриф: «Проверьте модель на этическую корректность, особенно по категориям: пол, возраст, опыт».
Данные: cv_data.csv с полями: name, age, gender, experience, location, score, recommended.
Обученную модель: model.pkl + скрипт оценки кандидатов.
Задача: выявить биас, предложить исправления, подготовить отчет.

Этап 2: Анализ данных (20 мин)

Команда:

Проверяет данные на наличие дисбаланса по демографическим группам.
Выявляет закономерности в показателях recommended.
Строит графики: как часто разные группы проходят отбор.

Скрытая проблема №1: В данных явно преобладают мужчины, что влияет на обучение модели.

Этап 3: Анализ модели (30 мин)

Команда:

Тестирует модель на контрольных примерах.
Оценивает метрики: precision, recall, F1-score по группам.
Использует fairness-метрики: demographic parity, equal opportunity.

Скрытая проблема №2: Модель имеет заметно худшие результаты для женщин и старших кандидатов.

Этап 4: Формулировка выводов и рекомендаций (20 мин)

Команда:

Формулирует основные этические проблемы модели.
Предлагает пути решения: пересборка данных, изменение метрик, добавление ограничений в модель.
Подготавливает презентацию для руководства.

Этап 5: Презентация и защита отчета (10–15 мин)

Команда представляет:

Какие проблемы были найдены.
На основе каких данных сделаны выводы.
Какие изменения необходимо внедрить.
Какие последствия может иметь использование несправедливой модели.

Обучающие эффекты:

Навыки анализа моделей на справедливость и этичность.
Умение распознавать биас в данных и модели.
Понимание концепций: fairness, transparency, accountability.
Работа с fairness-метриками и подходами к их улучшению.
Развитие soft skills: коммуникация, защита позиции, работа в команде.

Возможные проблемы и вызовы во время игры:

Проблема	Возможное решение
Команда не знает, как анализировать справедливость	Можно предоставить шаблоны кода и список fairness-метрик
Сложность в интерпретации модели	Fairness Analyst и Lead Ethicist должны работать вместе
Нехватка времени на тестирование модели	QA/ML Engineer должен заранее выбрать ключевые тестовые примеры
Разногласия в выводах	Все члены команды должны регулярно обсуждать промежуточные результаты
Технические ошибки в коде	Использовать шаблоны и поддержку преподавателя

Материалы для игры:

CSV-файл с данными (cv_data.csv) — содержит демографические признаки и целевую переменную.
Обученная модель (model.pkl) и скрипт для предсказаний.
Шаблон отчета по этической экспертизе.
Список fairness-метрик и методов их анализа.
Примеры запросов от руководства и юристов.

Итог:

Эта ролевая игра даёт возможность взглянуть на Data Science и машинное обучение не только как на техническую дисциплину, но и как на социальный инструмент, который может влиять на судьбы людей. Она особенно актуальна в условиях роста интереса к AI-этике и регуляторным требованиям. Подходит для студентов и специалистов профессионального уровня, заинтересованных в ответственном применении технологий.

Ролевая игра №4: "Model Drift Alert: Сигнал о дрейфе данных"

Цель игры:

Научить обучающихся диагностировать и реагировать на data drift и concept drift в моделях машинного обучения. Развить навыки мониторинга производительности, анализа изменений во входных данных и принятия решений о переобучении модели.

Формат:

Командная ролевая игра с элементами анализа производительности ML-модели в production.
Продолжительность: 2–3 академических часа.
Участники: 5–6 человек в команде (можно провести как соревновательный формат между группами).

Сеттинг:

Вы — команда специалистов по данным в компании «SmartAnalytics» , которая предоставляет решения для автоматического кредитного скоринга в банке. Модель используется уже полгода и показывала хорошие результаты.

Однако внезапно:

метрики качества модели упали,
клиенты начали жаловаться на несправедливые отказы,
система начала выдавать неожиданные прогнозы.

Вам предстоит разобраться:

произошёл ли дрейф данных?
изменились ли закономерности в поведении пользователей?
нужно ли переобучать модель или пересматривать архитектуру?

Роли в команде:

ML Engineer – анализирует изменения в производительности модели и проверяет корректность инференса.
Data Analyst – исследует статистики входных данных, сравнивает текущие данные с тренировочными.
MLOps Specialist – работает с логами, метриками и системой мониторинга модели.
Model Auditor – диагностирует тип дрейфа (data drift, concept drift), строит графики и отчёты.
Business Analyst / Risk Manager – формулирует выводы и рекомендации для заказчика.
DevOps / Pipeline Engineer – проверяет работу pipeline, готовность системы к переобучению.

Примечание: При меньшем количестве участников роли можно совмещать.

Этапы игры:

Этап 1: Получение сигнала тревоги (10 мин)

Команда получает:

Бриф: «Модель демонстрирует снижение точности. Возможно, произошёл data drift».
Данные: train_data.csv, inference_data.csv за последние 2 недели.
Предобученная модель (model.pkl) и скрипт для инференса.
Задача: выявить наличие дрейфа, определить его тип и предложить действия.

Этап 2: Анализ метрик и производительности (20 мин)

Команда:

Оценивает качество модели на новых данных.
Сравнивает метрики (accuracy, F1-score, ROC-AUC) с прошлыми значениями.
Проверяет, какие признаки стали влиять сильнее/слабее.

Скрытая проблема №1: Accuracy высокая, но AUC упал. Это указывает на дисбаланс целевой переменной.

Этап 3: Диагностика дрейфа (30 мин)

Команда:

Строит распределения ключевых признаков для train и inference.
Использует методы обнаружения дрейфа: PSI, KL divergence, Wasserstein distance.
Выявляет признаки, где наблюдается наибольшее изменение.

Скрытая проблема №2: Уровень дохода и возраст клиентов сместился — рынок стал моложе и менее платежеспособен.

Этап 4: Тип дрейфа и возможные причины (20 мин)

Команда:

Формулирует гипотезы: это covariate shift, concept drift или label drift?
Проверяет зависимости между признаками и целевой переменной.
Анализирует влияние внешних факторов (например, сезонные изменения, экономические события).

Этап 5: Презентация находок и план действий (10–15 мин)

Команда представляет:

Какие признаки изменились.
Какой тип дрейфа был обнаружен.
Что можно сделать: дообучение, замена признаков, пересмотр метрик.
Как предотвратить подобное в будущем (система мониторинга, автоматическое обновление модели).

Обучающие эффекты:

Навыки диагностики дрейфа данных и концепции в реальных условиях.
Опыт работы с метриками и инструментами обнаружения дрейфа.
Умение интерпретировать изменения в модели и предлагать решения.
Работа с метриками и визуализациями для выявления аномалий.
Развитие soft skills: работа в команде, презентация технических выводов, защита точки зрения.

Возможные проблемы и вызовы во время игры:

Проблема	Возможное решение
Команда не понимает, какой тип дрейфа имеет место	Можно использовать шаблоны и примеры с описанием каждого типа
Модель всё ещё даёт высокую accuracy, но падает AUC	Обсудите баланс классов и используйте другие метрики
Неясно, какие фичи изменились больше всего	Визуализируйте распределения и используйте PSI/KL-divergence
Нехватка знаний по мониторингу моделей	Предоставьте список контрольных вопросов и примеров

Материалы для игры:

train_data.csv — данные, на которых обучалась модель.
inference_data.csv — данные из production за последние недели.
model.pkl — сериализованная модель.
Шаблон кода для обнаружения дрейфа.
Бланк отчета по дрейфу и рекомендаций.

Итог:

Эта ролевая игра помогает участникам научиться распознавать изменения в данных, которые могут серьёзно повлиять на эффективность модели в production. Она особенно актуальна для специалистов уровня профессионального курса Data Scientist, которым важно понимать, как сохранить качество модели во времени и как адаптироваться к изменяющейся среде.

Ментальная карта, диаграмма связей

Интеллект-карта №1: "Профессиональный Data Scientist: от теории к production"

Центральная идея:

Data Science — это не только анализ данных, но и полный жизненный цикл модели от разработки до деплоя

1. Подготовка данных

Feature engineering
Обработка пропусков и выбросов
Масштабирование и кодирование
Построение фичей на основе бизнес-логики

2. Машинное обучение

Ансамбли: Random Forest, XGBoost, CatBoost
Градиентный бустинг и его параметры
Оценка качества: cross-validation, F1-score, ROC-AUC
Hyperparameter tuning: GridSearchCV, Optuna

3. Интерпретация моделей

SHAP, LIME
Feature importance
Анализ ошибок
Визуализация предсказаний

4. Работа с большими данными

Dask, Spark, Pandas Pro
Работа с Parquet/Feather
Обработка стриминговых данных
Интеграция с хранилищами данных

5. MLOps и деплой

Сериализация моделей (Pickle, ONNX)
REST API (Flask, FastAPI)
Docker, Kubernetes
CI/CD для ML

6. Мониторинг и поддержка

Логирование и метрики
Обнаружение дрейфа (data drift, concept drift)
Автоматическое переобучение
Отслеживание производительности

Интеллект-карта №2: "Полный цикл работы над ML-проектом"

Центральная идея:

От сбора данных до мониторинга в production: как построить устойчивый ML-проект

1. Определение задачи

Формулировка гипотез
Выбор типа задачи (классификация, регрессия, кластеризация)
Уточнение метрик и KPI

2. Сбор и подготовка данных

Источники данных: SQL, CSV, API, NoSQL
ETL-процессы
Трансформация и очистка
Feature store

3. Исследование данных (EDA)

Корреляции и зависимости
Распределения признаков
Аномалии и шумы
Диаграммы, графики, матрицы

4. Создание модели

Выбор алгоритмов
Обучение и оценка
Подбор гиперпараметров
Сравнение моделей

5. Деплой модели

Сервисы: Flask, FastAPI
Контейнеризация: Docker
Развертывание: AWS SageMaker, GCP AI Platform, Azure ML
API-интерфейсы и интеграция

6. Мониторинг и обслуживание

Логирование и трассировка
Обнаружение дрейфа
Автоматическое тестирование
План переобучения

Интеллект-карта №3: "Навыки профессионального уровня в Data Science"

Центральная идея:

Для профессиональной работы в Data Science нужны не только технические навыки, но и понимание процессов, систем и этики

1. Продвинутые технические навыки

Глубокое знание Scikit-learn, XGBoost, LightGBM
Написание собственных метрик и функций
Работа с GPU и распределёнными системами
Написание unit-тестов для ML

2. Архитектура ML-систем

MLOps: жизненный цикл модели
CI/CD для машинного обучения
Feature store и модельный долг
Версионность данных и моделей

3. Деплой и эксплуатация

REST API, микросервисы
Docker, Kubernetes
Логирование и мониторинг
Работа с зависимостями

4. Этическая сторона ML

Биас и fairness
Прозрачность и интерпретируемость
Защита конфиденциальности (GDPR, PII)
Ответственное использование ИИ

5. Проектная работа

Запуск MVP
Работа с реальными заказчиками
Презентация результатов
Создание портфолио проектов

6. Саморазвитие и карьера

Участие в хакатонах
Kaggle и open-source
Изучение новых исследований
Написание статей и блогов

Справочные издания и словари

1. Учебник: «Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow» — Aurélien Géron

Год издания: 2019 (2-е издание)
Издательство: O'Reilly Media
Краткое описание:
Практическое руководство по созданию интеллектуальных систем с использованием современных библиотек Python. Включает примеры реализации моделей, работу с данными, деплой и использование нейросетей.
Почему полезен: Отличный старт для углубления в ML и начало работы с глубоким обучением.

2. Учебное пособие: «Python для сложных задач: Научные вычисления и машинное обучение» — Сергей Никонов

Год издания: 2022
Издательство: ДМК Пресс
Краткое описание:
Подробно рассматривает продвинутые аспекты программирования на Python в контексте Data Science и машинного обучения. Содержит упражнения и кейсы для самостоятельной работы.
Почему полезен: Подходит как дидактическое пособие с практикой для профессионального уровня.

3. Задачник: «Продвинутый анализ данных с помощью Python. Практикум и задачи» — коллектив авторов (Stepik/OTUS)

Формат: PDF / онлайн-курс
Краткое описание:
Сборник задач и проектов по работе с данными, включая feature engineering, кросс-валидацию, ансамблевые методы, оптимизацию моделей и работу с большими данными.
Почему полезен: Идеален для закрепления знаний через практику и подготовки к реальным задачам.

4. Хрестоматия: «MLOps: Практические подходы к разработке и эксплуатации ML-систем» — Крис Фергюсон, Алексей Голобурдин и др.

Год издания: 2022
Формат: электронная книга / печатное издание
Краткое описание:
Сборник статей, охватывающий ключевые аспекты внедрения моделей машинного обучения в production: CI/CD, мониторинг, управление версиями, автоматизация и многое другое.
Почему полезна: Необходима для понимания инженерной стороны Data Science.

5. Методические рекомендации: «Профессиональная подготовка Data Scientist: учебно-методический комплекс» — под ред. А. С. Боброва

Год издания: 2023
Формат: электронный / печатный
Краткое описание:
Руководство для преподавателей и методистов, включающее:
структуру курса,
этапы обучения,
оценочные материалы,
проектные задания,
рекомендации по формированию портфолио.
Почему полезны: Для педагогов и организаторов курсов, желающих внедрить качественную программу обучения Data Science на профессиональном уровне.

Каталог-идей, образцы названий уч. программ, курсов

«Data Scientist Pro: От теории к production»
Научитесь строить модели, которые работают не только в ноутбуке, но и в реальной системе.
«Продвинутый Data Science: Машинное обучение в боевых условиях»
Курс для тех, кто хочет научиться создавать масштабируемые ML-решения и управлять их жизненным циклом.
«Машинное обучение в продакшене: Практический курс»
Реальные кейсы, деплой моделей, мониторинг и MLOps — всё, что нужно знать о применении ML в бизнесе.
«MLOps: Интеграция данных, кода и инфраструктуры»
Освойте полный пайплайн от разработки до эксплуатации моделей машинного обучения в облаке.
«Data Science в реальном времени: Работа с потоковыми данными»
Научитесь обрабатывать данные в режиме реального времени и внедрять модели в динамические системы.
«Глубокое погружение в Data Science: Продвинутые методы анализа»
Углубите знания в области статистики, оптимизации моделей и feature engineering.
«Профессиональный Data Scientist: Курс для практиков»
Интенсив построения решений в реальных условиях с акцентом на производственные задачи.
«ML Engineering: Строим решения, готовые к запуску»
От идеи до API: как сделать модель рабочей частью продукта.
«Advanced Machine Learning: От обучения к внедрению»
Курсы по ансамблевым методам, гиперпараметрической оптимизации и автоматизации процессов.
«Data Science в бизнесе: Профессиональный уровень»
Как превратить алгоритмы в бизнес-решения: прогнозирование, рекомендательные системы, A/B-тестирование.
«Машинное обучение в облаке: AWS / GCP / Azure»
Обучение работе с облачными платформами и запуску моделей в средах AWS SageMaker, Google Vertex AI, Azure ML.
«DataOps и MLOps: Современные практики управления проектами»
Как организовать процессы разработки, тестирования и поддержки моделей в команде.
«Feature Engineering Pro: Искусство создания признаков»
Методы извлечения ценной информации из сырых данных и построения мощных фич.
«Анализ временных рядов: Прогнозирование и детектирование аномалий»
Расширенный курс по работе с временными данными: SARIMA, Prophet, LSTM, детектирование дрейфа.
«Интерпретация моделей: SHAP, LIME и этика ИИ»
Как понять, почему модель принимает решение, и как объяснить это бизнесу.
«Рекомендательные системы: Разработка и внедрение»
Создание и запуск персонализированных рекомендаций на основе поведенческих данных.
«Data Science для продакшена: От Jupyter к REST API»
Как подготовить модель к интеграции в сервисы и обеспечить её надёжную работу.
«Продвинутая работа с данными: Обработка, анализ и оптимизация»
Углублённая очистка, преобразование и трансформация данных для сложных задач.
«Контроль качества и мониторинг моделей в production»
Как следить за состоянием моделей, обнаруживать дрейф и автоматизировать переобучение.
«Деплой моделей: Flask, FastAPI, Docker и Kubernetes»
Практический курс по созданию микросервисов, контейнеризации и запуску моделей в продакшен.
«AI Ethics & Fairness: Этические аспекты искусственного интеллекта»
Как избежать биаса в данных, проверить модель на справедливость и соблюсти регуляторные требования.
«Работа с большими данными: Spark, Dask и распределённые системы»
Операции с big data, параллельная обработка, интеграция с Hadoop/Spark.
«Командная работа в Data Science: Git, CI/CD, управление проектами»
Как организовать эффективную совместную работу над ML-проектами.
«Capstone Project: Создание своего первого ML-продукта»
Финальный проект, где вы создаёте полноценное решение — от ETL до API и мониторинга.
«Data Science 2.0: Профессиональный уровень»
Комплексная программа, которая поможет вам стать конкурентоспособным специалистом в сфере Data Science и MLOps.