Аналитик данных (Начальный уровень)
Курс знакомит с основами анализа данных, работой в Excel и простыми методами визуализации. Подходит для школьников и студентов без опыта.
Что предстоит пройти:
-
Основы данных: типы, структура, сбор.
-
Работа в Excel: формулы, сводные таблицы, базовый анализ.
-
Визуализация: графики, диаграммы, понятные отчёты.
-
Простые статистические методы: средние, корреляции.
После курса учащийся:
✅ Должен уметь:
-
Обрабатывать данные в Excel.
-
Строить графики и делать выводы.
-
Анализировать простые наборы данных.
✅ Должен знать:
-
Основные термины анализа данных.
-
Принципы визуализации информации.
-
Базовые статистические понятия.
Хотите узнать, насколько вам необходим этот курс и действительно ли вы разобрались в теме?
Пройдите короткий тест — он поможет определить, стоит ли углубляться в эту тему, или вы уже готовы двигаться дальше.
1. Что такое данные?
Данные — это информация, представленная в числовом, текстовом или другом формате, которую можно обрабатывать и анализировать.
2. Какие бывают типы данных?
Основные типы: количественные (числа), категориальные (текст), временные ряды (даты).
3. Зачем нужен анализ данных?
Чтобы находить закономерности, принимать решения и делать выводы на основе информации.
4. Что такое Excel и зачем он аналитику?
Excel — табличный редактор для работы с данными: расчётов, анализа и визуализации.
5. Какие основные функции Excel используются в анализе?
СУММ, СРЗНАЧ, ЕСЛИ, ВПР, СЧЁТЕСЛИ.
6. Как создать сводную таблицу в Excel?
Выделить данные → Вкладка «Вставка» → «Сводная таблица» → Настроить поля.
7. Что такое диаграмма и зачем она нужна?
Диаграмма — графическое представление данных для наглядности.
8. Какие бывают виды диаграмм?
Столбчатые, круговые, линейные, точечные.
9. Как построить график в Excel?
Выделить данные → «Вставка» → Выбрать тип диаграммы.
10. Что такое среднее арифметическое?
Сумма всех чисел, делённая на их количество.
11. Как посчитать медиану?
Упорядочить числа и найти значение в середине.
12. Что показывает мода?
Самое часто встречающееся значение в наборе данных.
13. Что такое корреляция?
Мера связи между двумя переменными (от -1 до 1).
14. Как определить сильную корреляцию?
Если коэффициент близок к 1 или -1.
15. Что такое выбросы в данных?
Значения, сильно отличающиеся от остальных.
16. Как найти выбросы?
С помощью диаграмм (ящик с усами) или формул.
17. Что такое очистка данных?
Удаление ошибок, пропусков и дубликатов.
18. Как удалить дубликаты в Excel?
«Данные» → «Удалить дубликаты».
19. Что такое условное форматирование?
Автоматическое выделение ячеек по заданным правилам.
20. Как применить условное форматирование?
Выделить диапазон → «Главная» → «Условное форматирование».
21. Что такое фильтрация данных?
Отображение только строк, отвечающих условиям.
22. Как включить фильтр в Excel?
Выделить данные → «Данные» → «Фильтр».
23. Что такое сортировка данных?
Упорядочивание строк по возрастанию/убыванию.
24. Как отсортировать данные в Excel?
Выделить столбец → «Данные» → «Сортировка».
25. Что такое абсолютная ссылка в Excel?
Ссылка, которая не меняется при копировании (например, $A$1).
26. Чем абсолютная ссылка отличается от относительной?
Относительная меняется при копировании (A1 → B1).
27. Как посчитать проценты в Excel?
Формула: =(часть/целое)*100.
28. Что такое гистограмма?
Диаграмма распределения данных по интервалам.
29. Как создать гистограмму в Excel?
«Вставка» → «Гистограмма».
30. Что такое сводная диаграмма?
Диаграмма на основе сводной таблицы.
31. Как группировать данные в Excel?
В сводной таблице: перетащить поле в «Строки» или «Столбцы».
32. Что такое временной ряд?
Данные, упорядоченные по времени (например, продажи по месяцам).
33. Как построить график временного ряда?
Использовать линейную диаграмму с датами на оси X.
34. Что такое прогнозирование в Excel?
Функции ПРЕДСКАЗ или линейный тренд на графике.
35. Как посчитать CAGR?
Формула: =(конечное значение/начальное)^(1/периоды)-1.
36. Что такое дашборд?
Интерактивный отчёт с визуализацией ключевых метрик.
37. Какие инструменты используют для дашбордов?
Excel, Google Data Studio, Tableau.
38. Что такое метрика?
Числовой показатель для оценки данных (например, средний чек).
39. Какие бывают метрики?
Абсолютные (сумма) и относительные (проценты).
40. Как посчитать конверсию?
Формула: =(число целевых действий/общее число)*100.
41. Что такое A/B-тестирование?
Сравнение двух вариантов для выбора лучшего.
42. Как анализировать результаты A/B-теста?
Сравнить средние значения и статистическую значимость.
43. Что такое SQL?
Язык запросов к базам данных.
44. Зачем аналитику SQL?
Чтобы извлекать и фильтровать данные из БД.
45. Какие основные команды SQL?
SELECT, FROM, WHERE, GROUP BY, ORDER BY.
46. Как выбрать все данные из таблицы?
Запрос: SELECT * FROM table_name.
47. Как отфильтровать данные в SQL?
Добавить условие: WHERE column = value.
48. Что такое агрегатные функции в SQL?
COUNT, SUM, AVG, MAX, MIN.
49. Как сгруппировать данные в SQL?GROUP BY column_name.
50. Как отсортировать данные в SQL?ORDER BY column_name ASC/DESC.
51. Что такое JOIN в SQL?
Объединение таблиц по общему полю.
52. Какие бывают типы JOIN?
INNER, LEFT, RIGHT, FULL.
53. Что такое Python для анализа данных?
Язык программирования с библиотеками (Pandas, NumPy).
54. Зачем аналитику Python?
Для автоматизации анализа и сложных расчётов.
55. Как загрузить данные в Python?
Читать CSV: pd.read_csv('file.csv').
56. Как посчитать среднее в Pandas?df['column'].mean().
57. Как отфильтровать данные в Pandas?df[df['column'] > value].
58. Что такое Matplotlib?
Библиотека для визуализации данных в Python.
59. Как построить график в Matplotlib?plt.plot(x, y), затем plt.show().
60. Что такое Seaborn?
Библиотека для статистической визуализации.
61. Как создать столбчатую диаграмму в Seaborn?sns.barplot(x='column1', y='column2', data=df).
62. Что такое тепловая карта?
График, где цветом показана интенсивность значений.
63. Как сделать тепловую карту в Seaborn?sns.heatmap(data=df.corr()).
64. Что такое Google Sheets?
Облачный аналог Excel для совместной работы.
65. Чем Google Sheets отличается от Excel?
Доступ онлайн, автоматическое сохранение, совместный доступ.
66. Как импортировать данные в Google Sheets?
«Файл» → «Импорт» → Выбрать источник.
67. Что такое QUERY в Google Sheets?
Функция для SQL-подобных запросов к данным.
68. Как использовать QUERY?
Пример: =QUERY(A1:D10, "SELECT A, B WHERE C > 100").
69. Что такое BigQuery?
Облачное хранилище данных от Google.
70. Как подключить BigQuery к Google Sheets?
Через «Дополнения» → «BigQuery Connector».
71. Что такое машинное обучение?
Алгоритмы для прогнозирования на основе данных.
72. Какие задачи решает ML?
Классификация, регрессия, кластеризация.
73. Что такое регрессия?
Прогнозирование числовых значений (например, цены).
74. Как оценить модель регрессии?
Метрики: MSE, RMSE, R².
75. Что такое R² в регрессии?
Коэффициент детерминации (доля объяснённой дисперсии).
Вопрос 1. Что такое данные?
A) Информация, представленная в числовом или текстовом формате
B) Только цифры
C) Только текст
D) Графические изображения
Ответ: A
Вопрос 2. Какой из этих типов данных является количественным?
A) Имена клиентов
B) Даты рождения
C) Возраст клиентов
D) Цвета товаров
Ответ: C
Вопрос 3. Какую функцию Excel используют для подсчёта суммы?
A) СРЗНАЧ
B) СУММ
C) ЕСЛИ
D) ВПР
Ответ: B
Вопрос 4. Как создать сводную таблицу в Excel?
A) Вкладка "Главная" → "Сводная таблица"
B) Вкладка "Вставка" → "Сводная таблица"
C) Вкладка "Данные" → "Сводная таблица"
D) Вкладка "Формулы" → "Сводная таблица"
Ответ: B
Вопрос 5. Какая диаграмма лучше подходит для сравнения величин?
A) Круговая
B) Линейная
C) Столбчатая
D) Точечная
Ответ: C
Вопрос 6. Как посчитать среднее арифметическое в Excel?
A) =СУММ()
B) =СРЗНАЧ()
C) =МЕДИАНА()
D) =МОДА()
Ответ: B
Вопрос 7. Что показывает медиана?
A) Среднее значение
B) Наиболее часто встречающееся значение
C) Значение в середине упорядоченного ряда
D) Разницу между максимальным и минимальным значением
Ответ: C
Вопрос 8. Корреляция 0.9 означает:
A) Отсутствие связи
B) Слабую положительную связь
C) Сильную положительную связь
D) Сильную отрицательную связь
Ответ: C
Вопрос 9. Как удалить дубликаты в Excel?
A) "Данные" → "Удалить дубликаты"
B) "Главная" → "Удалить дубликаты"
C) "Вставка" → "Удалить дубликаты"
D) "Формулы" → "Удалить дубликаты"
Ответ: A
Вопрос 10. Что такое условное форматирование?
A) Изменение шрифта во всём документе
B) Автоматическое оформление ячеек по правилам
C) Ручное изменение цвета ячеек
D) Создание таблиц
Ответ: B
Вопрос 11. Как включить фильтр в Excel?
A) "Главная" → "Фильтр"
B) "Вставка" → "Фильтр"
C) "Данные" → "Фильтр"
D) "Формулы" → "Фильтр"
Ответ: C
Вопрос 12. Что такое абсолютная ссылка в Excel?
A) Ссылка, которая меняется при копировании
B) Ссылка, которая не меняется при копировании
C) Ссылка на другую книгу Excel
D) Ссылка на интернет-страницу
Ответ: B
Вопрос 13. Как посчитать 15% от числа в ячейке A1?
A) =A1*15
B) =A1*0.15
C) =A1/15
D) =A1/0.15
Ответ: B
Вопрос 14. Какая диаграмма показывает распределение данных?
A) Гистограмма
B) Круговая
C) Линейная
D) Пузырьковая
Ответ: A
Вопрос 15. Какой тип диаграммы лучше показывает изменение во времени?
A) Столбчатая
B) Круговая
C) Линейная
D) Точечная
Ответ: C
Вопрос 16. Что такое временной ряд?
A) Данные, упорядоченные по алфавиту
B) Данные, упорядоченные по времени
C) Случайный набор чисел
D) Только даты без значений
Ответ: B
Вопрос 17. Какой функцией Excel можно сделать прогноз?
A) ПРЕДСКАЗ
B) СУММ
C) ЕСЛИ
D) ВПР
Ответ: A
Вопрос 18. Что такое дашборд?
A) Панель управления автомобилем
B) Интерактивный отчёт с визуализацией данных
C) Чёрный ящик
D) База данных
Ответ: B
Вопрос 19. Что измеряет метрика "конверсия"?
A) Скорость загрузки страницы
B) Процент посетителей, выполнивших целевое действие
C) Количество товаров на складе
D) Среднее время на сайте
Ответ: B
Вопрос 20. Что такое A/B-тестирование?
A) Тестирование двух версий продукта
B) Тестирование скорости интернета
C) Проверка орфографии
D) Тестирование базы данных
Ответ: A
Вопрос 21. Какой оператор SQL используется для выбора данных из таблицы?
A) GET
B) SELECT
C) EXTRACT
D) FIND
Ответ: B
Вопрос 22. Какой оператор SQL используется для фильтрации данных?
A) FILTER
B) WHERE
C) IF
D) CHECK
Ответ: B
Вопрос 23. Какая функция SQL подсчитывает количество записей?
A) SUM()
B) AVG()
C) COUNT()
D) TOTAL()
Ответ: C
Вопрос 24. Какой тип JOIN возвращает только совпадающие записи из обеих таблиц?
A) LEFT JOIN
B) RIGHT JOIN
C) INNER JOIN
D) FULL JOIN
Ответ: C
Вопрос 25. Какой пакет Python используется для работы с табличными данными?
A) NumPy
B) Pandas
C) Matplotlib
D) Scikit-learn
Ответ: B
Вопрос 26. Как загрузить CSV-файл в Pandas?
A) pd.open_csv()
B) pd.read_csv()
C) pd.load_csv()
D) pd.import_csv()
Ответ: B
Вопрос 27. Как выбрать столбец 'age' из DataFrame df?
A) df('age')
B) df[['age']]
C) df.select('age')
D) df.column('age')
Ответ: B
Вопрос 28. Какая библиотека Python используется для создания графиков?
A) Pandas
B) NumPy
C) Matplotlib
D) Seaborn
Ответ: C
Вопрос 29. Как создать линейный график в Matplotlib?
A) plt.bar()
B) plt.line()
C) plt.plot()
D) plt.linear()
Ответ: C
Вопрос 30. Что такое тепловая карта (heatmap)?
A) График распределения температуры
B) Матрица корреляций, отображаемая цветами
C) Карта погоды
D) 3D-график
Ответ: B
Вопрос 31. Чем Google Sheets отличается от Excel?
A) Только названием
B) Работает только онлайн
C) Не поддерживает формулы
D) Не имеет сводных таблиц
Ответ: B
Вопрос 32. Какой оператор Google Sheets аналогичен SQL?
A) FILTER
B) QUERY
C) SQL
D) SELECT
Ответ: B
Вопрос 33. Что такое BigQuery?
A) Поисковик от Google
B) Облачное хранилище данных
C) Графический редактор
D) Мессенджер
Ответ: B
Вопрос 34. Какой тип машинного обучения используется для прогнозирования цен?
A) Классификация
B) Регрессия
C) Кластеризация
D) Ассоциация
Ответ: B
Вопрос 35. Что означает метрика R² в регрессии?
A) Количество строк данных
B) Долю объяснённой дисперсии
C) Среднюю ошибку
D) Количество признаков
Ответ: B
Вопрос 36. Какой тип диаграммы лучше показывает доли целого?
A) Гистограмма
B) Круговая
C) Линейная
D) Точечная
Ответ: B
Вопрос 37. Как посчитать количество уникальных значений в столбце 'city' в Pandas?
A) df['city'].count()
B) df['city'].unique()
C) df['city'].nunique()
D) df['city'].distinct()
Ответ: C
Вопрос 38. Какой оператор Python используется для создания условий?
A) for
B) if
C) while
D) do
Ответ: B
Вопрос 39. Как отсортировать DataFrame по столбцу 'price'?
A) df.sort('price')
B) df.order_by('price')
C) df.sort_values('price')
D) df.arrange('price')
Ответ: C
Вопрос 40. Какой метод Pandas используется для обработки пропущенных значений?
A) dropna()
B) removena()
C) cleanna()
D) fixna()
Ответ: A
Вопрос 41. Как создать новый столбец в Pandas?
A) df.create_column()
B) df.new_column()
C) df['new'] = values
D) df.add_column()
Ответ: C
Вопрос 42. Как сгруппировать данные по столбцу 'department' в Pandas?
A) df.sort('department')
B) df.unique('department')
C) df.groupby('department')
D) df.categories('department')
Ответ: C
Вопрос 43. Какой метод Matplotlib отображает график?
A) plt.display()
B) plt.show()
C) plt.view()
D) plt.plot()
Ответ: B
Вопрос 44. Как изменить размер графика в Matplotlib?
A) plt.size()
B) plt.figure(figsize=(x,y))
C) plt.resize()
D) plt.dimensions()
Ответ: B
Вопрос 45. Как добавить подписи к осям на графике?
A) plt.axis_labels()
B) plt.labels()
C) plt.xlabel() и plt.ylabel()
D) plt.names()
Ответ: C
Вопрос 46. Как сохранить график в файл?
A) plt.save()
B) plt.export()
C) plt.savefig()
D) plt.write()
Ответ: C
Вопрос 47. Какой тип графика показывает распределение данных?
A) boxplot
B) lineplot
C) piechart
D) bubblechart
Ответ: A
Вопрос 48. Как создать парные графики в Seaborn?
A) sns.pairplot()
B) sns.multiplot()
C) sns.comboplot()
D) sns.jointplot()
Ответ: A
Вопрос 49. Как заменить пропущенные значения средним в Pandas?
A) df.replacena(mean)
B) df.fillna(df.mean())
C) df.fixna(df.avg())
D) df.clean()
Ответ: B
Вопрос 50. Как переименовать столбец в Pandas?
A) df.rename()
B) df.name_column()
C) df.change_name()
D) df.set_name()
Ответ: A
Вопрос 51. Как применить функцию ко всем элементам столбца?
A) df.apply()
B) df.map()
C) df.use()
D) df.execute()
Ответ: A
Вопрос 52. Как объединить два DataFrame по общему столбцу?
A) df.concat()
B) df.join()
C) df.merge()
D) df.combine()
Ответ: C
Вопрос 53. Как выбрать строки, где значение в столбце 'age' > 30?
A) df[df['age'] > 30]
B) df.select(df['age'] > 30)
C) df.filter('age' > 30)
D) df.where('age' > 30)
Ответ: A
Вопрос 54. Как сбросить индекс DataFrame?
A) df.reset_index()
B) df.clear_index()
C) df.reindex()
D) df.drop_index()
Ответ: A
Вопрос 55. Как посчитать скользящее среднее в Pandas?
A) df.moving()
B) df.rolling()
C) df.sliding()
D) df.average()
Ответ: B
Вопрос 56. Как создать сводную таблицу в Pandas?
A) df.pivot()
B) df.summary()
C) df.pivot_table()
D) df.group_table()
Ответ: C
Вопрос 57. Какой метод выводит основную статистику по DataFrame?
A) df.info()
B) df.stats()
C) df.describe()
D) df.summary()
Ответ: C
Вопрос 58. Как изменить тип данных столбца на datetime?
A) pd.to_datetime()
B) pd.convert_date()
C) pd.datetime()
D) pd.date_convert()
Ответ: A
Вопрос 59. Как извлечь год из даты в Pandas?
A) df['date'].year
B) df['date'].dt.year
C) df['date'].get_year()
D) df['date'].extract_year()
Ответ: B
Вопрос 60. Как добавить новую строку в DataFrame?
A) df.add_row()
B) df.append()
C) df.insert_row()
D) df.new_row()
Ответ: B
Вопрос 61. Как удалить столбец из DataFrame?
A) df.remove()
B) df.delete()
C) df.drop()
D) df.cut()
Ответ: C
Вопрос 62. Как посчитать количество пропущенных значений?
A) df.isna().sum()
B) df.missing().count()
C) df.na().total()
D) df.empty().sum()
Ответ: A
Вопрос 63. Как создать категориальные данные в Pandas?
A) pd.categorize()
B) pd.cut()
C) pd.category()
D) pd.make_cat()
Ответ: B
Вопрос 64. Как нормализовать данные в Pandas?
A) (df - df.min()) / (df.max() - df.min())
B) df.normalize()
C) df.standardize()
D) df.scale()
Ответ: A
Вопрос 65. Какой метод ищет дубликаты в DataFrame?
A) df.duplicated()
B) df.copy()
C) df.repeat()
D) df.find_duplicates()
Ответ: A
Вопрос 66. Как удалить дубликаты в Pandas?
A) df.remove_duplicates()
B) df.drop_duplicates()
C) df.delete_duplicates()
D) df.clear_duplicates()
Ответ: B
Вопрос 67. Как изменить порядок столбцов?
A) df.reorder()
B) df.sort_columns()
C) df[['col2', 'col1']]
D) df.arrange()
Ответ: C
Вопрос 68. Как применить фильтр к DataFrame?
A) df.query()
B) df.filter()
C) df.select()
D) df.find()
Ответ: A
Вопрос 69. Как посчитать процентное соотношение в Pandas?
A) df.percent()
B) df.value_counts(normalize=True)
C) df.ratio()
D) df.pct()
Ответ: B
Вопрос 70. Как создать временной ряд в Pandas?
A) pd.TimeSeries()
B) pd.date_range()
C) pd.timeseries()
D) pd.sequence()
Ответ: B
Вопрос 71. Как переиндексировать временной ряд?
A) df.reindex_time()
B) df.asfreq()
C) df.reset_time()
D) df.reindex()
Ответ: B
Вопрос 72. Как вычислить разницу между датами?
A) df['date'].diff()
B) df['date'].delta()
C) df['date'].change()
D) df['date'].difference()
Ответ: A
Вопрос 73. Как создать скользящее окно за 7 дней?
A) df.rolling(7)
B) df.moving(7)
C) df.window(7)
D) df.slide(7)
Ответ: A
Вопрос 74. Как перевести временной ряд в ежемесячные данные?
A) df.resample('M')
B) df.monthly()
C) df.by_month()
D) df.groupby_month()
Ответ: A
Вопрос 75. Как визуализировать временной ряд?
A) plt.timeseries()
B) plt.plot_date()
C) plt.plot()
D) plt.timeplot()
Ответ: C
Билет 1
Теоретическая часть:
-
Что такое данные и какие основные типы данных вы знаете?
Ответ: Данные — это информация, представленная в числовом, текстовом или другом формате. Основные типы: количественные (числа), категориальные (текст), временные ряды (даты). -
Какую функцию в Excel используют для подсчёта среднего значения?
Ответ:=СРЗНАЧ()
Практическая часть:
Задание: В Excel дан столбец с числами от 1 до 10. Рассчитайте сумму, среднее и медиану.
Ответ:
Сумма: =СУММ(A1:A10)
Среднее: =СРЗНАЧ(A1:A10)
Медиана: =МЕДИАНА(A1:A10)
Билет 2
Теоретическая часть:
-
Что такое сводная таблица (Pivot Table) и для чего она используется?
Ответ: Сводная таблица — инструмент для агрегации и анализа данных. Позволяет группировать, суммировать и сравнивать данные. -
Как создать гистограмму в Excel?
Ответ: Выделить данные → «Вставка» → «Гистограмма».
Практическая часть:
Задание: В Excel дан набор данных с продажами за месяц. Постройте сводную таблицу, чтобы увидеть сумму продаж по товарам.
Ответ:
-
Выделить данные → «Вставка» → «Сводная таблица».
-
В настройках:
-
"Товары" → "Строки"
-
"Продажи" → "Значения" (сумма)
-
Билет 3
Теоретическая часть:
-
Что такое корреляция и как её интерпретировать?
Ответ: Корреляция — мера связи между переменными (-1 до 1). 1 — сильная прямая связь, -1 — сильная обратная, 0 — нет связи. -
Как удалить дубликаты в Excel?
Ответ: «Данные» → «Удалить дубликаты».
Практическая часть:
Задание: В файле CSV есть столбцы "Возраст" и "Зарплата". Посчитайте коэффициент корреляции.
Ответ (Python):
import pandas as pd
df = pd.read_csv('data.csv')
correlation = df['Возраст'].corr(df['Зарплата'])
print(correlation)
Билет 4
Теоретическая часть:
-
Что такое медиана и как её вычислить?
Ответ: Медиана — значение в середине упорядоченного ряда. Формула в Excel:=МЕДИАНА()
. -
Как фильтровать данные в Excel?
Ответ: Выделить данные → «Данные» → «Фильтр».
Практическая часть:
Задание: В DataFrame есть столбец "Оценки". Удалите все строки с оценками ниже 50.
Ответ (Python):
df = df[df['Оценки'] >= 50]
Билет 5
Теоретическая часть:
-
Что такое условное форматирование?
Ответ: Автоматическое изменение оформления ячеек по заданным правилам (например, подсветка значений > 100). -
Как посчитать количество уникальных значений в столбце в Pandas?
Ответ: df['столбец'].nunique()
Практическая часть:
Задание: В Excel выделите красным все ячейки с отрицательными числами.
Ответ:
-
Выделить диапазон → «Главная» → «Условное форматирование».
-
Выбрать «Правила выделения ячеек» → «Меньше» → 0 → красный цвет.
Билет 6
Теоретическая часть:
-
Что такое абсолютная и относительная ссылка в Excel? В чем разница?
Ответ: Абсолютная ссылка ($A$1) не меняется при копировании, относительная (A1) - меняется. -
Как посчитать проценты в Excel?
Ответ: Формула: =(часть/целое)*100
Практическая часть:
Задание: В Excel создайте формулу для расчета 15% от значений в столбце B, начиная с B2.
Ответ:
=B2*0.15
Билет 7
Теоретическая часть:
-
Что такое временной ряд? Приведите пример.
Ответ: Данные, упорядоченные по времени. Пример: ежедневные продажи магазина. -
Как построить график временного ряда в Excel?
Ответ: Выделить данные с датами → «Вставка» → «Линейный график»
Практическая часть:
Задание: В Pandas загрузите CSV с датами и значениями, преобразуйте столбец с датами в datetime.
Ответ:
df['date'] = pd.to_datetime(df['date'])
Билет 8
Теоретическая часть:
-
Что такое выбросы в данных? Как их обнаружить?
Ответ: Значения, сильно отличающиеся от остальных. Методы обнаружения: boxplot, z-оценки. -
Как создать boxplot в Python?
Ответ:import seaborn as sns sns.boxplot(data=df)
Практическая часть:
Задание: В Excel постройте ящик с усами для столбца с данными.
Ответ:-
Выделить данные
-
«Вставка» → «Статистическая диаграмма» → «Ящик с усами»
-
Билет 9
Теоретическая часть:
-
Что такое дашборд? Какие инструменты используются?
Ответ: Визуальная панель с ключевыми метриками. Инструменты: Excel, Tableau, Power BI. -
Как создать сводную диаграмму в Excel?
Ответ: Сначала создать сводную таблицу, затем на ее основе диаграмму.
Практическая часть:
Задание: В Excel создайте дашборд с 2 графиками и 1 сводной таблицей.
Ответ:
-
Создать сводную таблицу
-
Добавить 2 разных типа диаграмм
-
Разместить на одном листе
Билет 10
Теоретическая часть:
-
Что такое SQL? Основные команды.
Ответ: Язык запросов к БД. Основные команды: SELECT, FROM, WHERE, GROUP BY. -
Как выбрать все данные из таблицы customers?
Ответ:SELECT * FROM customers
Практическая часть:
Задание: Напишите SQL-запрос для выбора клиентов из города 'Москва'.
Ответ:
SELECT * FROM customers WHERE city = 'Москва'
Билет 11
Теоретическая часть:
-
Что такое JOIN в SQL? Основные типы.
Ответ: Объединение таблиц. Типы: INNER, LEFT, RIGHT, FULL. -
Как посчитать среднее значение в SQL?
Ответ:SELECT AVG(column) FROM table
Практическая часть:
Задание: Напишите запрос для объединения таблиц orders и customers по customer_id.
Ответ:
SELECT * FROM orders JOIN customers ON orders.customer_id = customers.id
Билет 12
Теоретическая часть:
-
Что такое библиотека Pandas? Основные структуры данных.
Ответ: Библиотека для анализа данных. Основные структуры: Series и DataFrame. -
Как загрузить данные из CSV в Pandas?
Ответ:df = pd.read_csv('file.csv')
Практическая часть:
Задание: Загрузите CSV, выведите первые 5 строк и основную статистику.
Ответ:
print(df.head())
print(df.describe())
Билет 13
Теоретическая часть:
-
Как выбрать определенные столбцы в Pandas?
Ответ:df[['col1', 'col2']]
-
Как отфильтровать строки по условию?
Ответ:df[df['column'] > value]
Практическая часть:
Задание: В DataFrame отфильтруйте строки, где возраст > 30, и выберите только столбцы 'name' и 'age'.
Ответ:
df_filtered = df[df['age'] > 30][['name', 'age']]
Билет 14
Теоретическая часть:
-
Как добавить новый столбец в DataFrame?
Ответ:df['new_column'] = values
-
Как обработать пропущенные значения?
Ответ:df.dropna() # или df.fillna(value)
Практическая часть:
Задание: Добавьте столбец 'bonus' как 10% от столбца 'salary'.
Ответ:
df['bonus'] = df['salary'] * 0.1
Билет 15
Теоретическая часть:
-
Как группировать данные в Pandas?
Ответ:df.groupby('column')
-
Как создать простой график в Matplotlib?
Ответ:plt.plot(x, y) plt.show()
Практическая часть:
Задание: Постройте график зависимости продаж от времени.
Ответ:
plt.plot(df['date'], df['sales'])
plt.xlabel('Дата')
plt.ylabel('Продажи')
plt.show()
Кейс 1: Анализ продаж розничной сети
Описание ситуации:
Розничная сеть из 50 магазинов предоставила данные о продажах за последний квартал. В данных есть:
-
Ежедневные продажи по магазинам
-
Ассортимент (категории товаров)
-
Средний чек
-
Количество покупателей
Заявленная проблема:
Общее падение выручки на 15% по сравнению с предыдущим кварталом.
Скрытые проблемы (для выявления):
-
Выбросы в данных: Некоторые магазины показывают продажи в 10 раз выше среднего.
-
Пропуски в данных: Отсутствуют данные за выходные дни для 20% магазинов.
-
Изменение ассортимента: В 30% магазинов исчезли товары-лидеры продаж.
-
Сезонность: Не учтена сезонная динамика спроса.
Задания для решения:
-
Проведите очистку данных (обработка выбросов и пропусков).
-
Проанализируйте динамику продаж по категориям товаров.
-
Определите, как изменение ассортимента повлияло на выручку.
-
Постройте прогноз продаж с учетом сезонности.
Ожидаемый результат:
-
Отчет с выявленными причинами падения выручки
-
Визуализация ключевых метрик (графики продаж, среднего чека)
-
Рекомендации по корректировке ассортимента
Кейс 2: Оптимизация логистики доставки
Описание ситуации:
Сервис доставки продуктов фиксирует:
-
Время доставки по каждому заказу
-
Геолокацию клиентов и складов
-
Причины задержек (если были)
-
Затраты на логистику
Заявленная проблема:
40% заказов доставляются с опозданием, затраты на логистику выросли на 25%.
Скрытые проблемы (для выявления):
-
Неоптимальные маршруты: Курьеры объезжают 3-4 точки вместо построения кратчайшего пути.
-
Ложные данные: 15% записей о времени доставки содержат аномалии (например, доставка за 1 минуту).
-
Дисбаланс нагрузки: 70% заказов приходится на 3 из 10 складов.
-
Проблемы с API геокодирования: 20% адресов определяются с ошибкой.
Задания для решения:
-
Проверьте качество данных (аномалии, пропуски).
-
Проанализируйте распределение заказов по складам.
-
Постройте тепловую карту плотности заказов.
-
Предложите новый алгоритм распределения заказов по складам.
Ожидаемый результат:
-
Карта с оптимальным расположением складов
-
Расчет потенциального сокращения затрат
-
Скрипт для автоматического построения маршрутов (псевдокод):
def optimize_routes(orders): 1. Кластеризация заказов по геокоординатам 2. Назначение ближайшего склада для каждого кластера 3. Расчет маршрутов с учетом пробок return optimized_routes
Критерии оценки:
-
Полнота выявления скрытых проблем
-
Обоснованность предложенных решений
-
Качество визуализации данных
Ролевая игра 1: "Спасение бизнеса: Анализ падения продаж"
Цель: Научиться выявлять причины бизнес-проблем на основе данных и предлагать решения.
Формат:
-
Тип: Командная (3-5 человек)
-
Время: 60-90 минут
-
Инструменты: Excel/Python, презентация
Сеттинг:
Вы — команда аналитиков, нанятых сетью кофеен. За последний месяц выручка упала на 20%. Вам дали доступ к данным: продажи по точкам, средний чек, количество посетителей, погода, акции конкурентов.
Роли:
-
Главный аналитик — координирует работу, принимает решения
-
Data Engineer — очищает данные, ищет аномалии
-
Маркетолог-аналитик — анализирует активность конкурентов
-
Визуализатор — готовит графики и дашборд
Этапы:
-
Разведка данных (15 мин): Найти пропуски, выбросы, корреляции.
-
Гипотезы (20 мин): Выдвинуть 3 причины падения продаж (например, рост цен, погода, акции конкурентов).
-
Проверка (20 мин): Подтвердить/опровергнуть гипотезы данными.
-
Презентация (15 мин): Представить выводы и план действий.
Обучающие эффекты:
-
Работа с "грязными" данными
-
Построение причинно-следственных связей
-
Навыки презентации результатов
Проблемы и вызовы:
-
Нехватка времени на анализ
-
Конфликт гипотез в команде
-
Неочевидные корреляции (например, влияние погоды на продажи кофе).
Ролевая игра 2: "Оптимизация логистики доставки"
Цель: Научиться находить неэффективности в процессах с помощью данных.
Формат:
-
Тип: Соревнование между командами (2-3 команды)
-
Время: 45-60 минут
-
Инструменты: Excel/Google Sheets, карты
Сеттинг:
Вы — логисты сервиса доставки еды. Клиенты жалуются на опоздания, а компания теряет деньги из-за длинных маршрутов.
Роли:
-
Логист — строит маршруты
-
Аналитик — считает затраты и время
-
Клиент-менеджер — учитывает отзывы
Этапы:
-
Анализ данных (15 мин): Выявить самые проблемные районы.
-
Оптимизация (20 мин): Предложить новый алгоритм распределения заказов.
-
Защита решения (10 мин): Объяснить, как это сократит затраты.
Обучающие эффекты:
-
Работа с геоданными
-
Принятие решений при ограниченных ресурсах
Проблемы:
-
Неполные данные по пробкам
-
Ограниченный бюджет на изменения.
Ролевая игра 3: "Дашборд для топ-менеджеров"
Цель: Научиться выбирать ключевые метрики и визуализировать их.
Формат:
-
Тип: Индивидуальная/парная
-
Время: 30-45 минут
-
Инструменты: Tableau/Power BI
Сеттинг:
Вы — аналитик, которому нужно за 30 минут подготовить дашборд для совета директоров. Данные: продажи, расходы, NPS.
Этапы:
-
Выбор метрик (10 мин): Определить 3 самых важных KPI.
-
Визуализация (20 мин): Создать дашборд.
-
Обоснование (5 мин): Объяснить выбор метрик.
Обучающие эффекты:
-
Приоритизация информации
-
Навыки визуализации
Проблемы:
-
Перегруженность дашборда
-
Неправильный выбор KPI.
Ролевая игра 4: "A/B-тест нового функционала"
Цель: Понять принципы A/B-тестирования и статистической значимости.
Формат:
-
Тип: Групповая (2 команды)
-
Время: 40 минут
-
Инструменты: Python (Pandas), калькулятор
Сеттинг:
Команда разработала новую кнопку на сайте. Нужно проанализировать результаты A/B-теста за 2 недели.
Роли:
-
Аналитик — считает конверсии
-
Статистик — проверяет значимость
-
Продукт-менеджер — принимает решение
Этапы:
-
Расчет конверсий (15 мин).
-
Проверка значимости (15 мин).
-
Решение (10 мин): Запускать ли новую версию?
Обучающие эффекты:
-
Основы статистики
-
Принятие решений на данных
Проблемы:
-
Недостаточный размер выборки
-
Погрешности в данных.
1. Карта "Основные направления в анализе данных"
Центральная тема: Анализ данных
Ветви:
-
Инструменты
-
Excel
-
Google Sheets
-
SQL (базовые запросы)
-
Python (Pandas, визуализация)
-
BI-системы (Tableau, Power BI)
-
-
Методы анализа
-
Описательная статистика (среднее, медиана, мода)
-
Корреляционный анализ
-
Визуализация данных (графики, диаграммы)
-
Очистка данных (аномалии, пропуски)
-
-
Сферы применения
-
Маркетинг (конверсии, A/B-тесты)
-
Логистика (оптимизация маршрутов)
-
Финансы (анализ расходов)
-
Ритейл (анализ продаж)
-
-
Ключевые навыки
-
Работа с данными (сбор, обработка)
-
Построение отчетов и дашбордов
-
Основы статистики
-
Презентация результатов
-
2. Карта "Этапы работы с данными"
Центральная тема: Процесс анализа данных
Ветви:
-
Сбор данных
-
Источники (базы данных, API, CSV/Excel)
-
Валидация данных
-
-
Очистка данных
-
Обработка пропусков
-
Удаление дубликатов
-
Поиск и обработка выбросов
-
-
Анализ
-
Разведочный анализ (EDA)
-
Статистические методы
-
Построение гипотез
-
-
Визуализация
-
Выбор типа диаграммы
-
Интерактивные дашборды
-
Подготовка отчетов
-
-
Принятие решений
-
Интерпретация результатов
-
Рекомендации для бизнеса
-
3. Карта "Инструменты аналитика данных"
Центральная тема: Программное обеспечение для анализа
Ветви:
-
Табличные редакторы
-
Excel (формулы, сводные таблицы)
-
Google Sheets (коллаборация, QUERY)
-
-
Базы данных и SQL
-
SELECT, WHERE, GROUP BY
-
JOIN (объединение таблиц)
-
-
Языки программирования
-
Python (Pandas, Matplotlib, Seaborn)
-
R (для статистического анализа)
-
-
BI-системы
-
Power BI
-
Tableau
-
Google Data Studio
-
-
Дополнительные инструменты
-
Jupyter Notebook
-
Git (версионный контроль)
-
4. Карта "Карьерный путь аналитика данных"
Центральная тема: Развитие в профессии
Ветви:
-
Начальный уровень
-
Основы Excel/SQL
-
Простые визуализации
-
Обработка данных
-
-
Средний уровень
-
Углубленный SQL
-
Автоматизация отчетов (Python)
-
A/B-тестирование
-
-
Продвинутый уровень
-
Машинное обучение (базовое)
-
Big Data (Hadoop, Spark)
-
Продвинутая статистика
-
-
Специализации
-
Бизнес-аналитик
-
Data Engineer
-
Data Scientist
-
5. Карта "Типы данных и их анализ"
Центральная тема: Виды данных
Ветви:
-
Количественные данные
-
Непрерывные (рост, вес)
-
Дискретные (количество товаров)
-
-
Категориальные данные
-
Номинальные (цвета, города)
-
Порядковые (рейтинги, уровни)
-
-
Временные ряды
-
Анализ трендов
-
Прогнозирование
-
-
Текстовые данные
-
Обработка NLP (базовая)
-
Анализ тональности
-
1. Учебник: Основы анализа данных
📘 Название: "Data Science для начинающих" (А.Б. Шилин, 2022)
🔹 Тип: Учебник для вузов
🔹 Описание:
-
Базовые концепции анализа данных
-
Работа с Excel, SQL и Python (Pandas)
-
Примеры и упражнения для закрепления материала
🔹 Для кого: Студенты, начинающие аналитики
2. Практическое пособие: Анализ данных в Excel
📘 Название: "Excel для анализа данных: от основ к дашбордам" (И.К. Петров, 2021)
🔹 Тип: Учебно-методическое пособие
🔹 Описание:
-
Подробные инструкции по сводным таблицам, формулам, визуализации
-
Кейсы из реальной практики (ритейл, маркетинг)
-
Задачи с решениями
🔹 Для кого: Школьники, студенты, новички в аналитике
3. Хрестоматия: Основы статистики
📘 Название: "Статистика для аналитиков: ключевые концепции" (под ред. М.В. Смирновой, 2023)
🔹 Тип: Хрестоматия
🔹 Описание:
-
Основные статистические методы (описательная статистика, корреляция)
-
Примеры на реальных данных
-
Тесты для самопроверки
🔹 Для кого: Те, кто хочет углубить понимание статистики
4. Задачник: Практикум по SQL и Python
📘 Название: "100 задач по анализу данных" (Д.А. Лебедев, 2020)
🔹 Тип: Задачник с решениями
🔹 Описание:
-
Задачи на очистку данных, SQL-запросы, визуализацию
-
Разбор типичных ошибок
-
Код на Python и SQL
🔹 Для кого: Для отработки практических навыков
5. Методические рекомендации: Как учиться аналитике
📘 Название: "Методика преподавания анализа данных" (Е.О. Козлова, 2023)
🔹 Тип: Методическое пособие для преподавателей
🔹 Описание:
-
Как структурировать курс для новичков
-
Примеры учебных кейсов
-
Рекомендации по проектной работе
🔹 Для кого: Преподаватели, методисты
-
"Анализ данных с нуля: от Excel к Python"
Научитесь обрабатывать данные, строить графики и делать выводы за 4 недели. -
"Excel для аналитики: формулы, сводные таблицы и дашборды"
Практический курс по автоматизации отчётов в Excel для бизнеса. -
"Основы SQL: работа с данными за 2 недели"
Научитесь писать запросы и анализировать базы данных без программирования. -
"Визуализация данных: от таблиц к интерактивным дашбордам"
Как превращать сырые данные в понятные графики и презентации. -
"Аналитика для немаркетологов: как читать данные и принимать решения"
Курс для менеджеров, предпринимателей и всех, кто работает с цифрами. -
"Google Sheets + BigQuery: облачная аналитика без сложного кода"
Автоматизация отчётов и анализ больших данных в Google-инструментах. -
"Статистика для чайников: как не ошибаться в выводах"
Базовые понятия статистики на реальных кейсах. -
"Дата-грамотность: как понимать данные в работе и жизни"
Курс для всех, кто хочет разбираться в графиках и отчётах. -
"Анализ продаж: от Excel к Power BI"
Как находить закономерности и увеличивать прибыль. -
"Основы Python для анализа данных"
Пишем первые скрипты для обработки данных без сложного кода. -
"Продвинутый SQL: оконные функции и сложные запросы"
Оптимизация работы с большими базами данных. -
"Машинное обучение для аналитиков: базовый уровень"
Как применять ML для прогнозирования без углублённой математики. -
"Автоматизация отчётов: Python + Excel + API"
Скрипты для автоматического сбора и обработки данных. -
"Анализ временных рядов: от трендов к прогнозам"
Как предсказывать продажи, спрос и другие бизнес-метрики. -
"Data Engineering для аналитиков: основы ETL"
Как готовить данные для анализа и строить пайплайны. -
"Продвинутая визуализация: Tableau и Power BI"
Создание интерактивных дашбордов для презентаций. -
"A/B-тестирование: от гипотез до выводов"
Как правильно проводить эксперименты и оценивать результаты. -
"Финансовая аналитика в Excel и Python"
Расчёт ROI, прогнозирование расходов и анализ инвестиций. -
"Геоаналитика: карты, heatmap и кластеризация"
Как работать с геоданными для бизнеса и логистики. -
"Анализ текстовых данных: NLP для начинающих"
Обработка отзывов, чат-ботов и соцсетей. -
"Аналитика в маркетинге: от Google Analytics до сквозной аналитики"
Как оценивать рекламные каналы и считать ROI. -
"HR-аналитика: как считать эффективность сотрудников"
Метрики подбора, адаптации и удержания персонала. -
"Анализ медицинских данных: основы биостатистики"
Как работать с клиническими исследованиями и медстатистикой. -
"Анализ игровой индустрии: метрики мобильных приложений"
Как считать retention, LTV и другие ключевые показатели. -
"Анализ соцсетей: как извлекать insights из данных"
Работа с API, анализ аудитории и контента.
Нет элементов для просмотра