Каталог задач
87 задач из 1000. Страница 2 из 2. Авторские задачи для подготовки к собеседованиям аналитиков с разборами решений.
Темы
Уровень
Сложность
По мотивам интервью в
051
alexeygrigorev/data-science-interviews: k-NN без библиотек
PythonML с нуляСредняяMiddle
052
alexeygrigorev/data-science-interviews: Two Sum за O(n)
PythonАлгоритмыЛёгкаяJunior
053
Сценарий: groupby с несколькими агрегациями и переименованием колонок
PythonPandas базовый workflowЛёгкаяJunior
054
Сценарий: чем pivot отличается от pivot_table и когда использовать каждую
PythonPandas базовый workflowЛёгкаяJunior
055
Сценарий: melt — перевод широкой таблицы в длинную
PythonPandas базовый workflowЛёгкаяJunior
056
Сценарий: типы merge в pandas и как они влияют на размер результата
PythonPandas базовый workflowСредняяJunior
057
Сценарий: resample временного ряда в pandas
PythonPandas базовый workflowСредняяMiddle
058
Сценарий: apply против векторизации — реальный бенчмарк
PythonВекторизация и performanceСредняяMiddle
059
Сценарий: pandas query и eval — когда дают выигрыш
PythonВекторизация и performanceСредняяMiddle
060
Сценарий: чанковая обработка CSV, который не помещается в память
PythonВекторизация и performanceСредняяMiddle
061
Сценарий: когда брать Dask, когда Polars, когда хватит pandas
PythonВекторизация и performanceСредняяMiddle
062
Сценарий: профайлинг медленного pandas-пайплайна
PythonВекторизация и performanceСредняяMiddle
063
Сценарий: дедупликация строк с правилом приоритета
PythonОчистка данныхЛёгкаяJunior
064
Сценарий: fuzzy-match для объединения справочников компаний
PythonОчистка данныхСредняяMiddle
065
Сценарий: стратегии обработки NaN — когда что
PythonОчистка данныхСредняяMiddle
066
Сценарий: типы данных в pandas — где промахи стоят дорого
PythonОчистка данныхСредняяMiddle
067
Сценарий: разношёрстные форматы дат в одной колонке
PythonОчистка данныхСредняяMiddle
068
Сценарий: сессионизация пользовательских событий с таймаутом 30 минут
PythonАнализ событийСредняяMiddle
069
Сценарий: воронка из event-стрима в pandas
PythonАнализ событийСредняяMiddle
070
Сценарий: time-since-last-event для каждой строки лога
PythonАнализ событийСредняяMiddle
071
Сценарий: gaps-and-islands в pandas — стрики и пропуски
PythonАнализ событийСложнаяMiddle
072
Сценарий: построение когортной retention-таблицы в pandas
PythonАнализ событийСредняяMiddle
073
Сценарий: numpy broadcasting — посчитать матрицу попарных расстояний без цикла
PythonNumpy и scipyСредняяMiddle
074
Сценарий: np.where, маска и np.select — что выбрать
PythonNumpy и scipyЛёгкаяJunior
075
Сценарий: scipy.stats для типичных тестов аналитика
PythonNumpy и scipyСредняяMiddle
076
Сценарий: pandas json_normalize для вложенного JSON
PythonJSON и веб-скрейпингСредняяMiddle
077
Сценарий: разбор глубоко вложенного JSON без потерь
PythonJSON и веб-скрейпингСредняяMiddle
078
Сценарий: скрейпинг таблицы с веб-страницы для еженедельного отчёта
PythonJSON и веб-скрейпингСредняяMiddle
079
Сценарий: чанки и Dask для агрегата по большим parquet
PythonOptimisation и big dataСредняяMiddle
080
Сценарий: переписать pandas-пайплайн на polars lazy
PythonOptimisation и big dataСредняяMiddle
081
Сценарий: уменьшить размер датафрейма в RAM в 5 раз
PythonOptimisation и big dataСредняяMiddle
082
Сценарий: персистить промежуточные данные в parquet — best practices
PythonOptimisation и big dataЛёгкаяMiddle
083
Сценарий: heatmap корреляций в seaborn для отчёта
PythonVisualizationЛёгкаяJunior
084
Сценарий: интерактивный график plotly для дашборда
PythonVisualizationСредняяMiddle
085
Сценарий: matplotlib для презентационного графика
PythonVisualizationЛёгкаяJunior
086
Сценарий: pandas-to-SQL bulk insert 50 миллионов строк
PythonAPI и integrationСредняяMiddle
087
Сценарий: писать DataFrame напрямую в S3 (parquet, партиции)
PythonAPI и integrationСредняяMiddle