Для того чтобы составить точный прогноз по культурным ивентам Москвы, мы решили две задачи. Во-первых, определили критерии, влияющие на стоимость билета, во-вторых, подобрали инструмент для определения MIN/MAX стоимости билетов.
Для первой задачи использовали описательный анализ, включая статистический, анализ категориальных переменных и корреляционный анализ категориальных и числовых признаков.
Для прогнозирования стоимости цены билета применили экспресс-метод 15 основных алгоритмов машинного обучения Scikit learn на исходных необработанных, стандартизованных и нормализованных данных. Настройки каждого алгоритма принимались по умолчанию (default) (за исключением некоторых моментов), чтобы создать равные условия. Код
— по
ссылке.
Линейные алгоритмы:
- Линейная регрессия / Linear Regression (LR)
- Гребневая регрессия (ридж-регрессия) / Ridge Regression (R)
- Лассо-регрессия (от англ. LASSO — Least Absolute Shrinkage and Selection Operator) / Lasso Regression (L)
- Метод регрессии «Эластичная сеть» / Elastic Net Regression (ELN)
- Метод наименьших углов / Least Angle Regression (LARS) (LARS)
- Байесовская гребневая регрессия / Bayesian ridge regression (BR)
Нелинейные алгоритмы:
- Метод k-ближайших соседей (регрессия) / k-nearest neighbors regressor (KNR)
- Деревья регрессии / Decision Tree Regressor (DTR)
- Линейный метод опорных векторов (регрессия) / Linear Support Vector Machine — Regression / (LSVR)
- Метод опорных векторов (регрессия) / Epsilon-Support Vector Regression (SVR)
Ансамблевые алгоритмы:
- AdaBoost (регрессия) / AdaBoost Regressor (ABR) (AdaBoost = Adaptive Boosting)
- Bagging (регрессия) / Bagging Regressor (BR) (Bagging = Bootstrap aggregating)
- Экстра-деревья (регрессия) / Extra Trees Regressor (ETR)
- Градиентный boosting (регрессия) / Gradient Boosting Regressor (GBR)
- Случайный лес (регрессия) / Random Forest Regressor (RFR)
Оценка эффективности каждого алгоритма производилась по R
2. Рассчитывалось R
2 как среднее значение на тренировочных данных с 10-кратной кросс-валидацией. Для удобства строилась диаграмма размаха.
Предварительная подготовка исходного набора данных может изменить оценку — всему виной требовательные к данным алгоритмы. Выполнив стандартизацию и нормализацию исходных данных, а затем произведя расчёты, сравнили результаты. В итоге было выбрано два алгоритма.