Что влияет на популярность фильма.

ML исследование DATA4

Автор: Руслан Назаров
Какой фильм стоит посмотреть, и насколько он станет популярным. Команда Data4 провела исследование на основе анализа данных из открытых источников.

Проанализировав 16192 фильма по 466 параметрам, мы точно можем сказать, что влияет на успех фильма, и на какой лучше купить билеты заранее.

Спойлер по будущим сборам.
Проанализируем данные
Рис.1 Распределение фильмов по сборам.
Распределение фильмов по сборам носит геометрических характер. Ожидаемо, больше всего фильмов имеют минимальные сборы, при длинном хвосте распределения, в котором расположились чемпионы. Посмотрим на логарифмированное распределение сборов.
Рис.2 Логарифмическое распределение сборов
Как видно, в выборке присутствуют фильмы со сборами меньше 100000 $. Построим гистограммы для средней оценки.
Рис.3 Сравнение распределений по оценке для фильмов с разными кассовыми сборами
Видно, что у фильмов со сборами меньше 100 000$ тяжелые хвосты, это фильмы, у которых либо нет оценок, либо их мало и только 10 баллов. Проверим предположение.
Рис.4 Распределение по количеству оценщиков для фильмов с высоким рейтингом и низкими сборами
Больше 175 фильмов с рейтингом 9 и выше, но их оценили меньше 5 пользователей. Как мы и ожидали, фильмы с рекордным рейтингом просто имеют слишком мало оценок для статистической значимости.

Проанализируем фильмы по числу актеров.

Максимальное число актеров - 313
Среднее число актеров - 21.54

Рис.5 Распределение по числу актеров
Рис.6 Зависимость сборов фильма от бюджета
Сборы фильма явно зависят от бюджета. При этом зависимость имеет ярко выраженный линейный тренд. Бюджет влияет на подбор актеров, маркетинг и т.д., что и объясняет высокую корреляцию со сборами. Но зависимость не прямая, что говорит о том, что "деньги решают не все"
Рис.7 Сборы по кварталам, в которых выходил фильм
Самые высокие по сборам 2 и 4 кварталы, что для 4 квартала объясняется рождественскими праздниками.
Рис.8 Сборы по месяцам, в которых выходил фильм
На этом графике показаны сборы по месяцам релиза фильмов. Чемпионские сборы присутствуют в Апреле и Декабре, но Май-Август хорошие месяцы для фильмов с высокими, но не рекордными сборами.
Рис.9 Сборы по неделям, в которых выходил фильм
Рис.10 Сборы по дням недели, в которых выходил фильм
Сборы по релизам в разные дни недели. Кажется, вторник (№2) идеальный день для выпуска фильма.
Рис.11 Сборы в разные дни месяца
Сборы по релизам в разные дни месяца. А вот день месяца сильно не влияет на успех.

Проанализируем наиболее популярные жанры.
Рис.12 Жанры
Как видно из визуализации распространенности, наиболее популярны комедии и драмы.
Рис.13 Сборы по количеству жанров
Сборы по количеству жанров показывают, что их оптимальное количество в картине 3-4.

Драма проиграет в сборах фантастической трагикомедии.
.
Рис.14 Распределение сборов по жанрам
Распределения сборов по жанрам. Наибольшие сборы у action, приключенческих и научно-фантастических фильмов.
Рис.15 Распределение сборов при наличии и отсутствии сайта
Наличие уникального сайта обязательно для фильмов претендующих на хорошие кассовые сборы.
Рис.16 Визуализация описания фильмов
Анализ слов из описания к фильмам показывает, что книги являются основным источником для сценариев.
Рис.17 Визуализация краткого описания фильмов
Анализ ключевых слов описания фильма, демонстрирует, что людям нравятся смотреть фильмы про других людей и их любовные истории.
Рис.18 Количество ключевых слов
Кажется, что количество ключевых слов в описании не сильно влияет на будущие кассовые сборы.
Рис.19 Сборы от количества компаний производителя фильма
Наибольшая вероятность успеха у фильмов, которые делает 2-7 компаний производителей.
Рис.20 Распределения выручки в рамках компаний производителей контента
Из распределений фильмов по выручке для разных компаний производителей, мы видим, что наиболее длинные хвосты у Диснея, при малом количестве средних фильмов. Т.е. если компания и выпускает фильм, то он успешен в прокате. А United Artists Entertainment LLC (UA) — американская кинокомпания, существовавшая в 1919—1981 ггснимала как успешные фильмы, так и провальные, что не позволило ей сохраниться до сегодняшнего времени.
Рис.21 Распределения сборов в рамках стран производителей
Сборы в зависимости от страны производства показывают, что самые кассовые фильмы сделаны в США, а самые провальные по сборам в России, но это во многом объясняется рынком.
Рис.22 Распределения сборов в рамках оригинального языка картин
Похожая картина наблюдается и для языков, на которых вышел фильм.
Рис.23 Распределение по трейлерам
Гистограмма распределения фильмов по количеству трейлеров показывает, что большинство фильмов имеют 1-2 трейлера.
Рис.24 Доверительные интервалы по сборам для фильмов с несколькими эпизодами
Есть некоторая положительная зависимость от числа фильмов в коллекции (серии фильмов). И франшизы зарабатывают лучше остальных кинокартин.
Рис.25 Распределение выручки от того, был ли предыдущий эпизод прибылен
Если предыдущий эпизод кинофраншизы был прибылен, шансы на успех возрастают.
Рис.26 Зависимость успеха от параметров предыдущих фильмов в серии
Новые признаки некоторым образом влияют на целевую переменную, но последние четыре ожидаемо коррелируют друг с другом попарно.
Рис.27 Сборы от количества актеров
Сборы в зависимости от числа актеров. Кажется, что количество актеров влияет на сборы, но до момента, пока актеров не стало больше 150.
Рис.28 Сборы от количества продюсеров
Оптимальным является 1-4. Когда "инвесторов" слишком много, вероятность успеха резко снижается.
Рис.29 Сборы от количества исполнительных продюсеров
Рис.30 Сборы от количества режиссеров
А режиссёр, лучше чтобы был один. "Двоевластие" не идет картинам на пользу.
Рис.31 Сборы от количества сценаристов
А оптимальное количество сценаристов 1-3. Видимо, когда сценарий пишет 10 человек теряется авторский стиль.
Подпишись на рассылку новостей о AI
Только полезные материалы о машинном обучении и искусственном интеллекте. Мы уважительно относимся к нашим читателям и рассылаем письма не чаше 1 раза в неделю!
Рис.32 Сборы от количества авторов
Если фильм снят по авторской книге, лучше, чтобы автор был один.

Строить для каждого актера бинарный признак - плохая идея. Выбрать какой-то топ 10 или 50 будет тоже не самым удачным решением. Сделаем для первых 20 актеров следующие признаки -

  1. число фильмов, в которых снялся актер на момент выхода фильма
  2. максимальная оценка предыдущих 5 фильмов
  3. максимальное число отзывов среди предыдущих 5 фильмов
  4. средняя оценка предыдущих фильмов
  5. среднее число отзывов предыдущих фильмов
Выбор именно 20 не случаен, потому что средняя численность каста - 21 человек.
Рис.33 Важность признаков
Построив ML алгоритм по прогнозированию кассовых сборов фильма мы увидели, что наибольшую значимость имеют такие факторы как

1) Cредняя оценка предыдущих фильмов в которых снимались актеры
2) Длительность фильма
3) Количество фанатов ждущих релиз
4) Бюджет
5) Жанр
6) Количество ключевых слов
7) Количество переводов. И это логично, чем больше стран проката, тем выше итоговая выручка. Плюс, откровенно плохие картины редко выпускают в международный прокат.
8) Год релиза
При использовании другого алгоритма картина остается похожей.
Рис.34 Важность признаков
Результаты предсказания по вышедшим фильмам
Для предсказания использовались алгоритмы LGBMRegressor, регрессия с использованием Catboost и XGboost.
Со средней абсолютной ошибкой 42 миллиона $.
Заключение
Проанализировав 16192 фильма по 466 параметрам, мы точно можем сказать, какие параметры коррелируют с успехом фильма, но главное помнить, что корреляция не означает причинно-следственную связь. И если у фильма большой бюджет, то есть возможность сделать хорошую рекламную компанию, запустить картину в прокат по всему миру и нанять лучших актеров. Но не каждый успешный в прокате и отзывах фильм является действительно стоящим Вашего внимания.

.
DATA4 - разрабатываем ML решения индивидуально под клиента
Связаться с нами
Напишите контактные данные, чтобы мы связались с вами.