Анализ самых популярных сериалов на IMDb. на HSE Design

Введение:

Для создания проекта по анализу данных мой выбор пал на информацию о сериалах и мультсериалах на платформе IMDb. IMDb содержит в себе рейтинги, статусы, отзывы и описания интересующих шедевров кинематографа.

На сайте Kaggle я нашла данные для своего анализа. Из файла imdb_tv_ranking_master.csv я получила подробную информацию о сериалах и мультфильмах, включая название, даты выхода и рейтинги IMDb.

Мной была выбрана именно эта тема, ибо я сама являюсь художником анимации и большим любителем кинематографа и истории кино. В приведённом ниже анализе мне бы хотелось, используя полученные на курсе знания, визуализировать имеющиеся данные, выявить определённые взаимосвязи между элементами и подвести конкретные итоги.

Для начала, затрону оформление и начало работы. Мною были выбраны, в качестве основной палитры, цвета 69e0a5, F198AA, FDF4A3, 008C76FF. Это комфортные для глаза, не слишком яркие и удачно сочетающиеся между собой оттенки.

Сперва мне понадобилось загрузить датасет и библиотеки для создания необходимых графиков в Google Collab.

Для того чтобы можно было создавать палитры для каждого графика я использовала переменные, дополняя код. Визуализации данных графиков, основных и дополнительных, были созданы на основе библиотек seaborn и matplotlib.pyplot.

График № 1 и № 2.

Исходный размер 1389x989

График № 1.

Первый график и дополнительный график к нему представляют собой распределение сериалов по годам выпуска. В виде линейчатой и точечной диаграмм. Для этого нужно создать код, который очертит временной период (Допустим, за N указанных лет). Также, на основе предложенных данных из датасета, он проведёт анализ количества выпущенных сериалов за указанный промежуток времени по годам и визуализирует данное соотношение в виде таблиц.

Ключевые функции: pd.read_csv, загружающая данные о сериалах, drop_duplicates, убиравшая повторные упоминания одних и тех же сериалов и value_counts, считавшая, сколько вышло проектов в каждый год.

Благодаря данным графикам мы можем проследить тенденцию роста: Количество выпускаемых сериалов значительно увеличилось в последние годы (2018–2025 годах). Максимальное количество сериалов выпускалось в 2024 и 2025 годах, что свидетельствует о продолжающемся буме стриминговых платформ.

Исходный размер 630x470

График № 2.

Визуализация предложенных данных помогает нам сделать определённый вывод. В данный момент телевизионная индустрия находится в состоянии активного роста, с рекордным количеством производимого контента.

Исходный размер 859x328

Статистика по всем годам.

График № 3 и № 4.

Исходный размер 1589x989

График № 3.

График под номером 3 и дополнительный график к нему визуализируют собой Самые рейтинговые сериалы указанного периода времени. График представлен в виде горизонтальной столбчатой диаграммы. Ключевые функции, использовавшиеся для создания графиков: sort_values, сортировавшая сериалы по рейтингу/году, sns.barplot, строившая столбчатые диаграммы рейтингов и plt.text, вписывавшая значения на столбцы/рядом с точками.

Благодаря данным графикам мы можем сделать ключевые выводы. Например, большинство топ-сериалов имеют рейтинг выше 8.0, что указывает на высокое качество контента.

В топе также представлены сериалы разных жанров. К примеру, драмы, фэнтези, триллеры. Это показывает зрелость индустрии. Сериалы с рейтингом выше 9.0 (Например, «Breaking Bad», «Game of Thrones») стали культурными феноменами.

Исходный размер 712x470

График № 4.

Таким образом, визуализация этих данных помогает нам заключить, что качественный контент находит признание независимо от года выпуска и многие старые проекты становятся легендарными. Однако новые сериалы тоже демонстрируют конкурентоспособность.

График № 5 и № 6.

Исходный размер 1590x989

График № 5.

Графики № 5 и № 6 демонстрируют нам количество сезонов в сериалах. Основной график выполнен в виде точечной диаграммы. Из информации, представленной в виде графиков, мы можем сделать следующие выводы: Существуют как короткие мини-сериалы (1 или 2 сезона), так и длительные проекты (более, чем 10 сезонов).

Ключевые функции, которые использовались для данных графиков: sort_values, сортировавшая сериалы по рейтингу/году, groupby, бравшая каждого сериала самую свежую информацию, а также plt.scatter, изображавшая точки для точечных диаграмм.

Визуализация данных помогла понять, что успешные сериалы имеют чаще всего умеренное количество сезонов (3 или 5), что позволяет сохранять качество и баланс сюжета. Но некоторые сериалы продолжаются уже много лет, демонстрируя устойчивую популярность.

Исходный размер 1189x590

График № 6.

Количество сезонов, как показывают данные на диаграммах, не всегда коррелирует с рейтингом. Успех имеют как короткие, так и длинные проекты.

Таким образом, мы видим, что успех сериала определяется не количеством сезонов, а качеством контента и умением поддерживать интерес аудитории.

Исходный размер 861x270

Распределение, созданное с помощью кода.

График № 7.

Исходный размер 1979x992

График № 7.

Заключительный график под номером 7 представляет собой круговую диаграмму. Она визуализирует данные о распределении сезонов в самых рейтинговых сериалах. Большинство топ-сериалов имеют 2 или 4 сезона. Это оптимальный баланс для развития сюжета.

Ключевые функции, использовавшиеся для данных графиков и диаграмм: latest_data.sort_values, использовавшаяся для сортировки сериалов по рейтингу и году, drop_duplicates, убиравшая повторные записи одного сериала, plt.pie, создававшая круговую диаграмму распределения сезонов и plt.subplots, которая создает сразу несколько графиков на одной фигуре.

Долгосрочные проекты реже: Среди топ-рейтинговых относительно мало сериалов с более, чем 5-ю сезонами. Самые высокие рейтинги часто встречаются у сериалов с четкой нарративной аркой, не растянутой на многие сезоны.

Вывод:

Подойдём к заключению. Современные зрители ценят качественное завершенное повествование больше, чем длительные, но менее качественные проекты. Данный вывод мы сделали оперативно именно благодаря визуализации данных, это помогло нам структурировать такой крупный набор информации о сериалах и мультфильмах.

Описание применения генеративной модели.

Стоит отметить, что основу, в виде собственного классического кода, я добавляла в нейросеть DeepSeek.com и писала промпт с просьбой дополнить детали кода, добавить дополнительные графики и исправить ошибки. Таким образом, мне удалось сделать код рабочим и более подробным. Ссылка на Нейросеть: https://www.deepseek.com/en/

Ссылки.

Ссылка на диск с файлами, датасетом и кодом: https://drive.google.com/drive/folders/13lNvV0kZvkeVyWSTB5u7uc1FEQEYHA7T?usp=sharing

Отдельная ссылка на Google Collab с кодом: https://colab.research.google.com/drive/125iksbt6iNIb4AK5ko9KK9YnAVbj9V8W?usp=drive_link

Ссылка на ресурс: https://www.kaggle.com/datasets/ashpalsingh1525/imdb-movies-dataset