Internet Movie Database (IMDb) е най-голямата онлайн база данни, съдържаща информация, свързана с филми, телевизионни сериали, домашни видеоклипове, видеоигри и стрийминг съдържание. Онлайн базата данни съдържа милиони точни записи, които можете да използвате за извършване на анализ на данни.

Cinemagoer (по-рано известен като IMDbPY) е библиотека на Python за управление и извличане на данните от базата данни за филми IMDb. Имате достъп до данни за филми, хора и компании, които могат да бъдат допълнително използвани за анализ.

Инсталиране на необходимите библиотеки

Трябва да инсталирате киноман Python библиотека за достъп до IMDb база данни. Изпълнете следната команда в командния ред, за да инсталирате библиотеката:

пип Инсталирай киноман

Трябва да имаш pip, инсталиран на вашата система за инсталиране на външни библиотеки на Python.

Кодът, използван в този проект, е наличен в a GitHub хранилище и е безплатен за използване под лиценза на MIT.

Извличане на IMDb данни с помощта на Python

Трябва да импортирате библиотеката на cinemagoer, преди да я използвате във вашия код.

instagram viewer
от imdb импортиране Кинопочитател
ia = Cinemagoer()

Горният код импортира библиотеката cinemagoer и създава екземпляр на класа cinemagoer.

Търсене на филми

Можете да търсите филми с дадено (или подобно) заглавие, като използвате search_movie() метод. Например, ако искате да търсите филми със заглавие "рок", трябва да стартирате следния код:

от imdb импортиране Кинопочитател

# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()

# Търсене на филми, които имат рок в името си
филми = ia.search_movie('рок')
печат(филми[0])

Това трябва да отпечата първия намерен филм, например:

Можете да получите филм чрез неговия IMDb ID. След това можете да извлечете допълнителна информация като имена на режисьори и жанрове. Ти трябва да прегледайте списъка за получаване на индивидуална информация.

от imdb импортиране Кинопочитател

# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()

# Получаване на филм чрез IMDb ID
филм = ia.get_movie('0468569')
печат(филм)

# Отпечатване на имената на режисьорите на филма
печат ('Режисьори:')

за режисьор във филм ['режисьори']:
печат (режисьор ['име'])

# отпечатване на жанровете на филма
печат ('Жанрове:')

за жанр във филма['жанрове']:
печат(жанр)

В изхода трябва да видите името на дадения филм, неговия(те) режисьор(и) и жанр(ове):

Търсене на човек

Можете да търсите хора с помощта на search_person() метод. Например, ако искате да търсите „Хийт“, трябва да изпълните следния код:

от imdb импортиране Кинопочитател

# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()

# Търсене на хора с Хийт в имената си
лица = ia.search_person('Хийт')
печат(лица [0])

Ще видите името на първия съвпадащ човек, открит от търсенето:

Търсене на фирми

Можете да търсите компании с помощта на search_company() метод. Например, ако искате да търсите „Universal“, трябва да изпълните следния код:

от imdb импортиране Кинопочитател

# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()

# Търсене на компании, които имат Universal в имената си
компании = ia.search_company('Универсален')
печат(компании)

Ще получите списък с всички компании, които имат Universal в името си.

Можете също така да извлечете данни за лице и компания, като използвате неговия идентификатор.

от imdb импортиране Кинопочитател

# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()

# Получаване на лични данни по ID
човек = ia.get_person('0005132')
печат (лице ['име'])
печат (лице ['рождена дата'])

# Получаване на фирмени данни по ID
компания = ia.get_company('0005073')
печат (компания['име'])

Резултатът ще покаже подробности за лицето и името на фирма:

Намиране на горни и долни филми

Можете да извлечете данните за топ 250 и най-долните 100 филма, като използвате get_top250_movies() и get_bottom100_movies() методи, съответно:

от imdb импортиране Кинопочитател

# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()

# Намиране на топ 250 филма
топ = ia.get_top250_movies()
печат(Горна част[0])

# Намиране на най-долните 100 филма
дъно = ia.get_bottom100_movies()
печат(отдолу[0])

В отговор ще видите името на най-добрия филм и името на най-лошия:

Библиотеката cinemagoer предоставя и някои други методи като get_top250_tv(), get_popular100_movies(), и get_top250_indian_movies().

Анализът на данни е оценка на данни с помощта на аналитични или статистически инструменти за извличане на информация. Популярността на анализа на данни нараства всеки ден. Сега се използва от фирми, маркетингови компании и спортни отбори. Пълният процес на анализ на данни включва дефиниране на цели, задаване на въпроси, събиране на данни, пречистване на данни, анализ на данни и заключителни резултати.

Можете да получите набори от данни за вашите проекти, като използвате библиотеки на Python като Cinemagoer или чрез онлайн платформи като Kaggle. Наред с пълни езици като Python и R, можете да използвате други инструменти като Microsoft Excel, Tableau и Stata за извършване на анализ на данни.