Internet Movie Database (IMDb) е най-голямата онлайн база данни, съдържаща информация, свързана с филми, телевизионни сериали, домашни видеоклипове, видеоигри и стрийминг съдържание. Онлайн базата данни съдържа милиони точни записи, които можете да използвате за извършване на анализ на данни.
Cinemagoer (по-рано известен като IMDbPY) е библиотека на Python за управление и извличане на данните от базата данни за филми IMDb. Имате достъп до данни за филми, хора и компании, които могат да бъдат допълнително използвани за анализ.
Инсталиране на необходимите библиотеки
Трябва да инсталирате киноман Python библиотека за достъп до IMDb база данни. Изпълнете следната команда в командния ред, за да инсталирате библиотеката:
пип Инсталирай киноман
Трябва да имаш pip, инсталиран на вашата система за инсталиране на външни библиотеки на Python.
Кодът, използван в този проект, е наличен в a GitHub хранилище и е безплатен за използване под лиценза на MIT.
Извличане на IMDb данни с помощта на Python
Трябва да импортирате библиотеката на cinemagoer, преди да я използвате във вашия код.
от imdb импортиране Кинопочитател
ia = Cinemagoer()
Горният код импортира библиотеката cinemagoer и създава екземпляр на класа cinemagoer.
Търсене на филми
Можете да търсите филми с дадено (или подобно) заглавие, като използвате search_movie() метод. Например, ако искате да търсите филми със заглавие "рок", трябва да стартирате следния код:
от imdb импортиране Кинопочитател
# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()
# Търсене на филми, които имат рок в името си
филми = ia.search_movie('рок')
печат(филми[0])
Това трябва да отпечата първия намерен филм, например:
Можете да получите филм чрез неговия IMDb ID. След това можете да извлечете допълнителна информация като имена на режисьори и жанрове. Ти трябва да прегледайте списъка за получаване на индивидуална информация.
от imdb импортиране Кинопочитател
# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()# Получаване на филм чрез IMDb ID
филм = ia.get_movie('0468569')
печат(филм)# Отпечатване на имената на режисьорите на филма
печат ('Режисьори:')за режисьор във филм ['режисьори']:
печат (режисьор ['име'])# отпечатване на жанровете на филма
печат ('Жанрове:')
за жанр във филма['жанрове']:
печат(жанр)
В изхода трябва да видите името на дадения филм, неговия(те) режисьор(и) и жанр(ове):
Търсене на човек
Можете да търсите хора с помощта на search_person() метод. Например, ако искате да търсите „Хийт“, трябва да изпълните следния код:
от imdb импортиране Кинопочитател
# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()
# Търсене на хора с Хийт в имената си
лица = ia.search_person('Хийт')
печат(лица [0])
Ще видите името на първия съвпадащ човек, открит от търсенето:
Търсене на фирми
Можете да търсите компании с помощта на search_company() метод. Например, ако искате да търсите „Universal“, трябва да изпълните следния код:
от imdb импортиране Кинопочитател
# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()
# Търсене на компании, които имат Universal в имената си
компании = ia.search_company('Универсален')
печат(компании)
Ще получите списък с всички компании, които имат Universal в името си.
Можете също така да извлечете данни за лице и компания, като използвате неговия идентификатор.
от imdb импортиране Кинопочитател
# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()# Получаване на лични данни по ID
човек = ia.get_person('0005132')
печат (лице ['име'])
печат (лице ['рождена дата'])
# Получаване на фирмени данни по ID
компания = ia.get_company('0005073')
печат (компания['име'])
Резултатът ще покаже подробности за лицето и името на фирма:
Намиране на горни и долни филми
Можете да извлечете данните за топ 250 и най-долните 100 филма, като използвате get_top250_movies() и get_bottom100_movies() методи, съответно:
от imdb импортиране Кинопочитател
# Създаване на екземпляр на класа Cinemagoer
ia = Cinemagoer()# Намиране на топ 250 филма
топ = ia.get_top250_movies()
печат(Горна част[0])
# Намиране на най-долните 100 филма
дъно = ia.get_bottom100_movies()
печат(отдолу[0])
В отговор ще видите името на най-добрия филм и името на най-лошия:
Библиотеката cinemagoer предоставя и някои други методи като get_top250_tv(), get_popular100_movies(), и get_top250_indian_movies().
Анализът на данни е оценка на данни с помощта на аналитични или статистически инструменти за извличане на информация. Популярността на анализа на данни нараства всеки ден. Сега се използва от фирми, маркетингови компании и спортни отбори. Пълният процес на анализ на данни включва дефиниране на цели, задаване на въпроси, събиране на данни, пречистване на данни, анализ на данни и заключителни резултати.
Можете да получите набори от данни за вашите проекти, като използвате библиотеки на Python като Cinemagoer или чрез онлайн платформи като Kaggle. Наред с пълни езици като Python и R, можете да използвате други инструменти като Microsoft Excel, Tableau и Stata за извършване на анализ на данни.