Библиотеката на pandas прави науката за данни, базирана на python, лесно пътуване. Това е популярна библиотека на Python за четене, сливане, сортиране, почистване на данни и други. Въпреки че pandas е лесен за използване и прилагане върху набори от данни, той има много функции за манипулиране на данни, които да научите.

Може да използвате pandas, но има голям шанс да го използвате недостатъчно за решаване на проблеми, свързани с данните. Ето нашия списък с ценни функции на панди за манипулиране на данни, които всеки учен по данни трябва да знае.

Инсталирайте pandas във вашата виртуална среда

Преди да продължим, уверете се, че инсталирате pandas във вашата виртуална среда с помощта на pip:

pip install pandas

След като го инсталирате, импортирайте панди в горната част на вашия скрипт и нека продължим.

1. панди. DataFrame

Ти използваш панди. DataFrame() за създаване на DataFrame в pandas. Има два начина да използвате тази функция.

Можете да формирате DataFrame по колона, като подадете речник в панди. DataFrame() функция. Тук всеки ключ е колона, докато стойностите са редовете:

instagram viewer
внос на панди
DataFrame = панди. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
печат (DataFrame)

Другият метод е да се формира DataFrame между редове. Но тук ще отделите стойностите (елементите на редовете) от колоните. Броят на данните във всеки списък (данни от редове) също трябва да съответства на броя на колоните.

внос на панди
DataFrame = панди. DataFrame([[1, 4, 5], [7, 19, 13]], колони= ["J", "K", "L"])
печат (DataFrame)

2. Четете от и записвайте в Excel или CSV в pandas

Можете да четете или пишете в Excel или CSV файлове с pandas.

Четене на Excel или CSV файлове

За да прочетете файл на Excel:

#Заменете example.xlsx с пътя на вашия файл в Excel
DataFrame = DataFrame.read_excel("example.xlsx")

Ето как да прочетете CSV файл:

#Заменете example.csv с пътя на вашия CSV файл
DataFrame = DataFrame.read_csv("example.csv")

Писане в Excel или CSV

Писането в Excel или CSV е добре позната операция на панди. И е удобно за запазване на новоизчислени таблици в отделни таблици с данни.

За да пишете в лист на Excel:

DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")

Ако искате да пишете в CSV:

DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")

Можете също да изчислите централните тенденции на всяка колона в DataFrame, като използвате pandas.

Ето как да получите средната стойност на всяка колона:

DataFrame.mean()

За средната стойност или стойността на режима заменете означава() с Медиана() или режим().

4. DataFrame.transform

панди DataFrame.transform() променя стойностите на DataFrame. Той приема функция като аргумент.

Например кодът по-долу умножава всяка стойност в DataFrame по три с помощта Ламбда функция на Python:

DataFrame = DataFrame.transform (ламбда y: y*3)
печат (DataFrame)

5. DataFrame.isnull

Тази функция връща булева стойност и маркира всички редове, съдържащи нулеви стойности като Вярно:

DataFrame.isnull()

Резултатът от горния код може да бъде труден за четене за по-големи набори от данни. Така че можете да използвате isnull().sum() функция вместо това. Това връща обобщение на всички липсващи стойности за всяка колона:

DataFrame.isnull().sum()

6. Dataframe.info

В информация() функцията е основна операция на панди. Вместо това връща обобщението на нелипсващите стойности за всяка колона:

DataFrame.info()

7. DataFrame.describe

В описвам() функцията ви дава обобщената статистика на DataFrame:

DataFrame.describe()

8. DataFrame.replace

Използвайки DataFrame.replace() метод в pandas, можете да замените избраните редове с други стойности.

Например, за да размените невалидни редове с Нан:

# Уверете се, че сте инсталирали pip numpy, за да работи това
импортирайте numpy
внос на панди
# Добавянето на ключова дума inplace и настройката й на True прави промените постоянни:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
печат (DataFrame)

9. DataFrame.fillna

Тази функция ви позволява да попълвате празни редове с определена стойност. Можете да попълните всички Нан редове в набор от данни със средна стойност, например:

DataFrame.fillna (df.mean(), inplace = True)
печат (DataFrame)

Можете също да бъдете специфични за колоните:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
печат (DataFrame)

10. DataFrame.dropna

В dropna() метод премахва всички редове, съдържащи нулеви стойности:

DataFrame.dropna (inplace = True)
печат (DataFrame)

11. DataFrame.insert

Можете да използвате панди вмъкване() функция за добавяне на нова колона към DataFrame. Той приема три ключови думи, име на колона, списък с неговите данни и неговите местоположение, което е индекс на колона.

Ето как става това:

DataFrame.insert (колона = 'C', стойност = [3, 4, 6, 7], loc=0)
печат (DataFrame)

Горният код вмъква новата колона в нулевия индекс на колоната (става първата колона).

12. DataFrame.loc

Можеш да използваш лок за да намерите елементите в конкретен индекс. За да видите всички елементи на третия ред, например:

DataFrame.loc[2]

13. DataFrame.pop

Тази функция ви позволява да премахнете определена колона от pandas DataFrame.

То приема ан вещ ключова дума, връща изскачащата колона и я отделя от останалата част от DataFrame:

DataFrame.pop (item= 'column_name')
печат (DataFrame)

14. DataFrame.max, мин

Получаването на максималните и минималните стойности с помощта на pandas е лесно:

DataFrame.min()

Горният код връща минималната стойност за всяка колона. За да получите максимума, сменете мин с макс.

15. DataFrame.join

В присъединяване() функцията на pandas ви позволява да обедините DataFrames с различни имена на колони. Можете да използвате ляво, дясно, вътрешно или външно съединение. За да се присъедините наляво към DataFrame с два други:

#Отляво-съединете по-дълги колони с по-къси
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
печат (нов DataFrame)

За да присъедините DataFrames с подобни имена на колони, можете да ги разграничите, като включите суфикс отляво или отдясно. Направете това, като включите lсуфикс или rsuffix ключова дума:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
печат (нов DataFrame)

16. DataFrame.combine

В комбинирай() функцията е удобна за обединяване на два DataFrame, съдържащи подобни имена на колони въз основа на зададени критерии. Приема а функция ключова дума.

Например, за да обедините два DataFrames с подобни имена на колони само въз основа на максималните стойности:

newDataFrame = df.combine (df2, numpy.minimum)
печат (нов DataFrame)

Забележка: Можете също да дефинирате персонализирана функция за избор и да вмъкнете numpy.minimum.

17. DataFrame.astype

В astype() функция променя типа данни на конкретна колона или DataFrame.

За да промените всички стойности в DataFrame на низ, например:

DataFrame.astype (str)

18. DataFrame.sum

В сума() функцията в pandas връща сумата от стойностите във всяка колона:

DataFrame.sum()

Можете също да намерите кумулативната сума на всички използвани елементи cumsum():

DataFrame.cumsum()

19. DataFrame.drop

панди изпускайте() функцията изтрива конкретни редове или колони в DataFrame. Трябва да предоставите имената на колоните или индекса на редове и ос, за да го използвате.

За да премахнете конкретни колони, например:

df.drop (columns=['colum1', 'column2'], axis=0)

За да пуснете редове в индекси 1, 3 и 4, например:

df.drop([1, 3, 4], ос=0)

20. DataFrame.corr

Искате ли да намерите корелацията между целочислени или плаващи колони? pandas може да ви помогне да постигнете това с помощта на кор () функция:

DataFrame.corr()

Горният код връща нов DataFrame, съдържащ корелационната последователност между всички целочислени или плаващи колони.

21. DataFrame.add

В добавяне () функцията ви позволява да добавите конкретно число към всяка стойност в DataFrame. Работи чрез повторение през DataFrame и опериране с всеки елемент.

Свързани:Как да използвате цикли For в Python

За да добавите 20 към всяка от стойностите в конкретна колона, съдържаща цели числа или плаващи числа, например:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Подобно на функцията за добавяне, можете също да извадите число от всяка стойност в DataFrame или конкретна колона:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Това е версия за умножение на функцията за добавяне на панди:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

По същия начин можете да разделите всяка точка от данни в колона или DataFrame с определено число:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Използвайки std() функция, pandas също ви позволява да изчислите стандартното отклонение за всяка колона в DataFrame. Работи чрез итерация през всяка колона в набор от данни и изчисляване на стандартното отклонение за всяка:

DataFrame.std()

26. DataFrame.sort_values

Можете също да сортирате стойности възходящо или низходящо въз основа на конкретна колона. За да сортирате DataFrame в низходящ ред, например:

newDataFrame = DataFrame.sort_values ​​(по = "colmun_name", низходящ = True)

27. DataFrame.melt

В стопи се () функцията в pandas обръща колоните в DataFrame към отделни редове. Това е като да разкриете анатомията на DataFrame. Така че ви позволява да видите изрично стойността, присвоена на всяка колона.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Тази функция връща общия брой елементи във всяка колона:

DataFrame.count()

29. DataFrame.query

панди заявка() ви позволява да извиквате елементи, като използвате техния индекс. За да получите елементите в третия ред, например:

DataFrame.query('4') # Извикване на заявката от четвъртия индекс

30. DataFrame.where

В където() функцията е заявка на pandas, която приема условие за получаване на конкретни стойности в колона. Например, за да получите всички възрасти под 30 от an възраст колона:

DataFrame.where (DataFrame['Age'] < 30)

Горният код извежда DataFrame, съдържащ всички възрасти под 30, но присвоява Нан към редове, които не отговарят на условието.

Работете с данни като професионалист с панди

pandas е съкровищница от функции и методи за работа с малки до големи масиви от данни с Python. Библиотеката също е полезна за почистване, валидиране и подготовка на данни за анализ или машинно обучение.

Отделянето на време да го овладеете определено прави живота ви по-лесен като учен по данни и си струва усилията. Така че не се колебайте да вземете всички функции, с които можете да се справите.

20 функции на Python, които трябва да знаете

Стандартната библиотека на Python съдържа много функции, които да ви помогнат при задачите ви по програмиране. Научете за най-полезните и създайте по-стабилен код.

Прочетете Следващото

Дялтуителектронна поща
Свързани теми
  • Програмиране
  • Python
  • Програмиране
  • база данни
За автора
Идову Омисола (публикувани 123 статии)

Idowu е страстен за всичко, което е интелигентна технология и производителност. В свободното си време той си играе с кодирането и преминава към шахматната дъска, когато му е скучно, но също така обича да се откъсва от рутината от време на време. Страстта му да показва на хората пътя около съвременните технологии го мотивира да пише повече.

Още от Idowu Omisola

Абонирайте се за нашия бюлетин

Присъединете се към нашия бюлетин за технически съвети, ревюта, безплатни електронни книги и ексклузивни оферти!

Щракнете тук, за да се абонирате