Използвайте библиотеката PandasAI Python, за да използвате силата на изкуствения интелект и големите езикови модели за изпълнение на задачи за анализ на данни.

Pandas е най-преобладаващата библиотека за манипулиране на набори от данни и рамки от данни. Това е норма от дълго време. Но с напредването на изкуствения интелект е разработена нова библиотека с отворен код, наречена PandasAI, която добавя генеративни AI възможности към Pandas.

PandasAI не замества Pandas. Вместо това, той дава своите генеративни AI възможности. По този начин можете да извършвате анализ на данни чрез чат с PandasAI. След това той абстрахира случващото се във фонов режим и ви предоставя изхода от вашата заявка.

Инсталиране на PandasAI

PandasAI е достъпен чрез PyPI (Python Package Index). Създайте нова виртуална среда ако използвате локална IDE. Тогава използвайте мениджъра на пакети pip за да го инсталирате.

pip инсталирайте pandasai

Може да срещнете грешка при конфликт на зависимости, подобна на показаната по-долу, ако използвате Google Colab.

instagram viewer

Не понижавайте версията на IPython. Просто рестартирайте вашето време за изпълнение и стартирайте кодовия блок отново. Това ще разреши проблема.

Пълният изходен код е достъпен в a GitHub хранилище.

Разбиране на примерния набор от данни

Примерният набор от данни, който ще манипулирате с PandasAI, е наборът от данни за цените на жилищата в Калифорния от Kaggle. Този набор от данни съдържа информация за жилищата от преброяването на населението в Калифорния през 1990 г. Има десет колони, които предоставят статистика за тези къщи. Картата с данни, която ще ви помогне да научите повече за този набор от данни, е достъпна на Kaggle. По-долу са първите пет реда от набора от данни.

Всяка колона представлява отделна статистика за къща.

Свързване на PandasAI към големия езиков модел

За да свържете PandasAI към a голям езиков модел (LLM) подобно на OpenAI, имате нужда от достъп до неговия API ключ. За да получите такъв, преминете към OpenAI платформа. След това влезте в акаунта си. Изберете API под страницата с опции, която се появява след това.

След това щракнете върху вашия профил и изберете Вижте API ключове опция. На страницата, която се появява след това щракнете Създайте нов таен ключ бутон. И накрая, назовете вашия API ключ.

OpenAI ще генерира вашия API ключ. Копирайте го, тъй като ще ви трябва, докато свързвате PandasAI с OpenAI. Уверете се, че пазите ключа в тайна, тъй като всеки, който има достъп до него, може да се обажда до OpenAI от ваше име. След това OpenAI ще таксува сметката ви за разговорите.

След като вече имате API ключа, създайте нов Python скрипт и поставете кода по-долу. Няма да е необходимо да променяте този код, тъй като през повечето време ще надграждате върху него.

импортиране панди като пд
от пандасай импортиране PandasAI

# Заменете с вашия набор от данни или рамка от данни
df = pd.read_csv("/content/housing.csv")

# Създаване на LLM
от pandasai.llm.openai импортиране OpenAI
llm = OpenAI(api_token="вашият API токен")

pandas_ai = PandasAI(llm)

Горният код импортира PandasAI и Pandas. След това чете набор от данни. И накрая, той създава OpenAI LLM.

Вече сте готови да разговаряте с вашите данни.

Изпълнение на прости задачи с помощта на PandasAI

За да направите заявка за вашите данни, предайте вашата рамка с данни и вашата подкана към екземпляра на клас PandasAI. Започнете, като отпечатате първите пет реда от вашия набор от данни.

pandas_ai (df, подкана=„Какви са първите пет реда от набора от данни?“)

Резултатът от горния ред е както следва:

Този резултат е идентичен с този от прегледа на набора от данни по-рано. Това показва, че PandasAI дава правилни резултати и е надежден.

След това проверете броя на колоните във вашия набор от данни.

pandas_ai (df, подкана=„Колко колони има в набора от данни? ')

Връща 10, което е правилният брой колони в набора от данни за жилища в Калифорния.

Проверка дали има липсващи стойности в набора от данни.

pandas_ai (df, подкана=„Има ли липсващи стойности в набора от данни?“)

PandasAI връща, че общо_спални колона има 207 липсващи стойности, което отново е правилно.

Има много прости задачи, които можете да постигнете с помощта на PandasAI, не сте ограничени до тези по-горе.

Извършване на сложни заявки с помощта на PandasAI

PandasAI не поддържа само прости задачи. Можете също да го използвате за извършване на сложни заявки към набора от данни. Например в набора от данни за жилища, ако искате да определите броя на къщите, които се намират на остров, имат стойност над 100 000 долара и имат повече от 10 стаи, можете да използвате подканата По-долу.

pandas_ai (df, подкана= „Колко къщи имат стойност над 100 000,“
"са на остров и общият брой спални е повече от 10?")

Правилният резултат е пет. Това е същият резултат, който извежда PandasAI.

Сложните заявки може да отнеме известно време на анализатора на данни, за да напише и отстрани грешки. Горната подкана отнема само два реда естествен език, за да изпълни същата задача. Просто трябва да имате предвид какво точно искате да постигнете, а PandasAI ще се погрижи за останалото.

Чертане на диаграми с помощта на PandasAI

Диаграмите са жизненоважна част от всеки процес на анализ на данни. Той помага на анализаторите на данни да визуализират данните по удобен за хората начин. PandasAI също има функция за рисуване на диаграма. Просто трябва да предадете рамката с данни и инструкцията.

Започнете, като създадете хистограма за всяка колона в набора от данни. Това ще ви помогне да визуализирате разпределението на променливите.

pandas_ai (df, подкана= „Начертайте хистограма за всяка колона в набора от данни“)

Резултатът е както следва:

PandasAI успя да начертае хистограмата на всички колони, без да се налага да предава имената им в подканата.

PandasAI може също така да чертае диаграми, без да му казвате изрично коя диаграма да използва. Например, може да искате да разберете корелацията на данните в набора от данни за жилищата. За да постигнете това, можете да подадете подкана, както следва:

pandas_ai (df, подкана= „Начертайте корелацията в набора от данни“)

PandasAI начертава корелационна матрица, както е показано по-долу:

Библиотеката избира топлинна карта и начертава корелационна матрица.

Предаване на множество кадри с данни към екземпляра на PandasAI

Работата с множество кадри с данни може да бъде трудна. Особено за човек, който е нов в анализа на данни. PandasAI запълва тази празнина, тъй като всичко, което трябва да направите, е да предадете и двата кадъра с данни и да започнете да използвате подкани за манипулиране на данните.

Създайте два кадъра с данни с помощта на Pandas.

служители_данни = {
„EmployeeID“: [1, 2, 3, 4, 5],
"Име": ['Джон', "Ема", "Лиъм", 'Оливия', "Уилям"],
"отдел": ["HR", "Продажби", 'ТО', "Маркетинг", 'Финанси']
}

salaries_data = {
„EmployeeID“: [1, 2, 3, 4, 5],
'Заплата': [5000, 6000, 4500, 7000, 5500]
}

служители_df = pd. DataFrame (данни за_служителите)
salaries_df = pd. DataFrame (данни_заплати)

Можете да зададете на PandasAI въпрос, който обхваща и двете рамки с данни. Трябва само да прехвърлите двата кадъра с данни към екземпляра на PandasAI.

pandas_ai([employees_df, salaries_df], „Кой служител има най-голяма заплата?“)

Връща се Оливия което отново е верният отговор.

Извършването на анализ на данни никога не е било по-лесно, PandasAI ви позволява да разговаряте с вашите данни и да ги анализирате с лекота.

Разбиране на технологията, която захранва PandasAI

PandasAI опростява процеса на анализ на данни, като по този начин спестява много време на анализаторите на данни. Но абстрахира това, което се случва на заден план. Трябва да се запознаете с генеративния AI, за да можете да имате общ преглед на това как PandasAI работи под капака. Това също ще ви помогне да сте в крак с най-новите иновации в областта на генеративния AI.