Python, като език, е изключително ценен, особено когато искате да работите със структурирани данни. Тъй като хората съхраняват много данни във файлове на Excel, е наложително да се консолидират множество файлове, за да спестят време и усилия.

Python ви позволява да правите точно това; без значение колко файла на Excel искате да комбинирате, можете да го направите с относителна лекота. Като се има предвид неговата гама от библиотеки и ресурси на трети страни, можете да импортирате и използвате многостранните инструменти на Python, за да правите своите наддавания.

В това ръководство ще трябва да инсталирате и използвате библиотеките на Pandas, за да импортирате данни в Python, преди да ги консолидирате.

Инсталирайте Pandas Libraries в Python

Pandas е библиотека на трета страна, която можете да инсталирате в Python. Някои IDE вече имат инсталирани Pandas в тях.

Ако използвате IDE версия който не се предлага с предварително инсталирани Pandas, бъдете сигурни, можете да го инсталирате директно в Python.

instagram viewer

Ето как да инсталирате Pandas:

pip install pandas

Ако използвате Jupyter Notebook, можете да инсталирате Pandas директно с PIP команда. Най-вече, когато сте инсталирали Jupyter с Anaconda, има големи шансове вече да имате Pandas на разположение за директна употреба.

Ако не можете да се обадите на Pandas, можете да използвате горната команда, за да ги инсталирате директно.

Комбиниране на Excel файлове с Python

Първо, трябва да създадете папка на предпочитаното от вас място с всички файлове на Excel. След като папката е готова, можете да започнете да пишете кода за импортиране на библиотеките.

Ще използвате две променливи в този код:

  1. панди: Библиотеката Pandas предоставя рамки с данни за съхранение на файлове на Excel.
  2. ОПЕРАЦИОННА СИСТЕМА: Библиотеката е полезна за четене на данни от папката на вашето устройство

За да импортирате тези библиотеки, използвайте тези команди:

Импортирайте Pandas като pd
Импортиране на ОС
  • импортиране: Синтаксис на Python, използван за импортиране на библиотеките в Python
  • панди: Име на библиотеката
  • pd: Псевдоним, даден на библиотеката
  • ОПЕРАЦИОННА СИСТЕМА: Библиотека за достъп до системната папка

След като импортирате библиотеките, създайте две променливи, за да съхраните пътя на входния и изходния файл. Пътят на входния файл е необходим за достъп до папката на файловете. Пътят на изходния файл е необходим, тъй като комбинираният файл ще бъде експортиран там.

Ако използвате Python, уверете се, че сте променили обратната наклонена черта на наклонена черта напред (\ да се /)

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel файлове/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"

Добавяне на / в края, както и за завършване на пътеките.

Файловете на папката са налични в списък. Създайте списък, за да съхранявате всички препратки към файловете на входната папка, като използвате listdir функция от операционна система библиотека.

Ако не сте сигурни в наличните функции в библиотеката, можете да използвате реж функция с името на библиотеката. Например, за да проверите точната версия на функцията listdir, можете да използвате командата, както следва:

директория (ОС)

Резултатът ще се състои от всички свързани функции, налични в библиотеката на ОС. Функцията listdir е една от многото функции, налични в тази библиотека.

Създайте нова променлива за съхраняване на входните файлове от папката.

excel_file_list = os.listdir (входен_файл_път)

Отпечатайте тази променлива, за да видите имената на файловете, съхранявани в папката. Всички файлове, съхранени в папката, се показват, след като използвате функцията за печат.

печат (excel_file_list)

След това трябва да добавите нова рамка с данни, за да съхранявате всеки файл на Excel. Представете си рамка от данни като контейнер за съхранение на данни. Ето командата за създаване на рамка с данни.

df = pd. DataFrame()
  • df: Променлива за съхраняване на стойността на DataFrame
  • pd: Псевдоним за Библиотека на панди
  • DataFrame: Синтаксис по подразбиране за добавяне на рамка от данни

Входната папка има три .xlsx файлове в този пример. Имената на файловете са:

File1_excel.xlsx
File2_excel.xlsx
File3_excel.xlsx

За да отворите всеки файл от тази папка, трябва да изпълните цикъл. Цикълът ще се изпълнява за всеки от файловете в списъка, създаден по-горе.

Ето как можете да го направите:

за excel_files в excel_file_list:

След това е необходимо да проверите разширенията на файловете, тъй като кодът ще отваря само XLSX файлове. За да проверите тези файлове, можете да използвате Ако изявление.

Използвай завършва със функция за тази цел, както следва:

за excel_files в excel_file_list:

ако excel_files.endswith(.xlsx"):

  • excel_files: Списък с всички стойности на файла
  • завършва със: Функция за проверка на разширението на файловете
  • (".xlsx"): Тази стойност на низа може да се промени в зависимост от това, което искате да търсите

След като идентифицирате файловете на Excel, можете да създадете нова рамка с данни, за да четете и съхранявате файловете поотделно.

за excel_files в excel_file_list:

ако excel_files.endswith(.xlsx"):

df1 = pd.read_excel (път на_входен_файл+excel_files)

  • df1: Нова рамка с данни
  • pd: Библиотека на панди
  • read_excel: Функция за четене на файлове на Excel в библиотеката на Pandas
  • входен_файл_път: Път на папката, където се съхраняват файловете
  • excel_files: Всяка променлива, която се използва в цикъла for

За да започнете да добавяте файловете, трябва да използвате добавете функция.

за excel_files в excel_file_list:

ако excel_files.endswith(.xlsx"):

df1 = pd.read_excel (път на_входен_файл+excel_files)
df = df.добави (df1)

И накрая, сега, когато рамката на консолидираните данни е готова, можете да я експортирате в изходното местоположение. В този случай експортирате рамката с данни в XLSX файл.

df.to_excel (път на_изходния_файл+"Консолидиран_файл.xlsx")
  • df: Рамка от данни за експортиране
  • to_excel: Команда, използвана за експортиране на данните
  • изходен_файл_път: Дефиниран път за съхранение на изхода
  • Consolidated_file.xlsx: Име на консолидирания файл

Сега, нека да разгледаме окончателния код:

#Pandas се използва като рамка с данни за обработка на файлове на Excel
импортирайте панди като pd
импортиране на ос

# променете наклонената черта от “\” на “/”, ако използвате устройства с Windows

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel файлове/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"

#създайте списък за съхраняване на всички препратки към файловете на входната папка, като използвате функцията listdir от библиотеката на OS.
#За да видите съдържанието на библиотека (като функцията listdir, можете да използвате функцията dir на името на библиотеката).
#Използвайте dir (име на библиотека), за да изброите съдържанието

excel_file_list = os.listdir (входен_файл_път)

#отпечатайте всички файлове, съхранени в папката, след дефиниране на списъка
excel_file_list

#След като се отвори всеки файл, използвайте функцията за добавяне, за да започнете да консолидирате данните, съхранявани в множество файлове

#създайте нов, празен кадър от данни, за да обработвате импортирания файл на excel
df = pd. DataFrame()

#Изпълнете цикъл for, за да преминете през всеки файл в списъка
за excel_files в excel_file_list:
#проверете само за файлове със суфикси .xlsx
ако excel_files.endswith(.xlsx"):
#създайте нова рамка с данни за четене/отваряне на всеки файл на Excel от списъка с файлове, създадени по-горе
df1 = pd.read_excel (път на_входен_файл+excel_files)
#добавете всеки файл в оригиналната празна рамка с данни
df = df.добави (df1)

#прехвърляне на крайния изход към файл на Excel (xlsx) в изходния път
df.to_excel (път на_изходния_файл+"Консолидиран_файл.xlsx")

Използване на Python за комбиниране на множество работни книги на Excel

Pandas на Python е отличен инструмент както за начинаещи, така и за напреднали потребители. Библиотеката се използва широко от разработчиците, които искат да овладеят Python.

Дори ако сте начинаещ, можете да се възползвате изключително много, като научите нюансите на Pandas и как се използва библиотеката в Python.

6 Pandas Operations за начинаещи

Овладейте Pandas с тези начинаещи операции.

Прочетете Следващото

Дялтуителектронна поща
Свързани теми
  • Програмиране
  • Python
  • Microsoft Excel
  • Електронна таблица
За автора
Гаурав Сиял (публикувани 59 статии)

Gaurav Siyal има две години опит в писането, като пише за серия от фирми за дигитален маркетинг и документи за жизнения цикъл на софтуера.

Още от Gaurav Siyal

Абонирайте се за нашия бюлетин

Присъединете се към нашия бюлетин за технически съвети, ревюта, безплатни електронни книги и ексклузивни оферти!

Щракнете тук, за да се абонирате