За да анализирате набор от данни, първо трябва да разберете данните. Понякога може да нямате предварителни познания за набор от данни, което ви пречи да извлечете максимума от него. Като анализатор на данни можете да използвате проучвателен анализ на данни (EDA), за да придобиете знания за вашия набор от данни преди задълбочен анализ.

Проучвателният анализ на данни (EDA) проучва набор от данни, за да получи значима информация. Процесът на извършване на EDA включва запитване на информация за структурата и съдържанието на набор от данни.

Инсталиране на пакета Gota

Пакетът Gota е най-популярният за Анализ на данни в Go; това е като Пакет Python Pandas но за Go. Пакетът Gota съдържа много методи за анализиране на набори от данни и четене на JSON, CSV и HTML формати.

Изпълнете тази команда на вашия терминал в директорията, където сте инициализирали файл на Go модул:

отивам get -u github.com/отивам-гота/гота

Командата ще инсталира Gota в локалната директория, готова за импортиране на пакета, за да го използвате.

instagram viewer

Точно като Pandas, Gota поддържа операции със серии и кадри с данни. Има два подпакета в пакета Gota: серията и пакетът dataframe. Можете да импортирате едното или и двете, в зависимост от вашите нужди.

импортиране (
"github.com/отивам-gota/gota/серия"
"github.com/отивам-gota/gota/dataframe"
)

Четене на набор от данни с помощта на пакета Gota

Можете да използвате всеки CSV файл, който искате, но следните примери показват резултати от набор от данни на Kaggle, съдържащ данни за цените на лаптопа.

Gota ви позволява да четете CSV, JSON и HTML файлови формати, за да създавате кадри с данни, като използвате Прочетете CSV, Прочетете JSON, и Прочетете HTML методи. Ето как зареждате CSV файл в обект на рамка с данни:

файл, грешка := os. Отваряне("/път/към/csv-файл.csv")

ако грешка!= нула {
fmt. Println("грешка при отваряне на файл")
}

dataFrame := dataframe. Четене на CSV (файл)
fmt. Println (dataFrame)

Можете да използвате Отворете метод на операционна система пакет за отваряне на CSV файл. Методът ReadCSV чете файловия обект и връща обект на рамка с данни.

Когато отпечатате този обект, изходът е в табличен формат. Можете допълнително да манипулирате обекта на dataframe, като използвате различните методи, които Gota предоставя.

Обектът ще отпечата само някои от колоните, ако набор от данни има повече от зададена стойност.

Извличане на измерението на набора от данни

Размерите на рамката от данни са броят на редовете и колоните, които съдържа. Можете да извлечете тези размери, като използвате Димс метод на обекта dataframe.

вар редове, колони = dataFrame. Димс()

Заменете една от променливите с долна черта, за да извлечете само другото измерение. Можете също така да направите заявка за броя на редовете и колоните поотделно, като използвате Nrow и Ncol методи.

вар редове = dataFrame. Nrow()
вар колони = dataFrame. Ncol()

Извличане на типовете данни на колони

Ще трябва да знаете съставните типове данни в колоните на набор от данни, за да го анализирате. Можете да ги извлечете с помощта на Видове метод на вашия обект на рамка за данни:

вар типове = dataFrame. Типове ()
fmt. Println (типове)

Методът Types връща срез, съдържащ типовете данни на колоната:

Извличане на имената на колоните

Ще ви трябват имената на колоните, за да изберете конкретни колони за операции. Можете да използвате имена метод за извличането им.

вар Имена на колони := dataFrame. имена()
fmt. Println (имена на колони)

Методът Names връща част от имената на колоните.

Проверка за липсващи стойности

Може да имате набор от данни, който съдържа нулеви или нечислови стойности. Можете да проверите за такива стойности, като използвате HasNaN и IsNaN методи на сериен обект:

aCol := dataFrame. Col("display_size")
вар hasNull = aCol. HasNaN()
вар isNotNumber = aCol. IsNaN()

HasNan проверява дали дадена колона съдържа нулеви елементи. IsNaN връща част от булеви стойности, представящи дали всяка стойност в колоната е число.

Извършване на описателен статистически анализ

Описателен статистически анализ ви помага да разберете разпределението на цифровите колони. Използвайки Описвам метод, можете да генерирате описателен статистически анализ на вашия набор от данни:

описание := dataFrame. Описвам()
fmt. Println (описание)

Методът Describe връща показатели като средна стойност, стандартно отклонение и максимални стойности на колони в набор от данни. Той ги обобщава в табличен формат.

Можете също така да сте конкретни и да се съсредоточите върху колони и показатели, като изберете конкретна колона и след това направите заявка за показателя, който искате. Първо трябва да извлечете серията, представляваща конкретна колона, след което да използвате нейните методи по следния начин:

aCol := dataFrame. Col("display_size")
вар средно = aCol. Означава()
вар медиана = aCol. Медиана()
вар минимум = aCol. Мин.()
вар стандартно отклонение = aCol. StdDev()
вар максимум = aCol. Макс()
вар квантили25 = aCol. Квантил (25.0)

Тези методи отразяват резултатите от описателния статистически анализ, който Describe извършва.

Извличане на елементите в колона

Една от последните задачи, които ще искате да изпълните, е да проверите стойностите в колона за общ преглед. Можете да използвате Записи метод за преглед на стойностите на колона.

aCol := dataFrame. Col ("марка")
fmt. Println (aCol. Записи())

Този метод връща част от низове, съдържащи стойностите в избраната от вас колона:

Експортиране на Gota Dataframe във файл

Ако решите да отидете по-далеч и да използвате пакета Gota за пълен анализ на данни, ще трябва да запазите данните във файлове. Можете да използвате Напишете CSV и Напишете JSON методи на рамка за данни за експортиране на файлове. Методите приемат файл, който ще създадете с помощта на операционна система пакет Създавайте метод.

Ето как можете да експортирате рамка с данни с помощта на пакета Gota.

dataFrame := dataframe. Четене на CSV (файл)
изходен файл, грешка := os. Създаване ("изход.csv")

ако грешка!= нула {
дневник. Фатално (грешка)
}

грешка = dataFrame. WriteCSV(изходен файл)

ако грешка!= нула {
дневник. Fatalln("Възникна грешка при записване на съдържанието на рамката с данни във файла")
}

The dataFrame променливата е представяне на рамката от данни. Когато използвате Създавайте метод на операционна система пакет, той създава нов, празен файл с указаното име и връща файла. Методът WriteCSV приема екземпляра на файла и връща грешка или нула ако няма грешка.

Проучвателният анализ на данните е важен

Разбирането на данните и наборите от данни е от съществено значение за анализаторите на данни и специалистите по машинно обучение. Това е критична операция в техния работен цикъл и проучвателният анализ на данни е една от техниките, които използват, за да постигнат това.

Има още нещо в пакета Gota. Можете да го използвате за различни функции за преборване на данни по същия начин, по който бихте използвали библиотеката Python Pandas за анализ на данни. Gota обаче не поддържа толкова функционалност, колкото Pandas.