Недостатъчните данни често са един от основните пречки за повечето проекти за наука за данни. Да знаеш обаче как да събираш данни за всеки проект, с който искаш да се захванеш, е важно умение, което трябва да придобиеш като учен по данни.

Учените по данни и инженерите за машинно обучение вече използват съвременни техники за събиране на данни, за да получат повече данни за обучителни алгоритми. Ако планирате да се впуснете в първия си проект за наука за данни или машинно обучение, трябва да можете да получите и данни.

Как можете да улесните процеса за себе си? Нека да разгледаме някои съвременни техники, които можете да използвате за събиране на данни.

Защо се нуждаете от повече данни за вашия проект за наука за данни

Алгоритмите за машинно обучение зависят от данните, за да станат по-точни, точни и предсказуеми. Тези алгоритми се обучават с помощта на набори от данни. Процесът на обучение е малко като да научите малко дете на име на обект за първи път, след което да му позволите да го идентифицира сам, когато го види за следващ път.

instagram viewer

Хората се нуждаят само от няколко примера, за да разпознаят нов обект. Това не е така за една машина, тъй като се нуждае от стотици или хиляди подобни примери, за да се запознае с обект.

Тези примери или учебни обекти трябва да бъдат под формата на данни. След това специален алгоритъм за машинно обучение преминава през този набор от данни, наречен набор за обучение - и научава повече за него, за да стане по-точен.

Това означава, че ако не успеете да предоставите достатъчно данни, за да обучите алгоритъма си, може да не получите точния резултат в края на проекта си, защото машината няма достатъчно данни, от които да се учи.

Така че е необходимо да получите адекватни данни, за да подобрите точността на резултата си. Нека видим някои съвременни стратегии, които можете да използвате, за да постигнете това по-долу.

1. Изстъргване на данни директно от уеб страница

Уеб изстъргването е автоматизиран начин за получаване на данни от мрежата. В най-основната си форма, изстъргването в мрежата може да включва копиране и поставяне на елементи от уебсайт в локален файл.

Обаче изрязването на уеб включва също писане на специални скриптове или използване на специални инструменти за директно изстъргване на данни от уеб страница. Това може да включва и по-задълбочено събиране на данни Интерфейси за приложно програмиране (API) като Serpstack.

Изтеглете полезни данни от резултатите от търсенето с API на Serpstack

С API на serpstack можете лесно да събирате информация от страниците с резултати на Google и други търсачки.

Въпреки че някои хора вярват, че изстъргването в мрежата може да доведе до загуба на интелектуална собственост, това може да се случи само когато хората го правят злонамерено. Уеб изстъргването е законно и помага на бизнеса да взема по-добри решения, като събира публична информация за своите клиенти и конкуренти.

Свързани: Какво е Web Scraping? Как да събираме данни от уебсайтове

Например можете да напишете скрипт за събиране на данни от онлайн магазини за сравняване на цени и наличност. Въпреки че може да е малко по-технически, можете да събирате необработени медии като аудио файлове и изображения и през мрежата.

Обърнете внимание на примера на кода по-долу, за да видите поглед към изстъргването в мрежата с Python beautifulsoup4 HTML библиотека за парсер.

от bs4 внос BeautifulSoup
от urllib.request импортиране urlopen
url = "Въведете тук пълния URL адрес на целевата уеб страница"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
печат (webData.get_text ())

Преди да стартирате примерния код, ще трябва да инсталирате библиотеката. Създайте виртуална среда от вашия команден ред и инсталирайте библиотеката, като стартирате pip инсталирайте beautifulsoup4.

2. Чрез уеб формуляри

Можете също да използвате онлайн формуляри за събиране на данни. Това е най-полезно, когато имате целева група от хора, от които искате да събирате данните.

Недостатък на изпращането на уеб формуляри е, че може да не събирате толкова данни, колкото искате. Това е доста удобно за малки проекти за наука на данни или уроци, но може да срещнете ограничения, опитвайки се да достигнете до голям брой анонимни хора.

Въпреки че съществуват платени онлайн услуги за събиране на данни, те не се препоръчват за физически лица, тъй като те са прекалено скъпи - освен ако нямате нищо против да похарчите малко пари за проекта.

Съществуват различни уеб форми за събиране на данни от хора. Един от тях е Google Forms, до който можете да влезете, като отворите forms.google.com. Можеш използвайте Google Форми за събиране на информация за контакт, демографски данни и други лични данни.

След като създадете формуляр, всичко, което трябва да направите, е да изпратите връзката до целевата си аудитория чрез поща, SMS или каквото и да е налично.

Google Forms обаче е само един пример за популярни уеб форми. Има много алтернативи, които също вършат отлични задачи за събиране на данни.

Можете също така да събирате данни чрез социални медии като Facebook, LinkedIn, Instagram и Twitter. Получаването на данни от социалните медии е малко по-техническо от всеки друг метод. Той е напълно автоматизиран и включва използването на различни API инструменти.

Социалните медии могат да бъдат трудни за извличане на данни, тъй като са относително неорганизирани и има огромно количество от тях. Правилно организиран, този тип набор от данни може да бъде полезен в проекти за наука за данни, включващи онлайн анализ на настроенията, анализ на пазарните тенденции и онлайн брандиране.

Например Twitter е пример за източник на данни в социални медии, където можете да събирате голям обем набори от данни с него tweepy Python API пакет, който можете да инсталирате с pip инсталирайте tweepy команда.

Като основен пример блокът с код за извличане на туитове на началната страница на Twitter изглежда така:

внос tweepy
внос re
myAuth = tweepy. OAuthHandler (тук поставете потребителски ключ, поставете тук ключ на потребителски секрет)
auth.set_access_token (тук поставете access_token, тук поставете access_token_secret)
удостоверяване = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
за цели в target_tweet:
печат (targets.text)

Можете да посетите docs.tweepy.org уебсайт за достъп до tweepy документация за повече подробности как да го използвате. За да използвате API на Twitter, трябва да кандидатствате за акаунт на програмист, като се насочите към developer.twitter.com уебсайт.

Facebook е друга мощна социална медийна платформа за събиране на данни. Той използва специална API крайна точка, наречена Facebook Graph API. Този API позволява на разработчиците да събират данни за поведението на конкретни потребители на платформата Facebook. Можете да получите достъп до документацията за API на Facebook Graph на адрес developers.facebook.com за да научите повече за него.

Подробно обяснение на събирането на данни в социалните медии с API е извън обхвата на тази статия. Ако се интересувате да научите повече, можете да разгледате документацията на всяка платформа за задълбочени познания за тях.

В допълнение към писането на скриптове за свързване с крайна точка на API, данните в социалните медии, които събират инструменти на трети страни, като Експерт по изстъргване и много други също са на разположение. Повечето от тези уеб инструменти обаче имат цена.

4. Събиране на вече съществуващи набори от данни от официални източници

Можете да събирате и вече съществуващи набори от данни от авторитетни източници. Този метод включва посещение на официални банки данни и изтегляне на проверени масиви от тях. За разлика от уеб изстъргването и други опции, тази опция е по-бърза и изисква малко или никакви технически познания.

Наборите от данни за тези типове източници обикновено са налични във формати CSV, JSON, HTML или Excel. Някои примери за авторитетни източници на данни са Световната банка, UNdataи няколко други.

Някои източници на данни могат да направят текущите данни частни, за да попречат на обществеността да има достъп до тях. Архивите им обаче често са достъпни за изтегляне.

Още официални източници на данни за вашия проект за машинно обучение

Този списък трябва да ви даде добра отправна точка за получаване на различни видове данни, с които да работите във вашите проекти.

  • Портал за отворени данни на ЕС
  • Набори от данни Kaggle
  • Търсене в Google Dataset
  • Хъб за данни
  • Регистър на отворените данни на AWS
  • Европейска правителствена агенция - данни и карти
  • Отворени данни на Microsoft Research
  • Страхотно публично хранилище за набори от данни на GitHub
  • Данни. Правителство: Домът на отворените данни на правителството на САЩ

Има много повече източници от това и внимателното търсене ще ви възнагради с данни, идеални за вашите собствени проекти за наука за данни.

Комбинирайте тези съвременни техники за по-добри резултати

Събирането на данни може да бъде досадно, когато наличните инструменти за задачата са ограничени или трудни за разбиране. Докато по-старите и конвенционални методи все още работят добре и са неизбежни в някои случаи, съвременните методи са по-бързи и по-надеждни.

Въпреки това, вместо да разчитате на един-единствен метод, комбинацията от тези съвременни начини за събиране на вашите данни има потенциал да даде по-добри резултати.

електронна поща
5 Софтуерни инструменти за анализ на данни, които можете да научите бързо

Търсите да влезете в анализ на данни? Ето някои инструменти, които трябва да научите.

Свързани теми
  • Програмиране
  • Python
  • Голяма информация
  • Машинно обучение
  • Събиране на данни
  • Анализ на данни
За автора
Idowu Omisola (45 статии публикувани)

Idowu е запален по всичко интелигентни технологии и производителност. В свободното си време той си играе с кодиране и превключва на шахматната дъска, когато му е скучно, но също така обича да се откъсва от рутината от време на време. Страстта му да показва на хората пътя към съвременните технологии го мотивира да пише повече.

Още от Idowu Omisola

Абонирайте се за нашия бюлетин

Присъединете се към нашия бюлетин за технически съвети, рецензии, безплатни електронни книги и ексклузивни оферти!

Още една стъпка…!

Моля, потвърдете имейл адреса си в имейла, който току-що ви изпратихме.

.