Извличането на данни е голяма част от работата по нови и иновативни проекти. Но как да се сдобиете с големи данни от цял интернет?
Ръчно събиране на данни не може да се говори. Прекалено отнема много време и не дава точни или всеобхватни резултати. Но между специализиран софтуер за изстъргване на уеб и специализиран API на уебсайт, кой маршрут гарантира най -доброто качество на данните, без да се жертва целостта и морала?
Какво е събиране на уеб данни
Събирането на данни е процес на извличане на публично достъпни данни директно от онлайн уебсайтове. Вместо да се разчита само на официални източници на информация, като предишни проучвания и проучвания, проведени от големи компании и надеждни институции, събирането на данни ви позволява да вземете събирането на данни по своему ръце.
Всичко, от което се нуждаете, е уебсайт, който публично предлага типа данни, които търсите, инструмент за извличането им и база данни за съхранението им.
Първата и последната стъпка са доста ясни. Всъщност можете да изберете произволен уебсайт чрез Google и да съхранявате данните си в електронна таблица на Excel. Извличането на данните е мястото, където нещата стават трудни.
Поддържането му законово и етично
По отношение на законността, стига да не използвате техники за черна шапка, за да се докоснете до данните или да нарушите политиката за поверителност на уебсайта, вие сте наясно. Също така трябва да избягвате да правите нещо незаконно с данните, които събирате, като неоправдани маркетингови кампании и вредни приложения.
Събирането на етични данни е малко по -сложен въпрос. На първо място, трябва да зачитате правата на собственика на уебсайта върху техните данни. Ако имат стандарти за изключване на роботи в някои или всички части на уебсайта си, избягвайте го.
Това означава, че не искат никой да изтрие данните им без изрично разрешение, дори ако те са обществено достъпни. Освен това трябва да избягвате изтеглянето на твърде много данни наведнъж, тъй като това може да срине сървърите на уебсайта и да ви маркира като DDoS атака.
Изтриването на уеб е възможно най -близо до вземането на събиране на данни в свои ръце. Те са най-персонализираната опция и правят процеса на извличане на данни прост и удобен за потребителя, като същевременно ви дават неограничен достъп до цялата налична информация на уебсайта.
Инструменти за изстъргване в мрежата, или уеб стъргалки, са софтуер, разработен за извличане на данни. Те често се предлагат в удобни за данни езици за програмиране като Python, Ruby, PHP и Node.js.
Уеб скреперите автоматично зареждат и четат целия уебсайт. По този начин те нямат достъп само до данни на повърхностно ниво, но могат да четат и HTML кода на уебсайт, както и CSS и Javascript елементи.
Можете да настроите вашия скрепер да събира определен тип данни от множество уебсайтове или да го инструктирате да чете и дублира всички данни, които не са криптирани или защитени от файл Robot.txt.
Уеб скреперите работят чрез прокси сървъри, за да избегнат блокиране от защитата на уебсайта и технологиите за защита от спам и ботове. Те използват прокси сървъри да скрият самоличността си и да маскират IP адреса си, за да изглежда като обикновен потребителски трафик.
Но имайте предвид, че за да бъдете изцяло скрити, докато остъргвате, трябва да настроите инструмента си да извлича данни с много по -бавна скорост - такава, която съответства на скоростта на човешкия потребител.
Лесна употреба
Въпреки че силно разчитат на сложни езици за програмиране и библиотеки, инструментите за изстъргване на уеб са лесни за използване. Те не изискват да сте експерт по програмиране или наука за данни, за да извлечете максимума от тях.
Освен това уеб скреперите подготвят данните за вас. Повечето уеб скрепери автоматично преобразуват данните в удобни за потребителя формати. Те също така го компилират в готови за използване пакети за изтегляне за лесен достъп.
Извличане на API данни
API означава интерфейс за програмиране на приложения. Но това не е инструмент за извличане на данни, колкото функция, която собствениците на уебсайтове и софтуер могат да изберат да внедрят. API действат като посредник, позволявайки на уебсайтовете и софтуера да комуникират и обменят данни и информация.
В днешно време повечето уебсайтове, които обработват огромни количества данни, имат специален API, като Facebook, YouTube, Twitter и дори Wikipedia. Но докато уеб скреперът е инструмент, който ви позволява да преглеждате и изстъргвате най -отдалечените ъгли на уебсайт за данни, приложните програмни интерфейси са структурирани в тяхното извличане на данни.
Как работи извличането на данни от API?
Приложните програмни интерфейси (API) не изискват от комбайнерите на данни да зачитат поверителността им. Те го прилагат в кода си. API се състоят от правила които изграждат структура и поставят ограничения върху потребителското изживяване. Те контролират вида на данните, които можете да извлечете, кои източници на данни са отворени за събиране и вида на честотата на вашите искания.
Можете да мислите за API като за персонализиран комуникационен протокол на уебсайт или приложение. Той трябва да спазва определени правила и трябва да говори езика му, преди да общувате с него.
Как да използвате API за извличане на данни
За да използвате API, имате нужда от прилично ниво на познаване на езика на заявките, който уебсайтът използва, за да иска данни чрез синтаксис. По -голямата част от уебсайтовете използват JavaScript Object Notation или JSON в своите API, така че имате нужда от някои, за да изострите знанията си, ако ще разчитате на API.
Но не свършва дотук. Поради големия обем данни и различните цели, които хората често имат, API обикновено изпращат необработени данни. Въпреки че процесът не е сложен и изисква само разбиране на бази данни на ниво начинаещ, ще трябва да преобразувате данните в CVS или SQL, преди да можете да направите нещо с тях.
За щастие, не е толкова лошо да се използва API.
Тъй като те са официален инструмент, предлаган от уебсайта, не е нужно да се притеснявате за използването на прокси сървър или блокирането на вашия IP адрес. И ако се притеснявате, че бихте могли да преминете някои етични граници и да премахнете данни, до които не сте били допуснати, приложните програмни интерфейси ви дават достъп само до данните, които собственикът иска да даде.
В зависимост от текущото ви ниво на умения, целевите ви уебсайтове и целите ви, може да се наложи да използвате както API, така и инструменти за остъргване в мрежата. Ако уебсайт няма специален API, използването на уеб скрепер е единствената ви опция. Но уебсайтовете с API-особено ако таксуват за достъп до данни-често правят остъргването с помощта на инструменти на трети страни почти невъзможно.
Кредит на изображението: Джошуа Сортино/Unsplash
Мислите ли да си купите таблет с Android? Ето причини да помислите за алтернативни таблети, плюс няколко препоръки за таблети.
Прочетете Напред
- Обяснена технология
- Програмиране
- Голяма информация
- Събиране на данни
- Уеб разработка
Анина е писател на технологии на свободна практика и интернет сигурност в MakeUseOf. Тя започна да пише в киберсигурността преди 3 години с надеждата да я направи по -достъпна за обикновения човек. Увлечен по изучаването на нови неща и огромен астрономически глупак.
Абонирайте се за нашия бюлетин
Присъединете се към нашия бюлетин за технически съвети, рецензии, безплатни електронни книги и изключителни оферти!
Щракнете тук, за да се абонирате