Уеб изстъргването включва събиране на информация под формата на данни от уебсайтове или страници. Въпреки че вашият може да не е съзнателен акт, вие сте изстъргали мрежата по един или друг начин, докато събирате информация. Но това обикновено е фино.

Уеб изстъргването или изстъргването на екрана обикновено е целенасочен акт и професионалистите автоматизират дизайна, за да получат огромни данни. Дали чрез ръчно копиране на текстове на уебсайт, използване на специализирани инструменти или писане на скриптове за изстъргване на уеб, понякога уеб стъргалките удрят силно върху уебсайт, като отправят няколко заявки наведнъж.

Но докато много фирми сега използват уеб изстъргването, за да стимулират конкурентно предимство, всъщност законно ли е?

Кои уебсайтове трябва и не трябва да изстъргвате?

Интернет е набор от информация, който дава на хората достъп до стари данни и данни в реално време. Уеб изстъргването или изстъргването на екрана съществува от известно време. Но колко трябва да го използвате и кои уебсайтове можете да изстържете?

instagram viewer

Някои уебсайтове са строги с уеб роботите или скреперите на екрана и ги блокират напълно. Така че е очевидно очевидно, че не трябва да изстъргвате такива уебсайтове. Но хората все още го правят.

За съжаление едва ли има нещо друго, което подобни сайтове могат да направят, за да го спрат, освен да поправят вратичките си.

Преди да изстържете уебсайт, в идеалния случай трябва да проверите дали той позволява обхождане или не. Обикновено можете да разберете това, като проверите файла robots.txt на сайта. Можете да направите това, като напишете „[URL на уебсайта] /robots.txt“.

Robots.txt обикновено задава правила за различни обхождащи или потребителски агенти. Тези правила обаче се различават в зависимост от съответния уебсайт. Докато някои сайтове позволяват обхождане на всички страници, някои посочват страниците, които ботът може да обходи, а някои блокират обхождането направо.

Уебсайт, който блокира всички потребителски агенти да обхождат всички страници, обикновено задава следните правила:

потребителски агент: *
Забрани: /

Файл robots.txt, който блокира всички ботове да обхождат определени директории или страници, обикновено изглежда така:

потребителски агент: *
Забрани: / URL към страница 1
Забраняване: / URL към страница 2

Ако robots.txt не забрани страницата, която искате да обходите, тогава вероятно можете да я изстържете. В противен случай трябва да отстъпите или да потърсите съгласието на администратора. Те могат да ви предоставят достъп.

Освен това някои уебсайтове изрично посочват дали разрешават обхождане или не в условията си на използване. Някои дори заявяват това в горната част на своя robots.txt. Винаги проверявайте и това, за да сте сигурни, че постъпвате правилно.

Как се злоупотребява с уеб изстъргването

Така че, ако сте получавали имейли със спам или SMS от уебсайтове или хора, на които никога не сте предоставили личната си информация, вероятно по някакъв начин сте били остъргани някъде. И най-вече чрез една от вашите дръжки в социалните медии.

Въпреки това, изстъргването на уеб понякога е нещо повече от просто събиране на данни, които се показват в предния край. Ако се използва злонамерено, това може да доведе до изтичане на лична и класифицирана информация.

Докато повечето платформи за социални медии се намръщват, обхождащите ботове все още имат достъп до профилите на хората и информацията за контактите им изтича и се изтрива.

Facebook, например, се съобщава, че в миналото е имал уязвимости, които са изтекли информация за контакт на потребителите, въпреки че потребителите ги пазят частни.

По същия начин LinkedIn наскоро претърпя нарушение на сигурността, което доведе до изтичане на лични данни принадлежащи към над 500 милиона сметки. Следователно тази уязвимост доведе до споделяне на много имейл адреси и телефонни номера без съгласието на собствениците на профила.

Незаконно ли е да се изстъргва уебсайт?

Никога не е имало заключение относно законността на изстъргването в мрежата. Вместо това фокусът е върху това как роботът работи за всеки отделен случай и какво използват събраните данни за постигане.

Така че вместо да се прави заключение относно неговата законосъобразност, остъргването, когато се извършва злонамерено, е незаконно. Но ако се направи разумно, това не е незаконно.

Но както се очакваше, изглежда има по-строга политика за изстъргване и използване на данните в социалните медии, тъй като поверителността на потребителите е толкова важна. Все пак всичко се свежда до това как хората изстъргват данните.

The Закон за интернет и социални медии анализира случая с hiQ Labs, компания за извличане на данни, която спечели съдебно дело срещу LinkedIn през 2019 г., след като се опита да блокира hiQ Labs от изстъргване на публично достъпни данни на потребителите на LinkedIn.

Тъй като hiQ Labs твърдят, че Законът за компютърните измами и злоупотреби (CFAA) забранява само неоторизиран достъп, решение потвърди, че данните на LinkedIn са публично достъпни, така че всеки, който ги изстъргва, го е направил, защото те са достъпни.

Освен това, hiQ Labs използваха само изтритите данни, за да предоставят аналитични решения на компаниите, за да могат да вземат по-добри решения за набиране на персонал.

Обратно, Facebook наскоро съди разработчиците на разширения за Chrome които изтриха профилите на потребителите на Facebook без тяхното съгласие.

По същия начин, a сайтът copycat беше съден от Facebook за изстъргване на информация за профила на няколко потребители на Instagram и след това използването им за създаване на клонинги. Според този доклад Facebook след това е отишъл по-далеч, за да получи постоянна съдебна забрана срещу нарушителя.

Това са няколко случая, при които хората може да са използвали незаконно изстъргване на уеб. Споменатите компании събираха данните на потребителите на Facebook измамно, без съгласието на своите потребители. Така че нарушава политиките за поверителност.

Така че, макар че изчистването в мрежата може да осуети сайта, от който получава данни, понастоящем никое общо правило не спира хората да получават това, което искат, стига да не нарушават интернет законите направо.

Изтриването на уеб е синоним на хакерство?

Има няколко мита около изрязването на мрежата. Едно от тях е убеждението, че изстъргването на уебсайт означава, че сте го хакнали. Въпреки че хакерството в крайна сметка може да доведе до изтриване на данни, твърдението, че самият термин означава хакване на уебсайт, не е вярно.

Уеб изстъргването може да включва използването на специални инструменти за пълзене или изстъргване, Интерфейси за приложно програмиране (API) или скриптове за изчистване на уеб, за да получите рендирани данни от уебсайт. За разлика от хакерството, той нито компрометира уебсайта, който изтрива, нито нарушава опита на своите потребители.

Свързани: Какво е уеб изстъргване? Как да събираме данни от уебсайтове

Така че, докато хакерството включва неоторизиран достъп, обикновено до базата данни на уебсайт, изстъргването в мрежата е насочено само към данни, които вече са видими на предния край. Въпреки че хората могат да използват уеб изстъргване злонамерено, това все още не е синоним на хакерство.

В допълнение към това, за разлика от изстъргването на уеб, умишленото и неетично хакване е незаконно.

Какви са положителните страни на изстъргването в мрежата?

Уеб изстъргването има много положителни страни и дори някои технологични компании вече предлагат данните си безплатно чрез API. Тази информация обикновено не е достатъчна за оценка на бизнес тенденциите и вземане на решения.

Така че компаниите вече получават повече данни, като изстъргват мрежата, за да подобрят практиките и да стимулират продажбите. Освен това изследователите на данни захранват алгоритмите за машинно обучение с данни, събрани чрез изстъргване на екрана.

Такива данни могат да бъдат картини, използвани при разпознаване на изображения, обикновени текстове за анализ на настроенията или директни данни за продуктите за пазарна информация и анализ на поведението на потребителите.

Свързани: Уникални начини за получаване на набори от данни за вашия проект за машинно обучение

Така че изстъргването в мрежата е още по-полезно, защото ако имате достъп до информация, която вашият конкурент няма, можете да ги победите.

Докато някои сайтове се мръщят на уеб скрепери, някои, дори услуги за електронна търговия, не се интересуват дали изстъргвате данните им или не. Уеб гиганти като eBay и Salesforce стартираха своя API през 2000 г., като за първи път предложиха на програмистите достъп до публични данни.

Трябва ли всъщност да изстържете мрежата?

Установихме, че изстъргването в мрежата не е незаконно, когато се прави по правилния начин. Но това, което правите с данните, които изстъргвате, също е проблем. Затова, вместо да злоупотребявате с това, използвайте го, за да извлечете повече прозрения, които помагат на вас и другите да вземете информирани решения.

Изрязването на мрежата като умение обаче ви дава достъп до големи парчета интернет данни, които могат да помогнат на вас или вашата компания да останете над бизнес нишата. Като учен по данни, той дори разширява обхвата ви и подобрява кодирането и техническите ви умения.

Например, Python е един от езиците за програмиране, който ви помага лесно да изстържете уебсайт с неговата библиотека Beautiful Soup или рамка Scrapy.

електронна поща
Изстържете уебсайт с този урок за красива супа за Python

Интересувате ли се от изстъргване в мрежата? Ето как да изстържете уебсайт за съдържание и още с библиотеката Beautiful Soup Python.

Прочетете Напред

Свързани теми
  • Сигурност
  • Програмиране
  • Онлайн сигурност
  • Уеб изстъргване
За автора
Idowu Omisola (Публикувани 71 статии)

Idowu е запален по всичко интелигентни технологии и производителност. В свободното си време той се заиграва с кодиране и превключва на шахматната дъска, когато му е скучно, но също така обича да се откъсва от рутината от време на време. Страстта му да показва на хората пътя към съвременните технологии го мотивира да пише повече.

Още от Idowu Omisola

Абонирайте се за нашия бюлетин

Присъединете се към нашия бюлетин за технически съвети, рецензии, безплатни електронни книги и ексклузивни оферти!

Още една стъпка…!

Моля, потвърдете имейл адреса си в имейла, който току-що ви изпратихме.

.