GPTBot вероятно не е това, което си мислите.

Ключови изводи

  • GPTBot на OpenAI е уеб робот, предназначен да събира данни от публични уебсайтове, които след това се използват за обучение и подобряване на AI модели като GPT-4 и ChatGPT.
  • Някои от най-големите уебсайтове в интернет блокират GPTBot, тъй като има достъп и използва защитено с авторски права съдържание без разрешение или компенсация на създателите.
  • Докато уебсайтовете могат да използват инструменти като robots.txt, за да се опитат да блокират GPTBot, няма гаранции, че OpenAI ще се съобрази, което им дава контрол върху достъпа до защитени с авторски права данни.

През август 2023 г. OpenAI, централата на изкуствения интелект, на която се приписва разработването на ChatGPT, обяви GPTBot, уеб робот, предназначен да обикаля мрежата и да събира данни.

Малко след това съобщение някои от най-големите уебсайтове в интернет блокираха достъпа на бота до техния уебсайт. Но защо? Какво представлява GPTBot на OpenAI? Защо големите уебсайтове се страхуват от него и защо се опитват да го блокират?

instagram viewer

Какво представлява GPTBot на OpenAI?

GPTBot е уеб робот, създаден от OpenAI за търсене в интернет и събиране на информация за целите на OpenAI за развитие на AI. Той е програмиран да обхожда обществени уебсайтове и да изпраща данните обратно към сървърите на OpenAI. След това OpenAI използва тези данни, за да обучи и подобри своите AI модели, с цел изграждане на все по-напреднали системи с изкуствен интелект. За изграждането на сложни AI модели като GPT-4 или неговите дъщерни продукти като ChatGPT, уеб роботите са почти незаменими.

Обучението на AI модел изисква огромно количество данни и един от най-ефективните начини за събиране на тези данни е чрез внедряване на инструменти като уеб роботи. Роботите могат систематично да сърфират в мрежата, да следват връзки, за да индексират големи обеми уеб страници и да извличат ключови данни като текст, изображения и метаданни, които съответстват на предварително дефиниран модел.

След това тези данни могат да бъдат структурирани и въведени в AI модели, за да обучат техните способности за обработка на естествен език или способности за генериране на изображения или да ги обучат за други задачи на AI. С други думи, уеб роботите събират данните, които позволяват на инструменти като ChatGPT или DALL-E да правят това, което правят.

Уеб роботите не са нова концепция. Вероятно има милиони от тях, които обхождат милиардите уебсайтове, достъпни в интернет днес. И те съществуват поне от началото на 90-те. GPTBot е само един от тези роботи, собственост на OpenAI. И така, какво причинява спора около този конкретен уеб робот?

Защо големите технологични сайтове блокират GPTBot?

Според Business Insider, някои от най-големите уебсайтове в интернет активно блокират робота на OpenAI на своя уебсайт. Така че, ако крайната цел на GPTBot е да напредне в развитието на AI, защо някои от най-големите сайтове в интернет, някои от които са се възползвали по един или друг начин от AI, са против това?

Е, това е нещото. След възраждането на генеративните AI технологии през 2022 г. имаше множество дебати относно правото на AI компаниите да използват, почти неограничено, данни, получени от интернет, значителна част от които са законово защитени от Авторско право. Няма ясни закони, уреждащи как тези компании събират и използват данни за собствена изгода.

И така, основно роботи като GPTBot обхождат мрежата, грабват творческата работа на хората под формата на текст, изображения или други форми на медии и да ги използвате за търговски цели, без да получавате разрешение, лиценз или предоставяне на компенсация на оригинала създатели.

Навън е див запад и компаниите за изкуствен интелект грабват всичко, до което могат да се докопат. Големи уебсайтове като Quora, CNN, New York Times, Business Insider и Amazon не са много доволни, че техните съдържание, защитено с авторски права, се събира от тези роботи, така че OpenAI може да извлече финансова полза от него при тях разход.

Ето защо тези сайтове внедряват „robots.txt“, стар от десетилетия метод за блокиране на уеб роботи. Според OpenAI, GPTBot ще се подчинява на инструкции за обхождане или избягване на обхождане на уебсайтове въз основа на правилата, вградени в robots.txt, малък текстов файл, който казва на уеб роботите как да се държат на даден сайт. Ако имате собствен сайт и бихте искали да попречите на GPTBot да грабне вашите данни, ето как можете блокирайте роботите на OpenAI от сканиране на вашия уебсайт.

Могат ли уебсайтовете наистина да спрат GPTBot?

Докато роботи като GPTBot са незаменими за събиране на огромни количества данни, необходими за обучават усъвършенствани AI системи, има основателни опасения относно авторските права и честната употреба, които не могат да бъдат игнориран.

Разбира се, има прости инструменти като robots.txt, които могат да се използват за защита срещу това, но дали GPTBot се подчинява на инструкциите в този файл е изцяло по преценка на OpenAI. Няма гаранции, че ще го направят, и няма незабавен надежден начин да се каже дали са го направили. В борбата да държи GPTBot далеч от защитени с авторски права данни, OpenAI държи асата, поне засега.