Загрижени ли сте за това, че чат ботовете с изкуствен интелект изчистват съдържанието на уебсайта ви? За щастие можете да ги блокирате да го направят. Ето как.

При сегашното състояние на нещата чатботовете с изкуствен интелект имат безплатен лиценз да скрейпват вашия уебсайт и да използват съдържанието му без ваше разрешение. Притеснявате се, че съдържанието ви ще бъде изтрито от такива инструменти?

Добрата новина е, че можете да спрете достъпа на AI инструментите до уебсайта си, но има някои предупреждения. Тук ви показваме как да блокирате ботовете, използвайки файла robots.txt за вашия уебсайт, както и предимствата и недостатъците на това.

Как AI Chatbots осъществяват достъп до вашето уеб съдържание?

AI chatbots се обучават с помощта на множество набори от данни, някои от които са с отворен код и са публично достъпни. Например GPT3 беше обучен с помощта на пет набора от данни, според изследователска статия, публикувана от OpenAI:

  1. Обикновено пълзене (60% тегло в тренировка)
  2. WebText2 (22% тегло в обучението)
  3. instagram viewer
  4. Книги1 (8% тегло в обучението)
  5. Книги2 (8% тегло в обучението)
  6. Wikipedia (3% тегло в обучението)

Обикновено обхождане включва петабайти (хиляди TB) данни от уебсайтове, събрани от 2008 г., подобно на начина, по който алгоритъмът за търсене на Google обхожда уеб съдържание. WebText2 е набор от данни, създаден от OpenAI, съдържащ приблизително 45 милиона уеб страници, свързани с публикации в Reddit с поне три гласа за.

Така че, в случая с ChatGPT, AI ботът не осъществява достъп и не обхожда директно вашите уеб страници – все още не, така или иначе. Въпреки това, OpenAI's съобщение за уеб браузър, хостван от ChatGPT изрази опасения, че това може да се промени.

Междувременно собствениците на уебсайтове трябва да следят други чат ботове с изкуствен интелект, тъй като все повече от тях излизат на пазара. Бард е другото голямо име в областта, за което се знае много малко наборите от данни, използвани за обучението му. Очевидно знаем, че ботовете за търсене на Google непрекъснато обхождат уеб страници, но това не означава непременно, че Bard има достъп до същите данни.

Защо някои собственици на уебсайтове са загрижени?

Най-голямата грижа за собствениците на уебсайтове е, че AI ботове като ChatGPT, Bard и Bing Chat обезценяват съдържанието им. AI ботовете използват съществуващо съдържание, за да генерират своите отговори, но също така намаляват необходимостта потребителите да имат достъп до оригиналния източник. Вместо потребителите да посещават уебсайтове за достъп до информация, те могат просто да накарат Google или Bing да генерират обобщение на необходимата им информация.

Що се отнася до AI chatbots при търсене, голямата грижа за собствениците на уебсайтове е загубата на трафик. В случая с Bard, AI ботът рядко включва цитати в своите генеративни отговори, като казва на потребителите от кои страници получава информацията си.

Така че, освен че заменя посещенията на уебсайтове с отговори на AI, Bard премахва почти всяка възможност уебсайтът източник да получи трафик – дори ако потребителят иска повече информация. Bing Chat, от друга страна, по-често препраща към източници на информация.

С други думи, сегашният флот от генеративни AI инструменти е такъв използвайки работата на създателите на съдържание систематично да замени нуждата от създатели на съдържание. В крайна сметка трябва да попитате какъв стимул оставя това на собствениците на уебсайтове за да продължите да публикувате съдържание. И като разширение, какво се случва с AI ботовете, когато уебсайтовете спрат да публикуват съдържанието, на което разчитат, за да функционират?

Как да блокирате AI ботове от вашия уебсайт

Ако не искате AI ботове да използват вашето уеб съдържание, можете да им блокирате достъпа до вашия сайт, като използвате robots.txt файл. За съжаление трябва да блокирате всеки отделен бот и да го посочите по име.

Например ботът на Common Crawl се нарича CCBot и можете да го блокирате, като добавите следния код към вашия файл robots.txt:

Потребителски агент: CCBot
Забрана: /

Това ще блокира Common Crawl да обхожда вашия уебсайт в бъдеще, но няма да премахне никакви данни, вече събрани от предишни обхождания.

Ако се притеснявате, че новите добавки на ChatGPT имат достъп до вашето уеб съдържание, OpenAI вече публикува инструкции за блокиране на неговия бот. В този случай ботът на ChatGPT се нарича ChatGPT-User и можете да го блокирате, като добавите следния код към вашия файл robots.txt:

Потребителски агент: ChatGPT-User
Забрана: /

Блокирането на ботове с изкуствен интелект на търсачките да обхождат вашето съдържание обаче е съвсем друг проблем. Тъй като Google е много потаен относно данните за обучение, които използва, невъзможно е да се определи кои ботове ще трябва да блокирате и дали те изобщо ще зачитат команди във вашия robots.txt файл (много роботи не го правят).

Колко ефективен е този метод?

Блокиране на AI ботове във вашия robots.txt файл е най-ефективният наличен в момента метод, но не е особено надежден.

Първият проблем е, че трябва да посочите всеки бот, който искате да блокирате, но кой може да следи всеки AI бот, излизащ на пазара? Следващият проблем е, че командите във вашия robots.txt файл са незадължителни инструкции. Докато Common Crawl, ChatGPT и много други ботове спазват тези команди, много ботове не го правят.

Другото голямо предупреждение е, че можете да блокирате само ботовете с изкуствен интелект да извършват бъдещи обхождания. Не можете да премахвате данни от предишни обхождания или да изпращате заявки до компании като OpenAI за изтриване на всички ваши данни.

За съжаление, няма лесен начин да блокирате достъпа на всички AI ботове до вашия уебсайт и ръчното блокиране на всеки отделен бот е почти невъзможно. Дори ако сте в крак с най-новите AI ботове, роумиращи в мрежата, няма гаранция, че всички те ще се придържат към командите във вашия robots.txt файл.

Истинският въпрос тук е дали резултатите си заслужават усилията и краткият отговор е (почти сигурно) не.

Блокирането на AI ботове от вашия уебсайт също има потенциални недостатъци. Най-вече няма да можете да събирате значими данни, за да докажете дали инструменти като Bard носят полза или вредят на вашата маркетингова стратегия за търсене.

Да, можете да приемете, че липсата на цитати е вредна, но само предполагате дали ви липсват данните, защото сте блокирали достъпа на ботове с изкуствен интелект до вашето съдържание. Беше подобна история, когато Google представи за първи път представени фрагменти да търсите.

За подходящи заявки Google показва фрагмент от съдържание от уеб страници на страницата с резултати, като отговаря на въпроса на потребителя. Това означава, че потребителите не трябва да кликват до уебсайт, за да получат отговора, който търсят. Това предизвика паника сред собствениците на уебсайтове и SEO експертите, които разчитат на генериране на трафик от заявки за търсене.

Въпреки това, типът заявки, които задействат представени фрагменти, обикновено са търсения с ниска стойност като „какво е X“ или „какво е времето в Ню Йорк“. Всеки, който иска задълбочена информация или изчерпателен метеорологичен доклад, все още ще кликне, а тези, които не искат, никога не са били толкова ценни на първо място.

Може да откриете, че това е подобна история с генеративни AI инструменти, но ще ви трябват данните, за да го докажете.

Не бързайте с нищо

Собствениците на уебсайтове и издателите са разбираемо загрижени за AI технологията и разочаровани от идеята ботове да използват тяхното съдържание, за да генерират незабавни отговори. Това обаче не е моментът за бързане в контраофанзивни действия. AI технологията е бързо развиваща се област и нещата ще продължат да се развиват с бързи темпове. Възползвайте се от тази възможност, за да видите как се развиват нещата и да анализирате потенциалните заплахи и възможности, които AI носи на масата.

Настоящата система за разчитане на работата на създателите на съдържание, за да ги замени, не е устойчива. Независимо дали компании като Google и OpenAI променят подхода си или правителствата въвеждат нови регулации, нещо трябва да даде. В същото време отрицателните последици от AI chatbots върху създаването на съдържание стават все по-очевидни, което собствениците на уебсайтове и създателите на съдържание могат да използват в своя полза.