AI моделите са толкова добри, колкото и данните, които влизат в тях. Това прави тези данни потенциална цел за атаки.

Напредъкът в областта на изкуствения интелект оказа значително влияние върху различни области. Това даде повод за безпокойство на доста технологични ентусиасти. Тъй като тези технологии се разширяват в различни приложения, те могат да доведат до увеличаване на противниковите атаки.

Какво представляват състезателните атаки в изкуствения интелект?

Съперническите атаки експлоатират спецификации и уязвимости в AI моделите. Те повреждат данните, от които са се научили AI моделите, и карат тези модели да генерират неточни резултати.

Представете си, че шегаджия променя плочките за скрабъл, подредени като ананас, за да станат „ябълкови“. Това е подобно на това, което се случва при състезателни атаки.

Преди няколко години получаването на няколко неправилни отговора или резултата от AI модел беше норма. Сега е точно обратното, тъй като неточностите се превърнаха в изключение, като потребителите на AI очакват почти перфектни резултати.

instagram viewer

Когато тези AI модели се прилагат към сценарии от реалния свят, неточностите могат да бъдат фатални, което прави противниковите атаки много опасни. Например стикерите върху пътните знаци могат да объркат автономна самоуправляваща се кола и да я накарат да влезе в трафика или директно в препятствие.

Видове състезателни атаки

Съществуват различни форми на състезателни атаки. С нарастваща интеграция на AI в ежедневните приложения, тези атаки вероятно ще станат по-лоши и по-сложни.

Независимо от това, можем грубо да класифицираме състезателните атаки на два типа въз основа на това колко заплашващият актьор знае за модела на ИИ.

1. Атаки с бяла кутия

в атаки на бялата кутия, участниците в заплахите имат пълно познаване на вътрешната работа на AI модела. Те знаят неговите спецификации, данни за обучение, техники за обработка и параметри. Това знание им позволява да изградят състезателна атака специално за модела.

Първата стъпка в атаката с бяла кутия е промяната на оригиналните данни за обучение, повреждането им по възможно най-малкия начин. Модифицираните данни все още ще бъдат много подобни на оригинала, но достатъчно значими, за да накарат AI модела да даде неточни резултати.

Това не е всичко След атаката актьорът на заплахата оценява ефективността на модела, като го захранва със съпернически примери -изкривени входове, предназначени да накарат модела да направи грешки— и анализира изхода. Колкото по-неточен е резултатът, толкова по-успешна е атаката.

2. Атаки на черна кутия

За разлика от атаките с бели кутии, където актьорът на заплахата знае за вътрешната работа на AI модела, извършителите на атаки на черна кутия нямам представа как работи моделът. Те просто наблюдават модела от мъртва точка, следейки неговите входни и изходни стойности.

Първата стъпка в атака на черна кутия е да изберете входната цел, която AI моделът иска да класифицира. След това актьорът на заплахата създава злонамерена версия на входа, като добавя внимателно изработен шум, смущения в данните, невидими за човешкото око, но способни да предизвикат AI модела неизправност.

Злонамерената версия се подава към модела и изходът се наблюдава. Резултатите, дадени от модела, помагат на заплахата да продължи да променя версията, докато не стане достатъчно уверен, че ще класифицира погрешно всички данни, въведени в нея.

Техники, използвани при състезателни атаки

Злонамерените субекти могат да използват различни техники за извършване на противникови атаки. Ето някои от тези техники.

1. отравяне

Нападателите могат да манипулират (отровят) малка част от входните данни на AI модел, за да компрометират наборите от данни за обучение и точността.

Има няколко форми на отравяне. Едно от често срещаните се нарича отравяне от задната врата, при което се засягат много малко данни от обучението. AI моделът продължава да дава много точни резултати, докато не бъде „активиран“ за неизправност при контакт със специфични тригери.

2. Укриване

Тази техника е доста смъртоносна, тъй като избягва откриването, следвайки системата за сигурност на AI.

Повечето модели с изкуствен интелект са оборудвани със системи за откриване на аномалии. Техниките за избягване използват състезателни примери, които преследват директно тези системи.

Тази техника може да бъде особено опасна срещу клинични системи като автономни автомобили или модели за медицинска диагностика. Това са области, в които неточностите могат да имат сериозни последствия.

3. Преносимост

Актьорите на заплахи, използващи тази техника, не се нуждаят от предишни познания за параметрите на AI модела. Те използват състезателни атаки, които са били успешни в миналото срещу други версии на модела.

Например, ако състезателна атака накара модел на класификатор на изображения да обърка костенурка с пушка, точната атака може да накара други модели на класификатор на изображения да направят същата грешка. Другите модели може да са били обучени на различен набор от данни и дори да имат различна архитектура, но пак биха могли да станат жертва на атаката.

4. Сурогатно майчинство

Вместо да преследва системите за сигурност на модела, използвайки техники за избягване или предишни успешни атаки, заплахата може да използва сурогатен модел.

С тази техника заплахата създава идентична версия на целевия модел, сурогатен модел. Резултатите, параметрите и поведението на сурогат трябва да бъдат идентични с оригиналния модел, който е бил копиран.

Сурогатът сега ще бъде подложен на различни състезателни атаки, докато някой не го накара да произведе неточен резултат или да извърши грешна класификация. След това тази атака ще бъде използвана върху първоначалния целеви AI.

Как да спрете съперническите атаки

Защитата срещу противникови атаки може да бъде сложна и отнема много време, тъй като участниците в заплахата използват различни форми и техники. Въпреки това, следните стъпки могат да предотвратят и спрат противникови атаки.

1. Състезателно обучение

Най-ефективната стъпка, която може да предотврати състезателни атаки, е състезателното обучение, обучението на AI модели и машини с помощта на състезателни примери. Това подобрява устойчивостта на модела и му позволява да бъде устойчив на най-малките входни смущения.

2. Редовен одит

Необходимо е редовно да проверявате за слабости в системата за откриване на аномалии на AI модел. Това включва умишлено захранване на модела с противопоставящи се примери и наблюдение на поведението на модела спрямо злонамерения вход.

3. Дезинфекция на данни

Този метод включва проверка за въвеждане на злонамерени данни в модела. След идентифицирането им те трябва да бъдат незабавно отстранени.

Тези данни могат да бъдат идентифицирани с помощта на валидиране на входа, което включва проверка на данните за модели или подписи на известни преди това състезателни примери.

4. Актуализации за защита

Би било трудно да сбъркате с актуализации и корекции за сигурност. Многопластова сигурност като защитни стени, програми против зловреден софтуер и системи за откриване и предотвратяване на проникване може да помогне за блокиране на външна намеса от заплахи, които искат да отровят AI модел.

Съперническите атаки могат да бъдат достоен противник

Концепцията за състезателни атаки представлява проблем за напредналото обучение и машинното обучение.

В резултат на това AI моделите трябва да бъдат въоръжени със защити като състезателно обучение, редовен одит, дезинфекция на данни и подходящи актуализации за сигурност.