Обучението с нулев удар решава няколко проблема в машинното обучение, но как работи и как прави ИИ по-добър?
Ключови изводи
- Обобщението е от съществено значение при дълбокото обучение, за да се гарантират точни прогнози с нови данни. Обучението с нулев удар помага да се постигне това, като позволява на AI да използва съществуващите знания, за да прави точни прогнози за нови или невиждани класове без етикетирани данни.
- Обучението с нулев удар имитира как хората учат и обработват данни. Като предоставя допълнителна семантична информация, предварително обучен модел може точно да идентифицира нови класове, точно както човек може да се научи да идентифицира китара с кухо тяло, като разбере нейните характеристики.
- Обучението с нулев удар подобрява AI чрез подобряване на генерализацията, мащабируемостта, намаляване на прекомерното оборудване и е рентабилно. Позволява моделите да бъдат обучавани на по-големи набори от данни, да получават повече знания чрез трансфер на обучение, да имат по-добро разбиране на контекста и да намаляват необходимостта от обширни етикетирани данни. С напредването на ИИ обучението с нулев удар ще стане още по-важно при справянето със сложни предизвикателства в различни области.
Една от най-големите цели на дълбокото обучение е да обучава модели, които са придобили обобщени знания. Обобщението е от съществено значение, защото гарантира, че моделът е научил значими модели и може да прави точни прогнози или решения, когато е изправен пред нови или невиждани данни. Обучението на такива модели често изисква значително количество етикетирани данни. Такива данни обаче могат да бъдат скъпи, трудоемки и понякога невъзможни.
Zero-shot обучение е внедрено, за да се преодолее тази празнина, позволявайки на AI да използва съществуващите си знания, за да прави доста точни прогнози въпреки липсата на етикетирани данни.
Какво е Zero-Shot Learning?
Обучението с нулев удар е специфичен тип техника за трансферно обучение. Той се фокусира върху използването на предварително обучен модел за идентифициране на нови или невиждани досега класове просто чрез предоставяне на допълнителна информация, която описва подробностите на новия клас.
Като използва общите познания на модела по определени теми и му дава допълнителна семантика за това какво да търси, той трябва да може да определи доста точно какъв обект е натоварен да идентифицира.
Да кажем, че трябва да идентифицираме зебра. Ние обаче нямаме модел, който да идентифицира такива животни. И така, получаваме предварително съществуващ модел, обучен да идентифицира коне и казваме на модела, че конете с черни и бели ивици са зебри. Когато започнем да извеждаме модела чрез предоставяне на изображения на зебри и коне, има голям шанс моделът да идентифицира всяко животно правилно.
Подобно на много техники за задълбочено обучение, обучението с нулев удар имитира как хората учат и обработват данни. Известно е, че хората са естествени учещи с нулев шанс. Ако сте получили задачата да намерите китара с кухо тяло в музикален магазин, може да имате проблеми с търсенето. Но след като ви кажа, че кухото тяло е основно китара с f-образен отвор от едната или от двете страни, вероятно веднага ще го намерите.
За пример от реалния свят, нека използваме приложението за класификация с нулев удар от LLM хостинг сайт с отворен код Hugging Face използвайки големия модел clip-vit.
Тази снимка представя изображение на хляб в чанта за хранителни стоки, закачена на висок стол. Тъй като моделът е обучен на голям набор от изображения, моделът вероятно може да идентифицира всеки артикул в снимката, като хляб, хранителни стоки, столове и предпазни колани.
Сега искаме моделът да класифицира изображението, използвайки невиждани досега класове. В този случай новите или невидяните класове биха били „Спокоен хляб“, „Безопасен хляб“, „Седящ хляб“, „Шофиране в магазин за хранителни стоки“ и „Безопасен магазин за хранителни стоки“.
Имайте предвид, че нарочно сме използвали необичайни невидими класове и изображения, за да демонстрираме ефективността на класификацията с нулев изстрел върху изображение.
След извеждане на модела, той успя да класифицира с около 80% сигурност, че най-подходящата класификация за изображението беше „Безопасен хляб“. Това вероятно е, защото моделът смята, че столът за хранене е по-скоро за безопасност, отколкото за сядане, релаксация или шофиране.
Страхотно! Аз лично бих се съгласил с изхода на модела. Но как точно моделът е стигнал до такъв резултат? Ето общ поглед върху това как работи обучението с нулев удар.
Как работи Zero-Shot Learning
Zero-shot обучението може да помогне на предварително обучен модел да идентифицира нови класове, без да предоставя етикетирани данни. В най-простата си форма обучението с нулев удар се извършва в три стъпки:
1. Подготовка
Zero-shot обучение започва с подготовката на три типа данни
- Видян клас: Данни, използвани при обучението на предварително обучения модел. Моделът вече предоставя видяни класове. Най-добрите модели за обучение с нулев удар са модели, обучени в класове, тясно свързани с новия клас, който искате моделът да идентифицира.
- Невиждан/Нов клас: Данни, които никога не са били използвани по време на обучението на модела. Ще трябва сами да подготвите тези данни, тъй като не можете да ги получите от модела.
- Семантични/спомагателни данни: Допълнителни битове данни, които могат да помогнат на модела да идентифицира новия клас. Това може да бъде в думи, фрази, вградени думи или имена на класове.
2. Семантично картографиране
Следващата стъпка е да начертаете характеристиките на невидимия клас. Това се прави чрез създаване на вграждания на думи и създаване на семантична карта, която свързва атрибутите или характеристиките на невидимия клас с предоставените спомагателни данни. AI трансфер на обучение прави процеса много по-бърз, тъй като много атрибути, свързани с невидимия клас, вече са картографирани.
3. Изводи
Изводът е използването на модела за генериране на прогнози или изход. При нулева класификация на изображения, вграждането на думи се генерира на дадено входно изображение и след това се чертае и сравнява със спомагателните данни. Нивото на сигурност ще зависи от сходството между въведените и предоставените спомагателни данни.
Как Zero-Shot Learning подобрява AI
Обучението с нулев изстрел подобрява моделите на AI чрез справяне с няколко предизвикателства в машинното обучение, включително:
- Подобрено обобщение: Намаляването на зависимостта от етикетирани данни позволява моделите да бъдат обучени в по-големи набори от данни, подобрявайки обобщаването и правейки модела по-стабилен и надежден. Тъй като моделите стават по-опитни и обобщени, може дори да е възможно моделите да се научат на здрав разум вместо типичния начин за анализиране на информация.
- Мащабируемост: Моделите могат непрекъснато да се обучават и да получават повече знания чрез трансфер на обучение. Компаниите и независимите изследователи могат непрекъснато да подобряват своите модели, за да бъдат по-способни в бъдеще.
- Намален шанс за прекомерно оборудване: Пренастройването може да се случи, защото моделът е обучен върху малък набор от данни, който не съдържа достатъчно разнообразие, за да представи всички възможни входове. Обучението на модела чрез обучение с нулев удар намалява шансовете за пренастройване чрез обучение на модела да има по-добро контекстуално разбиране на субектите.
- Рентабилен: Предоставянето на голямо количество етикетирани данни може да отнеме време и ресурси. Използвайки обучение за трансфер с нулев удар, обучението на стабилен модел може да се направи с много по-малко време и етикетирани данни.
С напредването на AI техники като zero-shot learning ще станат още по-важни.
Бъдещето на Zero-Shot Learning
Zero-shot обучението се превърна в съществена част от машинното обучение. Той позволява на моделите да разпознават и класифицират нови класове без изрично обучение. С продължаващия напредък в моделните архитектури, подходи, базирани на атрибути, и мултимодална интеграция, обучението с нулев удар може значително помагат да се направят моделите много по-адаптивни при справяне със сложни предизвикателства в роботиката, здравеопазването и компютъра визия.