Разработете и сравнете алгоритми за обучение с подсилване, като използвате този инструментариум.

Ако не можете да изградите модел за машинно обучение от нулата или ви липсва инфраструктура, просто свързването на вашето приложение към работещ модел коригира празнината.

Изкуственият интелект е тук, за да може всеки да го използва по един или друг начин. Що се отнася до OpenAI Gym, има много проучваеми тренировъчни площадки, за да нахраните вашите агенти за засилване на обучението.

Какво е OpenAI Gym, как работи и какво можете да изградите с него?

Какво е OpenAI Gym?

OpenAI Gym е Pythonic API, който предоставя симулирани обучителни среди за агенти за обучение за укрепване, за да действат въз основа на наблюдения на околната среда; всяко действие идва с положителна или отрицателна награда, която се натрупва на всяка времева стъпка. Въпреки че агентът се стреми да максимизира наградите, той се наказва за всяко неочаквано решение.

Времевата стъпка е дискретна времева отметка за преминаване на средата в друго състояние. Той се добавя, когато действията на агента променят състоянието на средата.

instagram viewer

Как работи OpenAI Gym?

Средите на OpenAI Gym са базирани на процеса на вземане на решения на Марков (MDP), динамичен модел за вземане на решения, използван в обучението за засилване. Следователно, от това следва, че наградите идват само когато околната среда промени състоянието. И събитията в следващото състояние зависят само от настоящото състояние, тъй като MDP не отчита минали събития.

Преди да продължим, нека се потопим в пример за бързо разбиране на приложението на OpenAI Gym в обучението за укрепване.

Ако приемем, че възнамерявате да тренирате кола в състезателна игра, можете да завъртите състезателна писта в OpenAI Gym. При обучение за подсилване, ако превозното средство завие надясно вместо наляво, може да получи отрицателна награда от -1. Състезателната писта се променя на всяка времева стъпка и може да стане по-сложна в следващите състояния.

Отрицателните награди или наказания не са лоши за агент в обучението за подсилване. В някои случаи го насърчава да постигне целта си по-бързо. По този начин автомобилът научава за пистата с течение на времето и овладява своята навигация, използвайки серии от награди.

Например, ние инициирахме Замръзналото езеро-v1 среда, където агент бива наказан за падане в ледени дупки, но награден за възстановяване на подаръчна кутия.

Първото ни изпълнение генерира по-малко наказания без награди:

Трета итерация обаче създаде по-сложна среда. Но агентът получи няколко награди:

Резултатът по-горе не означава, че агентът ще се подобри в следващата итерация. Въпреки че може успешно да избегне повече дупки следващия път, може да не получи награда. Но модифицирането на няколко параметъра може да подобри скоростта на обучение.

Компонентите на OpenAI Gym

OpenAI Gym API се върти около следните компоненти:

  • The среди където обучавате агент. Можете да инициирате такъв, като използвате фитнес зала.направете метод. OpenAI Gym също поддържа мултиагентни среди.
  • The опаковки за модифициране на съществуваща среда. Въпреки че всяка базова среда е предварително обвита по подразбиране, можете да я мащабирате отново с параметри като max_actions, min_actions и max rewards.
  • Ан действие; определя какво прави агентът, докато наблюдава промените в своята среда. Всяко действие в среда е стъпка, която определя отговора на агента на наблюденията. Завършването на стъпка връща наблюдение, награда, информация и съкратена или прекратена стойност.
  • The наблюдение; определя опита на агента в дадена среда. След като има наблюдение, следва действие с неговата информация. Информационният параметър е дневник за изпълнение, който е удобен за отстраняване на грешки. След като дадена стъпка приключи, средата се нулира n пъти, в зависимост от броя на посочените повторения.

Какво можете да направите с OpenAI Gym?

Тъй като OpenAI Gym ви позволява да завъртите персонализирани среди за обучение, ето няколко начина да го използвате в сценарий от реалния живот.

1. Симулация на играта

Можете да използвате средата за игри на OpenAI Gym, за да възнаградите желаните поведения, да създадете награди за игри и да увеличите сложността на ниво на игра.

2. Разпознаване на изображения

Когато има ограничено количество данни, ресурси и време, OpenAI Gym може да бъде полезен за разработване на система за разпознаване на изображения. На по-дълбоко ниво можете да го мащабирате, за да изградите система за разпознаване на лица, която възнаграждава агент за правилно идентифициране на лица.

3. Обучение на роботи

OpenAI Gym също предлага интуитивни модели на среда за 3D и 2D симулации, където можете да внедрите желаното поведение в роботи. Roboschool е пример за мащабиран софтуер за симулация на роботи, създаден с помощта на OpenAI Gym.

4. Маркетинг

Можете също така да създавате маркетингови решения като рекламни сървъри, ботове за търговия с акции, ботове за прогнозиране на продажбите, системи за препоръчване на продукти и много други с помощта на OpenAI Gym. Например, можете да изградите персонализиран модел OpenAI Gym, който наказва рекламите въз основа на импресия и честота на кликване.

5. Обработка на естествен език

Някои начини за прилагане на OpenAI Gym в обработка на естествен език са въпроси с избираем отговор, включващи довършване на изречение или изграждане на класификатор на спам. Например, можете да обучите агент да научи варианти на изречения, за да избегне пристрастия, докато маркира участниците.

Как да започнете с OpenAI Gym

OpenAI Gym поддържа Python 3.7 и по-нови версии. За да настроите среда OpenAI Gym, ще инсталирате физкултурен салон, разклонената непрекъснато поддържана версия за фитнес:

pip инсталирайте гимназия

След това завъртете среда. Можете обаче да създадете персонализирана среда. Но започнете, като си поиграете със съществуващ, за да овладеете концепцията OpenAI Gym.

Кодът по-долу завърта Замръзналото езеро-v1. The env.reset метод записва първоначалното наблюдение:

импортиране физкултурен салон като фитнес
env = gym.make(„FrozenLake-v1“, render_mode="човек")

наблюдение, информация = env.reset()

Някои среди изискват допълнителни библиотеки, за да работят. Ако трябва да инсталирате друга библиотека, Python я препоръчва чрез съобщението за изключение.

Например ще инсталирате допълнителна библиотека (физкултурен салон[играчка-текст]), за да стартирате Замръзналото езеро-v1 заобикаляща среда.

Надградете върху силата на OpenAI Gym

Един от пречките пред развитието на ИИ и машинното обучение е недостигът на инфраструктура и набори от данни за обучение. Но докато се стремите да интегрирате модели за машинно обучение във вашите приложения или устройства, сега всичко е по-лесно с готови AI модели, летящи из интернет. Докато някои от тези инструменти са евтини, други, включително OpenAI Gym, са безплатни и с отворен код.