Когато човек погледне сцена или изображение, те го разбират - какви предмети има в него и какво се случва, ако се извършва действие. Компютърът, от друга страна, обработва само цифрови данни, които описват стойността на цвета на всеки пиксел. За човек разпознаването на пица на претрупана маса е без усилие. Но доскоро компютрите нямаше да могат да изпълняват същата задача.
Компютърното зрение или CV позволява на компютъра да може да избере важна информация от визуалните входове и да прави точни прогнози и препоръки въз основа на тази информация.
Как работи Computer Vision?
Преди компютърно зрение, за да създаде програма, която разпознава конкретно изображение, човек трябва да направи часове ръчна работа на крака. Първо, база данни с подобни изображения ще трябва да бъде съпоставена.
След това тези изображения трябва да бъдат анализирани ръчно, измерени и анотирани със съответни данни че изследователят смята, че може да идентифицира въпросния обект (като цвят, измервания и форма). Само тогава софтуерът може да се използва за прогнози.
От друга страна, компютърното зрение автоматизира целия този процес, използвайки подход за машинно обучение, известен като дълбоко обучение. Дълбокото обучение използва многопластова невронна мрежа със стотици потенциални слоеве. В случай на изображения, това обикновено е конволюционна невронна мрежа (CNN).
Обяснението в детайли как работят дълбокото обучение и невронните мрежи е далеч извън обхвата на тази статия. По принцип големи количества данни се подават в невронната мрежа. Невронната мрежа анализира данните многократно, докато не може да формира точни прогнози за тях.
В случай на CNN, използван за задача за компютърно зрение, невронната мрежа приема данните през няколко стъпки. Първо, тя свива изображението на няколко части (отделни пиксели или групи пиксели, които са предварително маркирани).
След това прави прогнози за това какво има в различни части от изображението (като твърди ръбове или конкретни обекти). Той проверява точността на тези прогнози многократно и леко променя части от алгоритъма всеки път, докато стане много точен.
Компютрите вече са толкова мощни, че могат да анализират изображение много по-бързо от човешкия мозък, особено след като се научат да разпознават определени модели. По този начин е лесно да се види как алгоритъмът за задълбочено обучение може да надмине човешките възможности.
Какви са видовете компютърна визия?
Компютърното зрение включва анализ и разбиране на изображенията и извеждането на съответните прогнози или решения относно изображенията. Има различни задачи, които компютърното зрение ще използва за постигане на тези цели. Някои от тях включват:
- Класификация на изображенията: Типът на изображението се разпознава. Например дали това е лицето, пейзажът или обектът на човек. Този вид задача може да се използва за бързо идентифициране и класифициране на изображенията. Една употреба за това е в автоматичното разпознаване и блокиране на неподходящо съдържание в социалните медии.
- Разпознаване на обект: Подобно на класификацията на изображенията, разпознаването на обекти може да идентифицира определен обект в рамките на сцена - като пица на претрупана маса.
- Откриване на ръбове: Често използвано компютърно зрение и обикновено първата стъпка в откриването на обект е идентифицирането на твърдите ръбове в изображението.
- Идентификация на обекта: Това е разпознаването на отделни примери за обект или изображение, като например идентифициране на конкретно лице, пръстови отпечатъци или превозно средство.
- Откриване на обект: Откриването е идентифициране на определена черта в изображението, като счупена кост в рентгенова снимка.
- Сегментиране на обекти: Това е идентификацията на това кои пиксели в изображението принадлежат на въпросния обект.
- Проследяване на обекти: Във видеопоследователност, след като обектът бъде разпознат, той може лесно да бъде проследен през цялото видео.
- Възстановяване на изображението: Замъгляването, шумът и други артефакти на изображението могат да бъдат премахнати чрез точно идентифициране на обекта спрямо фона в изображението.
Примери за компютърна визия
Изкуственият интелект е вече се използва в няколко индустрии с зашеметяващ ефект, което е вярно за компютърното зрение. Ето няколко примера за CV, които вече се използват днес.
Разпознаване на лицето
Разпознаването на лицето е един от основните начини за използване на компютърното зрение днес. В сравнение с бази данни с известни лица, алгоритмите за компютърно зрение могат много точно да идентифицират отделни хора.
- Социалните медии анализират изображенията и автоматично маркират потребителите, за които имат добър избор от изображения.
- Лаптопите, телефоните и устройствата за сигурност могат да идентифицират хората, за да разрешат достъп.
- Органите на реда използват разпознаване на лица в системите за видеонаблюдение, за да идентифицират заподозрени.
Лекарство
Понастоящем компютърното зрение се използва в здравеопазването за осигуряване на по-бързи и точни диагнози, отколкото експертите могат да поставят. Много приложения включват анализ на рентгенови, CT или MRI изображения за определени състояния, включително неврологични заболявания, тумори и счупени или фрактурирани кости.
Самоуправляващи се коли
Автономните превозни средства трябва да разбират заобикалящата ги среда да шофира безопасно. Това означава разпознаване на пътища, платна, пътна сигнализация, други превозни средства, пешеходци и др. Всички тези задачи използват системи за компютърно зрение в реално време, за да избегнат сблъсъци и да шофират безопасно.
Компютърната визия е предизвикателна
Настоящите приложения на компютърното зрение вече започват да променят начина, по който работим в различни индустрии. От възможността за откриване на неизправно или счупено оборудване до точното диагностициране на рак, компютърното зрение има способността да подобрява системите и да спасява животи.
Но не е без предизвикателствата. Компютърното зрение все още е далеч от това, което е човешкото зрение. Имаме хиляди години еволюция, която ни позволява да разпознаваме и разбираме почти всичко, което се случва около нас в реално време. Но ние нямаме представа как човешкият мозък изпълнява тези задачи.
Дълбокото обучение е огромна стъпка в правилната посока, но все пак изисква невероятно много работа да създаде система, която може да изпълнява задача, която хората могат да изпълнят много лесно, като например идентифициране на автомобил на път. Това е така, защото компютрите изпълняват ограничени задачи много ефективно. Разработването на компютър, който може да разбере цялостната сложност на визуалния свят, е съвсем различна игра с топка.
Тъй като повече изследвания се насочват както към приложенията на ИИ, така и към човешката биология, вероятно ще видим взрив от възможни приложения на компютърното зрение в близко бъдеще.
Алгоритмите за машинно обучение са създадени, за да улеснят живота и да подобрят системите, но могат да се объркат с лоши последици.
Прочетете Напред
- Обяснени технологии
- Програмиране
- Изкуствен интелект
- Невронни мрежи
Джейк Харфийлд е писател на свободна практика, базиран в Пърт, Австралия. Когато не пише, обикновено е в храсталака и снима местни диви животни. Можете да го посетите на www.jakeharfield.com
Абонирайте се за нашия бюлетин
Присъединете се към нашия бюлетин за технически съвети, рецензии, безплатни електронни книги и ексклузивни оферти!
Още една стъпка…!
Моля, потвърдете имейл адреса си в имейла, който току-що ви изпратихме.