реклама

Вече можем да говорим с почти всички наши джаджи, но как точно работи? Когато питате „Каква песен е това?“ или кажете „Обадете се на мама“, се случва чудо на съвременните технологии. И макар да изглежда, че е на върха, тази идея за разговори с устройства се връща десетилетия назад - почти толкова, колкото до джетпаците в научната фантастика!

Днес основната част от вниманието, което се отделя на гласово изчисленията, е на смартфоните. Apple, Amazon, Microsoft и Google са на върха на веригата, като всеки от тях предлага собствен начин за разговор с електрониката. Вие знаете кои са те: Сири, Алекса, Кортана и безименното „Ок, Google“. Което повдига голям въпрос ...

Как устройство приема изговорени думи и ги превръща в команди, които може да разбере? По същество се свежда до съвпадение на модели и прогнози въз основа на тези модели. По-конкретно, разпознаването на глас е сложна задача Акустично моделиране и Езиково моделиране.

Акустично моделиране: форми на вълни и телефони

форма на вълната

Акустичното моделиране е процесът на вземане на вълнова форма на реч и анализ на нея с помощта на статистически модели. Най-често срещаният метод за това е

instagram viewer
Скрито моделиране на Марков, която се използва в т.нар моделиране на произношението да разбиете речта на компоненти, наречени телефони (да не се бърка с действителните телефонни устройства). Microsoft е водещ изследовател в тази област от много години.

Скрито моделиране на Марков: Вероятностни състояния

Скритото Марково моделиране е математически модел на прогнозите, при който текущото състояние се определя чрез анализ на изхода. Wikipedia има a чудесен пример с използване на двама приятели.

Представете си двама приятели - местен приятел и отдалечен приятел, които живеят в различни градове. Местният приятел иска да разбере какво е времето, където живее отдалечен приятел, но отдалечен приятел иска само да говори за това, което е направил онзи ден: разходка, пазаруване или почистване. Вероятността за всяка дейност в зависимост от времето за деня.

Скрито моделиране на Марков

Преструвайте се, че това е единствената налична информация. С него Local Friend може да намери тенденции как времето се променя от ден на ден и използвайки тези тенденции, тя може да започне да прави познания за това какво ще е днешното време въз основа на активността на нейния приятел вчера. (Можете да видите диаграма на системата по-горе.)

Ако искате по-сложен пример, разгледайте този пример за Matlab. При разпознаването на глас този модел по същество сравнява всяка част от формата на вълната с това, което идва преди и това, което идва след това, и с речника на вълновите форми, за да разбере какво се казва.

По същество, ако издавате „ти“ звук, ще проверите този звук спрямо най-вероятните звуци, които обикновено идват преди и след него. Може би това означава проверка на звука „e“, звука „at“ и т.н. Когато моделът съвпадне правилно, след това има цялата ви дума. Това е прекалено опростяване, но можете да видите Цялото обяснение на Microsoft тук.

Езиково моделиране: Повече от звук

Акустичното моделиране отива много в това да помогне на вашия компютър да ви разбере, но какво да кажем за омонимите и регионалните вариации в произношението? Именно там започва да играе езиковото моделиране. Google проведе много изследвания в тази област, главно чрез използването на N-грамово моделиране.

Когато Google се опитва да разбере речта ви, тя прави това въз основа на модели, извлечени от огромната му банка от гласово търсене и транскрипции в YouTube. Всички тези забавно грешни видео надписи всъщност помогнаха на Google да развие своите речници. Също така те използваха заминалите GOOG-411 за събиране на информация за това как хората говорят.

shutterstock_70757203

Цялата тази колекция от езици създаде огромен набор от произношения и диалекти, които създадоха здрав речник на думите и как звучат. Това дава възможност за мачове, които имат значително намален процент на грешки в сравнение със груба сила, базирана на сурови вероятности. Можете да прочетете кратка книга описвайки техните методи тук.

Въпреки че Google е лидер в тази област, има разработени и други математически модели, включително непрекъснато пространство модели и позиционни езикови модели, които са по-напреднали техники, родени от изследвания в изкуствения интелект. Тези методи се основават на възпроизвеждане на вида разсъждения, които хората правят, когато се слушат един друг. Те са много по-напреднали както по отношение на технологията, която стои зад тях, но също така и по математика и програмиране, необходими за очертаване на тези модели.

N-Gram моделиране: Вероятността отговаря на паметта

N-грамовото моделиране работи въз основа на вероятностите, но използва съществуващ речник от думи, за да създаде разклонено дърво от възможности, което след това се изглажда с цел ефективност. В известен смисъл това означава, че N-грамовото моделиране премахва голяма част от несигурността в гореспоменатото моделиране на скрити Марков.

Както бе отбелязано по-горе, силата на този метод идва от наличието на голям речник от думи и употреба, не само примитивни звуци. Това дава възможност на програмата да разпознава разликата между хомофоните, като „бий“ и „цвекло“. Тя е контекстуална, което означава, че когато говорите за резултатите от снощи, програмата не дърпа думи за борш.

Но тези модели всъщност не са най-добрите за език, главно поради проблеми с вероятностите на думите в по-дълги фрази. Докато добавяте повече думи към изречението, този модел малко се разминава, тъй като е малко вероятно ранните ви думи да са заредили всичко необходимо за вашата цялостна мисъл.

Въпреки това, той е лесен и лесен за изпълнение, което го прави чудесен мач за компания като Google, която се радва на хвърляне на сървъри при изчислителни проблеми. Можете да направите допълнително четене на N-грам Modelieng в Университета на Вашингтонили можете да гледате лекция в Coursera.

Викане в облаци: Приложения и устройства

Всеки, който е използвал Siri, познава разочарованието от бавната мрежова връзка. Това е така, защото вашите команди към Siri се изпращат по мрежата, за да бъдат декодирани от Apple. Cortana за Windows телефон също изисква мрежова връзка, за да функционира правилно. За разлика от тях обаче, Echo на Amazon е просто Bluetooth високоговорител без интернет.

Защо разликата? Тъй като Сири и Кортана се нуждаят от сървъри с голяма работа, за да декодират речта ви. Може ли да се направи на вашия телефон или таблет? Със сигурност, но ще убиете производителността и живота на батерията в процеса. Просто има повече смисъл да разтоварите обработката на специализирани машини.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Мислете за това така: вашата команда е кола, забита в калта. Вероятно бихте могли сами да го изтласкате с достатъчно време и усилия, но това ще отнеме часове и ще ви остави изтощени. Вместо това се обаждате на пътна помощ и те изваждат колата ви само за няколко минути. Недостатъкът е, че трябва да се обадите и да ги изчакате, но все пак е по-бързо и по-малко данъчно облагане.

Настолните модели като Nuance са склонни да използват местни ресурси поради по-мощния хардуер. В крайна сметка, по думите на Стив Джобс, вашето десктоп е камион. (Което прави малко глупаво, че OS X използва сървъри за неговата обработка.) Така че, когато трябва да обработвате език и глас, той вече е оборудван достатъчно добре, за да се справи сам.

От друга страна, Android позволява на разработчиците да включват офлайн разпознаване на реч в своите приложения. Google обича да изпреварва технологиите и можете да се обзаложите, че другите платформи ще получат тази способност, тъй като хардуерът им става по-мощен. Никой не го харесва, когато лошото покритие или лошият прием лоботомизира устройството им.

Започнете да използвате гласови команди сега

Сега, когато знаете основните понятия, трябва да си поиграете с различните си устройства. Изпробвайте новото гласово писане в Google Документи Как гласовото писане е новата най-добра характеристика на Google ДокументиРазпознаването на глас се подобри с подскоци през последните години. По-рано тази седмица Google най-накрая въведе въвеждане на глас в Google Документи. Но има ли някаква полза? Нека разберем! Прочетете още . Сякаш пакетът за уеб офиси не е бил достатъчно мощен, гласовият контрол ви позволява напълно да диктувате и форматирате документите си. Това се разширява по отношение на мощните технологии, които вече са проектирани за Chrome и Android.

Други идеи включват настройка на вашия Mac за използване на гласови команди Как да използвате речеви команди на вашия Mac Прочетете още и настройка на вашия Amazon Echo с автоматизирана каса Как Amazon Echo може да направи вашия дом интелигентен домУмният домашен технология все още е в ранните си дни, но нов продукт от Amazon, наречен "Echo", може да помогне да го въведете в основния поток. Прочетете още . Живейте в бъдеще и прегърнете да говорите с джаджите си - дори и само да поръчате повече хартиени кърпи. Ако сте зависим от смартфони, имаме и уроци за Siri 8 неща, които вероятно не сте осъзнали, че може да направите SiriSiri се превърна в една от дефиниращите функции на iPhone, но за много хора тя не винаги е най-полезната. Докато част от това се дължи на ограниченията на разпознаването на гласа, странността на използването на ... Прочетете още , Кортана 6 най-готините неща, които можете да контролирате с Cortana в Windows 10Cortana може да ви помогне да преминете свободни ръце в Windows 10. Можете да я оставите да търси вашите файлове и в мрежата, да прави изчисления или да изтегли прогнозата за времето. Тук обхващаме някои от нейните умения за по-хладно. Прочетете още , и андроид Добре, Google: 20 полезни неща, които можете да кажете на вашия Android телефонGoogle Assistant може да ви помогне да свършите много на телефона си. Ето цял куп основни, но полезни OK команди, които да опитате. Прочетете още .

Кое е любимото ти използване на гласовия контрол? Уведомете ни в коментарите.

Кредити за изображения: T-flex чрез Shutterstock, Terencehonles чрез Фондация Wikimedia, Щата Аризона, Дизайн на Cienpies чрез Shutterstock

Майкъл не е използвал Mac, когато са били обречени, но той може да кодира в Applescript. Има дипломи по компютърни науки и английски език; от известно време пише за Mac, iOS и видео игри; и той е ежедневна ИТ маймуна повече от десетилетие, специализиран в сценарии и виртуализация.