Разпознаването на глас е страхотно, но как стана толкова добро?

Технологията за разпознаване на глас има богата история на развитие, което я доведе до това, което е днес. Той е в основата на съвременния живот и ни дава възможност да изпълняваме задачи само като говорим с устройство. И така, как се разви тази удивителна технология през годините? Нека да разгледаме.

1952: Одри система

Първата стъпка в разпознаването на глас е направена в началото на 50 -те години. Bell Laboratories разработи първата машина, която можеше да разбере човешкия глас през 1952 г., и беше наречена Одри система. Името Одри беше нещо като свиване на израза Автоматично разпознаване на цифри. Въпреки че това беше голяма иновация, тя имаше някои основни ограничения.

Най-видно, Одри можеше да разпознае само цифровите цифри 0-9, без думи. Одри ще даде обратна връзка, когато ораторът изрече число, като запали 1 от 10 крушки, всяка от които съответства на цифра.

Кредит на изображението: metamorworks/Shutterstock.com

Въпреки че можеше да разбере числата с 90% точност, Одри беше ограничена до определен тип глас. Ето защо единственият човек, който наистина би го използвал, беше HK Davis, един от разработчиците. Когато се говори номер, ораторът трябва да изчака поне 300 милисекунди, преди да каже следващия.

instagram viewer

Той не само беше ограничен във функционалността, но и в полезността. Нямаше голяма полза от машина, която можеше да разбира само числа. Една възможна употреба беше набирането на телефонни номера, но беше много по -бързо и по -лесно набирането на номера на ръка. Въпреки че Одри нямаше грациозно съществуване, тя все още стои като голям крайъгълен камък в човешките постижения.

Свързани: Как да използвате гласово въвеждане в Microsoft Word

1962: IBM Shoebox

Десетилетие след Одри, IBM се опита да разработи система за разпознаване на глас. На световното изложение през 1962 г. IBM показа система за разпознаване на глас, наречена Showbox. Подобно на Одри, основната му работа беше разбирането на цифрите 0-9, но можеше да разбере и шест думи: плюс, минус, невярно, общо, междинна сума и изключено.

Shoebox беше математическа машина, която можеше да прави прости аритметични задачи. Що се отнася до обратната връзка, вместо светлини, Shoebox успя да разпечата резултатите на хартия. Това го направи полезен като калкулатор, въпреки че ораторът все още трябва да прави пауза между всяко число/дума.

1971: Автоматичната идентификация на повикванията на IBM

След Одри и Shoebox, други лаборатории по света разработиха технология за разпознаване на глас. Той обаче излезе едва през 70-те години, когато през 1971 г. IBM представи първото по рода си изобретение на пазара. Нарича се система за автоматична идентификация на повикванията. Това беше първата система за разпознаване на глас, използвана по телефонната система.

Инженерите ще се обадят и ще бъдат свързани с компютър в Роли, Северна Каролина. След това обаждащият се ще произнесе една от 5000 думи в речника си и ще получи „говорим“ отговор като отговор.

Свързани: Как да използвате гласова диктовка на Mac

1976: Харпия

В началото на 70 -те години Министерството на отбраната на САЩ прояви интерес към разпознаването на глас. DARPA (Агенция за напреднали отбранителни проекти) разработи програмата Speech Understanding Research (SUR) през 1971 г. Тази програма осигури финансиране на няколко компании и университети за подпомагане на научноизследователска и развойна дейност за разпознаване на глас.

През 1976 г., поради SUR, Университетът Карнеги Мелън разработва системата Харпи. Това беше голям скок в технологията за разпознаване на глас. Системите до този момент бяха в състояние да разбират думи и числа, но Харпи беше уникален с това, че можеше да разбира пълни изречения.

Той имаше речник от едва около 1011 думи, което според публикация на Б. Лоуър и Р. Реди, приравнени на повече от трилион различни възможни изречения. Изданието посочва, че Харпи може да разбира думи с 93,77% точност.

80 -те години бяха ключово време за технологията за разпознаване на глас, тъй като това е десетилетието, в което гласът технология за разпознаване, тъй като това беше десетилетието, в което бяхме запознати с метода на скрития Марков (HMM). Основната движеща сила зад HMM е вероятност.

Всеки път, когато една система регистрира фонема (най -малкият елемент на речта), има известна вероятност каква ще бъде следващата. HMM използва тези вероятности, за да определи коя фонема най -вероятно ще дойде следваща и да образува най -вероятните думи. Повечето системи за разпознаване на глас днес все още използват HMM за разбиране на речта.

90 -те години: Разпознаването на гласа достига до потребителския пазар

От създаването на технологията за разпознаване на глас тя е на път да намери място на потребителския пазар. През 80-те години на миналия век IBM демонстрира прототип на компютър, който може да диктува реч-към-текст. Въпреки това едва в началото на 90 -те години хората започнаха да виждат подобни приложения в домовете си.

През 1990 г. Dragon Systems представя първия софтуер за диктуване на говор към текст. Той се нарича Dragon Dictate и първоначално е пуснат за Windows. Тази програма от 9 000 долара беше революционна за представяне на технологията за разпознаване на глас в масите, но имаше един недостатък. Използваният софтуер дискретна диктовка, което означава, че потребителят трябва да направи пауза между всяка дума, за да може програмата да ги вземе.

През 1996 г. IBM отново допринесе за индустрията с Medspeak. Това също беше програма за диктовка от говор в текст, но тя не страдаше от дискретна дикция, както Dragon Dictate. Вместо това, тази програма може да диктува непрекъсната реч, което я прави по -завладяващ продукт.

Свързани: Как да използвате Google Асистент със слушалки

2010: Момиче на име Сири

През 2000 -те години технологията за разпознаване на глас избухна в популярност. Той беше внедрен в повече софтуер и хардуер от всякога и една важна стъпка в еволюцията на разпознаването на глас беше Siri, цифровият асистент. През 2010 г. компания на име Siri представи виртуалния асистент като приложение за iOS.

По онова време Siri беше впечатляващ софтуер, който можеше да диктува какво говори ораторът и да даде образован и остроумен отговор. Тази програма беше толкова впечатляваща, че същата година Apple придоби компанията и даде на Siri малко ремонт, като я насочи към цифровия асистент, който познаваме днес.

Именно чрез Apple Siri получи своя емблематичен глас (глас от Сюзън Бенет) и множество нови функции. Той използва обработка на естествен език за контрол на повечето функции на системата.

2010 -те: Големите 4 цифрови асистенти

Понастоящем четири големи цифрови асистента доминират разпознаването на глас и допълнителния софтуер.

Сири присъства в почти всички продукти на Apple: iPhone, iPod, iPad и семейството на компютрите Mac.
Google Асистент присъства в повечето от 3 милиарда + Android устройства на пазара. В допълнение, потребителите могат да използват команди в много услуги на Googleкато Google Home.
Amazon Alexa няма много специална платформа, където живее, но все пак е виден асистент. Той е достъпен за изтегляне и използване на устройства с Android, устройства на Apple. и дори изберете лаптопи на Lenovo
Биксби е най -новият запис в списъка с цифрови асистенти. Това е домашният дигитален асистент на Samsung и присъства сред телефоните и таблетите на компанията.

Говорена история

Гласовото разпознаване измина дълъг път от дните на Одри. Той постигна големи печалби в множество области; например според Clear Bridge Mobile, медицинската област се възползва от гласовите чатботове по време на пандемията през 2020 г. От само способността да се разбират числата до разбирането на различни варианти на пълни изречения, разпознаването на глас се оказва една от най -полезните технологии на нашата съвременна епоха.

ДялТуителектронна поща

Как работи разпознаването на глас?

Използваме гласово разпознаване през цялото време, но как работи?

Прочетете Напред

Свързани теми

Обяснена технология
Сири
Google Асистент
Алекса
Биксби
Гласови команди

За автора

Артър Браун (31 статии са публикувани)

Артър е технически журналист и музикант, живеещ в Америка. Той е в индустрията от близо десетилетие, като е писал за онлайн публикации като Android Headlines. Той има дълбоки познания за Android и ChromeOS. Заедно с писането на информационни статии, той също е умел да докладва технически новини.

Още от Артър Браун

Абонирайте се за нашия бюлетин

Присъединете се към нашия бюлетин за технически съвети, рецензии, безплатни електронни книги и изключителни оферти!

Щракнете тук, за да се абонирате

About Technology - denizatm.com

Разпознаването на глас е страхотно, но как стана толкова добро?

1952: Одри система

1962: IBM Shoebox

1971: Автоматичната идентификация на повикванията на IBM

1976: Харпия

90 -те години: Разпознаването на гласа достига до потребителския пазар

2010: Момиче на име Сири

2010 -те: Големите 4 цифрови асистенти

Говорена история

Абонирайте се за нашия бюлетин

Категории

Recent Post

Преглед на таблет Huion Kamvas Pro 16 (2.5K): Отлично рисуване за всеки

5-те най-добри алтернативи на Revo Uninstaller за Windows

9 селфита, които не си струват риска