Създателите на ChatGPT имат друг инструмент, който има за цел да облекчи натоварването от пръстите ви.
Същите хора зад ChatGPT създадоха друг базиран на AI инструмент, който можете да използвате днес, за да повишите производителността си. Имаме предвид Whisper, решение за преобразуване на глас към текст, което засенчи всички подобни решения, дошли преди него.
Можете да използвате Whisper във вашите програми или командния ред. И все пак това проваля самата му цел: писане без клавиатура. Ако трябва да пишете, за да го използвате, защо да го използвате, за да избегнете писане? За щастие, вече можете да използвате Whisper чрез графичен интерфейс на работния плот. Още по-добре, той може също да транскрибира гласа ви почти в реално време. Нека видим как можете да пишете с гласа си с Whisper Desktop.
Какво представлява Whisper на OpenAI?
Whisper на OpenAI е система за автоматично разпознаване на реч (накратко ASR) или, казано по-просто, е решение за преобразуване на говоримия език в текст.
Въпреки това, за разлика от по-старите системи за диктовка и транскрипция, Whisper е AI решение, обучено върху над 680 000 часа реч на различни езици. Whisper предлага несравнима точност и, доста впечатляващо, не само е многоезичен, но също така може да превежда между езици.
По-важното е, че е безплатно и достъпно като отворен код. Благодарение на това много разработчици са разклонили неговия код в свои собствени проекти или са създали приложения, които разчитат на него, като Whisper Desktop.
Ако предпочитате „ваниловата“ версия на Whisper и гъвкавостта на терминала вместо тромавите GUI, вижте статията ни за как да превърнете гласа си в текст с Whisper за Windows на OpenAI.
Whisper и Whisper Desktop еднакви ли са?
Въпреки официалното си звучащо име, Whisper Desktop е GUI на трета страна за Whisper, създаден за всеки, който предпочита да щрака върху бутони, вместо да въвежда команди.
Whisper Desktop е самостоятелно решение, което не разчита на съществуваща инсталация на Whisper. Като бонус, той използва алтернативна, оптимизирана версия на Whisper, така че трябва да работи по-добре от самостоятелната версия.
Вие сте на другия край на спектъра и вместо да търсите по-лесен начин за използване на Whisper от терминала, вие търсите начини да го внедрите в собствените си решения? Радвайте се, за OpenAI отвори достъп до API на ChatGPT и Whisper.
Изтеглете и инсталирайте Whisper Desktop
Въпреки че Whisper Desktop е по-лесен за използване от самостоятелния Whisper, неговата инсталация е по-сложна от многократното щракване върху Next в съветник.
- Посетете Официалната страница на Whisper Desktop в Github. Погледнете вдясно и щракнете върху най-новата версия под Издания.
- Под Активи, щракнете WhisperDesktop.zip и го изтеглете на вашия компютър.
- Разархивирайте изтегления архив в папка и използвайте вашия файлов мениджър, за да го посетите. Вътре ще намерите приложението Whisper Desktop. Щракнете двукратно върху него, за да го стартирате.
- Имате нужда и от езиков модел Whisper GCML двоичен формат. Whisper Desktop ще ви предостави две връзки за придобиване на една. Пропуснете втората връзка за генериране на ваш собствен модел, тъй като това е по-сложен процес. Кликнете върху Прегръщащо лице за да отворите тази страница в браузъра си по подразбиране, откъдето можете да изтеглите готов за използване файл.
- Версията на Whisper Desktop, която използвахме, докато пишехме тази статия, предостави връзка към остаряло хранилище в Hugging Face. Ако срещнете същия проблем, забележете връзка към a ново местоположение. Кликнете върху него, за да посетите новото хранилище.
- Кликнете върху връзката, която ще ви отведе до наличните модели.
- От този списък щракнете върху или ggml-среден.bin или ggml-medium.en.bin, в зависимост от това дали искате поддръжка на много езици или само на английски в Whisper.
- Най-накрая трябва да сте достигнали целта си. Обърнете внимание на реда, който гласи, че този файл се съхранява с Git LFS и е твърде голям за показване, но все пак можете да го изтеглите. Кликнете върху Изтегли да направим точно това.
- Когато файлът завърши изтеглянето, използвайте любимия си файлов мениджър (File Explorer ще свърши работа), за да преместите изтегления файл с езиков модел в същата папка като Whisper Desktop.
Транскрибиране с Whisper Desktop
Транскрибирането с Whisper Desktop е лесно, но все пак може да се нуждаете от едно или две кликвания, за да използвате приложението.
Стартирайте отново Whisper Desktop. (Все още) пропуска ли правилния път към вашия изтеглен езиков модел? Кликнете върху бутон с трите точки вдясно на полето и изберете ръчно файла, който сте изтеглили от Hugging Face.
От това място можете също да използвате падащото меню до Внедряване на модела за да изберете дали искате да стартирате Whisper на вашия GPU (GPU), както на CPU, така и на GPU (Хибрид), или само на процесора (справка).
The Разширено води до повече опции, които влияят върху това как Whisper ще работи на вашия хардуер. Въпреки това, тъй като бутонът ясно посочва, че те са напреднали, ви предлагаме да ги променяте само ако отстранявате неизправности или знаете какво правите. Задаването на грешни стойности на опции тук може да наложи наказание за производителност или да направи приложението неизползваемо.
Щракнете върху OK, за да преминете към основния интерфейс на приложението.
Ако вече имате запис на гласа си, който искате да превърнете в писмен текст, щракнете върху Транскрибиране на файл и го изберете. Все пак ще използваме Whisper Desktop за транскрипция на живо за тази статия.
Предлаганите опции са ясни. Можете да изберете език Whisper ще използва, изберете, ако искате превеждам между езиците и активирайте приложението Конзола за отстраняване на грешки.
Повечето англоговорящи потребители могат спокойно да пропуснат тези опции и само да се уверят, че правилният аудио вход е избран от падащото меню до Устройство за заснемане.
Уверете се Запазване в текстов файл и Добавете към този файл са разрешени, за да накарат Whisper Desktop да запази изхода си във файл, без да презаписва съдържанието му. Използвай бутон с трите точки отдясно на полето за път на файла, за да дефинирате споменатия текстов файл.
Кликнете върху Улавяне за да започнете да транскрибирате речта си в текст.
Whisper Desktop ще ви покаже три индикатора за това кога открива гласова активност, кога активно транскрибира и кога процесът е спрял.
Можете да продължите да говорите колкото желаете и от време на време трябва да виждате първите два индикатора да мигат, докато приложението превръща гласа ви в текст. Кликнете Спри се когато е готово.
Текстовият файл, който сте избрали, трябва да се отвори във вашия текстов редактор по подразбиране, съдържащ в писмена форма всичко, което сте казали, докато не щракнете Спри се.
Трябва да отбележим, че можете да направите и обратното на това, което видяхме тук: да конвертирате всеки текст в реч. По този начин можете да слушате всичко, сякаш е подкаст, вместо да изморявате очите си, примижавайки към екраните. За повече информация относно това вижте нашата статия за някои от най-добрите безплатни онлайн инструменти за изтегляне на текст към говор като MP3 аудио.
Съвети за писане с глас на работния плот на Whisper
Въпреки че Whisper Desktop може да бъде спасител, като ви позволява да пишете с гласа си много по-бързо, отколкото можете да пишете, той далеч не е съвършен.
По време на нашето тестване установихме, че понякога може да заеква, да пропуска някои думи, да не успява да транскрибира, докато не ръчно спрете и рестартирайте процеса или заседнете в цикъл и продължете да преписвате същата фраза многократно.
Вярваме, че това са временни проблеми, които ще бъдат отстранени, тъй като самостоятелният Whisper не проявява същите проблеми.
Освен тези незначителни неравности, превръщането на гласа ви в текст трябва да е лесно с Whisper Desktop. Все пак по време на нашите тестове открихме, че може да работи дори по-добре, ако...
- Вместо да произнесете само две или три думи и след това да направите пауза, Whisper може да ви разбере по-добре, ако продължите по-дълго. Опитайте се поне да му давате цяло изречение наведнъж.
- По същата причина избягвайте многократното стартиране и спиране на процеса на транскрипция.
- Всеки път, когато осъзнаете, че сте направили грешка, игнорирайте я и продължете. Зареждането и разтоварването на езиковия модел изглежда е най-отнемащата време част от процеса с текущото състояние на Whisper и нашия наличен хардуер. Така че е по-бързо да продължите да говорите и след това да редактирате грешките си след това.
- Както при самостоятелната версия на Whisper, най-добре е да използвате оптималния езиков модел за вашия наличен хардуер. Можете да използвате до среден модел, ако вашият GPU има 8GB VRAM. За по-малко VRAM изберете по-малките модели. Изберете само малко по-точното, но и много по-взискателното голям модел, ако използвате GPU с 16GB VRAM или повече.
- Не забравяйте, че колкото по-голям е езиковият модел, толкова по-бавен е процесът на транскрипция. Не избирайте модел, по-голям от необходимото. Вероятно ще откриете, че Whisper Desktop вече може да ви „разбира“ през повечето време със средните или по-малките модели, само с една или две грешки на параграф.
Все още ли пишете? Използвайте гласа си с шепот
Въпреки че изисква известно време за настройка, както ще видите, когато го изпробвате, Whisper Desktop работи много по-добре от повечето алтернативи, с много по-висока точност и по-добра скорост.
След като започнете да я използвате, за да пишете с гласа си, клавиатурата ви може да изглежда като реликва от отдавна отминали времена.