Whisper на OpenAI е ново базирано на AI решение, което може да превърне вашия глас в текст. Най-хубавото от всичко е, че цената е нулева.
Има обаче една уловка: по-трудно е да се инсталира и използва от обикновената помощна програма на Windows. Особено ако искате да използвате тензорните ядра на графичния процесор на Nvidia, за да му дадете добър тласък.
Не се безпокойте обаче. Затова сме тук! Прочетете, за да разберете как да го инсталирате и използвате, но също така, ако притежавате такъв, да накарате Whisper да се възползва от вашия Nvidia GPU.
Какво представлява Whisper на OpenAI?
ChatGPT е на мода в днешно време и вече видяхме как можете да използвате ChatGPT от OpenAI. И все пак това не е единственият интересен проект на OpenAI.
Задвижван от дълбоко обучение и невронни мрежи, Whisper е система за обработка на естествен език, която може да „разбира“ речта и да я транскрибира в текст. Но това също е свое собствено нещо, което се намира точно сред всички подобни решения:
- Whisper е AI решение, „обучено“ на естествен език. Така че той е по-добър в разбирането на „нормалната“ човешка реч от по-старите решения.
- Whisper не идва с интерфейс, нито може да записва аудио. Може да приема само съществуващи аудио файлове и да извежда текстови файлове.
- Тъй като е добър в „осмислянето на езика“, Whisper има и суперсилата на автоматичен превод в една стъпка.
- Whisper не е онлайн услуга и може да работи изцяло офлайн.
- Ако имате сравнително модерен графичен процесор Nvidia (GTX970 или по-нов), Whisper може да работи в „режим на хардуерно ускорение“, за да увеличи скоростта си.
- Няма изискване за регистрация, закупуване на лиценз или закупуване на абонамент.
Защо AMD GPU не се поддържат?
За да бъдат графичните процесори полезни за нещо повече от графики, те трябва да действат като напълно програмируеми процесори. Ето защо Nvidia създаде CUDA, официално наречена „паралелна изчислителна платформа и програмен модел“. За да научите повече за CUDA и свързания с него хардуер („CUDA ядра“), прочетете нашата статия за какво представляват CUDA ядрата и как подобряват компютърните игри.
CUDA е патентована технология на Nvidia, съвместима само с GPU на Nvidia. Най-близките алтернативи за хардуера на AMD са OpenCL и Radeon Compute Platform. За да научите повече за това как решенията на всяка компания се сравняват, вижте нашата статия за AMD Compute Units vs. Nvidia CUDA ядра.
В сравнение с алтернативите, CUDA се счита за по-зряла, производителна и по-лесна за използване. По този начин повечето разработчици са насочени само към CUDA, което от своя страна означава, че техният софтуер се възползва само от хардуерните функции на Nvidia GPU. И това включва Whisper.
Как да изтеглите и инсталирате Whisper
За съжаление, Whisper не е самостоятелно приложение, което можете да изтеглите, инсталирате и стартирате. Разчита на друг софтуер, който също трябва да се инсталира.
За Windows, за да бъде това ръководство просто, ние ще използваме широко Chocolatey за инсталиране на повечето от необходимите софтуерни части. Вижте нашето ръководство на най-бързият начин за инсталиране на Windows софтуер за повече информация относно Chocolatey.
За Linux и Macs процесът на инсталиране (с изключение на променливата за пътя на Windows и лесните за използване пакетни файлове, които ще създадем) трябва да бъде подобен.
- За да инсталирате и използвате Whisper, трябва да имате Python и е PIP инсталиран инструмент и добавен към променливата „Път“ на Windows. За информация относно това вижте нашата статия за как да инсталирате Python PIP на Windows, Mac и Linux.
- Инсталирай FFMPEG чрез Chocolatey с тази команда:
Освен това инсталирайте неговата версия на Python с:шоколад Инсталирай ffmpeg
pip3 Инсталирай python-ffmpeg
- И накрая, инсталирайте Whisper от страницата му в Github с:
pip3 инсталирайте git+https://github.com/openai/whisper.git
Получаване на CUDA-активирана версия на Whisper
Въпреки че Whisper не използва графични процесори на Nvidia, факла пакетът, на който разчита, предлага CUDA-ускорена версия. Използването на това вместо "обикновената" версия може да помогне на Whisper да завърши своите транскрипции много по-бързо с помощта на вашия Nvidia GPU.
За да накарате Whisper да използва CUDA ядрата на вашия Nvidia GPU:
- Ако вече имате инсталирана "ванилова" версия на факла, деинсталирайте и изчистете остатъците от нея с:
След като приключите, продължете с:pip3 деинсталиране факла
пип кеш паметчистка
- Инсталирайте CUDA-активирана версия на Torch с:
pip3 Инсталирай факел torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
- За да проверите дали Whisper може да използва вашия Nvidia GPU, използвайте:
Трябва да видиш (по подразбиране: cuda) вместо (по подразбиране: процесор).прошепвам --помощ | findstr -i pytorch
Какво да направите, ако Torch не успее да се инсталира
Ако срещнете грешката „няма намерена версия“, докато инсталирате Torch, може да се наложи да инсталирате по-стара версия на Python успоредно на текущата.
Използвайте тази команда, за да направите това:
шоколад Инсталирай питон --версия СТАРА_ВЕРСИЯ --едно до друго
Заменете „OLDER_VERSION“ с версия като 3.10.
След това използвайте пътя на вторичната версия за всички „общи“ команди Whisper (напр. „c:\Python310\Scripts\pip.exe“, а не само „pip“).
Как да запишете гласа си
Можете да използвате всяко приложение за запис на звук, за да превърнете гласа си във WAV или MP3 файл. Windows включва такова приложение – за повече информация вижте как да използвате приложението за запис на глас в Windows 10.
За по-пълнофункционална опция опитайте Дързост. Научете как да го направите с нашето ръководство за как да използвате Audacity за запис на аудио на Windows и Mac.
Как да започнете да транскрибирате с Whisper
Въпреки че Whisper не идва с удобен за потребителя GUI, използването му е изключително лесно.
Да кажем, че имаме файла LatestNote.mp3 който съдържа реч на гръцки език, в папка c:\MyAudioFilesи искате да го преведете на английски и да го транскрибирате в текстов файл.
- Започваме с бягане Командния ред или PowerShell.
- Ние "променяме директорията", където се съхранява аудиофайлът с тази команда:
cd C:\MyAudioFiles
- Ние отприщваме Whisper на файла с:
прошепвам--моделбаза--езикгр-- задачапревеждамПоследна бележка.mp3
След като бъде обработен, текстовият файл (с име "LatestNote.mp3.txt") ще се появи в същата папка. Отворете го в текстов редактор като Бележник за да видите преведения текст.
Използвахме пример за превод, защото транскрипцията на английски е още по-ясна: трябва само да „загубите“ флаговете „--language“ и „-task“. По този начин, за обикновена транскрипция, горната команда ще бъде:
прошепвам--моделбазаПоследна бележка.mp3
Флагът "модел" е задължителен, защото Whisper използва една от различни опции. Нека ги разширим, за да ви помогнем да изберете най-доброто за вашите нужди.
Кой модел да избера?
Whisper предлага различни езикови модели. Колкото по-голям е моделът, толкова по-добра е неговата точност, но и толкова по-високи са хардуерните му изисквания. Те са:
- Мъничък.
- База.
- малък.
- Среден.
- Голям.
Повечето говорещи английски език би трябвало да се справят добре с мъничък или база модели. Неговорещите английски език могат да видят по-добри резултати с по-големи модели, напр малък и среден.
Обърнете внимание обаче, че средните и големите модели изискват над 8 GB VRAM (това е „паметта на вашия GPU“).
За да изберете един от тях, посочете модела след превключвателя "--model" в командата:
прошепвам --модел малък/малък/среден/голям [файл]
Например:
прошепвам--моделмалъкMy_Voice_Note.mp3
Как да рационализирате вашата транскрипция
Необходимостта да въвеждате цялата команда Whisper всеки път, когато искате да транскрибирате аудио, може бързо да ви омръзне. Нека направим глобално достъпен пакетен файл, за да рационализираме процеса.
- Бягай Windows Explorer и посетете вашия C: диск.
- Създайте папка за вашите скриптове и копирайте пътя й в клипборда.
- В менюто "Старт" на Windows потърсете "path" и изберете Редактирайте променливите на системната среда.
- Намери Пътека променлива под Потребителски променливи за YOUR_USERNAME. Кликнете два пъти върху него, за да го редактирате. Кликнете върху Нови поставете пътя към вашата папка със скриптове. Кликнете върху Добре да приемете промените.
- Върнете се в папката със скриптове в Windows Explorer. Създайте там нов партиден файл с име "wht.bat". „Вътре“ в него поставете тази команда:
прошепвам --model tiny --language en %1
- Създайте още два пакетни файла, "whs" и "whm".
- Поставете това в първия скрипт:
прошепвам --model small --language en %1
- Поставете това във втория:
прошепвам --model media --language en %1
Поздравления, вече имате три скрипта за лесно използване на малките, малките и средните модели на Whisper с вашите аудио файлове! За да транскрибирате всеки аудио файл в текст:
- Намерете файла с Windows File Explorer.
- Кликнете с десния бутон на празно място и изберете Отворете в терминал.
- Въведете тази команда, като замените "wht" с "whs" или "whm", за да използвате малките или средните езикови модели:
каквоВАШИЯ_АУДИО_ФАЙЛ.mp3
Писане със скоростта на звука с шепот
Дори и най-бързите пишещи машини не могат да достигнат скоростта, с която говорим. Доскоро обаче говоренето вместо писане не беше оптимално за създаване на документи.
Повечето решения за глас към текст дават посредствени резултати. Бихте могли да намерите няколко решения, които си струва да опитате, но те бяха сложни за използване или скъпи. За щастие, Whisper промени всичко това.
След стъпките по-горе трябва да сте готови да транскрибирате или превеждате гласа си с висока точност, като използвате само една команда.