Можете да използвате Llama 2 на Meta онлайн, но можете да персонализирате и персонализирате изживяването, ако го инсталирате на вашата локална машина.
Meta пусна Llama 2 през лятото на 2023 г. Новата версия на Llama е фино настроена с 40% повече токени от оригиналния модел Llama, удвоявайки дължината на контекста си и значително превъзхождайки други налични модели с отворен код. Най-бързият и лесен начин за достъп до Llama 2 е чрез API чрез онлайн платформа. Въпреки това, ако искате най-доброто изживяване, инсталирането и зареждането на Llama 2 директно на вашия компютър е най-доброто.
Имайки това предвид, ние създадохме ръководство стъпка по стъпка за това как да използвате Text-Generation-WebUI за зареждане на квантован Llama 2 LLM локално на вашия компютър.
Защо да инсталирате Llama 2 локално
Има много причини, поради които хората избират да стартират директно Llama 2. Някои го правят от съображения за поверителност, други за персонализиране, а други за офлайн възможности. Ако проучвате, настройвате фино или интегрирате Llama 2 за вашите проекти, тогава достъпът до Llama 2 чрез API може да не е за вас. Смисълът на стартирането на LLM локално на вашия компютър е да се намали зависимостта от
AI инструменти на трети страни и използвайте AI по всяко време и навсякъде, без да се притеснявате от изтичане на потенциално чувствителни данни към компании и други организации.С това казано, нека започнем с ръководството стъпка по стъпка за локално инсталиране на Llama 2.
За да опростим нещата, ще използваме инсталатор с едно кликване за Text-Generation-WebUI (програмата, използвана за зареждане на Llama 2 с GUI). Въпреки това, за да работи този инсталатор, трябва да изтеглите Visual Studio 2019 Build Tool и да инсталирате необходимите ресурси.
Изтегли:Visual Studio 2019 (Безплатно)
- Продължете и изтеглете общностното издание на софтуера.
- Сега инсталирайте Visual Studio 2019, след което отворете софтуера. След отваряне поставете отметка в квадратчето Разработка на настолен компютър с C++ и натиснете инсталирай.
Сега, след като сте инсталирали Desktop development с C++, време е да изтеглите инсталатора с едно щракване Text-Generation-WebUI.
Стъпка 2: Инсталирайте Text-Generation-WebUI
Инсталаторът с едно щракване Text-Generation-WebUI е скрипт, който автоматично създава необходимите папки и настройва Conda средата и всички необходими изисквания за стартиране на AI модел.
За да инсталирате скрипта, изтеглете инсталатора с едно щракване, като щракнете върху Код > Изтеглете ZIP.
Изтегли:Инсталатор за генериране на текст-WebUI (Безплатно)
- След като го изтеглите, извлечете ZIP файла в предпочитаното от вас местоположение, след което отворете извлечената папка.
- В папката превъртете надолу и потърсете подходящата стартова програма за вашата операционна система. Стартирайте програмите, като щракнете двукратно върху съответния скрипт.
- Ако сте на Windows, изберете стартови_прозорци пакетен файл
- за MacOS изберете start_macos черупка
- за Linux, start_linux shell скрипт.
- Вашата антивирусна програма може да създаде предупреждение; това е добре. Подканата е просто антивирусна фалшиво положителна за изпълнение на пакетен файл или скрипт. Кликнете върху Бягай все пак.
- Ще се отвори терминал и ще започне настройката. В началото настройката ще спре на пауза и ще ви попита какъв графичен процесор използвате. Изберете подходящия тип GPU, инсталиран на вашия компютър, и натиснете enter. За тези без специална графична карта изберете Няма (искам да стартирам модели в режим CPU). Имайте предвид, че работата в режим CPU е много по-бавна в сравнение с работата на модела със специален GPU.
- След като настройката приключи, вече можете да стартирате локално Text-Generation-WebUI. Можете да го направите, като отворите предпочитания от вас уеб браузър и въведете предоставения IP адрес в URL адреса.
- WebUI вече е готов за използване.
Програмата обаче е само модел за зареждане. Нека изтеглим Llama 2 за стартиране на зареждащия модел.
Стъпка 3: Изтеглете модела Llama 2
Има доста неща, които трябва да имате предвид, когато решавате от коя итерация на Llama 2 се нуждаете. Те включват параметри, квантуване, хардуерна оптимизация, размер и използване. Цялата тази информация ще бъде отбелязана в името на модела.
- Параметри: Броят на параметрите, използвани за обучение на модела. По-големите параметри правят по-способни модели, но на цената на производителността.
- Употреба: Може да бъде стандартен или чат. Моделът на чат е оптимизиран да се използва като чатбот като ChatGPT, докато стандартът е моделът по подразбиране.
- Хардуерна оптимизация: Отнася се до това какъв хардуер управлява най-добре модела. GPTQ означава, че моделът е оптимизиран да работи на специален GPU, докато GGML е оптимизиран да работи на CPU.
- Квантуване: Означава прецизността на теглата и активациите в модел. За извод оптимална е точност от q4.
- размер: Отнася се за размера на конкретния модел.
Обърнете внимание, че някои модели може да са подредени по различен начин и може дори да нямат същия тип показана информация. Въпреки това, този тип конвенция за именуване е доста често срещана в HuggingFace Библиотека с модели, така че все още си струва да се разбере.
В този пример моделът може да бъде идентифициран като модел Llama 2 със среден размер, обучен на 13 милиарда параметъра, оптимизирани за извеждане на чат с помощта на специален процесор.
За тези, които работят на специален GPU, изберете a GPTQ модел, докато за тези, които използват процесор, изберете GGML. Ако искате да разговаряте с модела, както бихте направили с ChatGPT, изберете чат, но ако искате да експериментирате с модела с пълните му възможности, използвайте стандартен модел. Що се отнася до параметрите, знайте, че използването на по-големи модели ще осигури по-добри резултати за сметка на производителността. Аз лично бих ви препоръчал да започнете с модел 7B. Що се отнася до квантуване, използвайте q4, тъй като е само за извод.
Изтегли:GGML (Безплатно)
Изтегли:GPTQ (Безплатно)
След като вече знаете от каква итерация на Llama 2 се нуждаете, изтеглете модела, който искате.
В моя случай, тъй като изпълнявам това на ултрабук, ще използвам GGML модел, фино настроен за чат, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
След като изтеглянето приключи, поставете модела текст-генериране-webui-основен > модели.
Сега, след като вашият модел е изтеглен и поставен в папката на модела, е време да конфигурирате програмата за зареждане на модела.
Стъпка 4: Конфигурирайте Text-Generation-WebUI
Сега нека започнем фазата на конфигуриране.
- Още веднъж отворете Text-Generation-WebUI, като стартирате стартиране_(вашата ОС) файл (вижте предишните стъпки по-горе).
- Щракнете върху разделите, разположени над GUI Модел. Щракнете върху бутона за опресняване в падащото меню на модела и изберете вашия модел.
- Сега щракнете върху падащото меню на Модел товарач и изберете AutoGPTQ за тези, които използват GTPQ модел и cтрансформатори за тези, които използват GGML модел. Накрая кликнете върху Заредете за да заредите вашия модел.
- За да използвате модела, отворете раздела Чат и започнете да тествате модела.
Поздравления, успешно заредихте Llama2 на вашия локален компютър!
Изпробвайте други LLM
След като вече знаете как да стартирате Llama 2 директно на вашия компютър с помощта на Text-Generation-WebUI, трябва да можете да стартирате и други LLM освен Llama. Просто помнете конвенциите за именуване на моделите и че само квантувани версии на модели (обикновено с точност q4) могат да се зареждат на обикновени компютри. Много квантувани LLM са налични на HuggingFace. Ако искате да разгледате други модели, потърсете TheBloke в библиотеката с модели на HuggingFace и трябва да намерите много налични модели.