Вероятно сте чували за GPT на OpenAI, но те не са единствените LLMs в блока.
Ключови изводи
- GPT-4 на OpenAI е най-модерният и широко използван голям езиков модел с 1,76 трилиона параметри и мултимодални способности.
- Claude 2 на Anthropic се конкурира с GPT-4 в задачите за творческо писане и се задържа, въпреки че разполага с по-малко ресурси.
- PaLM 2 на Google, въпреки че не е убиец на GPT-4, е мощен езиков модел със силни многоезични и творчески способности. Falcon-180B е модел с отворен код, който съперничи на търговските гиганти и може да се изправи срещу GPT-3.5.
Сезонът на ИИ е и технологичните компании произвеждат големи езикови модели като хляб от пекарна. Новите модели се пускат бързо и става твърде трудно да се следи.
Но сред вълнението от нови издания, само няколко модела се издигнаха до върха и се доказаха като истински претенденти в голямото пространство на езиковите модели. С наближаването на края на 2023 г. събрахме шестте най-впечатляващи големи езикови модела, които трябва да опитате.
1. GPT-4 на OpenAI
GPT-4 е най-модерният публично достъпен голям езиков модел до момента. Разработено от OpenAI и пуснато през март 2023 г. GPT-4 е най-новата итерация в серията Generative Pre-trained Transformer който започна през 2018 г. Със своите огромни възможности, GPT-4 се превърна в един от най-широко използваните и най-популярните големи езикови модели в света.
Въпреки че не е официално потвърдено, източниците изчисляват, че GPT-4 може да съдържа удивителните 1,76 трилиона параметри, около десет пъти повече от своя предшественик, GPT-3.5, и пет пъти по-голям от флагмана на Google, PaLM 2. Този масивен мащаб позволява мултимодалните способности на GPT-4, което му позволява да обработва както текст, така и изображения като вход. В резултат на това GPT-4 може да интерпретира и описва визуална информация като диаграми и екранни снимки в допълнение към текста. Мултимодалният му характер осигурява по-човешко разбиране на данните от реалния свят.
В научните бенчмаркове GPT-4 значително превъзхожда други съвременни модели при различни тестове. Въпреки че сравнителните тестове сами по себе си не демонстрират напълно силните страни на модела, случаите на използване в реалния свят показват, че GPT-4 е изключително умел в решаването на практически проблеми интуитивно. GPT-4 в момента се таксува на $20 на месец и достъпен чрез плана Plus на ChatGPT.
2. Клод 2 от Антропик
Въпреки че не е толкова популярен като GPT-4, Claude 2, разработен от Anthropic AI, може да се сравнява с техническите показатели на GPT -4 и производителността в реалния свят в няколко области. В някои стандартизирани тестове, включително избрани изпити, Claude 2 превъзхожда GPT-4. Езиковият модел на AI също така има значително превъзходен контекстен прозорец при около 100 000 токена, в сравнение с моделите 8k и 32k токени на GPT -4. Въпреки че по-голямата дължина на контекста не винаги води до по-добра производителност, разширеният капацитет на Claude 2 осигурява ясни предимства, като изграждане на цели книги от 75 000 думи за анализ.
По отношение на цялостната производителност GPT-4 остава по-добър, но нашите вътрешни тестове показват, че Claude 2 го надминава в няколко задачи за творческо писане. Claude 2 също изостава от GPT-4 в програмирането и математическите умения въз основа на нашите оценки, но се отличава с предоставянето на човешки, творчески отговори. Когато подканихме всички модели в този списък да напишат или пренапишат творческо произведение, шест пъти от десет, избрахме резултата на Claude 2 заради неговите естествено звучащи човешки резултати. Понастоящем, Claude 2 се предлага безплатно чрез чатбота Claude AI. Има и $20 платен план за достъп до допълнителни функции.
Въпреки че има по-малко финансова подкрепа от гиганти като OpenAI и Microsoft, моделът Claude 2 AI на Anthropic се справя с популярните модели GPT и серията PaLM на Google. За AI с по-малко ресурси, Claude 2 е впечатляващо конкурентен. Ако бъдете принудени да заложите кой съществуващ модел има най-добри шансове да съперничи на GPT в близко бъдеще, Claude 2 изглежда най-сигурният залог. Въпреки че е изпреварен по отношение на финансирането, разширените възможности на Claude 2 предполагат, че той може да се справи с дори добре финансирани гиганти (въпреки че си струва да се отбележи, че Google направи няколко големи приноса за антропен). Моделът е над своята категория тегло и показва обещание като нововъзникващ претендент.
3. GPT-3.5 на OpenAI
Въпреки че е засенчен от пускането на GPT-4, GPT-3.5 и неговите 175 милиарда параметри не трябва да се подценяват. Чрез итеративни фини настройки и надстройки, фокусирани върху производителността, точността и безопасността, GPT-3.5 измина дълъг път от оригиналния модел GPT-3. Въпреки че му липсват мултимодалните възможности на GPT -4 и изостава в дължината на контекста и броя на параметрите, GPT-3.5 остава много способен, като GPT-4 е единственият модел, който може да надмине неговата цялостна производителност решително.
Въпреки че е модел от второ ниво в семейството на GPT, GPT-3.5 може да се задържи и дори да надмине водещите модели на Google и Meta по няколко показателя. При успоредни тестове на математически и програмни умения срещу PaLM 2 на Google, разликите не бяха големи, като GPT-3.5 дори имаше леко предимство в някои случаи. По-креативните задачи като хумор и писане на разказ показаха, че GPT-3.5 дръпна напред решително.
И така, докато GPT-4 бележи нов крайъгълен камък в AI, GPT-3.5 остава впечатляващо мощен модел, способен да се конкурира и понякога да надмине дори най-модерните алтернативи. Непрекъснатото му усъвършенстване гарантира, че остава актуален дори заедно с по-ярките модели от следващо поколение.
4. PaLM 2 на Google
Когато оценявате възможностите на AI модел, доказаната формула е да прочетете техническия доклад и проверете резултатите от бенчмарка, но вземете всичко, което сте научили, със зърно сол и тествайте модела себе си. Колкото и контраинтуитивно да изглежда, резултатите от бенчмарка не винаги съответстват на производителността в реалния свят за някои AI модели. На хартия PaLM 2 на Google трябваше да бъде убиецът на GPT-4, като официалните резултати от теста предполагат, че съвпада с GPT-4 в някои бенчмаркове. Въпреки това, при ежедневна употреба се очертава различна картина.
В логическо мислене, математика и креативност PaLM 2 не достига GPT-4. Освен това изостава от Claude на Anthropic в набор от задачи за творческо писане. Въпреки това, въпреки че не успява да оправдае фактурирането си като убиец на GPT-4, PaLM 2 на Google остава мощен езиков модел сам по себе си, с огромни възможности. Голяма част от негативните настроения около него произтичат от сравнения с модели като GPT-4, а не от откровено лошо представяне.
С 340 милиарда параметри, PaLM 2 е сред най-големите модели в света. Той особено се справя с многоезични задачи и притежава силни математически и програмни способности. Въпреки че не е най-добрият в това, PaLM 2 също е доста ефективен при творчески задачи като писане. И така, докато бенчмарковете рисуваха оптимистична картина, която не се материализира напълно, PaLM 2 все още демонстрира впечатляващи AI умения, дори и да не надминава всички конкуренти навсякъде.
5. Falcon-180B на TII
Освен ако не сте в крак с бързото темпо на издаването на езикови модели на AI, вероятно никога не сте се сблъсквали с Falcon-180B. Разработен от Института за технологични иновации на ОАЕ, Falcon-180 с параметри от 180 милиарда е един от най-мощните езикови модели с отворен код, дори ако му липсва разпознаването на имената на GPT моделите или широкото използване на Meta's Лама 2. Но не се заблуждавайте - Falcon-180B може да се изправи срещу най-добрите в класа.
Резултатите от бенчмарка разкриват, че Falcon-180B превъзхожда повечето модели с отворен код и се конкурира с комерсиални гиганти като PaLM 2 и GPT-3.5. При тестване на задачи по математика, кодиране, разсъждения и творческо писане, той дори изпревари GPT-3.5 и PaLM 2 на пъти. Ако класираме GPT-4, GPT-3.5 и Falcon-180B, бихме поставили Falcon-180B точно между GPT-4 и GPT-3.5 заради силните му страни в няколко случая на употреба.
Въпреки че не можем да кажем уверено, че е по-добър от GPT-3.5 като цялостна производителност, той прави аргументи за себе си. Въпреки че е неясен, този модел заслужава внимание, тъй като съответства или надхвърля възможностите на по-известни алтернативи. Можете да изпробвате модела Falcon-180B на Прегръщащо лице (платформа за LLM с отворен код).
Llama 2, големият езиков модел със 70 милиарда параметъра на Meta AI, се основава на своя предшественик, Llama 1. Въпреки че е по-малък от водещите модели, Llama 2 значително превъзхожда повечето публично достъпни LLM с отворен код в бенчмаркове и използване в реалния свят. Изключение би бил Falcon-180B.
Тествахме Llama 2 срещу GPT-4, GPT-3.5, Claude 2 и PaLM 2, за да преценим възможностите му. Не е изненадващо, че GPT-4 надмина Llama 2 по почти всички параметри. Въпреки това, Llama 2 се справи с GPT-3.5 и PaLM 2 в няколко оценки. Въпреки че би било неточно да се твърди, че Llama 2 е по-добър от PaLM 2, Llama 2 реши много проблеми, които спънаха PaLM 2, включително задачи за кодиране. Claude 2 и GPT-3.5 изпревариха Llama 2 в някои области, но бяха решително по-добри само в ограничен брой задачи.
Така че, макар да не надвишава възможностите на най-големите патентовани модели, Llama 2 с отворен код е над своя тегловен клас. За свободно достъпен модел той демонстрира впечатляваща производителност, съперничейки на AI гиганти като PaLM 2 в избрани оценки. Llama 2 дава поглед върху бъдещия потенциал на езиковите модели с отворен код.
Разликата в производителността между AI моделите намалява
Въпреки че AI пейзажът се развива с главоломни темпове, GPT-4 на OpenAI остава лидер в групата. Въпреки това, докато GPT-4 остава несравним по мащаб и производителност, модели като Claude 2 показват, че с достатъчно умения по-малките модели могат да се конкурират в избрани области. PaLM 2 на Google, въпреки че не отговаря на някои високи очаквания, все още показва дълбоки възможности. И Falcon-180B доказва, че инициативите с отворен код могат да стоят рамо до рамо с титаните в индустрията, които имат достатъчно ресурси.