Графичните процесори на Nvidia изминаха дълъг път не само по отношение на производителността в игрите, но и в други приложения, особено изкуствения интелект и машинното обучение. Двата основни фактора, отговорни за производителността на графичния процесор на Nvidia, са ядрата CUDA и Tensor, налични в почти всеки модерен графичен процесор на Nvidia, който можете да закупите.
Но какво точно правят тези ядра и ако и двете се използват в приложения за изкуствен интелект и машинно обучение, как се различават?
Какво представляват CUDA ядрата и за какво се използват?
CUDA означава Compute Unified Device Architecture, което не обяснява много тяхното присъствие в GPU. Тези ядра бяха въведени в гамата GPU на Nvidia в архитектурата Maxwell 2014 и са специализирани в паралелна обработка.
Те са доста сходни с процесорните ядра по отношение на тяхното функциониране, но са по-добри при работа с някои задачи, включително криптографски хешове, физически машини, проекти, свързани с науката за данни и дори игри развитие.
Докато вече сме покрили как CUDA ядрата влияят върху производителността на игрите на вашия компютър, те са също толкова полезни при изчисляването на числата. Докато дори най-мощните процесори имат ядра с двуцифрено число, графичните процесори на Nvidia идват с няколко хиляди CUDA ядра, което ги прави много по-бързи при числени натоварвания. Освен това, тъй като те правят тези изчисления паралелно, получавате много по-високи скорости с CUDA ядра.
CUDA ядрата са по-бързи от обикновените CPU ядра, когато става въпрос за кратки числа, но все още не са идеалното решение. Това е така, защото те никога не са били предназначени да бъдат използвани по този начин. CUDA ядрата са създадени специално за графична обработка и за да направят графичните процесори на Nvidia по-способни в производителността на игрите.
Какво представляват тензорните ядра и за какво се използват?
Тъй като графичните процесори започнаха да се използват за натоварвания с изкуствен интелект и машинно обучение, Nvidia представи ядра Tensor в архитектурата Volta за своите графични процесори за центрове за данни от 2017 г.
Въпреки това отне архитектурата на Nvidia Turing (RTX 20-Series GPU), за да стигнат тези ядра до потребителските GPU. Помня че докато картите GTX 16-Series също са базирани на архитектурата Turing, те не включват проследяване на лъчи или Tensor ядра.
Докато ядрата на CUDA бяха в най-добрия случай подходящи за изчислителни натоварвания, ядрата на Tensor увеличиха антето, като бяха значително по-бързи. Докато CUDA ядрата могат да извършват само една операция на тактов цикъл, ядрата Tensor могат да обработват множество операции, което им дава невероятен тласък на производителността. По същество всичко, което ядрата на Tensor правят, е да увеличат скоростта на умножение на матрицата.
Това повишаване на изчислителната скорост идва за сметка на точността, като CUDA ядрата са значително по-точни. Въпреки това, когато става въпрос за обучение на модели за машинно обучение, Tensor ядрата са много по-ефективни по отношение на изчислителната скорост и общата цена; следователно загубата на точност често се пренебрегва.
Как ядрата Tensor и CUDA влияят върху производителността на GPU?
Както вероятно можете да се досетите досега, докато CUDA и Tensor ядрата могат да се справят с едни и същи натоварвания, те и двете са специализирани ядра съответно за графично изобразяване и числени натоварвания.
Това означава, че в зависимост от потребителя, към който е насочен даден GPU, той ще има различен брой ядра. Например, ако вземем предвид RTX 4090, най-новата и най-добра графична карта за игри на Nvidia, ориентирана към потребителите, ще получите много повече CUDA ядра, отколкото ядра Tensor. 16 384 CUDA ядра до 512 Tensor ядра, за да бъдем конкретни.
За сравнение, Nvidia L40 GPU за центрове за данни, базиран на същата архитектура Ada Lovelace като RTX 4090, има 18 176 CUDA ядра и 568 Tensor ядра. Това може да не изглежда толкова голяма разлика, но може значително да повлияе на производителността на тези графични процесори.
По отношение на теоретичната производителност, L40 има 90,52 TFlops за FP16 и FP32 производителност, както и 1414 GFlops за FP64 производителност. Това е огромно увеличение на производителността в сравнение с 82,58 TFlops на FP16 и FP32 производителност на RTX 4090 и 1290 GFlops на FP64 производителност.
Освен ако не сте добре запознати с числените числа за производителност на графичния процесор, данните за производителността на Nvidia GPU с плаваща запетая по-горе може да не означават много за вас. Въпреки това, накратко, те показват, че L40 е много по-бърз от RTX 4090, когато става въпрос за числени изчисления – тези, необходими за натоварвания, базирани на изкуствен интелект и машинно обучение.
Подобряването на производителността става още по-впечатляващо, когато вземете предвид консумацията на енергия на двата графични процесора. RTX 4090 има рейтинг TGP (да не се бърка с TDP, има малка разлика) от 450 W, докато L40 е с мощност само 300 W.
И двата графични процесора ще изпълняват игри и ще обучават добре модела ви за машинно обучение. Въпреки това, RTX 4090 ще бъде по-добър в стартирането на игри, а L40 ще бъде по-добър в обучението на модели за машинно обучение.
CUDA ядра срещу. Тензорни ядра: кое е по-важно?
И двете ядра са еднакво важни, независимо дали купувате своя GPU за игри или го поставяте в шкаф за център за данни. Графичните процесори за игри на Nvidia, ориентирани към потребителите, използват куп функции за изкуствен интелект (най-вече DLSS) и наличието на ядра Tensor на борда може да бъде полезно.
Що се отнася до графичните процесори на центъра за данни, ядрата CUDA и Tensor работят в тандем през повечето време, така че ще получите и двете, независимо от графичния процесор, който изберете. Вместо да се фокусирате върху конкретен тип ядро във вашия GPU, трябва да се съсредоточите повече върху това какво прави графичната карта като цяло и типа потребител, за който е предназначена.
CUDA ядрата са специализирани в обработката на графични натоварвания, докато Tensor ядрата са по-добри в числените. Те работят заедно и са взаимозаменяеми до известна степен, но се справят със собствените си специализации, което е причината да съществуват на първо място.
Различните графични процесори са специализирани в различни аспекти. RTX 4090 лесно ще смаже всяка игра, която му хвърлите, докато RTX 4060 може да се справи само с 1080p игри. Ако не играете с вашия GPU и ви е необходим само за обработка на числа или обучение на невронни мрежи, A-Series GPU за център за данни като A100 или дори L40 е най-добрият ви залог.
Вашите GPU ядра имат значение
Повече GPU ядра ще ви осигурят по-добра цялостна производителност, тъй като вашият GPU ще бъде по-гъвкав и ще има специални ресурси за справяне с различни задачи. Въпреки това сляпото получаване на GPU с най-голям брой ядра не е най-доброто решение. Отделете малко време, за да обмислите внимателно вашия случай на употреба, разгледайте възможностите на GPU като цяло и след това направете своя избор.