Серията GPU Instinct на AMD става популярна в компютърната и AI общността. Ето защо.

Няма съмнение, че NVIDIA продължава да доминира в паралелното изчислително пространство с различните си популярни GPU серии. Но с ускорителите Instinct AI на AMD, оборудващи два от най-новите и най-големи суперкомпютри (Frontier и El Capitan) и нарастващата подкрепа на общността за тяхната ROCm платформа с отворен код, NVIDIA може би са намерили най-големия си конкурент досега.

И така, какво точно представляват ускорителите Instinct AI на AMD? Какво ги прави мощни и как се сравняват с графичните процесори Tensor на NVIDIA?

Какво представлява процесорът AMD Instinct?

Процесорите Instinct на AMD са хардуер от корпоративен клас, използван за високопроизводителни изчисления (HPC) и AI-ускорена обработка. За разлика от обикновените графични процесори от потребителски клас, графичните процесори Instinct са специализирани да се справят по-добре с обучението на AI и други задачи с висока производителност чрез софтуерни и хардуерни иновации.

instagram viewer

Серията графични процесори Instinct на AMD беше използвана за захранване на първия суперкомпютър, който преодоля бариерата Exascale, изпълнявайки 1,1 EFLOPs при операции с двойна точност в секунда. Суперкомпютри, използващи графични процесори Instinct, в момента се използват за изследване на лечението на рак, устойчивата енергия и изменението на климата.

Как процесорите Instinct ускоряват AI и HPC

За най-мощните масови сървъри и суперкомпютри в света за постигане на обработка на ниво Exascale, ускорителите Instinct на AMD трябваше да бъдат оборудвани с няколко технологични надстройки и иновации.

Нека обсъдим някои от новите и актуализирани технологии, използвани в GPU AMD Instinct.

1. Изчисляване на ДНК (CDNA)

Кредит за изображение: Pascal Liebart/AMDLibrary

Последните ускорители на AMD Instinct (започващи от MI100) използват CDNA архитектурата на компанията.

CDNA основно се фокусира върху функции като паралелна обработка, йерархия на паметта и оптимизирани изчислителни характеристики чрез тяхната технология Matrix Core. Дори HPC и AI или машинно обучение, което работи на един сървър, може да се поддържа от CDNA, както и от огромни компютри Exascale.

Технологията Matrix Core на AMD ускорява обучението на AI, като поддържа операции със смесена точност. Възможността за изчисляване с различна прецизност позволява на графичните процесори Instinct ефективно да изчисляват матрични операции въз основа на необходимото ниво на прецизност.

Най-популярните формати за прецизност на изчисленията включват FP64, FP32, FP16, BF16 и INT8. FP означава Floating Point, BF за Brain Floating Point и INT за Integer. Колкото по-голямо е числото, съответстващо на формата, толкова по-прецизно е изчислението. Работата на 64 бита е известна като двойна точност. При 32-битов е с единична точност, при 16-битов е с половин точност и т.н.

Тъй като голяма част от обучението на модели за дълбоко обучение не изисква много прецизност, имайки способността да изчислявате матрица операции с половин точност или дори четвърт точност за изводи значително намаляват натоварването, като по този начин ускоряват AI изучаване на.

2. Памет с висока честотна лента (HBM)

Кредит за изображение: Джейсън Де Вос/AMDLibrary

Всеки AMD Instinct AI ускорител идва с до 880 матрични ядра. С процесорите Matrix Core на AMD, способни да правят 383 TFLOPs изчисления с половин прецизност, наличието на свръхбърза памет е необходимо. Най-новите предложения на AMD Instinct са оборудвани с High Bandwidth Memory (HBM) вместо обичайната DDR4 или DDR5 RAM.

За разлика от конвенционалната памет, HBM използва това, което е известно като 3D подредена архитектура. Този тип архитектура се отнася до дизайнерски подход, при който DRAM матриците са вертикално подредени една върху друга. Това позволява матриците да бъдат подредени както по вертикалната, така и по хоризонталната ос, оттук и терминът 3D подреждане.

С тази 3D технология за подреждане, HBM могат да имат капацитет на физическа памет до няколкостотин гигабайта на модул, докато DRR5 може да направи само до десетки гигабайта на модул. Освен капацитета, HBM също така е известно, че имат по-висока производителност по отношение на скорост на трансфер и по-добра енергийна ефективност от обикновената DDR памет.

3. Infinity Fabric

Друга иновация, включена в GPU Instinct, е технологията Infinity Fabric на AMD. Infinity Fabric е тип система за свързване, която свързва процесори и графични процесори по интелигентен динамичен начин. Това позволява на компонентите да комуникират ефективно помежду си.

С Infinity Fabric, вместо свързване на компоненти с обикновена шина, компонентите вече са свързани в подобна на мрежа мрежа, където честотната лента може да бъде до няколкостотин гигабайта в секунда.

Освен мрежестото свързване, Infinity Fabric също използва сензори, вградени във всяка матрица, за да динамично контролна честота, скорости на трансфер на данни и други адаптивни поведения, оптимизиране на производителността и минимизиране латентност.

4. ROCm платформа за разработка

CUDA на NVIDIA (compute unified device architecture) е най-широко използваната платформа за разработка за обучение на AI модели. Проблемът с CUDA е, че работи само с NVIDIA GPU. Това е една от основните причини, поради които NVIDIA има огромното мнозинство от пазарните дялове за HPC и AI GPU ускорители.

Тъй като AMD искаше да получи по-голяма част от пазара на HPC и AI, те трябваше да разработят своя собствена платформа, ROCm (Radeon Open Compute). ROCm е софтуерна платформа с отворен код, която позволява графичните процесори Instinct да се използват като AI ускорители.

Въпреки че не е непременно част от хардуера на Instinct, ROCm е фундаментален, когато става въпрос за оцеляването на линията GPU на Instinct. С ROCm, разработчици и изследователите получават ROCm инструменти, компилатор, драйвери на ядрото, цял набор от библиотеки и достъп до рамки като TensorFlow и PyTorch, за да се развиват с техните предпочитан AI език за програмиране.

Как се сравняват AI ускорителите Instinct с AI ускорителите Radeon GPU?

AMD предлага своята гама от графични процесори Instinct за предприятия и графични процесори Radeon за обикновени потребители. Както беше обсъдено по-рано, Instinct GPU използва CDNA архитектурата на AMD, HBM и Infinity Fabric interconnect. Обратно, Radeon използва RDNA архитектурата на AMD, DDR6 памет и Infinity Cache.

Макар и с по-малки възможности, серията AI ускорители Radeon все още разполагат с мощ, внедрявайки едно или две ядра на AI ускорител на изчислителна единица. Последния Графичен процесор Radeon RX7900 XT има две AI ускорителни ядра на изчислителна единица, което позволява 103 TFLOPs пикова полупрецизност и 52 TFLOPs пикови изчисления с единична точност.

Докато серията графични процесори Instinct е по-подходяща за LLM и HPC, Radeon AI ускорителите могат да се използват за фина настройка на предварително обучени модели, изводи и графично интензивни задачи.

AMD Instinct срещу. Тензор на NVIDIA

Според а Проучване на TrendForce, NVIDA има 80% пазарен дял за сървърни GPU, докато AMD има само 20%. Този огромен успех на NVIDIA се дължи на факта, че те са компания, специализирана в дизайна и сглобяването на GPU. Това им позволява да проектират графични процесори със значително по-добра производителност, несравними с други предложения.

Нека сравним Instinct MI205X на AMD и H100SXM5 на NVIDIA, използвайки спецификации от Официален уебсайт на AMD и Собствен лист с данни на NVIDIA:

GPU модел

FP64 (TFLOPs)

FP32 (TFLOPs)

FP16 (TFLOPs)

INT8 (TFLOPs)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Както можете да видите в таблицата, MI250X на AMD се представя по-добре по отношение на двойна прецизност и полупрецизност изчисления, докато H100SXMS на NVIDIA е много по-добър по отношение на матрица с половин точност и четвърт точност изчисления. Това прави MI250X на AMD по-подходящ за HPC, докато H100SXMS на NVIDIA с AI обучение и изводи.

Бъдещето на процесорите Instinct на AMD

Въпреки че най-новото предложение на AMD, MI250X, е предназначено за HPC, техният предстоящ MI300 е по-ориентиран към AI обучение. Този AI ускорител е обявен като APU, комбиниращ GPU и CPU в един пакет. Това позволява на MI300 да използва тяхната CNDA3 Unified Memory APU архитектура, където GPU и CPU ще използват само една памет, повишавайки ефективността и намалявайки цената.

Въпреки че AMD няма да се конкурира с NVIDIA на пазара на AI ускорители днес, след като MI300 бъде пуснат и ROCm стане полирана, серията Instinct на AMD може просто да е достатъчно добра, за да грабне значителна част от пазара на AI ускорители от NVIDIA.