Intel představil AI akcelerátor Gaudi 3 se 128 GB paměti HBM2e

10.4.2024, Milan Šurkala, aktualita

Intel představil novou generaci akcelerátorů algoritmů umělé inteligence, Gaudi 3. Novinka má být o 50 % výkonnější než Nvidia H100 a bude vyráběna 5nm technologií. K dispozici má 128 GB paměti HBM2e.

Společnost Intel chce opět ubrat trochu tržního podílu Nvidie na poli akcelerátorů umělé inteligence a představuje novou generaci akcelerátorů Gaudi 3. Novinka je vyráběna pomocí 5nm procesu a skládá se ze 64 jednotek TPC a 8 MME (Matrix Math Engine). Jedno MME zvládá 64 tisíc paralelních operací najednou a uzpůsobeno je především na efektivní operace s maticemi. Čip dosahuje proti předchozí generaci 2× vyššího výkonu ve formátu FP8 (1835 TFLOPS) a dokonce 4krát vyššího v FP16. Oba tyto číselné formáty jsou důležité pro algoritmy AI. Intel rovněž navýšil síťovou propustnost na dvojnásobek a o 50 % se zvýšila paměťová propustnost.

klikněte pro zvětšení

Gaudi 3 má 96 MB cache paměti, která má propustnost 12,8 TB/s. Dále tu máme 128 GB paměti HBM2E, ta dosahuje vysoké propustnosti 3,7 TB/s. Akcelerátor podporuje konektivitu 24×200GbE a může být postaven na sběrnici PCIe 5.0 x16. Verze pro PCIe slot (HL-338) se vyznačuje spotřebou 600 W. Existuje také ve formátu OAM (HL-325L) a jako deska osazená 8 takovými kartami, Universal Baseboard (HLB-325). To se dostáváme na 14,6 PFLOPS (FP8), více než 1 TB paměti HBM2E. Takový systém si už celý vezme 7,6 kW (přes 900 W na kartu).

Proti starší kartě Nvidia H100 zvládá nový Intel o 50 % rychleji natrénovat modely Llama2 7B i 13B, podobně tak i GPT-3 se 175 miliardami parametrů. V inferenci nabídne o 50 % vyšší výkon a o 40 % větší energetickou efektivitu např. v Llama 7B a 70B, také to má platit o Falcon 180B. Proti novější Nvidii H20 zvládá rychlejší inferenci, a to o 30 % v Llama 7B i 70B a Falcon 180B. Zatímco moduly OAM a Universal Baseboard budou k dispozici už od tohoto čtvrtletí, PCIe karta se objeví až v tom posledním.

Zdroj: wccftech.com, intel.com