Předpokládalo se, že nová architektura Rubin bude představena až na GTC 2026. Nvidia ji ale představila už na herním veletrhu CES 2026.
Nvidia šlape na plyn a představuje novou výpočetní architekturu Rubin dříve, než se čekalo. Logicky se totiž uvedení očekávalo v březnu na AI konferenci GTC 2026 a nikoli už nyní na herním veletrhu CES 2026.
Nicméně stalo se tak, a máme zde tedy novou generaci hardwaru pro nejrůznější výpočty, především však pro AI. Máme tu nová CPU, GPU i přenosové sběrnice a síťová připojení.
Jako první se podíváme na Rubin GPU. To má 336 miliard tranzistorů (o 60 % více než Blackwell) a pro inferenci v datovém formátu NVFP4 nabízí výkon 50 PFLOPS, což je 5× tolik, co zvládl Blackwell. Pro trénování v NVFP4 je to 35 TFLOPS, a to se bavíme o 3,5krát vyšším výkonu. Výrazně se zvýšila paměťová propustnost. Paměti HBM4 nyní nabízí 2,8krát tolik, konkrétně 22 TB/s. Propustnost sběrnice NVLink pro GPU je nyní 2krát rychlejší s hodnotou 3,6 TB/s.
Dále tu máme nový 88jádrový procesor Vera na architektuře Olympus, jde o ARMový procesor. Díky Nvidia Spatial Multi-Threading dokáže zpracovávat 176 vláken najednou. Podporuje NVLink-C2C s rychlostí 1,8 TB/s, je vybaven 1,5 TB systémové cache (3násobné navýšení) a spolupracuje s operační pamětí SOCAMM LPDDR5X o propustnosti až 1,2 TB/s. Oproti procesorům Grace má zpracovávat data až 2krát rychleji.
Sběrnice NVLink 6 podporuje přenosové rychlosti až 3,6 TB/s pro GPU a máme zde 400G SerDes.
O síťovou konektirivu se stará Nvidia ConnectX-9 Spectrum-X SuperNIC. Ten nabízí Ethernet s propustností 800 Gb/s a 200G PAM4 SerDes. Zvládá nejmodernější bezpečnostní protokoly a sám o sobě má 23 milionů tranzistorů.
Zákazníci mohou sáhnout po velkém racku Nvidia Vera Rubin NVL72, který zvládá výkon až 3,6 EFLOPS v inferenci, 2,5 EFLOPS pro trénování, kapacita LPDDR5X paměti může být 2,5krát vyšší s 54 TB. Kapacita HBM4 paměti je o 50 % vyšší s 20,7 TB, propustnost vzrostla na 2,8násobek, konkrétně jde o 1,6 PB/s.
Nvidia současně představila Nvidia DGX SuperPOD, který obsahuje 8 těchto racků dohromady. Výsledkem nové architektury by mělo být to, že cena na token při inferenci klesla na pouhou desetinu a pro trénování MoE modelů je potřeba jen čtvrtinového množství GPU ve srovnání s Blackwellem GB200.