NVIDIA Ampere A100: nový hardware a obrovský nárůst výkonu
14.5.2020, Jan Vítek, aktualita
Jensen Huang se nakonec nerozhodl živě prezentovat své novinky původně připravené pro GTC 2020, ale pouze vypustil do světa sérii předem připravených videí. Z nich se tak dozvíme i podrobnosti o čipech A100 generace Ampere.
Předem je třeba říci, že o herní podobě čipů Ampere jsme se z online projevu Jensena Huanga bohužel nedozvěděli nic, ale to se dalo čekat. Ten pouze předem prozradil, že Ampere je určen i pro nové GeForce, ale v samotné keynote už na toto téma nepřišla řeč. Ale NVIDIA na rozdíl od AMD nemluví o herních produktech měsíce dopředu a obvykle je zmíní až těsně před vypuštěním na trh.
Máme tu tak alespoň čip NVIDIA A100, který bude představovat naprostý vrchol generace Ampere a i od něj se budou odvíjet schopnosti herních GeForce. A ty mohou být velice zajímavé. Potvrzuje se, že A100 se skládají z 54 miliard tranzistorů a mají 3. generaci jader Tensor a celkově přepracované provádění výpočetních operací, které slibuje velice podstatné a mnohonásobné navyšování výkonu.
A100 budou či spíše jsou vyráběny 7nm procesem v TSMC a využívají paměti HBM2 či HBM2E s propustností 1,6 TB/s. Evidentně jde o 6 pouzder s 6144bitovým rozhraním, takže půjde o propustnost na pin kolem 2,1 Gb/s, což by třetí generace HBM2 měla s přehledem zvládnout.
Můžeme se také už podívat na lepší snímek kartové verze nové Tesly s A100, kde se potvrzuje nasazení řešení firmy Mellanox, a sice ConnectX-6 DX SmartNIC.
Díky novému formátu TF32 (Tensor Float 32), který Huang popisuje jako formát s rozsahem FP32 a přesností FP16, takže bude možné trénovat neuronové sítě s využitím vstupu v FP32 beze změny v kódu a výsledkem má být až neuvěřitelný nárůst výkonu, a to i díky nově podporované funkci Sparsity, která má výkon ještě dále zdvojnásobovat. Zde budeme potřebovat ještě vysvětlení toho, co Sparsity konkrétně představuje, ale půjde o využití řídkosti neuronových sítí.
A100 bude celkově mnohem výkonnější oproti V100, a to už i v FP64, kde lze očekávat nárůst z 8 na 20 TFLOPS a pak i v FP32 (TF32), FP16 i INT8. Následující tabulka pak ukazuje teoreticky maximální výkony A100 v různých formátech.
Formát | Výkon |
Peak FP64 | 9,7 TFLOPS |
Peak FP64 Tensor Core | 19,5 TFLOPS |
Peak FP32 | 19,5 TFLOPS |
Peak FP16 | 78 TFLOPS |
Peak BF16 | 39 TFLOPS |
Peak TF32 Tensor Core | 156 TFLOPS | 312 TFLOPS |
Peak FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS |
Peak BF16 Tensor Core | 312 TFLOPS | 624 TFLOPS |
Peak INT8 Tensor Core | 624 TOPS | 1248 TOPS |
Peak INT4 Tensor Core | 1248 TOPS | 2496 TOPS |
Tento výkon bude možné v rámci serveru rozdělit na sedm samostatných instancí, takže jedno GPU A100 bude moci sloužit jako sedm samostatných čipů, a to každý s reálným výkonem jedné V100.
Dále se potvrzuje, že nové systémy DGX A100 vybavené osmi GPU Ampere A100 jsou založeny na 64jádrových procesorech Rome, což je další vítězství pro AMD a dále opět nebude chybět výkonné síťové rozhraní od Mellanoxu.
Veškerá videa v rámci GTC 2020 keynote naleznete zde.