NVIDIA Ampere a CUDA jádra: dvojnásobek, nebo grafický "hyperthreading"?
2.9.2020, Jan Vítek, aktualita
Dosavadní zprávy zněly jasně, herní Ampere budou mít maximálně 5248 CUDA jader a my jsme dle toho očekávali i příslušný výkonnostní nárůst. NVIDIA nám však vyrazila dech a ohlásila i RTX 3090 s 10496 CUDA jádry.
Když se podíváme na specifikace nových karet, je zřejmé, že to je lepší, než jsme si mohli přát. NVIDIA překvapila především počtem CUDA jader, který dalece přesahuje vše, co nám dosud nabízela a tomu odpovídá i výkon. I pouhá RTX 3070 tak nabízí přes 20 TFLOPS, o čemž se nezdálo ani kartě TITAN RTX s jejími 16,3 TFLOPS. Nicméně můžeme skutečně mluvit o tom, že RTX 3070 má 5888 CUDA jader, nebo je to trošku jinak?
Model | Konfigurace (CUDA:TMU) | Takt GPU | Paměti | Sběrnice | Propustnost | Výkon FP32 | TDP | Cena | Dostupnost |
GeForce RTX 3070 | 5888:368 | 1500 - 1730 MHz | 8 GB GDDR6 | 256bit | 512 GB/s | až 20,4 TFLOPS | 220 W | 499 USD | říjen 2020 |
GeForce RTX 3080 | 8704:544 | 1440 - 1710 MHz | 10 GB GDDR6X | 320bit | 760 GB/s | až 29,8 TFLOPS |
320 W
|
699 USD | 17. září 2020 |
GeForce RTX 3090 | 10496:656 | 1400 - 1700 MHz |
24 GB GDDR6x
|
384bit | 936 GB/s |
až 35,7 TFLOPS
|
350 W | 1499 USD | 24 září 2020 |
Napovědět nám mohou následující dva snímky z včerejší prezentace. První ukazuje nalevo shadery generace Turing a druhý pak nové shadery či CUDA jádra generace Ampere.
Z jednoduchého obrázku je patrné, že ve skutečnosti asi nepůjde o dvojnásobný počet CUDA jader, o němž mluví už veškeré různě dostupné specifikace. Půjde spíše o takový počet, o kterém mluvily dosavadní fámy, jenomže tato jádra budou schopna fungovat jako dvě. Ostatně česká tisková zpráva od NVIDIE mluví o "dvojnásobné FP32 propustnosti".
I ze zobrazených náčrtků je patrné, že nová CUDA jádra budou sdílet některé své prostředky (scheduler či registry?) a jiné (hlavní pipeline?) budou mít zdvojené, a nás tak může napadnout, do jaké míry se tato architektura bude podobat technologii hyperthreading od Intelu. Nebo, a to je nejspíše lepší přirovnání, by mohlo jít o obdobu architektury Bulldozer od AMD a jejích dvoujádrových modulů, které taky obsahovaly samostatné a sdílené části.
Čili ve výsledku asi budeme mluvit spíše o 5888, 8704 a 10496 efektivních CUDA jádrech, pokud budeme chtít být přesní. Nicméně běžnému uživateli může být stejně jedno, jakým způsobem toho NVIDIA docílila, pokud bude skutečně zaručeno, že CUDA v Ampere se skutečně budou chovat tak, jak slibují specifikace a RTX 3080 dosáhne až téměř na 30 TFLOPS výkonu.
Samostatnou kapitolou je pak výkon v ray tracingu s využitím DLSS, kde NVIDA už slibuje schopnost vykreslovat kompletně ray tracované scény bez využití rasterizace. Na to se ale zaměříme někdy příště.