NVIDIA GeForce GTX 200: monstrum všemi směry

16.6.2008, Petr Papež, článek

Už je to opět tady. Novinkáři se snaží rozeznat kachny od opravdových zpráv, čtenáři hltají každý řádek, recenzenti se snaží dodržet NDA a prodejci dávají výprodeje na starou řadu. Jaký výrobek jde na naše pulty? Dámy a pánové, přivítejte řadu NVIDIA GeForce GTX 200. Můžete si být jisti, že ji nepřehlédnete, je to totiž pěkně masivní kousek, od chladiče až po čip.

Kapitoly článku:

NVIDIA GeForce GTX 200: monstrum všemi směry
Popis, fotky, závěr a recenze

Při každém uvedení se marketingové oddělení NVIDIA rozhodne, jakou technologií bude řada reprezentována. Už jsme tu měli přehrávání HD obsahu, DirectX 10 nebo vysoký výkon. Tentokrát je prezentace trochu netradiční, ale už jsme podobnou jednou měli od ATI.

NVIDIA sází na masivní výkon a paralelizaci a chce tyto vlastnosti „nově“ uplatnit i v zatím nepříliš používaných oblastech. Jedná se o distribuované výpočty a fyziku. Právě výpočty v domácnostech přes "Folding" byly zatím doménou pouze ATI.

Podívejme se, co nového zdobí nitra tohoto čipu. Vynecháme-li marketingové údaje o druhé generaci unifikované architektury, najdeme i několik zajímavých informací. Pojďme se ponořit více do hloubky a začneme problémem minulé řady. Improved dual-issue značí posun v problému, který na Beyond3D vtipně označili jako „případ chybějící MUL“. V krátkosti zmíníme, že každý stream procesor (každé výpočetní jádro v grafické kartě) je skalární matematický procesor, který má určité schopnosti a jednou z nich je provést MADD (násobení a sčítání) a MUL (násobení) instrukce v jednom taktu. Bohužel u G80 se objevil problém, který toto znemožňoval. Následek? Především pokles výpočetního výkonu, G80 nedosahovala proklamovaných 518 GFlops, ale podstatně méně.

Proč se vůbec o tom zmiňuji? NVIDIA GTX 280 (nejvýkonnější karta řady) má dosahovat výpočetního výkonu 933 GFlops. NVIDIA tvrdí, že účinnost dosahuje 93 – 94 % plně funkčního dual-issue, ale pouze v případě použití optimalizovaných testů přímo na tento problém. Samozřejmě to jsme stále v single precision číslech s plovoucí desetinnou čárkou (dále FP).

Právě složitější double precision FP (programátoři jej jednoduše znají jako double) je další nová vlastnost, se kterou byla NVIDIA nucena přijít, ATI již uvedla tuto technologii v minulé generaci karet. Na druhou stranu je pravda, že ATI nemá přímo jednotky určené na výpočet 64-bitových FP, výpočty se rozdělují a počítají pomocí 32-bitových FP. Jak FP64 počítá, materiály NVIDIA přímo neuvádí, ale nabízí nám informaci, že karta GTX 280 obsahuje celkem 30 FP64-kompatibilních jednotek (to jsou bloky osmi stream procesorů). Uváděný výkon v FP64 je přirovnáván k 8-jádrovému Xeonu, tedy cca 90 GFlops.

Dále má GPU zvětšené registry stream procesorů a to hned dvakrát, pravděpodobně to souvisí s nástupem double precision u čísel s plovoucí desetinnou čárkou. To je ovšem pouze odhad, NVIDIA tuto informaci nepotvrzuje. K dispozici je graf, kde máme k dispozici výkonnostní rozdíl v 3DMark Vantage, který tvoří přibližně 15% ve prospěch delších registrů.

Vlákna, kouzelné slovíčko, které pro programátory znamená mnoho práce navíc a pro běžné uživatele ne až tak velký přínos (pro kancelářskou práci nebo internet, což drtivé většině populace stačí). To však platí především u procesorů, grafické karty jsou masivně paralelizované a programátor se nestará o každé vlákno. Počet vláken byl navýšen, více v tabulce.

Čip	Počet TPC	Počet SM na TPC	Počet vláken na SM	Celkový počet vláken
GeForce 8 a 9	8	2	768	12 288
GeForce GTX 200	10	3	1 024	30 720

* SM je blok 8 stream procesorů
* TPC znamená v případě použití jako grafické karty "Texture Processing Clusters", v případě jako výpočetní jednotky "Thread Processing Clusters". Skládá se z texturovací části a zmíněného počtu SM. Právě zvýšení počtu SM je jasný náznak navýšení výkonu shaderů. Zatímco textury dostaly pouze malé navýšení v podobě 2 jednotek TPC, shaderů přibylo řádově mnohem více.

Jedna TPC jednotka

Pohled na celou architekturu v případě použití jako "Thread Processing Clusters".

"Texture Processing Clusters" v případě použití jako grafická karty pro vykreslování obrazu.

Ostatní novinky prolétneme letem, je to 1 GB paměti napojených na 512 bitovou sběrnici. Nový texture plánovač (texture schduler) spojený s dalším navýšením výkonu texturovací části (změna v TPC, kde přibyly stream procesory, aby se dosáhlo optimálního vyvážení mezi shadery a texturami) a celkově zvýšený výkon ROP jednotek (trojnásobný výkon ROP blending). Malých zlepšení je v dokumentech popsáno více a nabízí se otázka, zda si tentokrát marketingové oddělení vyhrálo nebo opravdu nová grafická karta nabízí takové množství menších novinek.

Celková velikost čipu narostla především díky 512-bitové sběrnici a množství stream procesorů na neskutečných 576 mm2. S 65nm výrobním procesem se tak stává největším vyrobeným grafickým čipem vůbec. Těch 1,4 miliardy tranzistorů se někam nacpat musí. Ovšem toto odvětví počítačového průmyslu se opět, bohužel vrací k extrémní spotřebě v případě plné zátěže. NVIDIA se ji snaží bez zátěže kočírovat technologií HybridPower a vypínáním neaktivních obvodů, přesto dle materiálů je spotřeba grafické karty v klidu 25 W, při přehrávání Blu-ray 35 W, v HybridPower módu 0 W (běží pouze integrovaná grafika, hodnotu berte s rezervou) a nakonec v zátěži 236 W. Ano, toto monstrum si dokáže v zátěži v maximálním případě vzít až 236 W. Samozřejmě ani nepřemýšlejte nad obyčejným nebo Tri/Quad SLI, v Quad se pak dostaneme pouze s grafikami k 1 kW!

1,4 miliardy tranzistorů. Fotka čipu vlevo, fotka s popisem jednotlivých částí vpravo.
(pro zvětšení fotky vlevo klikněte zde, vpravo zde)

Vrátíme se zpět k software. S fyzikou ve hrách to NVIDIA myslí velmi vážně. Od koupi společnosti Aegia už nějaký ten čas uplynul a doufejme, že jedinou změnou není změna loga PhysX na zeleno. Jako výhodu PhysX NVIDIA vidí multiplatformovost, v současné době uvádí více jak 140 her s podporou PhysX na všech platformách (PC, Wii, PS3 a XBOX). Z připravovaných her pro PC to je Bionic Commando, Borderlands, Shadow Harvest, Space Siege, Mirrors Edge, MStar nebo třeba APB. NVIDIA by měla uvést PhysX ovladače pro GTX 260/280 v následujících týdnech. Možná to je jeden z důvodů, proč je čip tak velký.

Dalším negrafickým odvětvím jsou distribuované výpočty, především pak oblíbený "Folding", který je portován na mnoho platforem, procesory a grafickými kartami počínaje a PlayStation 3 s procesorem IBM Cell konče. ATI podporuje Folding@home už nějakou dobu, NVIDIA si dala na čas, ale skóre je dnes srovnáno. NVIDIA uvádí výkon 511 ns/den pro GeForce GTX 280 (nejvýkonnější typ), ATI Radeon 3870 má v grafu pouze 170 ns/den. Bohužel už neuvádí, zda NVIDIA počítá stejné instrukce, dá se však předpokládat, že ano.

Zvýšení výkonu při nasazení GPU namísto CPU (podrobnosti k jednotlivým aplikacím na obrázku zde).

Na závěr tu je velmi pěkné srovnání plusů GTX 280 oproti 8800 GTX:

1,88x větší počet výpočetních jader (stream procesorů)
2,5x vyšší počet vláken na čip
dvojnásobná velikost registrů
zvýšený výkon texturovací části
podpora double-precision čísel s plovoucí desetinnou čárku (FP64)
mnohem rychlejší geometry shading
1 GB paměti s 512-bitovou sběrnicí
efektivnější plánování a instrukcí a zlepšení dual-issue
vyšší takt pamětí
zlepšení komunikace mezi jednotlivými jednotkami v čipu
zlepšený Z-cull
podpora 10bitových barev

Porovnání čísel v tabulce:

Na další stránce naleznete informace, jaké jsou k dispozici typy, jak nové grafické karty vypadají a recenze na zahraničních webech.