Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

AMD Graphics Core Next: revoluce po 10 letech

13.1.2012, Petr Štefek, technologie
AMD Graphics Core Next: revoluce po 10 letech
AMD velmi překvapivě vydalo zbrusu novou architekturu GPU o více než rok dříve, než byl původní plán. Graphics Core Next, jak se novinka jmenuje, je revolucí, která mění GPU z dílen AMD po 10 letech od nástupu Radeonu 9700. Doplněno o 4 nové kapitoly.

32 ROP stále více než dost


U AMD jsme si jako u prvního výrobce zvykli na fakt, že své produkty začal osazovat paměťovými čipy GDDR5 a vsadil spíše na obvyklou šířku sběrnice. Výsledkem ale byla slušná propustnost, neboť čipům AMD nedělalo žádný problém pracovat s GDDR5 na efektivním taktu výrazně vyšším než 4 GHz, tedy přesně to, s čím bojovala Nvidia a její počáteční experimenty s GDDR5 dopadaly špatně. High-end vsázel spíše na širší sběrnici 384-bit a nízko taktované GDDR5. Výhoda úspory v jednodušším řadiči a plošném spoji tak do jisté míry vzala za své. Nyní se zdá, že podle všeho právě paměti začínají být zase brzdou pro výkonné GPU.

Paměťová propustnost se stala limitem v momentu, kdy se v GPU začaly vyvíjet původně poměrně jednoduché rasterizační jednotky, které mají velké nároky na rychlost pamětí respektive propustnosti paměťového subsystému. Často se tak u některých karet stávalo, že pokud jste přetaktovali paměti, tak získaný výkonnostní bonus byl větší než v případě, že jste přetaktovali GPU. Limit paměťové propustnosti ale nikdy nebyl vážnější otázkou než nyní s příchodem GPU Tahiti. GDDR5 jsou již na své limitu a vývojáři začínají špitat o nasazení nových XDR2 pamětí, které mohou přinést více než dvojnásobnou propustnost než dosavadní GDDR5.




6x64-bit paměťový řadič = 384-bitů sběrnice


Celkové navýšení výkonu čipu má samozřejmě za následek vyšší vytížení ROP, které ale bez adekvátního navýšení datové propustnosti nemohou efektivně fungovat. Lze předpokládat, že hypotetická 256bitová paměťová sběrnice by se na čipu Tahiti mohla stát primárním limitujícím faktorem výkonu. Na jednu stranu se sice může zdát, že 5% nárůst výkonu při zrychlení sběrnice o 10 % stále není žádný extrém - na druhou stranu to znamená, že výkonnostní potenciál čipu (tedy tranzistory = výrobní náklady) nejsou využité a přicházejí vniveč.

Pokud tedy omezují výkon GPU Tahiti právě paměti, má AMD asi problém k řešení, ale na druhou stranu si může mnout ruce, že i přes limitující faktory na straně rychlosti pamětí podává Tahiti ve srovnání s Fermi vynikající výkony. Nebyl bych tedy překvapen, kdy se časem na trhu objevila také evoluční verze současného Tahiti v tandemu s XDR2 a vyšším taktem. Na jednu stranu vyšší rychlost pamětí bude prospěšná nejen pro rasterizační jednotky, ale také pro mnoho dalších úloh (HPC, extrémně vysoká rozlišení).


Rasterizační jednotky – tišší požírači paměťové propustnosti



Není žádný tajemstvím, že ROP respektive RBE jsou zdatným žroutem paměťové sběrnice, a to muselo AMD nějak vyřešit. Pokud je něco hladové, musíte tomu dát více jídla. AMD tedy v případě rasterizačních jednotek nezvyšovalo jejich počet, ale šlo cestou zvýšení propustnosti další dílčích kroku, které vyústily v částečné oddělení rasterizačních jednotek od L2 cache controllerů a paměťových controllerů, respektive paměťových kanálů. Tak se obešla nutnost, vzhledem k designu čipu, přidávat ROPs a místo 48 jich mohlo zůstat 32. Tento počet je více než dostatečný pro paměťovou propustnost, kterou má Tahiti k dispozici a výsledný výkon je tak zřejmě lepší, než kdyby AMD zachovalo tradici a při šířce sběrnice 384-bit mělo Tahiti 48 rasterizačních otesánků.

Nové rozhraní mezi rasterizační částí a paměťovým subsystémem dává AMD šanci do budoucna postupovat podobným způsobem, dokud dostupná paměťová propustnost nebude taková, že čipy GCN dosáhnou i v teoretických benchmarcích na svá teoretická maxima. O těch si v současné době mohou nechat zdát veškeré high-endové karty AMD.




Propustnost pamětí XDR2 je násobně vyšší než u GDDR5


Pokud se vám tedy nezdál počet ROPs pro high-endový čip nové generace dostatečný, tak jsme si tyto obavy snad rozptýlili. Tahiti skutečně nepotřebuje více ROPs a i tak je omezeno, což dokladují výsledky testů zaměřených čistě na fillrate, které jsou stále dost vzdáleny od o teoretických hodnot, které by karta měla dosahovat. Pokud se podíváme na samotné ROPs alias RBE blíže, neshledáme toho mnoho nového a můžeme říci, že AMD stále sází na Z operace oproti color a poměr výkonnosti je tak 16 ku 4.

Když se podíváme, jaké výkony dosahují čipy AMD při aktivaci MSAA, tak by hlubší rozbor rasterizačního aparátu stál jistě za úvahu. V budoucnu bude AMD jistě sázet na další zvyšování propustnosti sběrnice, čehož může docílit jen přechodem na zcela nový typ pamětí XDR2, které již vyrábí např. Elpida a jejich výkon je násobně vyšší. Společnost každopádně musí vyčkat, dokud nebudou XDR2 levnější. Po internetu se ale šušká o tom, že by AMD mělo mít své čipy Southern Islands připraveny na hladký přechod.

Samostatný odstavec musíme věnovat i cache, které se vyskytují hned na několika úrovních GPU a navíc podporují ECC. AMD párovalo vždy 128 KB ke každému paměťovému controlleru, a tak jsme byli zvyklí vídávat např. u Radeonů HD 6900 cache 512 KB L2. Zde se situace samozřejmě změnila a Tahiti má šestici 64bitových controllerů, takže logicky i 768 KB L2 cache. Ke zvýšení kapacity došlo i na straně L1 cache, která nově převzala část práce od texturovacích adresovacích jednotek (tedy adresování textur). Kapacita L1 cache je 16K, což je rovný dvojnásobek kapacity ve starších čipech Cayman.




GPU Tahiti z námi testovaného Sapphire Radeonu HD 7970


Mezi další velké paměťové kapacity patří jednoznačně registry na úrovni vektorových výpočetních jednotek a když vynásobíme kapacitu jednoho z nich (64 KB) počtem těchto vektorových jednotek (128), tak se dostaneme na celkovou kapacitu registrů 8128 KB. Celkově je tedy kapacita registrů a cache různých úrovní okolo 10 MB. Je tedy vidět, že právě paměťová kapacita bude tvořit poměrně značnou část plochy GPU. Je docela pravděpodobné, že mainstreamový Pitcairn bude mít kromě sníženého počtu CU také ořezané kapacity těchto cache (převážně asi půjde o L2 cache, kde budou úpravy nejjednodušší).

Pokračování zítra