Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

AMD Radeon HD 6900: Cayman v rybníku

29.12.2010, Petr Štefek, technologie
AMD Radeon HD 6900: Cayman v rybníku
V dnešním článku se podíváme na zbrusu nový grafický čip AMD Cayman, jenž reprezentuje značný evoluční krok a základ architektury budoucnosti, na které bude AMD v dalších letech stavět další generace grafických karet.
Kapitoly článku:
Doposud jsme byli zvyklí (kořeny stávající architektury se datují až k návrhu čipu R600), že architektura čipů ATI (dnes již AMD) disponovala 5 výpočetními jednotkami v každé ALU. Marketingově toho AMD využívalo tím způsobem, že počet ALU přítomných v čipech násobilo ještě právě počtem interních výpočetních jednotek. Když tedy mluvíme o stream procesorech, máme na mysli u čipů AMD/ATI nejmenší dále nedělitelné jednotky a nikoli celý výpočetní procesor (ALU – obecně můžeme nazývat tímto způsobem téměř libovolnou jednotku v GPU, která má starosti nějakou aritmetickou úlohu) s 5 samostatnými jednotkami.

AMD a jeho týmy zkoumají, jak se jejich čipy chovají v reálných aplikacích a jak nakládají se svými prostředky. Stěžejní je samozřejmě dosahování optimálního výkonu při využití všech prostředků tak, aby nezůstávaly ladem. AMD po zralém uvážení odstoupilo z designu 5D výpočetních jednotek (ALU) a v případě nového čipu Cayman nasazuje 4D ALU, které ovšem mají pozměněnou funkčnost tak, aby lépe vyhovovaly stávajícím a budoucím aplikacím.

AMD si provádí svá interní měření ohledně vytíženosti jednotlivých výpočetních jednotek v ALU. Z těchto výsledků vyplývá, že současné hry vytěžují pouze 3 až 4 stream procesory v ALU a pátý většinou zahálí. Architektura VLIW5 byla přínosem spíše pro DirectX 9. Pro DirectX 10/11 hry je vhodnější VLIW4 architektura.



VLIW5 pro 100% vytíženost potřebuje, aby v každém SPU bylo v každém taktu vykonáno 5 instrukcí současně. Průměr, jakého dosahuje vytížení 5D, je okolo 3.4, což ve výsledku znamená efektivitu pouze okolo 70 %. ILP (Instruction Level Parallelism) je to, na co vsadilo AMD při návrhu architektury Cayman. Jinými slovy jde o to, najít v každém vláknu instrukce, které na sobě nezávisí a mohou být vykonávány paralelně. ILP je poměrně složité a dosáhnout efektivity ve zpracování instrukcí je podstatně náročnější než Thread Level Parallelism (TLP).

Nvidia se u své architektury Fermi vydala cestou TLP (Thread Level Parallelism), což není nic jiného než princip, kdy jsou vlákna zpracovávána paralelně ve stejném čase. Fermi alias GF1x0 je skalární architektura, která pro svou efektivitu využívá TLP. AMD se začalo ubírat směrem, kdy její GPU jako taková budou efektivnější pro GPGPU aplikace, ale jde na to poněkud jinak než Nvidia.

VLIW5 architektura Radeonů přežívala poměrně dlouho a její poslední výspa bude velmi pravděpodobně řada Radeon HD 6800, které sice patří do stejné generace jako Radeony HD 6900 s čipy Cayman, ale využívají starší architektury. AMD potřebovalo pro budoucí čipy novou architekturu, která by respektovala výzkumy ohledně efektivity práce čipu, nasazení v GPGPU a velikost čipu vzhledem k jeho výkonům.

VLIW4 není pouze osekaná architektura VLIW5. Došlo zde k odstranění T-unit, kde předešlá architektura byla schopna vykonávat celočíselné a desetinné operace a navíc také transcendentální operace. T-operace nejsou nijak častým jevem, a tak je nyní možné, aby kterékoli 3 ze 4 jednotek dokázaly vykonat jednu transcendentální a zbylá jednotka je stále použitelná pro 32bitovou operaci. Jinak jsou schopny všechny 4 jednotky vykonávat 32bitové operace, a pokud bychom chtěli znát jejich výkonnost ohledně 64bitový operací alias double precision výpočtů (především profesionální a vědecké aplikace), tak počet operací bude roven jedné polovině.





Uspořená část čipu je nyní použitelná pro více výpočetní bloků. Když se podíváme na starší čipy Cypress, tak měly při využití VLIW5 architektury 20 SIMD a novější Cayman jich při VLIW4 architektuře má hned 24. Kromě jiného je také podstatně snadnější plánování, protože je nyní méně stream procesorů a navíc scheduler nemusí rozlišovat mezi w/x/y/z jednotkami a t-unit (transcendentální operace). Je velmi pravděpodobné, že díky této optimalizaci uvidíme ještě jeden vývojový stupeň této architektury na 40nm s větším počtem SIMD. To zmiňuji z důvodu málo optimistických zpráv o nástupu 28nm výrobního procesu nejdříve koncem roku 2011.

Pokud se týká herního nasazení VLIW4 architektury, tak tam jde o zcela stejný příběh, kdy z většího počtu SIMD a efektivněji vytěžovaných stream procesorů budou těžit na všech frontách. Protože došlo k navýšení počtu SIMD, tak zde máme logicky i vyšší počet texturovacích jednotek než v případě staršího čipu Cypress. Renderování a také přerozdělování vláken je nyní i podstatně snazší. Kde je tedy zakopaný pes? Všechny výše zmiňované výhody musí být něčím vykoupeny.

Zbrusu nová architektura Cayman se všemi výhodami má i menší nevýhody. Hry, které využívají převážně DirectX 9 vertex shader, nebudou z nové architektury profitovat. Na druhou stranu musíme říci, že rychlost v podobných hrách je již více než dostatečná. VLIW5 architektura je pro starší hry vhodnější, ale GPU se dívají převážně dopředu a nikoli dozadu. Druhou nevýhodou, kterou musíme zmínit, je fakt, že nyní jsou transcendentální operace svázány s vektorovými operacemi (jinými slovy zatěžují 3 ze 4 jednotek schopných vektorových operací). AMD jednoduše věří, že t-operace jsou natolik vzácné, že případná ztráta výkonu při jejich vykonávání stojí za tento menší ústupek.

VLIW4 je velmi pravděpodobně krokem AMD do budoucna, protože jen těžko by na tento přechod vsadila právě u high-endového produktu a u levnějších čipů zůstávala u starší VLIW5 architektury. Společnost pravděpodobně už navrhuje nástupce 40nm Caymanu, který bude na 99 % vyráběn 28nm výrobním procesem a bude s jistotou využívat také VLIW4 architektury s vyšším počtem SIMD.



Ruku v ruce s novou architekturou ale přichází nutnost vyladění ovladačů Catalyst pro novou VLIW4 architekturu. Obě architektury jsou si poměrně podobné, což přináší špatné i dobré zprávy. Začneme špatnými zprávami, které zahrnují to, že běžně využívaný kompilátor pro VLIW5 architekturu je pro VLIW4 nepoužitelný. Je tedy velmi pravděpodobné, že se dočkáme výkonnostního zlepšení, jakmile AMD optimalizuje svůj kompilátor. Je nutné, aby části kódu byly přepsány tak, že si lépe poradí s redukcí šířky VLIW ALU.

Pokud je ovšem jádro aplikace napsáno tak, aby využívala starou dobrou VLIW5 architekturu, tak toho není mnoho, co by kompilátor mohl zvládnout. Nejlepší je tedy stále to, aby kód byl napsán tak, že bude specificky využívat VLIW4 architektury.

A to je ta dobrá zpráva, což zahrnuje i větší životnost Radeonů HD 6900. Samozřejmě si nemůžeme být jisti, jaké rezervy v sobě nová architektura VLIW4 skrývá, ale výkonnostní nárůsty provázely téměř každou generaci Radeonů. Cayman můžeme směle považovat za zástupce další, ještě nevydané, generace grafických karet AMD.