Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

AMD Graphics Core Next: revoluční grafické jádro - část 1.

16.8.2011, Petr Štefek, technologie
AMD Graphics Core Next: revoluční grafické jádro - část 1.
Dnes se vydáme po stopách nové architektury AMD v oblasti GPU, která nahradí současnou architekturu využitou u GPU Cayman v Radeonech HD 6900. Pro mnohé možná bude překvapení, že zbrusu nová architektura VLIW4 půjde do důchodu.
Než si představíme zbrusu nový projekt AMD v podobě architektury Graphics Core Next, zopakujeme si základy o současné architektuře VLIW5, respektive VLIW4, kterou najdete u současných grafických akcelerátorů AMD Radeon HD 6800 a níže, respektive AMD Radeon HD 6900. V této kapitole si popíšeme fundamentální rozdíly mezi architekturami VLIW4 a starší VLIW5 a samozřejmě konfrontujeme očekávání AMD z počátku tohoto roku s praxí, kterou jsme poznali v testech nových Radeonů.

Počátky architektury můžeme vysledovat zpátky až ke zrodu Radeonu 9700, který byl první kartou s DirectX 9, přes nedoceněný Radeon HD 2900 pro DirectX 10 a jeho unifikovanou architekturu. V průběhu času ale došlo ke znatelnému poklesu efektivity této architektury a AMD na to muselo samozřejmě reagovat. Odpovědí je pro následujících několik let VLIW4.



ATI R300


Architektura VLIW5 pro maximální vytíženost potřebuje, aby v každém SPU bylo v každém taktu vykonáno 5 instrukcí současně. Průměrné využití v reálných aplikacích je ovšem podstatné nižší. Podle AMD VLIW5 dosahuje v průměru vytížení okolo 3.4, což ve výsledku znamená efektivitu práce 5D procesoru pouze okolo 70 %. VLIW5 je tedy pro AMD nevýhodná, a proto se ubírá cestou ILP (Instruction Level Parallelism) a současné nejnovější architektury Cayman v Radeonech HD 6900.

AMD sází na to, že v každém vláknu lze najít instrukce, které na sobě přímo nezávisí a mohou být tak vykonány paralelně. ILP je poměrně složitý proces a dosáhnout efektivity ve zpracování instrukcí je podstatně náročnější než v případě Thread Level Parallelism (TLP). Jde v podstatě o hlubší rozklíčování prováděného kódu.

Nvidia se u své současné architektury Fermi vydala cestou TLP (Thread Level Parallelism), což není nic jiného než princip, kdy jsou vlákna zpracovávána paralelně ve stejném čase. Fermi je skalární architektura, která pro svou efektivitu využívá principu TLP. AMD se začalo ubírat směrem, kdy její GPU jako taková budou efektivnější pro GPGPU aplikace, ale jde na to poněkud jinak než Nvidia. Graphics Core Next, ale smete dosavadní úvahy ze stolu a udělá si svou dálnici za úspěchem přímo na zelené louce.



AMD Cayman - VLIW4


VLIW4 není pouze osekaná architektura VLIW5, jak by se mnozí mohli domnívat a bylo by to logické. Když je průměrná vytíženost 3.4 jednotky, tak ubereme pátou a uděláme podobných procesorů více. Tak jednoduché to ovšem pro AMD nebylo. Došlo zde totiž k odstranění speciální T-unit, kde předešlá architektura byla schopna vykonávat celočíselné a desetinné operace a navíc také transcendentální matematické operace. T-operace nejsou v reálných shaderech častým jevem a v případě VLIW4 je možné, aby kterékoli 3 ze 4 jednotek dokázaly vykonat jednu transcendentální operaci za takt a zbylá jednotka je stále použitelná pro 32bitovou operaci. Obecně jsou schopny všechny 4 jednotky vykonávat 32bitové operace, což je v praxi výhodnější. Výkonnost 64bitových operací aka double precision přesnosti výpočtů (především profesionální a vědecké aplikace), je taková, že je zde počet vykonatelných operací roven jedné polovině.

Absence samostatné T-unit a celkové snížení počtu jednotek se postaralo o úsporu plochy jádra a potenciálního místa pro vytvoření více výpočetní bloků. Pokud bychom se podívali na starší čipy Cypress (Radeon HD 5800), uvidíme nejen architekturu VLIW5, ale také „pouze“ 20 SIMD. Novější Cayman jich při VLIW4 architektuře má rovnou 24 a plocha čipu je plus mínus stejná. Kromě jiného je také podstatně snadnější plánování scheduleru, neboť VLIW4 má méně stream procesorů a kromě jiného scheduler už nemusí rozlišovat mezi w/x/y/z jednotkami a t-unit (transcendentální operace). V praxi je výkonový náskok architektury VLIW4 velmi patrný a levnější i výrazně jednodušší Cayman nemá problém konkurovat Fermi, což je přesně to, co AMD potřebovalo.





Architektura VLIW4 čipu Cayman tedy na první pohled skýtá samé výhody, ale má samozřejmě i své nevýhody. Grafické enginy, které využívají DirectX 9 vertex shader, nebudou z nové architektury nijak zásadně profitovat. Ale rychlost v DirectX 9 hrách je to poslední, co by mělo AMD trápit, protože výkon je více než dostatečný. VLIW5 architektura je tedy pro starší hry vhodnější, ale GPU se dívají převážně dopředu a nikoli dozadu. Druhou nevýhodou je fakt, že nyní jsou transcendentální operace svázány s vektorovými operacemi (jinými slovy zatěžují 3 ze 4 jednotek schopných vektorových operací). AMD jednoduše věří, že t-operace jsou natolik ojedinělé, že případná ztráta výkonu při jejich vykonávání stojí za tento menší ústupek. Praxe předpokladům AMD dává tak nějak za pravdu a nikdo při testování současných i starších her jsme se nesetkali s tím, že by nová architektura neposkytovala adekvátní výkon.

VLIW4 je velmi pravděpodobně pro společnost AMD budoucnost minimálně na 2 až 3 roky dopředu, protože jen těžko by na tento přechod vsadila právě u high-endového produktu a u levnějších čipů zůstávala u starší VLIW5 architektury, pokud by si úspěchem nebyla jistá. AMD chce již tento rok přijít s nástupcem čipu Cayman, který bude vyráběn 28nm výrobním procesem a bude s jistotou využívat také VLIW4 architektury s vyšším počtem SIMD. Graphics Core Next je pro AMD tak podstatně vzdálenější budoucností, ale o ní až v příští kapitole, která je celá věnována tomuto projektu.

Menší ohlédnutí za současnými a minulými architekturami nebylo v tomto článku samoúčelným zabíráním prostoru, ale jakýmsi prequelem k další kapitole, která snad bude díky tomuto ohlédnutí srozumitelnější a pochopitelnější i pro ty, kdo se přímo v této problematice neorientují.
Doporučujeme náš velký přehled desktopových grafických čipů.