Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

Fermi (GF100): pohled na architekturu čipu

31.3.2010, Petr Štefek, technologie
Fermi (GF100): pohled na architekturu čipu
V dnešním článku, který je předvojem praktických testů, se podíváme na architekturu netrpělivě očekávaného čipu Fermi (GF100). Tento čip je s přehledem tím největším, co kdy bylo v segmentu grafických jader vyrobeno a integruje i největší množství procesorů.
Raster Engine má podobnou funkci jako dřívější jednotky ROP ve starších čipech Nvidie, což znamená, že zde v otázce funkčnosti můžeme najít triangle/edge setup, rasterizaci, z-culling. Každý RE zvládne zpracovat 8 pixelů za takt, což znamená 32 zpracovaných pixelů v rámci celého čipu. RE se odlišuje od architektury GT200 hlavně svým počtem, kdy jsou nyní přítomny 4 samostatné rasterizační oddíly (narozdíl od jediného v předešlém čipu). Proč tomu tak je? Velmi pravděpodobně s ohledem právě na multi-akceleraci nejen ve hrách a lepší plánování vytížení 4 samostatných jednotek. Bližší informace o tom, co Nvidii vedlo udělat zdánlivý krok vzad, prozatím nejsou.



Polymorph Engine je přítomen v každém ze 16 SM (Streaming Multiprocessor) a stará se o geometrii scény. Pokud jste hledali hardwarový teselátor, tak jste hledali marně, neboť jeho funkčnost je právě součástí PE, který je zodpovědný mimo jiné i za funkčnost Vertex Fetch, Viewport Transform, Stream Output atd. Teselátor je jednou z hlavních deviz nového rozhraní DirectX 11 (vytváři komplexnější geometrii na základě původního modelu s jednodušší geometrií). V celém čipu GF100 je tak přítomno 16 PE jednotek. Celé kouzlo tkví ovšem v tom, že všechny PE podporují tzv.“out of order“ výpočty. Rozdělení do mnoha malých jednotek tak dostává své opodstatnění.

GF100 může k vytvoření komplexního modelu využít spolu s teselací i displacement mapping, což vyžaduje značný výkon. Proto má čip GF100 k dispozici rovnou 16 PE (Polymorph Engine) a 4 RE (Raster Engine) ke zvládnutí tohoto úkolu. Teoretická osminásobná rychlost oproti minulé generaci karet musí dát návrhu čipu GF100 za pravdu.

Nvidia si nemohla dovolit každý jediný PE navrhnout jako out-of-order, neboť i zde se vyskytují určitá rizika stejně, jako je tomu u procesorů. Na druhou stranu nyní může ovládat vykonávání každého z 16 PE a v případě potřeby každý z nich ovládat tak, aby nedošlo k nežádoucímu pozměňování výstupů. Ke koordinaci PE jednotek slouží zvláštní samostatný kanál, kde spolu mohou komunikovat a zdánlivě tak zůstat kompaktní, ale některé z instrukcí vykonávat odlišně. Podle slov Nvidie to byl vskutku obtížný úkol, neboť od monolitického navrhování předchozích geometrických jednotek se plynule přešlo k téměř úplnému paralelismu a větším možnostem programování samotného čipu. Velmi pravděpodobně právě komplexnost geometrického enginu GF100 měla opravdu podstatný podíl na zpoždění celého čipu.



Polymorph Engine je jednou z největších deviz samotného čipu, neboť se jedná o jakýsi rozšířený testátor, který je nutný ke splnění specifikací a standardu DirectX11. Nvidia kalkulovala s faktem, že teselace je možností, kterou vývojáři nemusí speciálně vyvíjet a optimalizovat pro ni současné modely. Díky podstatnému navýšení polygonů modelů je ovšem potřeba výkon v oblasti geometrie, a zde je možné získat velmi teoreticky znatelný výkonnostní bonus na konkurenci od AMD. A také se to potvrzuje, protože v klasických hrách Fermi příliš výkonem neoplývá, ale všude tam, kde je nutné nasadit opravdu masivní výkon na teselaci, tam nové řešení exceluje.


Teoretické možnosti teselace spolu s dalšími 3D technikami

Nový Unigine Heaven 2.0 Benchmark ukazuje, že Fermi má v případě využití extrémních levelů teselace opravdu značný náskok na Radeon HD 5870 (pořád nechápu, proč je srovnáváno s touto kartou, která je cenově na úrovni GTX 470). Nicméně v klasických hrách je tento rozdíl minimální a dnes nemůžeme z určitostí říci, že díky superschopnosti teselace bude nad řešením od AMD excelovat. Je možné, že se teselace prosadí ve značné míře, ale pořád jsme zde limitování DirectX 11 a nutností optimalizace pro Fermi, což Unigine Heaven bezpochyby je. Je to zajímavý marketingový tah a rád bych řekl, že tomu věřím (mám podobné novinky), ale většinou se podobné předpovědi nenaplní.

Pokud se podíváme krátce dále také na texturovací jednotky čipu GF100, najdeme zde několik zásadních rozdílů. Prvním je to, že texturovací jednotky podporují formáty komprese textur pro DirectX 11 a tím druhým, že jsou svázány s frekvencí shader core a nikoli celého čipu tak, jako tomu bylo v minulosti u architektur GeForce 9 a níže. Vyrovnávací paměti L1 zůstaly beze změny (64 kB), ale L2 cache (768 kB) je nyní k dispozici všem výpočetním jednotkám a ne pouze texturovacím jednotkám. Pokud by se někdo radoval nad superrychlými texturovacími jednotkami pracujícími na taktu vysoko nad 1,5 GHz, tak ho zklamu, neboť zde mluvíme o taktu na úrovni jedné poloviny taktu shader core.
Doporučujeme náš velký přehled desktopových grafických čipů.