Galerie 16
Nvidia Tesla K20 - součást nejvýkonnějšího superpočítače
Článek Grafiky a hry GeForce GeForce 600 NVIDIA

Nvidia Tesla K20 - součást nejvýkonnějšího superpočítače

Petr Štefek

Petr Štefek

1

Seznam kapitol

1. Nvidia Tesla K20 - součást nejvýkonnějšího superpočítače 2. Nvidia Tesla K20 - jdeme hlouběji 3. Nvidia Tesla K20 - rekapitulace k Tesla K10 4. Nvidia Tesla K20 - pod kapotou GK110 5. Nvidia Tesla K20 - HyperQ, Dynamic Parallelism, ECC

V dnešním článku si představíme hardware, který se stal stěžejním základem pro nejvýkonnější superpočítač Titan. Základem akcelerátorů Tesla K20 je jádro GK110, které drží primát čipu s největším množstvím tranzistorů.

Reklama

Když jsme si před časem představovali novou produktovou novinku Nvidie pro HPC segment, tak jsme měli k dispozici pouze informace o levnější a méně výkonné variantě s čipem GK104. Novinka byla představena jako akcelerátor všude tam, kde není potřeba oslnivý výkon s double precision. Z celkového vyznění jsme asi všichni byli poněkud rozčarováni, ale vzhledem k nasazení do různých segmentů může Nvidia slavit úspěchy s rozdílně cenově položenými řešeními.



GPU pod označením GK110 jsme si představili pouze velmi zběžně při uvádění Tesla K10 v průběhu letošního roku. Nvidia dělala kolem svého dalšího čipu poměrně velkou mlhu, a tak jsme nebyli schopni ani přibližně říci ceny a další detaily. Věděli jsme pouze to, že bude dražší, a to velmi podstatně, a také, že bude excelovat v double precision výpočtech. Samozřejmě, nelze očekávat, že Nvidia přijde také s nějakou novou řadou grafik pro hry. Nový čip GK110 je jednoduše příliš drahý.



Nvidia Tesla K20 ale rozhodně není pouze na papíře a už dnes ji najdeme v několika reálných projektech, které zahrnují především superpočítače. Současným vlajkovým projektem o kterém se nejvíce mluví je superpočítač Titan v Oak Ridge. Titan sesadil Blue Gene od IBM a usadil se s přehledem na prvním místě. Zásluhu na tom má především Tesla K20, která tvoří 90% výkonu tohoto systému, zbytek připadá na AMD jeho Opterony (oba zástupci jsou v systému samozřejmě přítomni v tisících kusech).



Nvidia Tesla K20 - součást nejvýkonnějšího superpočítače

Pro Nvidii je toto velká reklama, a jak jsme již před několika lety zmiňovali, tak společnost se krom běžných grafických čipů bude v budoucnu soustřeďovat také na HPC segment, který je objemově a především s ohledem na marže, podstatně zajímavější než prodávání grafických karet „teenagerům“. Nvidia se tak poučila z minula a spolu s uvedením akcelerátorů Tesla K20, respektive GK110, má za sebou obrovskou reklamu v podobě Titanu. Stačí se podívat na složení systémů v top 500 superpočítačů a bude nám jasné, že tentokráte se společnosti podařil husarský kousek.



První, co bychom si měli o akcelerátoru Tesla K20 povědět, je, že bude jednat o dvojici variant, kde jedna bude samozřejmě levnější a logicky bude disponovat menším počtem aktivních výpočetních jednotek. To zajistí lepší výtěžnost a společnost bude moci využít čipy s menším počtem SMX, kterých by v plně aktivním čipu mělo být 15. 15 SMX znamená ve výsledku 2 880 stream procesů, což, jak je patrné v tabulce, nesedí ani na jednu variantu akcelerátoru. Krom počtu stream procesorů je tady 6 paměťových řadičů a velká 1,5 MB L2 cache. Výkony ve FP64 (double precision) se ve srovnání s GF110 GPU dvojnásobné, ale postih za použití FP64 jsou dvě třetiny výkonu FP32. GK110 se svým třetinovým výkonem FP64 stále pod postarším GF110 (1/2), ale na druhou stranu násobně překonává GK104 (1/8).



Nvidia Tesla - Fermi vs. Kepler

Nvidia Tesla K20 - součást nejvýkonnějšího superpočítače

Tesla K20X

Tesla K20

Tesla M2090

Tesla M2075

Jádro

GK110

GK110

GF100

GF100

Výrobní proces

28nm

28nm

40nm

40nm

Počet CUDA Cores

2688

2496

512

448

Takt jádra

732 MHz

706 MHz

650 MHz

575 MHz

Takt shaderů

732 MHz

706 MHz

1300 MHz

1150 MHz

Výkon FP32

3.95 TFLOPS

3.52 TFLOPS

1.33 TFLOPS

1.03 TFLOPS

Výkon FP64

1.31 TFLOPS

1.17 TFLOPS

655 GFLOPS

515 GFLOPS

Kapacita paměti

6 GB GDDR5

5 GB GDDR5

6 GB GDDR5

6 GB GDDR5

Paměťová sběrnice

384 bitů

384 bitů

384 bitů

384 bitů

Frekvence pamětí

5200 MHz

5200 MHz

3700 MHz

3130 MHz

TDP

235 W

225 W

250 W

225 W

Cena

64 000 Kč

55 000 Kč (?)

-

-


Nvidia Tesla K20X bude znamenat nejvýkonnější variantu této produktové řady a typické pro ni bude, že bude mít aktivních 14 z 15 SMX jednotek, což je ve výsledku 2 688 stream procesorů. 6 paměťových řadičů doplňuje paměť o kapacitě 6 GB GDDR5. Takt v případě takto velkého čipu s více než 7 mld. tranzistorů Nvidia stanovila na 732 MHz, což není vůbec špatné. Přetaktovávat Teslu K20 asi nikdo nebude, ale sledovat, jaký vliv by to mohlo mít na výkon superpočítače, by bylo jistě zajímavé. Výkon při FP32 je 3,95 TFLOPS a výkon při FP64 výpočtech bude s přihlédnutím k výše uvedeným faktům 1,131 TFLOPS. Paměťová propustnost je solidních 250 GB/s, což odpovídá šířce paměťové sběrnice 384 bitů v kombinaci s čipy GDDR5 na frekvenci 5 200 MHz. Nejvýkonnější verzí K20X jsou vybavovány také superpočítače jako zmiňovaný Titan.



Tesla K20 jako levnější varianta disponuje „pouze“ 2 496 stream procesory, což znamená 13 SMX jednotek a nižší je také kapacita paměti (5 GB) a logicky i počet paměťových řadičů (5). Takt byl v tomto případě stanoven na 706 MHz, což je opravdu minoritní snížení, ale přesto je díky užší 320bitové paměťové sběrnici paměťová propustnost 208 GB/s. Teoretický výkon levnější varianty je 3,52 TFLOPS pro FP32 a 1,17 TFLOP v případě double precision (FP64).



Podobný model Nvidia nasadila také v případě minulé generace Tesly, kdy měla své M2090 a M2075, které byly krom jiného počtu aktivních výpočetních jednotek odlišné také svou spotřebou a takty jádra. Maximální spotřeba udávaná pro jednotlivé varianty se od sebe liší pouhými 10 W, což je v případě desktopu zanedbatelné, ale v případě HPC to může znamenat velmi mnoho. TDP 225W je klíčové (K20) pro spoustu systémů, které jsou navrhnuty tak, že pro přídavné karty je maximem právě 225 W. Nvidia tak může oslovit investory v různorodých projektech a vytvořit si tak celkově větší potenciál pro větší počet projektů.



Nvidia v současné době nabízí řešení, kde jsou akcelerátory Tesla s architekturou Kepler chlazeny pasivně. Budou tedy moci pracovat v systémech, kde je tento standard vyžadován. Samozřejmě, zde není myšleno to, že by GK110 měl při své velikosti ambice být chlazen zcela pasivně, ale v těchto speciálních systémech je chlazení, respektive jeho aktivní složka, umístěno mimo přídavné karty. Je pravděpodobné, že se časem na trhu objeví také verze s aktivním chlazením pro nasazení v pracovních stanicích.


Předchozí
Další
Reklama
Reklama

Komentáře naleznete na konci poslední kapitoly.

Reklama
Reklama