Nvidia Tesla K20 - součást nejvýkonnějšího superpočítače

27.11.2012, Petr Štefek, technologie

V dnešním článku si představíme hardware, který se stal stěžejním základem pro nejvýkonnější superpočítač Titan. Základem akcelerátorů Tesla K20 je jádro GK110, které drží primát čipu s největším množstvím tranzistorů.

Kapitoly článku:

Nvidia Tesla K20 - úvod
Nvidia Tesla K20 - jdeme hlouběji
Nvidia Tesla K20 - rekapitulace k Tesla K10
Nvidia Tesla K20 - pod kapotou GK110
Nvidia Tesla K20 - HyperQ, Dynamic Parallelism, ECC

Když jsme si před časem představovali novou produktovou novinku Nvidie pro HPC segment, tak jsme měli k dispozici pouze informace o levnější a méně výkonné variantě s čipem GK104. Novinka byla představena jako akcelerátor všude tam, kde není potřeba oslnivý výkon s double precision. Z celkového vyznění jsme asi všichni byli poněkud rozčarováni, ale vzhledem k nasazení do různých segmentů může Nvidia slavit úspěchy s rozdílně cenově položenými řešeními.

GPU pod označením GK110 jsme si představili pouze velmi zběžně při uvádění Tesla K10 v průběhu letošního roku. Nvidia dělala kolem svého dalšího čipu poměrně velkou mlhu, a tak jsme nebyli schopni ani přibližně říci ceny a další detaily. Věděli jsme pouze to, že bude dražší, a to velmi podstatně, a také, že bude excelovat v double precision výpočtech. Samozřejmě, nelze očekávat, že Nvidia přijde také s nějakou novou řadou grafik pro hry. Nový čip GK110 je jednoduše příliš drahý.

Nvidia Tesla K20 ale rozhodně není pouze na papíře a už dnes ji najdeme v několika reálných projektech, které zahrnují především superpočítače. Současným vlajkovým projektem o kterém se nejvíce mluví je superpočítač Titan v Oak Ridge. Titan sesadil Blue Gene od IBM a usadil se s přehledem na prvním místě. Zásluhu na tom má především Tesla K20, která tvoří 90% výkonu tohoto systému, zbytek připadá na AMD jeho Opterony (oba zástupci jsou v systému samozřejmě přítomni v tisících kusech).

Pro Nvidii je toto velká reklama, a jak jsme již před několika lety zmiňovali, tak společnost se krom běžných grafických čipů bude v budoucnu soustřeďovat také na HPC segment, který je objemově a především s ohledem na marže, podstatně zajímavější než prodávání grafických karet „teenagerům“. Nvidia se tak poučila z minula a spolu s uvedením akcelerátorů Tesla K20, respektive GK110, má za sebou obrovskou reklamu v podobě Titanu. Stačí se podívat na složení systémů v top 500 superpočítačů a bude nám jasné, že tentokráte se společnosti podařil husarský kousek.

První, co bychom si měli o akcelerátoru Tesla K20 povědět, je, že bude jednat o dvojici variant, kde jedna bude samozřejmě levnější a logicky bude disponovat menším počtem aktivních výpočetních jednotek. To zajistí lepší výtěžnost a společnost bude moci využít čipy s menším počtem SMX, kterých by v plně aktivním čipu mělo být 15. 15 SMX znamená ve výsledku 2 880 stream procesů, což, jak je patrné v tabulce, nesedí ani na jednu variantu akcelerátoru. Krom počtu stream procesorů je tady 6 paměťových řadičů a velká 1,5 MB L2 cache. Výkony ve FP64 (double precision) se ve srovnání s GF110 GPU dvojnásobné, ale postih za použití FP64 jsou dvě třetiny výkonu FP32. GK110 se svým třetinovým výkonem FP64 stále pod postarším GF110 (1/2), ale na druhou stranu násobně překonává GK104 (1/8).

Nvidia Tesla - Fermi vs. Kepler
	Tesla K20X	Tesla K20	Tesla M2090	Tesla M2075
Jádro	GK110	GK110	GF100	GF100
Výrobní proces	28nm	28nm	40nm	40nm
Počet CUDA Cores	2688	2496	512	448
Takt jádra	732 MHz	706 MHz	650 MHz	575 MHz
Takt shaderů	732 MHz	706 MHz	1300 MHz	1150 MHz
Výkon FP32	3.95 TFLOPS	3.52 TFLOPS	1.33 TFLOPS	1.03 TFLOPS
Výkon FP64	1.31 TFLOPS	1.17 TFLOPS	655 GFLOPS	515 GFLOPS
Kapacita paměti	6 GB GDDR5	5 GB GDDR5	6 GB GDDR5	6 GB GDDR5
Paměťová sběrnice	384 bitů	384 bitů	384 bitů	384 bitů
Frekvence pamětí	5200 MHz	5200 MHz	3700 MHz	3130 MHz
TDP	235 W	225 W	250 W	225 W
Cena	64 000 Kč	55 000 Kč (?)	-	-

Nvidia Tesla K20X bude znamenat nejvýkonnější variantu této produktové řady a typické pro ni bude, že bude mít aktivních 14 z 15 SMX jednotek, což je ve výsledku 2 688 stream procesorů. 6 paměťových řadičů doplňuje paměť o kapacitě 6 GB GDDR5. Takt v případě takto velkého čipu s více než 7 mld. tranzistorů Nvidia stanovila na 732 MHz, což není vůbec špatné. Přetaktovávat Teslu K20 asi nikdo nebude, ale sledovat, jaký vliv by to mohlo mít na výkon superpočítače, by bylo jistě zajímavé. Výkon při FP32 je 3,95 TFLOPS a výkon při FP64 výpočtech bude s přihlédnutím k výše uvedeným faktům 1,131 TFLOPS. Paměťová propustnost je solidních 250 GB/s, což odpovídá šířce paměťové sběrnice 384 bitů v kombinaci s čipy GDDR5 na frekvenci 5 200 MHz. Nejvýkonnější verzí K20X jsou vybavovány také superpočítače jako zmiňovaný Titan.

Tesla K20 jako levnější varianta disponuje „pouze“ 2 496 stream procesory, což znamená 13 SMX jednotek a nižší je také kapacita paměti (5 GB) a logicky i počet paměťových řadičů (5). Takt byl v tomto případě stanoven na 706 MHz, což je opravdu minoritní snížení, ale přesto je díky užší 320bitové paměťové sběrnici paměťová propustnost 208 GB/s. Teoretický výkon levnější varianty je 3,52 TFLOPS pro FP32 a 1,17 TFLOP v případě double precision (FP64).

Podobný model Nvidia nasadila také v případě minulé generace Tesly, kdy měla své M2090 a M2075, které byly krom jiného počtu aktivních výpočetních jednotek odlišné také svou spotřebou a takty jádra. Maximální spotřeba udávaná pro jednotlivé varianty se od sebe liší pouhými 10 W, což je v případě desktopu zanedbatelné, ale v případě HPC to může znamenat velmi mnoho. TDP 225W je klíčové (K20) pro spoustu systémů, které jsou navrhnuty tak, že pro přídavné karty je maximem právě 225 W. Nvidia tak může oslovit investory v různorodých projektech a vytvořit si tak celkově větší potenciál pro větší počet projektů.

Nvidia v současné době nabízí řešení, kde jsou akcelerátory Tesla s architekturou Kepler chlazeny pasivně. Budou tedy moci pracovat v systémech, kde je tento standard vyžadován. Samozřejmě, zde není myšleno to, že by GK110 měl při své velikosti ambice být chlazen zcela pasivně, ale v těchto speciálních systémech je chlazení, respektive jeho aktivní složka, umístěno mimo přídavné karty. Je pravděpodobné, že se časem na trhu objeví také verze s aktivním chlazením pro nasazení v pracovních stanicích.