Groq nabízí AI akcelerátor s výkonem 1 PetaOPS: čtyřnásobek NVIDIA V100

27.1.2020, Jan Vítek, aktualita

Na trh se dostal nový Groq Tensor Streaming Processor (TSP), čili specializovaný AI akcelerátor na rozšiřující kartě, který můžeme srovnávat třeba se schopnostmi karet NVIDIA Tesla V100.

Groq je další z dlouhé řady startupů, které se snaží vyrobit výkonný specializovaný akcelerátor pro systémy umělé inteligence, ovšem na rozdíl od mnohých jiných už své řešení dostal na trh a jde o velice zajímavý Groq Tensor Streaming Processor (TSP) s výkonem cca 1 PetaOPS, čili 10¹⁵ operací za sekundu při spotřebě/výdeji tepla 300 W. Jde o obrovský čip, který se skládá v podstatě jen z vektorových a maticových jednotek a cache, takže tu nejsou žádné kontrolery nebo backend a díky tomu je plocha čipu maximálně využita.

TSP se dělí na 20 tzv. superlinek a ty jsou dle dokumentace (pdf) tvořeny maticovou jednotkou (320x MAC), transformační jednotkou, paměťovou jednotkou (5,5 MB), vektorovou jednotkou (16 ALU), další paměťovou jednotkou (5,5 MB), transformační jednotkou a opět maticovou (320x MAC). Vektorová jednotka tak superlinky dělí na dvě stejně vybavené "hemisféry" označované za východní a západní, které mohou pracovat téměř nezávisle na sobě.

Jednotný proud instrukcí pak jde do každé části nulté superlinky, a to 6 instrukcí pro MAC, 14 pro transformační jednotky, 44 pro paměťové a 16 pro ALU. V každém taktu pak tyto jednotky provedou své operace a přeposílají si data po 512 B bezprostředně mezi sebou. Po dokončení úlohy se pak vše s instrukcemi pošle do další superlinky, zde tedy do první supelinky a nultá dostane další práci. Instrukce se tak posílají pouze vertikálně mezi superlinkami a data samotná pouze horizontálně v rámci nich samotných.

	Groq TSP	Nvidia Tesla V100	Nvidia Tesla T4
Jádra	1	5120	2560
Maximální takt	1250 MHz	1530 MHz	1590 MHz
FP16 TFLOPS	205 TFLOPS	125 TFLOPS	65 TFLOPS
INT8 TOPS	1000 TOPS	250 TOPS	130 TOPS
Cache (L1)	220 MB	10 MB	2,6 MB
Operační paměť	N/A	32 GB HBM2	16 GB GDDR6
TDP	300W	300W	70W
Proces	14nm	12nm	12nm
Velikost čipu	725 mm²	815 mm²	545 mm²

Zde pak máme přímé srovnání s čipy Tesla V100 a T4 od společnosti NVIDIA, od nichž se dané TSP od Groq liší už jen svou základní topologií, která znamená, že jde v podstatě o jedno jádro a další zásadní rozdíl je v tom, že není zapotřebí žádná operační paměť. Pokud ta není zapotřebí, jde o obrovskou výhodu jednak v tom, že se značně ušetří na celkových nákladech, dále že není potřeba vyhradit nezanedbatelnou část čipu pro paměťový kontroler a to, co se ušetří na jeho napájení i napájení pamětí se může využít pro samotný čip. Na druhou stranu tu také máme řádově více paměti L1 cache.

Groq TSP pak má být velice výkonný v trénování a provozu hlubokých neurálních sítí, což je ale také v podstatě jediné jeho zaměření na rozdíl od všestranných GPU. V případě ResNet-50 tak dokáže vykonat 20.400 I/S (inferences/s nezávisle na batch size) s latencí jen 0,05 ms, zatímco NVIDIA V100 dosáhne 7.907 I/S (batch size 128) s latencí 16 ms, anebo 1.156 I/S (batch 1) při 0,87 ms. Potenciální problém čipu od Groq je ovšem ten, že pokud modelu neurální sítě přestane stačit jeho cache, bude v podstatě nepoužitelný, protože na rozdíl od grafických karet s jejich gigabajty rychlé operační paměti nemá už vůbec nic.

Aktuálně jsou Groq TSP k dispozici v rámci Nimbix Cloud.

Zdroj: TechSpot