Groq nabízí AI akcelerátor s výkonem 1 PetaOPS: čtyřnásobek NVIDIA V100
27.1.2020, Jan Vítek, aktualita
Na trh se dostal nový Groq Tensor Streaming Processor (TSP), čili specializovaný AI akcelerátor na rozšiřující kartě, který můžeme srovnávat třeba se schopnostmi karet NVIDIA Tesla V100.
Groq je další z dlouhé řady startupů, které se snaží vyrobit výkonný specializovaný akcelerátor pro systémy umělé inteligence, ovšem na rozdíl od mnohých jiných už své řešení dostal na trh a jde o velice zajímavý Groq Tensor Streaming Processor (TSP) s výkonem cca 1 PetaOPS, čili 1015 operací za sekundu při spotřebě/výdeji tepla 300 W. Jde o obrovský čip, který se skládá v podstatě jen z vektorových a maticových jednotek a cache, takže tu nejsou žádné kontrolery nebo backend a díky tomu je plocha čipu maximálně využita.
TSP se dělí na 20 tzv. superlinek a ty jsou dle dokumentace (pdf) tvořeny maticovou jednotkou (320x MAC), transformační jednotkou, paměťovou jednotkou (5,5 MB), vektorovou jednotkou (16 ALU), další paměťovou jednotkou (5,5 MB), transformační jednotkou a opět maticovou (320x MAC). Vektorová jednotka tak superlinky dělí na dvě stejně vybavené "hemisféry" označované za východní a západní, které mohou pracovat téměř nezávisle na sobě.
Jednotný proud instrukcí pak jde do každé části nulté superlinky, a to 6 instrukcí pro MAC, 14 pro transformační jednotky, 44 pro paměťové a 16 pro ALU. V každém taktu pak tyto jednotky provedou své operace a přeposílají si data po 512 B bezprostředně mezi sebou. Po dokončení úlohy se pak vše s instrukcemi pošle do další superlinky, zde tedy do první supelinky a nultá dostane další práci. Instrukce se tak posílají pouze vertikálně mezi superlinkami a data samotná pouze horizontálně v rámci nich samotných.
Groq TSP | Nvidia Tesla V100 | Nvidia Tesla T4 | |
Jádra | 1 | 5120 | 2560 |
Maximální takt | 1250 MHz | 1530 MHz | 1590 MHz |
FP16 TFLOPS | 205 TFLOPS | 125 TFLOPS | 65 TFLOPS |
INT8 TOPS | 1000 TOPS | 250 TOPS | 130 TOPS |
Cache (L1) | 220 MB | 10 MB | 2,6 MB |
Operační paměť | N/A | 32 GB HBM2 | 16 GB GDDR6 |
TDP | 300W | 300W | 70W |
Proces | 14nm | 12nm | 12nm |
Velikost čipu | 725 mm² | 815 mm² | 545 mm² |
Zde pak máme přímé srovnání s čipy Tesla V100 a T4 od společnosti NVIDIA, od nichž se dané TSP od Groq liší už jen svou základní topologií, která znamená, že jde v podstatě o jedno jádro a další zásadní rozdíl je v tom, že není zapotřebí žádná operační paměť. Pokud ta není zapotřebí, jde o obrovskou výhodu jednak v tom, že se značně ušetří na celkových nákladech, dále že není potřeba vyhradit nezanedbatelnou část čipu pro paměťový kontroler a to, co se ušetří na jeho napájení i napájení pamětí se může využít pro samotný čip. Na druhou stranu tu také máme řádově více paměti L1 cache.
Groq TSP pak má být velice výkonný v trénování a provozu hlubokých neurálních sítí, což je ale také v podstatě jediné jeho zaměření na rozdíl od všestranných GPU. V případě ResNet-50 tak dokáže vykonat 20.400 I/S (inferences/s nezávisle na batch size) s latencí jen 0,05 ms, zatímco NVIDIA V100 dosáhne 7.907 I/S (batch size 128) s latencí 16 ms, anebo 1.156 I/S (batch 1) při 0,87 ms. Potenciální problém čipu od Groq je ovšem ten, že pokud modelu neurální sítě přestane stačit jeho cache, bude v podstatě nepoužitelný, protože na rozdíl od grafických karet s jejich gigabajty rychlé operační paměti nemá už vůbec nic.
Aktuálně jsou Groq TSP k dispozici v rámci Nimbix Cloud.
Zdroj: TechSpot