Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

Groq nabízí AI akcelerátor s výkonem 1 PetaOPS: čtyřnásobek NVIDIA V100

27.1.2020, Jan Vítek, aktualita
Groq nabízí AI akcelerátor s výkonem 1 PetaOPS: čtyřnásobek NVIDIA V100
Na trh se dostal nový Groq Tensor Streaming Processor (TSP), čili specializovaný AI akcelerátor na rozšiřující kartě, který můžeme srovnávat třeba se schopnostmi karet NVIDIA Tesla V100. 
Groq je další z dlouhé řady startupů, které se snaží vyrobit výkonný specializovaný akcelerátor pro systémy umělé inteligence, ovšem na rozdíl od mnohých jiných už své řešení dostal na trh a jde o velice zajímavý Groq Tensor Streaming Processor (TSP) s výkonem cca 1 PetaOPS, čili 1015 operací za sekundu při spotřebě/výdeji tepla 300 W. Jde o obrovský čip, který se skládá v podstatě jen z vektorových a maticových jednotek a cache, takže tu nejsou žádné kontrolery nebo backend a díky tomu je plocha čipu maximálně využita. 
 
 
TSP se dělí na 20 tzv. superlinek a ty jsou dle dokumentace (pdf) tvořeny maticovou jednotkou (320x MAC), transformační jednotkou, paměťovou jednotkou (5,5 MB), vektorovou jednotkou (16 ALU), další paměťovou jednotkou (5,5 MB), transformační jednotkou a opět maticovou (320x MAC). Vektorová jednotka tak superlinky dělí na dvě stejně vybavené "hemisféry" označované za východní a západní, které mohou pracovat téměř nezávisle na sobě. 
 
 
Jednotný proud instrukcí pak jde do každé části nulté superlinky, a to 6 instrukcí pro MAC, 14 pro transformační jednotky, 44 pro paměťové a 16 pro ALU. V každém taktu pak tyto jednotky provedou své operace a přeposílají si data po 512 B bezprostředně mezi sebou. Po dokončení úlohy se pak vše s instrukcemi pošle do další superlinky, zde tedy do první supelinky a nultá dostane další práci. Instrukce se tak posílají pouze vertikálně mezi superlinkami a data samotná pouze horizontálně v rámci nich samotných.
  
  Groq TSP Nvidia Tesla V100 Nvidia Tesla T4
Jádra 1 5120 2560
Maximální takt 1250 MHz 1530 MHz 1590 MHz
FP16 TFLOPS 205 TFLOPS 125 TFLOPS 65 TFLOPS
INT8 TOPS 1000 TOPS 250 TOPS 130 TOPS
Cache (L1) 220 MB 10 MB 2,6 MB
Operační paměť N/A 32 GB HBM2 16 GB GDDR6
TDP 300W 300W 70W
Proces 14nm 12nm 12nm
Velikost čipu 725 mm² 815 mm² 545 mm²
 
Zde pak máme přímé srovnání s čipy Tesla V100 a T4 od společnosti NVIDIA, od nichž se dané TSP od Groq liší už jen svou základní topologií, která znamená, že jde v podstatě o jedno jádro a další zásadní rozdíl je v tom, že není zapotřebí žádná operační paměť. Pokud ta není zapotřebí, jde o obrovskou výhodu jednak v tom, že se značně ušetří na celkových nákladech, dále že není potřeba vyhradit nezanedbatelnou část čipu pro paměťový kontroler a to, co se ušetří na jeho napájení i napájení pamětí se může využít pro samotný čip. Na druhou stranu tu také máme řádově více paměti L1 cache. 
 
Groq TSP pak má být velice výkonný v trénování a provozu hlubokých neurálních sítí, což je ale také v podstatě jediné jeho zaměření na rozdíl od všestranných GPU. V případě ResNet-50 tak dokáže vykonat 20.400 I/S (inferences/s nezávisle na batch size) s latencí jen 0,05 ms, zatímco NVIDIA V100 dosáhne 7.907 I/S (batch size 128) s latencí 16 ms, anebo 1.156 I/S (batch 1) při 0,87 ms. Potenciální problém čipu od Groq je ovšem ten, že pokud modelu neurální sítě přestane stačit jeho cache, bude v podstatě nepoužitelný, protože na rozdíl od grafických karet s jejich gigabajty rychlé operační paměti nemá už vůbec nic. 
 
Aktuálně jsou Groq TSP k dispozici v rámci Nimbix Cloud.  
 
Zdroj: TechSpot