NVIDIA se pochlubila rostoucím výkonem v AI, Google kontruje s TPU 3. generace

9.5.2018, Jan Vítek, aktualita

Společnost NVIDIA se vždy ráda podělí o to, jak výkonný je její hardware v oblasti umělé inteligence. Nyní se přihlásila s další zprávou, z níž se dozvíme, jak vzrostl výkon ve strojovém učení oproti starému hardwaru, ale i tomu novému díky optimalizacím.

Strojové učení a AI je aktuálně vysoce soutěživé prostředí, jak se různé firmy snaží uspět s různým hardwarem. Pravidelně proti sobě útočí NVIDIA a Intel a samotná NVIDIA nás také chce přesvědčovat o tom, jak jsou její GPU lepší oproti TPU firmy Google. Nedávný test ovšem vyzněl z hlediska ceny spíše ve prospěch TPU a možná že právě proto si můžeme přečíst další novinky přímo od NVIDIE.

Té se dle jejích vlastních slov podařilo dosáhnout významného pokroku ve výkonu a přidává několik příkladů. Jedno GPU V100 (generace Volta) s jádry Tensor dosáhlo zpracování 1075 snímků za sekundu při trénování neuronové sítě ResNet-50, což představuje čtyřnásobné zlepšení oproti generaci Pascal.

Jeden server DGX-1 vybavený osmi stejnými GPU V100 pak nabízí ve stejné úloze výkon 7850 snímků za sekundu, což je výrazný pokrok oproti 4200 snímkům za sekundu na stejném systému před rokem. A pak tu máme cloudovou instanci AWS P3, za níž stojí také osm GPU V100 a ta dle NVIDIE dokáže vytrénovat síť ResNet-50 za méně než tři hodiny. A právě zde NVIDIA opět srovnává s jistou srovnatelnou instancí využívající TPU, které to trvá asi třikrát déle.

NVIDIA dále mluví o čipech Volta jako o potenciálních náhradnících specializovaných ASIC, ale není vůbec jasné, jak je to myšleno. NVIDIA mluví o tom, že Volty poskytnou daleko lepší funkčnost v jistých scénářích, ovšem to pouze říká dobře známou věc: GPU jsou všestrannější a ASIC úzce zaměřené (ale zase potenciálně efektivnější).

NVIDIA dále uvádí, že jedna Tesla V100 nabídne v hlubokém učení výkon 125 TFLOPS v porovnání se 45 TFLOPS na straně Google TPU. Čili čtyři TPU v zapojené do "Cloud TPU" mají výkon 180 TFLOPS, zatímco čtyři V100 dosáhnout 500 TFLOPS. Ano, tomu se říká schopnost škálování výkonu, ale co si z toho máme vzít, není úplně jasné. Vedle toho NVIDIA zmiňuje také fakt, že v projektu klasifikace snímků na datasetu CIFAR-10 byla Volta ze všech testovaných systémů nejlepší.

NVIDIA se také stále snaží upozorňovat na to, jak moc hardware v oblasti výkonu v AI pokročil za poslední roky. Ukazuje to na případu dvou GeForce GTX 580 trénujících síť AlexNet, což jim trvá asi šest dní. Systému DGX-2 se to podařilo za pouhých 18 minut, ovšem z tabulky se již nedozvíme, že DGX-2 se skládá ze 16 GPU Tesla V100, takže srovnání to není úplně férové.

Do toho nyní vstupuje společnost Google, která zrovna představila své Tensor Processor Unit 3, čili již třetí generaci, jež představuje osminásobný výkon nového vodou chlazeného TPU Pod oproti verzi z minulého roku, což je přes 100 PetaFLOPS ve strojovém učení.

TPU Pod

Google tak rovněž postupuje velice rychle dopředu a dá se říci, že vývoj výkonu v AI má v těchto letech tempo, o němž se jiným oblastem hardwaru může jen zdát.

Zdroj: NVIDIA, Google