Galerie 4
Google TPU vs. NVIDIA Volta v ResNet-50: podobný výkon, ale Google vede v ceně
Aktualita Grafiky a hry Google NVIDIA

Google TPU vs. NVIDIA Volta v ResNet-50: podobný výkon, ale Google vede v ceně

Jan Vítek

Jan Vítek

1

Grafické čipy postupně dostávají v oblasti AI a strojového učení silnější a silnější konkurenci, do níž patří také cloudová TPU firmy Google. Ty mají dle provedených testů poskytnout v dané oblasti podobný výkon, ovšem za mnohem nižší cenu.

Reklama

Společnost NVIDIA můžeme dnes brát stále jako vedoucí firmu v oblasti vývoje AI systémů, kam patří především její hardware a také softwarová platforma, což odstartovala už před mnoha lety vypuštěním GPU G80 a platformy CUDA. Její hardware tak pohání celkem 87 superpočítačů v seznamu TOP500, zatímco Intel jich má pouze 10, což se ale samozřejmě týká těch, které využívají nějaké AI akcelerátory. 

Google TPU vs. NVIDIA Volta v ResNet-50: podobný výkon, ale Google vede v ceně

Nejmodernějším AI čipem firmy NVIDIA je její Volta V100 využívaná na akcelerátorech Tesla, která představuje velice složité řešení složené z 21,1 miliard tranzistorů, a tak není divu, že si je NVIDIA nechá velice dobře zaplatit. V obchodech ji samozřejmě nenajdeme, ale dá se zjistit, že si za ni firma účtuje cca 8000 dolarů. 

My jsme o jednotkách TPU od firmy Google psali v minulém roce, kdy slibovaly výkon až 180 TFLOPS právě v oblasti AI, což obvykle znamená FP16, neboli Half-Precision. To vypadá jako pro Teslu naprosto nedosažitelný výkon, neboť i Volta V100 má v FP16 "pouze" kolem 30 TFLOPS. Jenomže tu jsou také jádra Tensor využitelná pro hluboké učení a ta nabízí výkon 120 TFLOPS a to už vypadá daleko lépe. 

Bavit se ale chceme o testech od RiseML, které postavily přímo proti sobě V100 a TPUv2, respektivě čtyři Volty proti čtyřem čipům TPU tvořícím jedno Cloud TPU. Obě řešení měla k dispozici shodných 64 GB vlastní paměti a prováděla stejné úkony, a sice s modelem ResNet-50. Sledován byl hrubý výkon, přesnost a schopnost přiblížit se požadovaným výsledkům (aby byly "smysluplné", respektive konvergence algoritmu. 

Je třeba také poznamenat, že lidé z RiseML dali možnost firmám NVIDIA a Google reagovat na nastavení testů i na dosažené výsledky, jež pak byly prozkoumány i nezávislými experty. 

Google TPU vs. NVIDIA Volta v ResNet-50: podobný výkon, ale Google vede v ceně

Jak je vidět, výkon TPUv2 oproti V100 klesal se snižující se batch size, což je ve strojovém učení počet trénovacích příkladů v jedné iteraci a není divu, že právě pro jednotky TPU se doporučuje 1024. 

Google TPU vs. NVIDIA Volta v ResNet-50: podobný výkon, ale Google vede v ceně

Co se týče přesnosti a konvergence, TPU na tom byla o trošku lépe s maximem na 76,4 % oproti 75,7 %, ovšem kde TPU opravdu září, je cena za splnění úkolu. V důsledku je nejdůležitější kombinace času a ceny k dosažení jisté přesnosti a pokud si vezmeme nejlepší výsledek, jehož dosáhla GPU, čili oněch 75,7 %, při použití úzce specializovaných TPU nás to bude stát 55 dolarů při čase 9 hodin (na 76,4% přesnost by to bylo 73 USD). GPU V100 to zvládnou víceméně stejně rychle, ale jejich "cena za vyřešení" je mnohem vyšší. 

Na závěr je nutné dodat, že jde pouze o jeden test založený na ResNet-50, takže z něj nelze vyvozovat obecné závěry.


Reklama
Reklama

Komentáře

Nejsi přihlášený(á)

Pro psaní a hodnocení komentářů se prosím přihlas ke svému účtu nebo si jej vytvoř.

Reklama
Reklama