NVIDIA Tesla P40 a P4: speciály pro neuronové sítě a AI

14.9.2016, Jan Vítek, aktualita

Společnost NVIDIA připravila dva nové GPU akcelerátory, které cílí speciálně na oblast neuronových sítí a umělé inteligence. Jedná se o profesionální karty Tesla P40 a Tesla P4, jež jsou pochopitelně založeny na 16nm generaci Pascal.

NVIDIA uvádí, že tyto nové akcelerátory dokáží ve své hlavní oblasti zaměření překonat aktuální procesory, a to výkonem, který je až 45násobný a oproti minulé generaci GPU jde o cca 4násobný výkon. Vedle toho chce NVIDIA nabídnout nezbytné softwarové nástroje, díky nimž zajistí především zvýšení efektivity.

Celá platforma pro nejnovější karty Tesla je rozdělena na oblasti Training a Inferencing. Jde tak jednak o trénování umělých inteligencí, přičemž ty se mohou učit třeba tím, že je jim předloženo mnoho videozáznamů, díky nimž se AI může třeba naučit tančit. Zde se uplatní především systém DIGITS Training, framework pro hluboké učení a vysoký výkon v FP16 a FP64. Co se týče oblasti Inferencing, jde o využití již vytrénovaných hlubokých neurálních sítí pro rozpoznávání řeči, textu a obrazu, a to v souladu s požadavky uživatelů či jiných zařízení. Využívají se zde specializované instrukce založené na 8bitových operacích (INT8) a právě zde mají nové Tesly dosahovat zmíněných nárůstů výkonu.

Nové karty jsou tu pro nahrazení starších Tesla M40 a M4 a přináší s sebou SDK DeepStream a podporu TensorRT. Samotné jsou založeny na čipech GP102 a GP104, čili těch samých, které jsou využity i v řadách GeForce a Quadro. Výkonná Tesla P40 s jádrem GP102 má k dispozici 3840 CUDA jader a celých 24 GB paměti GDDR5. Takt GPU se pohybuje mezi 1303 a 1531 MHz a paměti pracují na efektivních 7,2 GHz a na 384bitovém rozhraní mají 346 GB/s propustnosti. Výkon v FP32 je 12 TFLOPS a v INT8 pak 47 DLTOPS za cenu TDP 250 W. A stejně jako Tesla M40 i P40 využívá pasivní chladič a spoléhat se bude na průtok vzduchu skrz server.

NVIDIA Tesla P4 je založena na GPU Pascal GP104 (stejně jako GTX 1080), a tak má 2560 CUDA jader, ale na podstatně nižším taktu od 810 do 1063 MHz. Díky tomu nemá TDP 190 W jako GTX 1080, ale podstatně méně, a to od 50 do 75 W. Vedle toho využívá 8 GB RAM na efektivních 6 GHz a 192bitovou sběrnicí, což zajistí 192 GB/s. Výsledný výkon v FP32 je 5,5 TFLOPS a 22 DLTOPS v INT8.

Nové akcelerátory mají dorazit na trh (pouze pro OEM zákazníky) mezi říjnem a listopadem tohoto roku.

Zdroj: wccftech