NVIDIA rozdala první karty Volta V100 předním AI institucím

27.7.2017, Jan Vítek, aktualita

NVIDIA už na jaře představila své vůbec první 12nm grafické čipy v podobě V100 generace Volta, které musely lidem z AMD udělat řadu nových vrásek na čele. Jde totiž o GPU, na něž AMD aktuálně nemá odpověď a to se už dostalo mezi lidi.

Nové profesionální akcelerátory Tesla V100 předával sám Jensen Huang, který takto obdaroval patnáct předních institucí zabývajících se umělou inteligencí. Učinil tak na konferenci v Honolulu, které se účastnilo na 150 předních výzkumníků zabývajících se hlubokým učením a vůbec moderní AI.

Vybraní lidé získali svou kartu Tesla V100 v dárkovém balení s podpisem CEO NVIDIE a vzkazem, ať díky ní tvoří "skvělou AI". Takto obdarovaný je například Silvio Savarese, docent na Stanfordu a řídící muž SAIL-Toyota Center for AI Research, který ze zasloužil o pokroky v počítačovém vidění, robotice a strojovém učení, díky čemuž získal řadu cen včetně Google Research Award. Savarese řekl, že svou V100 využije především pro výzkum v oblasti autonomního řízení vozů a virtuální realitě.

NVIDIA Volta V100 je čipový obr, který ve světě GPU nemá obdoby už jen tím, že se skládá z 21 miliard tranzistorů na ploše 815 mm², které byly vytvořeny 12nm procesem FFN, což znamená FinFET NVIDIA. Jde tak o výrobní proces vytvořený speciálně pro tuto firmu, který jsme dříve ani neviděli v roadmapách firmy TSMC. Nikdo jiný než NVIDIA jej tak asi ani nevyužije a je otázka, zda ona samotná jej upotřebí i pro další GPU generace Volta, a tedy i ta herní.

GPU GV100 se skládá z celkem 84 jednotek SM (Streamung Multiprocessor) nebo ze 42 TPC (Texture Processing Cluster), z nichž každý obsahuje dva SM. A že každý SM má pod kapotou celkem 64 jáder CUDA, pak jich celkově v GPU najdeme 5376, jež jsou určeny pro výpočty v FP16, FP32/INT32 a FP64. Vedle toho tu máme 672 Tensor procesorů a 336 texturovacích jednotek TMU.

GPU dokáže držet s TDP 250W takty až kolem 1370 MHz, díky čemuž nabídne výkon 28 TFLOPS v FP16, 14 TFLOPS v FP32 a 7 TFLOPS v FP64, čili škálování je v tomto případě dokonalé na rozdíl od takových NVIDIA TITAN X, které postrádají hardware pro double precision (FP64), a tak v něm mají mizivý výkon. NVIDIA také udává výkon v DLOPS (Deep Learning Teraflops) s hodnotou 112, který se vztahuje právě k hlubokému učení.

Zmínit se můžeme ještě o paměti, která využívá celkem osm 512bitových segmentů v paměťovém kontroleru, čili celkově 4096bitové rozhraní pro 16 GB paměti HBM2 na 878 MHz. Díky tomu se dosahuje propustnosti velice slušných 900 GB/s.

Zdroj: NVIDIA