Společnost AMD uvažuje, že se vydá na “nový” trh. Pro akceleraci AI by měla vyrábět nejen grafické karty, ale také NPU akcelerátory. Ty zatím najdeme v některých procesorech, ale mohly by se stát samostatnými kartami.
AI algoritmy zažívají velký boom, LLM si může každý vyladit i doma. Nasazení těchto algoritmů se stále sice rozšiřuje, většinou ale běží na cloudu, takže uživatelův hardware je obvykle nepočítá, a to i přesto, že má k dispozici GPU s vysokým výkonem na jejich zpracování (zejména jde-li o GeForce RTX 5000 nebo Radeony RX 9000), ale v poslední době stále častěji i NPU integrované v procesorech, tam jde především o ty mobilní. Do desktopových procesorů dává NPU zatím jen Intel, a to dost slabá, u AMD jde jen od mobilních procesorů odvozené desktopové modely. Jenže právě AMD zkoumá, zda je tady trh pro větší využívání NPU. Se zákazníky se snaží zjistit, nakolik je tu prostor pro dedikované NPU karty. O AI by se tak nestarala GPU, ale NPU.
Už teď se ví, že by to nebyla karta pro každého. Snaží se přijít např. na to, zda by něco takového bylo atraktivním pro AI vývojáře nebo lidi, kteří na svém stroji provozují náročnější AI modely. Pro ně by to mohlo představovat cenově atraktivnější možnost než jedna či více high-endových grafických karet, případně přímo profesionální GPU modely s větší pamětí, které jsou ještě dražší. A ještě by to mohlo být mnohem úspornější.
NPU akcelerátory totiž už existují. Qualcomm nabízí svou kartu AI 100, kterou lze nalézt v novém notebooku Dell Pro Max Plus. Tato karta nabízí 400 AI TOPS. Zde se to špatně srovnává, protože dopátrat se k tomu, ve kterých datových typech to je, není vždy jednoduché, ne vždy tyto údaje všichni podrobně uvádí. Podobný výkon udává low-endová grafická karta GeForce RTX 5050 (421 AI TOPS). Jenže výhodou NPU by měla být energetická efektivita.
A tady řešení Qualcommu zvládne dodat výkon za 75 W (5,33 TOPS/W), zatímco GeForce má 130W TDP (3,24 TOPS/W). To ale není tak jednoduché. AI 100 se nabízí ve více variantách, je zde také 200 TOPS při 25 W (8 TOPS/W) a 75 TOPS při 15 W (5 TOPS/W). Jak vidíte, výkon na watt se dost liší v rozsahu 5-8 TOPS/W pro NPU. GeForce na první pohled vypadá špatně, jenže řada RTX 4060 už je na více než 4,2 TOPS/W, řada RTX 4070 na 4,0 až 4,7 TOPS/W, RTX 5080 má 5 TOPS/W s RTX 5090 pak leze dokonce přes 5,8 TOPS/W. Průměrná GeForce se tak pohybuje někde kolem 4,2-4,4 TOPS/W. U NPU Qualcommu se to kvůli divnému rozložení těžko hodnotí, ale násobky to nejsou. Na první pohled. Jenže co na ten druhý?
Kde ale řešení Qualcommu vítězí, to je paměť. Vrcholná varianta má 32 GB RAM, na což byste potřebovali až RTX 5090. Jenže tady vám toto množství paměti (a o paměť jde u AI algoritmů hodně) nabídne už řešení s výkonem RTX 5050, které ji má čtvrtinovou. NPU karta by tak měla zvládnout mnohem větší LLM modely mnohem rychleji i při stejném TOPS. To už ostatně AMD v minulosti ukázalo. Její AMD Ryzen AI 9 Max 395+ se 128 GB RAM dokázal překonat RTX 5080 3násobně v DeepSeeku-R1 70B, ačkoli má jen zlomek TOPS a byl nastaven na 55W TDP, zatímco GeForce na 360W TGP.
Takže ono je možné, že 75W karta se 400 TOPS může být v praxi několikanásobně rychlejší než GPU s násobně vyšší spotřebou a násobně vyšším teoretickým výkonem čipu. Úspora ale nebude plynout až tolik z čipu jako z velikosti paměti. I proto se dnes rozšiřují výpočetní GPU karty s velkou VRAM do nižších výkonnostních tříd. Co vy, vidíte v dedikovaných NPU pro některé uživatele smysl a zbyde pro ně vedle GPU s velkou VRAM na trhu místo?
Zdroj: techspot.com, qualcomm.com, techradar.com