Diskuze: AMD a Intel spolu vytvářejí instrukce ACE, maticové násobení pro AI úlohy

Level

dnes 09:20

Komentáře tohoto uživatele máš zablokované.

Myslím, že hlavně zajímavá je geneze ACE.

Bylo tady AVX 512 které adoptovala AMD od Intel, ale ten jej nemohl využívat (protože Big Little).
AVX 512 je kombajn, co umožňuje na jeden takt spočítat (8 FP64 operací, nebo 16 FP32 operací, nebo 32 FP16operací.) Avšak pokud by měl počítat moderní AI typy jako je FP4, pořád to bude jen 32 operací za takt, protože nižší typy se budou řešit pomocí FP16, takže pro AI zátěž nepoužitelné.

Intel začal vyvíjet AVX10.1 a AVX10.2, která má umožnit běh stejného kódu na P-Core i E-core. Jednoduše, když přijde požadavek na 512bit , který není v E-core implementovaný spočte se na více průchodů.

k tomu tady byla technologie VNNI, která má odbourat nevýhodu AVX512 při práci s malýmí typy... tj. na jeden průchod spočtou 64 FP8 operací místo 32.

Intel se musí vzdát svojí technologie Intel AMX (dot-product nasobeni matic -> inspirovaná technologií nVidia tensor)

a přejít na outer-product násobení matic ( Apple AMX, AMD CDNA, ARM)
Ukázalo se že outer-product pro procesory škálovatelnější, plošně úspornější a nevyžaduje tak složité přesouvání dat.

Teď všechny ingredience zabalili do jednoho balení ACX a kde kombinuji kompatibilitu Big Little, plus daleko širší škálu (AI) datových typů a přidávají akceleraci maticového násobení. Současně zachovávají z velké části křemík pro AVX512 a tedy kompatibilitu.

Křemík pro AVX512 byl tedy upgradován a bude moci plnohodnotně plnit roli velmi slušně výkoného NPU, kde narozdíl od stávajícího přístupu, kdy výrobci přidávali zvlášt NPU obvod.

(Jenomže co s tím, když mu u paticových desktopů nechají pomalé dva kanály do RAM ?! :( což pro tenhle druh zátěže ten potenciál účinně zabije)

Ternary Mind

Level

20. 6. 2026 11:16

Komentáře tohoto uživatele máš zablokované.

Láska spojuje

jivy

Level

20. 6. 2026 11:05

Komentáře tohoto uživatele máš zablokované.

Tady je názorný příklad vývoje v oblasti x86 čipů, který jde proti zpětné kompatibilitě. Na jednu stranu je to logické, ale zároveň to jasně ukazuje i cestu pro Arm.

Diskuze: AMD a Intel spolu vytvářejí instrukce ACE, maticové násobení pro AI úlohy

Nejnovější komentáře

Nejčtenější obsah

Nejaktivnější čtenáři

Pokračujte ve čtení