"Lunar Lake je schopno dosáhnout výkonu 67 TOPS v INT8, což je pro iGPU opravdu hodně dobrý výkon."
Je to hodně dobrý výkon i v porovnání s 50 TOPS Block FP16 v APU AMD Strix?
Odpovědět0 0
Ne to bych neřekl, teoreticky 50 TOPS Block FP16 je potenciál pro 100 TOPS INT8.
Aspoň když se člověk dívá na výkony Instinc, ale i u grafik to tak bývá.
Potíž mám s jinou věcí. TOPS je výkon v celočíselném formátu. Ale pro FP16 tedy 16. bitovou přesnost v plovoucí řádové čárce snad máme jiný formát, nebo ne. Nemá to být TFLOPS?
Odpovědět0 0
No pozor, ale AMD říká, že to v Block FP16 nemá propad výkonu typický pro FP, ale že to má stejný výkon, jaký by to mělo v INT8. Takže by to mělo být 50 TOPS v INT8, ne 100 TOPS. Jinak by to tvrzení AMD nedávalo smysl a zas by to bylo 1:2, což není, když je hlavní prezentovanou výhodou Block FP16 poměr 1:1.
Odpovědět0 0
Toto je z MI 300A.
Peak INT8 Performance 1.96 POPs
Peak INT8 Performance with Structured Sparsity 3.92 POPs
Peak Eight-bit Precision (FP8) Performance 1.96 PFLOPs
Peak Eight-bit Precision (FP8) Performance with Structured Sparsity 3.92 PFLOPs
Peak Half Precision (FP16) Performance 980.6 TFLOPs
Peak Half Precision (FP16) Performance with Structured Sparsity 1.96 PFLOPs
Tak nevím, u grafik je to u AMD možná stejné, ale u akcelerátoru ne. A v zásadě, když to umí pod 32 FP, ještě dva odlišné formáty 16 b Bloat a BFloat a pak 8 b Bloat a 8 b INT, tak logicky není problém, aby ten výkon s poloviční datovou šířkou byl dvojnásobný.
Odpovědět0 0
To by ale byla novinka k horšímu a reálně tím nějak výrazně tranzistory neušetří. Samozřejmě, není to primárně výpočetní řešení, ale pokud má pomáhat v AI výpočtech, je takové zjednodušení kontraproduktivní.
Odpovědět0 0
Jj, pěkně to kleslo o 40-50% nižší spotřeba při stejném vykonu.
Odpovědět0 0