Zpět na článek

Diskuze: Apple M3 Ultra je pro kódování videa 3× efektivnější než x86 CPU AMD nebo Intelu

Nejsi přihlášený(á)

Pro psaní a hodnocení komentářů se prosím přihlas ke svému účtu nebo si jej vytvoř.

kazaxx
kazaxx
Level Level
19. 3. 2025 08:11

Komentáře tohoto uživatele máš zablokované.

Tomu věřím že je ten ARM paskvil lepší jak x86 po stránce zpracování videa. Teda pokud nemáte napři i RTX 3080+. Tady je ARM efektivnější po stránce spotřeby, výkonem už ne. Jenže pak jsou tu ještě grafici modeláři, reklamní grafici nebo zvukaři. A tady už to není žádná hitparáda, každý kdo přešel na ARM (a neměl zrovna 8 GB MacBook s i5) si polepšil spíš jen po stránce výdrže baterie. Naopak tam kde byl zvyklý na vyšší RAM najednou propad. Nejhorší je to úplně s Adobe. Tady je úplně jedno, jestli máte 4 core i5 nebo 20 core i9 nejnovější generace nebo jestli máte 550 MB/s SSD nebo 5 GB/s NVMe. Ten balík je tak optimalizovaný až hrůza. Tady pocítíe hlavně RAM. I tady je 16 GB RAM na větší projekty (katalogy retuše) docela zoufalost. Naštěstí apple již MacBook dělá s větší RAM, pochopil a svádí to na AI. Ale stále jsou to takové nic o 18, 24 GB (v rozumné cenové relaci). Pokud chce někdo MacBook na grafiku měl by koukat na 48+ GB RAM a to už je v cenovkách 64 nebo i 96 GB windows notebooků... Z mého pohledu Apple M super na baterku notebooku, po stránce pracovní, výkonem, nic víc než nabízí konkurence jen stále za prémiovou cenu.

maraou
maraou
Level Level
Operační systém: Linux
18. 3. 2025 11:08

Komentáře tohoto uživatele máš zablokované.

Jakože workstation 32-core M3 Ultra porovnáváme s desktop 16-core Ryzen a divíme se, že má ukrutnou spořebu, protože jede frekvenčně na hraně a stejně výkonově nestačí?

Pročpak nesrovnáváme s Threadripper resp. Xeon-W, které budou parametrově i cenově bude srovnatelnější?

Milan Šurkala
Milan Šurkala
SHW SHW
Operační systém: PC
Procesor: AMD
Grafická karta: NVIDIA
18. 3. 2025 12:38

Komentáře tohoto uživatele máš zablokované.

@maraou Tak jsem se podíval na nějaké testy.
Cinebench R23 ST - 1896 vs 2014 (Apple +6%)
Cinebench R23 MT - 60142 vs 46221 (Apple -23%)
Handbrake (úměrný odhad) - 268 s vs 231 s (Apple +16 % výkonu)
Blender (úměrný odhad) - 440 vs 389 (Apple -12 %)

Vzhledem k tomu, že tu srovnáváme 32jádro se 64 vlákny a 32jádro s 32vlákny, se ten Apple drží dost dobře. Jenže s Threadripperem to bude mít AMD se spotřebou přece ještě horší než u 9950X. Threadripper má 350 W TDP a ne jen 170 W jako Ryzen. Threadripper se 32 jádry si např. v průměru u linuxových testů bral 270 W, v Cinebench 350 W, otázkou je samozřejmě to, kolik bral v Handbrake, ale nevím, asi bych nečekal, že to bude úspornější než Ryzen.

kutil05
kutil05
Level Level
18. 3. 2025 14:24

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Threadripper si nikdo pro úspornost nekupuje, ale pro výkon či konektivitu, nebo když potřebuje fakt hodně velkou RAM...

coolipi
coolipi
Level Level
18. 3. 2025 15:28

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Jestli to povetsinou nebude tim, ze x86 ma spotrebu v instrukcnim dekoderu asi 66%. ARM asi nekolik procent, podle slozitosti procesoru a pipeline. Nestalo by spocitat, kolik wattu zbytecne spalime na stovkach milionu x86 desktopu a serveru? Pocitejme 100M x86 masinek, spotreba cca 40W na jeden, z toho 66% ohriva oblohu. Sice hausnumero, ale od boku tak 2.6GW do luftu jen tak, kdyby to jelo porad. Fenovani oblohy.

Jen tak pro predstavu. Jestli uz neni cas odpoutat se od archaickych instrukcnich sad ve prospech uspornych a nejlepe otevrenych. Zrusit zavislost na ISA squattingu intelu, AMD i ARM. Jen to bude chvili trvat.

maraou
maraou
Level Level
Operační systém: Linux
18. 3. 2025 16:04

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Jak samo nemyslim, ze by to ve spotrebe porazilo arm, ale alespon vykon, propustnost, cena by byly relevantnejsi.

Ono kdyby se ten 32 core TR vzal vypnulo se SMT kurvitko a hledala se spotreba tak, aby byla arita ve vykonu. Tak by ve finale byla dramaticky niz nez tech 270w ;) Na Epycach mame vyzkouseno ze SMT sunda klidne 50W v zatezi.

Milan Šurkala
Milan Šurkala
SHW SHW
Operační systém: PC
Procesor: AMD
Grafická karta: NVIDIA
18. 3. 2025 17:26

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Když vypnete SMT, tak ten výkon patrně o trošku padne, takže když už teď je to vcelku vyrovnané, pak by M3 Ultra výkonem asi spíše vyhrávala. Jestli sundáte 50 W, tak to výsledek až tak moc nezmění, když jedno bere 80 W a druhé bralo možná i 270 W. Tak to nebude 270, ale 220, pořád skoro 3násobek. Moc dramaticky níž mi to nepřijde. Každopádně pořád nevíme, kolik v tom Handbraku bere Threadripper. Možná je to více pod TDP, než je průměrná spotřeba, možná ne.

maraou
maraou
Level Level
Operační systém: Linux
18. 3. 2025 18:07

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala V renderech jako je CineBench asi padne. Na druhou stranu v realnych aplikcich vidim dost casto opacny trend. Mene vlaken=vice chache pro jedno vlakno, mensi latence atd.

kutil05
kutil05
Level Level
18. 3. 2025 19:51

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala "Jestli to povetsinou nebude tim, ze x86 ma spotrebu v instrukcnim dekoderu asi 66%". Této blbosti ještě někdo věří? Netrvalo zase tak dlouho si najít okolorvaný snímek jádra. Jen tak mimochodem jsem při tom narazil i na toto: "The legend of “x86 CPUs decode instructions into RISC form internally” (2020)" A pokud to nevíte, RISC už taky něakou dobu dekodér používají.

Ten rozdíl mezi Apple a AMD může být dvojího původu, Apple má nižší takt - tedy jede blíž efektivnímu pásmu, tomu odpovídá i to, že má víc jader. A používá lepší výrobní proces. Pro Apple cena výroby až tak problém není i tak prodává s velkou marží. Možná by se stálo zamyslet nad rozdílem v prodejní ceně.

kutil05
kutil05
Level Level
18. 3. 2025 19:52

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala SMT se, světe div se, začalo používat právě proto, že výkon i efektivitu zvedá. Proč by to jinak dělali?

maraou
maraou
Level Level
Operační systém: Linux
18. 3. 2025 21:15

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Chapu ze v drevnich dobacha s jednim nebo nekolika malo jadry to melo velky smysl. Dneska ke to prezitek pro omezenou skupinu sw. Umoznujici extremni paralelizci. Ale pardon, kdo chce dneska renderovat, ma na to GPU.

Naopak nove navrhy CPU ala apple SMT ignoruji. Preferuji jednodussi navrh, nezli papirovy vykon v benchmarcich typu cinebench. Proc by to jinak delali, kdyby to byl takovy zazrak?

kutil05
kutil05
Level Level
18. 3. 2025 21:25

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Apple se drží ARM a to se k multithreadingu nikdy nedostalo. Všechny opravdu výkonné architektury ve své době ho používaly a nebo plánovaly. A kdo MT z nějakého důvodu neche, má možnost ho vypnout, tak o co jde? Asi o to, že Appe potřebuje 2x tolik jader k vlastně stejnému výkonu. V něčem má navrch Apple a v něčem AMD. Zkusme srovnat něco se stejným počtem jader.

maraou
maraou
Level Level
Operační systém: Linux
19. 3. 2025 12:57

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Neni pravda. Prvni smt bylo implementovano v roce 2018 do cpu pro vysokou propustnost.
ARM neoverse E1
Cortex A65AE

Propustnost znamena odbavit co nejvic malych uloh za kednotku casu.

Pokud presahne slozitost uloh urcitou mez, je to kontraproduktivni.
Fugaku (2020) SMT treba nema i ldyz jej v te dobe uz mot klidne mohl. Myslite ze by ho tam nedali kdyby to realne zvysilo efektivitu byt o 1% ? Ten pocitac ma spotrebu ze by vytizil pul bloku Dukovan.

V HPC se SMT bezne vypinaji na urovni BIOS

coolipi
coolipi
Level Level
19. 3. 2025 14:24

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Zrejme tomu veri vyvojari RISC-V, protoze to prezentovali na rocni konferenci vyvojaru pred nekolika lety jako informaci uniklou primo z Intelu. Mimochodem, jiste ty obarvene fotografie jadra byly obarvene proporcionalne spotrebe prislusnych casti, protoze se bavime o zarovnani instrukci (x86 ma variabilni delku instrukci 1-11 bytu minimalne, mozna delsi), dekodovani na mensi operace, poslani celeho baliku rozdekodovane instrukce do dalsich urovni pipeline (300 paralelnich vodicu - signalu na instrukci) a osetreni vsech ruznych vyjimek ktere mohou vzniknout pri vypadku stranky, deleni nulou atp.

Jim Keller moderni designy procesoru x86 prirovnal k slozitym tabulkam rozdekodovanych instrukci, kde se resi zavislosti.

Asi bych to dohledal, ale spis mi prijde lepsi vyuziti casu to takhle shrnout a jit pak delat neco produktivniho.

Asi neni potreba vysoke inteligence na to, aby clovek pochopil, ze treba instrukce RISC-V ktere maji delku primo v 2 bitech instrukce budou dekodovatelne s mnohem mensim poctem tranzistoru nez ty s variabilni delkou. A vetsi nepomer bude ve spotrebe, u x86 u superskalarnich implementaci se musi jeste dekodovat a zarovnat vice instrukci po sobe, coz prodlouzi pipeline.

kutil05
kutil05
Level Level
19. 3. 2025 18:21

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Výkon Fujitsu A64FX - Fugaku - stojí hlavně na vektorových jednotkách, jádro toho CPU je celkem jednoduché, ale staví na 512 bit SVE jednotkách je při tom předělané z SPARC64V, tam na SMT není důvod.

kutil05
kutil05
Level Level
19. 3. 2025 18:31

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Jenže dekódování není přece vše, je potřeba mikroinstrukce taky správně seřadit, paralelně rozdělit tak, aby to znamenalo maximální výkon i efektivitu (taky proto se přidávání dalších ALU už moc neprojeví). A pak je třeba jednotky nakrmit daty s minimální latencí. Když se dívám na snímek jádra, je zde kromě ALU a FPU: Decode, Scheduler, Branch Predictor, smozřejmě I cache, D cache, L2 cache, μop cache.

maraou
maraou
Level Level
Operační systém: Linux
19. 3. 2025 19:26

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Souhlasím. Fugaku se používá k řešení celé řady netriviálních problémů od vývoje léčiv, přes astrofyziku, předpovědi počasí, materiálové inženýrství až po AI. A všude tam je zdá se SMT k ničemu.

Hodí se výborně třeba pro odbavování velkého množství drobnějších požadavků např. u webových serverů… počkat?! Tam se to zase vypíná kvůli bezpečnosti.

Tak se to hodí do renderingu… počkat?! Tam kralují GPU.

Tak nám zbývá snad jen benchmarková onanie!

kutil05
kutil05
Level Level
19. 3. 2025 20:48

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Ty nejcitlivější věci odbavují mainframy IBM řady Z - velká letiště, banky, burzy, cemtrály nadnárodních firem. A ejhle procesory Telum mají SMT, i u Power řady IBM npřemýšlí o zrušení SMT. To že měly problém hlavně CPU Intel Xeon celkově neznamená naprosto nic.

maraou
maraou
Level Level
Operační systém: Linux
19. 3. 2025 22:19

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Hmmm… mainframe… to je takove to jak jde hlavne o to aby bylo vsechno hodne redundantni ze? Pameti a cpu menitelne za chodu a tak. Jakože ty mainframy jsou vystaveny do veřejného internetu jo?
A dělají bankovní operace… to je ultranáročné… hmm…

A pokud jde o ne intel… tak doporucuji studovat SQUIP (2022) nebo SPECTRE (2018)

Btw… SMT vede k efektivite asi tak, ze Intel zachranuje efektivitu svych CPU pridavanim E-core… ergo
Efektivni != SMT

kutil05
kutil05
Level Level
19. 3. 2025 23:07

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Nejen, jde taky o bleskovou rychlost trasakcí - Zero Time. Takže jedou stále na plném taktu 5,2 GHz, mají obrovské kapacity čtyřúrovňové cache. Už jen L2 má 32 MB na jádro (256MB L3 a 2GB L4 cache). Bezpečnost je taky vysoká, každé jádro má svůj akcelerátor AI a další je sdílený v patici. Je to jiný svět. Zákazníky spotřeba ani cena moc nezajímá, jen rychlost a spolehlivost. Za plného chodu je možno dělat výměny HW i rozšíření. Málo se to ví, ale kromě kvantových počítačů IBM hodně investuje právě do zabezpečení pomocí umělé inteligence.

maraou
maraou
Level Level
Operační systém: Linux
20. 3. 2025 07:28

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala To je opravdu relevantni v dikuzi o SMT ve workstationech tahat mainframe cpu kterych se vyrobi par desitek tisic a nikdo je moc prakticky nezna.
Zranitelnosti pokud tam jsou, tezko budou verejne zname.

Na SMT me sere, ze patche ktere se musi instalovat na opravu der spolehlive sezerou prinos, kdyz uz nejaky je.

Krom toho to musime platit v kremiku, misto toho by se veslo vic cache nebo vic jader za stejnou cenu.

A to kdyz si uvazite ze byste misto 8 Pcore mohl mit 10 Jader bez SMT tak je SMT cista zbytecnost.

kutil05
kutil05
Level Level
20. 3. 2025 07:36

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Byla to reakce na údajnou nebezpečnost SMT. A co je lepší důkaz, než poukázat na stroje s nejvyšší mírou zabezpečení?

Milan Šurkala
Milan Šurkala
SHW SHW
Operační systém: PC
Procesor: AMD
Grafická karta: NVIDIA
22. 3. 2025 13:55

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Pak je ale otázkou, proč nová Nvidia Vera Rubin, která má spoustu GPU, má mít současně v CPU části ARM jádra nově s podporou SMT.

kutil05
kutil05
Level Level
24. 3. 2025 09:06

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala "Pak je ale otázkou, proč nová Nvidia Vera Rubin, která má spoustu GPU, má mít současně v CPU části ARM jádra nově s podporou SMT."

Dobrá otázka a snadná odpověď: Protože udělat široké jádro tak, aby s jedním vlánem efektivně využilo celý potenciál je těžké a téměř nemožné.

maraou
maraou
Level Level
Operační systém: Linux
24. 3. 2025 09:20

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Dizajn na maximální propustnost... předpokládejme fokus na AI.
CPU budou krmit všechny ty datově nenasytné GPU. Všechny procesy budou mít stejná práva.
To má asi dost daleko do univerzálního použití na workstationu.

kutil05
kutil05
Level Level
24. 3. 2025 09:32

Komentáře tohoto uživatele máš zablokované.

@Milan Šurkala Maximální propustnost má kdejaký serverový CPU, ale to že jde o "dost úzkou specializaci" a nikoliv universální CPU, jim umožňuje některé aspekty při výroji vynechat.

Reklama
Reklama