Zpět na článek

Diskuze: GPU-Tech a využití GPU k výpočetním úkonům

Nejsi přihlášený(á)

Pro psaní a hodnocení komentářů se prosím přihlas ke svému účtu nebo si jej vytvoř.

Rychlé přihlášení přes:

Federmann
Federmann
Level Level
7. 7. 2007 18:03

Komentáře tohoto uživatele máš zablokované.

určitě

Federmann
Federmann
Level Level
29. 6. 2007 12:43

Komentáře tohoto uživatele máš zablokované.

Zatím jsme na tom stejně

Federmann
Federmann
Level Level
29. 6. 2007 11:59

Komentáře tohoto uživatele máš zablokované.

Nezbývá než se dotázat přímo výrobce http://www.gpucomputing.eu/index2.php?lang=en&id=5

Federmann
Federmann
Level Level
24. 6. 2007 20:24

Komentáře tohoto uživatele máš zablokované.

Vidím, že můj skalní fanoušek a bezmezný obdivovatel „OBR_X“ již našel cestu, aby mi vyjádřil podporu způsobem jemu vlastním.

freon
freon
Level Level
24. 6. 2007 17:49

Komentáře tohoto uživatele máš zablokované.

bylo by to hezke kdyby, slo nechat delat graficke jadro praci procesoru, jenze je tu jedno velke ALE! problem je v tom ze gpu je silne jednoucelova jednotka, ktera je stavena jen na urcity a uzky okruh operaci. Napriklad neni vubec schopna provadet operace nad skalary, finta previst skalar na jednoprvkovy vektor bohuzel napomaha. Kdezto cpu je viceucelovy stroj, ktery zvlada vetsi mnozstvi nejruznejsi opraci. Muzete s nim scitat, odcitat, jednotliva cisla, vektory, tenzory atd...
Pricist jen tak pocet operaci, ktere zvladne gpu k poctu co zvlada cpu nejde. Mozna bude vas procesor scitat matice rychleji, ale kryptograficky klic vygeneruje za stejnou dobu, protoze to gpu proste neumi.

Federmann
Federmann
Level Level
24. 6. 2007 18:31

Komentáře tohoto uživatele máš zablokované.

@freon To asi nikdy nepůjde, aby GPU nahradilo, CPU. Účelem je, aby GPU pomáhalo, CPU jako akcelerátor (tak je módní těmto jednotkám říkat). Dnes se již ukazuje, že to nemusí být jen na úrovni HW rozšíření, ale postačí na úrovni SW rozšíření. Poslední dobou se s touto problematikou roztrhl pytel, uvidíme, co bude dál.

freon
freon
Level Level
24. 6. 2007 17:37

Komentáře tohoto uživatele máš zablokované.

jojo, pokud meris kolik operaci s plovouci carkou ti udela procesor za 1 sekudnu (provadi se na fpu) tak ti pusteni prime95 (program neznam, ale podle nazvu operuje s prvocisly) moc gflops neubere kdyz procuje pouze s celymi cisly.

Federmann
Federmann
Level Level
23. 6. 2007 15:58

Komentáře tohoto uživatele máš zablokované.

Ještě jednou jsem oba prográmky zpustil
• EcoLib jsou jednoznačně knihovny, které je nutno načíst pro podporu počítání pomocí GPU.
• CPU-Tech Pricer je testovací program, ve kterém se zobrazuje výsledný výkon, ke spuštění slouží tlačítko Compute, ale vedle něj je přepínač GPU on/off!!!

Federmann
Federmann
Level Level
23. 6. 2007 13:09

Komentáře tohoto uživatele máš zablokované.

Jenom to, že je jen otázka času, kdy to bude používáno í na běžném PC (instrukční sada procesoru a operační systém.

Federmann
Federmann
Level Level
23. 6. 2007 09:56

Komentáře tohoto uživatele máš zablokované.

HT je u stolních jeden u serverových tři a u nové K10 mají být dokonce čtyři, ale ne na frekvenci 2GHz, ale na frekvenci přes 5GHz, takže propustnost HT dnes v součtu nějakých 80GB/s, DDR2 tyky výš a přiblížíme se 100GB/s. samozřejmě FSB rovněž nespí a při 1.666MHz se její propustnost dostane někde k 12GB/s, každý si může teoretickou propustnost přesně spočítat, ale rozdíl 4*HT+Řadič vs FSB je patrný.

Federmann
Federmann
Level Level
23. 6. 2007 09:41

Komentáře tohoto uživatele máš zablokované.

Ta firma upravuje na zakázku takovým způsobem programy. V podstatě jde o přidání knihoven, které dovolí na dané výpočty zavolat GPU. Mělo by to dle mne pokročit směrem doplněním instrukční sady procesoru (SE???) a doplněním knihoven OS (což vlastně dělá EcoApp), čímž by se extrémně zvedly některé výpočty, hlavně v plovoucí čárce. Výsledkem by mohly být mnohonásobně nižší renderovací časy apod.

Federmann
Federmann
Level Level
23. 6. 2007 09:24

Komentáře tohoto uživatele máš zablokované.

„Spustenie najprv: 1.53429 GFlops/1.39898s. Spustenie po teste Direct3D: 288.926 GFlops/0.007429s.“
Jednou to počítá, samotný CPU a podruhé je využito k výpočtu GPU (grafické karty). Je jasně vidět o kolik by se v některých výpočtech zvedl celkový výkon vašeho PC, pro tento konkrétní výpočet (aplikaci) by to bylo přibližně 289/1,53=189krát výkon vašeho CPU.

Federmann
Federmann
Level Level
23. 6. 2007 09:11

Komentáře tohoto uživatele máš zablokované.

„No, HT neni pametovy radic, ze.. a jak jsou presne elektricky zapojeny pametove moduly je uz docela sumafuk. Pravdou naopak je, ze K8 maji vlastne interne pouze jediny pametovy radic, ktery ma sirku 64b u Socketu 754 a 128b u Socketu 939. Az K10 bude mit fakticky 2 nezavisle 64b radice. Nevim co myslite poctem vlaken,“
.
Zde je zásadní rozdíl, který se vůbec nebere v úvahu, co stihne přenést paměťový řadič a HT, musí u staré architektury přenést FSB a až následně se vše rozdělí v severním mostu.
.
Počet vodičů vynásobený frekvencí udává propustnost (zde je nutno sečíst všechny propustnosti), ale počet stejných vodičů taky udává adresovací prostor (u řadiče pamětí je to obrovský rozdíl)
• 264bit či 1128bit ve vodičích zdánlivě stejné i v propustnosti, ale v adresovacím prostoru je tomu trochu jinak 202128=2128,ale: 21264=265
• jak jsem napsal u K8 je to ve skutečnosti: 466bit, čili 22(22264)=268, tedy adresovací prostor je dán 68bity, ale datová propustnost by byla odvozena od 268bit=136.
• Navíc pokud mám sběrnici například 64bit tak přenesu 64bit informaci v jednom kroku, ale na 32bit sběrnici zajistím přenos dvěma kroky…
A vlákno je vlastně běžící program uvnitř procesoru, pokud běží, pak nemůže začít pracovat procesor na dalším programu. Pokud procesor umí více vláken, pak může procesor pracovat současně na vice operacích současně. K10 by měla umět čtyři vlákna na jádro a K8 umí dvě.

Federmann
Federmann
Level Level
23. 6. 2007 09:29

Komentáře tohoto uživatele máš zablokované.

@Federmann jen se to špatně zobrazilo, má tam vždy být 2 na mocninu, tedy hned první 22 má být 2 na druhou.

PetFish
PetFish
Level Level
23. 6. 2007 10:08

Komentáře tohoto uživatele máš zablokované.

@Federmann Nemuzu si pomoct, ale mam pocit, ze ty veci nejak motate dohromady a vase informace jsou mnohdy nepresne ci vylozene chybne.
Vase vysvetelni ohledne thredu mi pripada velmi zjednodusene a nesparvne.
K definici threadu (vlakna). Pokud vim dnesni PC procesory pokud maji jen jedno jadro a nedisponuji technologii virtualizujici jader vice (P4-HT) umi v jednu chvili zpracovavat jen jednu radu instrukci - thread (i kdyz pri tom mohou uvnitr paraelne uzivat vice jednotek ALU,FPU,...).
K8 je jednojadrovy procesor a jako takovy muze zpracovavat vice threadu pouze jejich prepinanim ... i kdyz v case muze prepinat mezi mnoha thready.

Federmann
Federmann
Level Level
23. 6. 2007 12:43

Komentáře tohoto uživatele máš zablokované.

@PetFish Není zde prostor vše vysvětlovat, ale právě HT je určen pro spojení s ostatními CPU, AMD uvádí až 64, je tedy možno mít na desce až 64 procesorů ať již jedno-jádrových, dvou-jádrových nebo za chvíli čtyř-jádrových, tudíž dnes je možno spojit až 336 jader, běžné desky jsou čtyř-procesorové, tedy mohou spojit 16jader. Máte pocit, že se nejedná o více-vláknový výpočet? Pro řízení pak AMD vytvořila virtualizační technologie https://www.svethardware.cz/art_doc-984E9204F1150919C12572F1006034BF.html.
.
Odpověď Intelu byla jejich softwarová představa více jádrového procesoru (P4-HT), pokud by použili dnešní Quad-Core a tuto technologii tak se bude, CPU tvářit jako by byl 8jádrový, ale stále omezený jednou FSB.
.
Mám pocit, že paralelizace, ale i množství vláken může být u AMD poněkud větší než u AMD.
.
Když se vrátím k tématu tak grafické karty AMD-ATI mají až 320 stream procesorů, při zapojení CrossFire se tedy spojí až 1280 takových procesorů. Zde je paralelizace výpočtu ještě markantnější.
.
Jednotlivé, nejmenší detaily pak zde nemá smysl rozebírat a pitvat. Ty můžeme rozebírat, při konkrétním popisu zpracování informací jednotlivými jednotkami CPU.

PetFish
PetFish
Level Level
23. 6. 2007 15:36

Komentáře tohoto uživatele máš zablokované.

@PetFish Neberte toto prosim jako osobni urazku, ale jako konstruktivni kritiku.
Myslim, ze clovek pisici na SHW by se mel umet srozumitelne vyjadrovat a logicky reagovat a kdyz dostane otazku v diskuzi srozumitelne a fakticky spravne ji zodpovedet.
Kdyz procitam diskuzi, mam pocit, ze vzdy nahazite nekolik pojmu na hromadu, bez ladu a skladu a kdyz vas nekdo upozorni na faktickou chybu nebo Vas pozada o vysvetleni, prihodite dalsi pojmy, kterymi vse spis vice zamotate.
Viz priklad vyse ... ja se bavim o vlakne a inteli technologii Hypertransport (HTT ... zapomel jsem na jedno T ve zkrace) v reakci na tvrzeni ze K8 umi 2 vlakna upozornim, ze singlecore K8 umi zpracovavat jen jendo vlakno.
Vy na to odpovite pro me zcela nepochopitelne AMD technologii hypertransport (HT), coz je ale o uplne necem jinem ... nema to s vlakny temer nic spolecneho - HT je sbernice pro komunikaci procesoru a dalsich zarizeni.
Prece nemuzete michat vlakna v ramci jadra/jader procesoru a v ramci multiprocesoringu ... a pokud ano, pak je vyrok K8 umi jadra 2 zcela nesmyslny, protoze dnesni dualcore dualprocesor umi pri teto logice jadra 4 a dualcore ctyrprocesor umi vlaken 8.
Aby nevzniklo nedorozumeni - souhlasim, ze koncepce HT je pro multiprocesoring vyhodnejsi nez FSB, souhlasim, ze viceprocesorovy pocitac muze zpracovavat vice vlaken.

Prosim zkuste priste odpovidat na otazku, svoje prispevky ponekud lepe strukturovat a take je nezapomente zkontrolovat (viz Vase tvrzeni "Mám pocit, že paralelizace, ale i množství vláken může být u AMD poněkud větší než u AMD")

Federmann
Federmann
Level Level
23. 6. 2007 20:35

Komentáře tohoto uživatele máš zablokované.

@PetFish Děkuji za odpověď, za překlep se samozřejmě omlouvám. Jen ve zkratce:
Hlavním tématem byl výpočet pomocí GPU a jeho výhody, mezi které nesporně patří velká paralelizace výpočtu, pokud vezmu vlákna tak každému jádru odpovídá jedno vlákno…
Počítání pomocí CPU je v některých případech značně pomalejší, navíc má mnohem méně jader a tím může zpracovávat méně vláken…
Pouze jsem poukázal na bod vzniku odlišnosti architektur, CPU a GPU, ale taky na okamžik vzniku odlišnosti architektur hlavních výrobců procesorů. Intel šel cestou vyšších frekvencí a AMD velkou paralelizací. Zde jsem neměl samozřejmě na mysli žádný konkrétní procesor, ale celou platformu a možnosti, které platforma vytváří. Grafické karty šly v paralelizaci výpočtu ještě dál, opět nemám na mysli žádnou konkrétní kartu, ale trend, který na poli grafických karet převládá.
Samotný článek není zaměřen na konkrétní procesor, ani na konkrétní grafickou kartu, ale ukazuje další možný směr vývoje či nárůstu výkonnosti PC pouhým softwarovým zásahem. Pokud dá někdo odborný dotaz, mám za to, že má jisté odborné znalosti. Pokud jeho znalosti přecením, pak mu budu vysvětlovat, to co dobře zná, pokud jeho znalosti nedocením, pak použiji některé výrazy či pojmy, kterým samozřejmě nerozumí. Jako další možnost nedorozumění je, že tazatel má na mysli konkrétní procesor a já možnosti, které skýtá. To je situace, která právě nastala.
Vy jste měl na mysli jedno vlákno a k němu jedno jádro a já více vláken a více jader, ale jak jsem k nim došel, jsem považoval za samozřejmost. Tím mohl vzniknout nesprávný dojem, že nerozlišuji druh vzniku více vláken. Ale já jsem neměl potřebu rozlišovat možnosti jak toho dosáhnout, proto jsem je ani neuváděl. Pro mne bylo spíše rozhodující, že Intel je omezen maximálním počtem, AMD je omezeno maximálním počtem a grafická karta je omezena maximálním počtem, tato počty se od sebe značně liší, dokonce v jednom řádu, je zcela jedno zda Intel složí Quad-Core, nebo dokonce dvě a ještě použije virtualizaci jader, kterou užíval dříve. Předpokládám, že při této úvaze nebude čtenář uvažovat cestou, že AMD použije jedno-jádrový procesor a tím je mnohonásobně vyšší paralelizace u Intelu. Vše se samozřejmě vztahuje k PC, jak jej známe. Extrémy spojování jako velké servery či superpočítače sem nepatří.
Postačí taková odpověď?

PetFish
PetFish
Level Level
24. 6. 2007 13:08

Komentáře tohoto uživatele máš zablokované.

@PetFish Ano, takovato odpoved uz je jasna.
Nicmene pripada mi prilis zjednodusujici Vase uchopeni pojmu paraelizace a zpusob porovnanvani vykonu.
P4 slo na urovni jadra mimo jiné cestou zvysovani frekvence na frekvenci (souhlasim)
K8 slo na "paraelizaci", ale byla to paraelizace pod urovni vlakna (IPC) a rozdílná architektura umoznujici efektivněji multiprocesoring ... prave tam vidim nejvetsi problem z hlediska Vaseho uchopeni tematiky: paraelizace je siroky pojem a v ramci teto tematiky bych videl 3 druhy paraelizace:
- u CPU pod urovni vlakna (IPC)
- u CPU na urovni vlakna (vice threadu, vice jader, vice CPU)
- u GPU, ktere je architektonicky uplne odlisne od CPU
Vy tyto tri pojmy smichate do jednoho a reknete vetsi paraelizace = vetsi vykon ve FLOPs ... jenze to je pravda pouze pokud pojem paraelizace definuji odvozene od vykonu ve FLOPS (Vykon/pocet cyklu za jednotku casu), ale to je pak definice kruhem (pouze pouziti jinych slov na popis ciloveho stavy, kdy GPU je vykonejsi z hlediska operaci v plovouci desetinne carce nez CPU).
Jinak je dopad paraelizace na uroven vykonu platny pouze pri zmenach ceteris paribus. Mezi ruznymi architekturami jsou pak vztahy mezi vykonem a stupnem "paraelizace" ponekud slozitejsi a skutecny rozdil ve vykonu vyplyva z architektury, kdy GPU je v podstate specializovany matematicky procesor (vykony pro urcite druhy zpracovani dat), zatim co CPU tuto specializaci postrada. Rozdily mezi CPU pak vyplyvaji zejmana z poctu a vykonu FPU jednotek v ramci jadra (a pripadne z efektivity a rozsahu multiprocesoringu).
Nyní k faktickym chybam
- Za opravdu velkou chybu povazuji v clanku smichani pipeline a delky shaderoveho programu.
- Jak jiz vyse někdo poznamenal AMD mělo prvni 1ghz procesor
Další velmi sporne body:
- myslenku s 4kanalovym radicem u K8 jsem nepochopil
- srovnavani podobnosti a rozdilu architektur K7, K8, P3 a P4 (moc nesouhlasim s tim, která CPU vidite jako obdobna a která jako rozdílná)
- vykonostni prevaha K8 nad P4 mi ve FLOPS unika - pokud merim přes rating, jsou K8 a P4 priblizne stejne vykone, pouze pokud merim přes realnou frekvenci je K8 vykonejsi
- není vhodne srovnavat „vlakno“ stream procesoru GPU a vlakno bezici nad jednim jadrem CPU
- a dalsi, ale to by bylo na A4

Pokud to mam shrnout svůj nazor: clanek by mel asi skončit na urovni konstatovani, ze GPU je vykonejsi a nepokouset se analyzovat důvod vyssiho vykonu přes „paralelizaci zpracovani“, protože to by si vyzadalo rozebrat problematiku do obrovske sirky a hloubky (frekvence, datove sirky, latence, delky pipeline, architektura, …). Takto je clanek velmi kontroverzni a pro „laika“ v problematice spise matouci (a to se tyka i většiny vysvetlujicich prispevku v diskuzi pod clankem).

Federmann
Federmann
Level Level
24. 6. 2007 18:16

Komentáře tohoto uživatele máš zablokované.

@PetFish Máte v podstatě pravdu, jenže dle vás by taková aktualita správně vypadala:
.
Firma GPU-Tech počítá pomocí GPU, protože GPU má větší výkon než CPU.
.
Někdo by však vzal nějakou S3 a tvrdil by, že jeho Intel Quad-Core je výkonnější a nemám pravdu.
Zkuste napsat vlastní aktualitu, podrobit ji vlastní kritice a pak mi ji pošlete, rád se přiučím a třeba i pozměním svůj styl.

PetFish
PetFish
Level Level
25. 6. 2007 17:31

Komentáře tohoto uživatele máš zablokované.

@PetFish No pokud jsou dodatecne informace nespravne nebo neprinaseji dalsi informaci, pak je lepsi jedna veta. A pokud mam pravdu, pak asi stoji za to priste venovat psani aktuality vice prace.

Vlastni akualitu se mi psat opravdu nechce, myslim ze udelat to dobre (ne prelozit neco z inquireru) je celkem prace a vyzaduje dokonale znalosti na poli aktuality. Uprava teto by mi zabrala nekolik desitek minut casu, nez bych si overil svoje hypotezy z dalsich zdroju, tak jak jsem to delal, kdyz jsem reagoval v diskuzi.

BTW: Kdyz poukazu na to ze v obchode maji tvrde rohliky, taky mi prodavac nerekne at teda upecu vlastni, at vidi jak ma spravny rohlik vypadat, proste se predpoklada, ze prodavac by toto mel vedet ;).

Federmann
Federmann
Level Level
25. 6. 2007 17:56

Komentáře tohoto uživatele máš zablokované.

@PetFish Toto je problematika na napsání knihy. Původně jsem vám chtěl odpovědět velmi obsáhle, ale pak jsem usoudil, že bych stejně vše nevysvětlil, tak jsem to smazal a odpověděl velmi stručně.

Navíc článek měl pouze poukázat na firmu, která vše řešila jen na úrovni SW a nepotřebovala tak ani další, ne tak speciální HW.

Diskuze se pak ubírala pouze směrem HW detailů, kde jsem se nechal zbytečně vtáhnout…
Další následovník s vlastním řešením je Intel https://www.svethardware.cz/disc_doc-N165DC3A3B35FCA06C1257304005FEE5A.html
Jinak díky za příspěvky do diskuze.

Federmann
Federmann
Level Level
22. 6. 2007 23:32

Komentáře tohoto uživatele máš zablokované.

• Přesné zapojení RAM http://federmann.wz.cz/index_soubory/Page391.htm je 466bit, nebo 268bit, záleží na úhlu pohledu, dle zapojení je to však naprosto jasné.
• Datová šířka je počet vodičů po, kterých mohou být současně přenášeny data…
• Pokud vezmu jenom RAM+HT= 268+416=200 oproti FSB=64
• Paralelizace výpočtu závisí nejenom na pipelline, ale i na datové šířce..., bavíme se o počtu vláken…

• Pixel Shaders může být dlouhý až 65tis instrukcí frekvenci má nízkou a jakou má efektivitu, oproti pipelline dlouhé cca 10-30 a vysoké frekvenci.

Rimmerak
Rimmerak
Level Level
22. 6. 2007 22:51

Komentáře tohoto uživatele máš zablokované.

Zkoušel jsem si sosnout ten odkazovanej program a vyhodilo mi to výkon mýho PC 10GFlops. Což je hovadina. Nějak jim to špatně funguje.

Federmann
Federmann
Level Level
22. 6. 2007 23:34

Komentáře tohoto uživatele máš zablokované.

@Rimmerak 10GFlop/s je OK a co ten druhý GPU??

Rimmerak
Rimmerak
Level Level
23. 6. 2007 12:52

Komentáře tohoto uživatele máš zablokované.

@Federmann To druhý mi vychází kolem 300 Gflops. To se mi zdá na Radeon X1650Pro docela hodně. Když HD2900XT má mít 0,5 Tflops.

Federmann
Federmann
Level Level
23. 6. 2007 12:56

Komentáře tohoto uživatele máš zablokované.

@Federmann je to tak akorát

Federmann
Federmann
Level Level
22. 6. 2007 22:19

Komentáře tohoto uživatele máš zablokované.

„před několika lety objevily architektury NetBurst a Hammer a zde někde lze nalézt zásadní rozchod dvou hlavních rivalů ve stylu zpracování informací“
„Architektura Core se pak vrací část kroku NetBurstu zpět“

Nebylo účelem velmi zdlouhavě vysvětlovat, ale vysvětlím:

• Boj o hranici 1GHz, ale i o hranici 2GHz vyhrál Intel, za cenu opuštění paralelizace výpočtu, která byla běžná u Pentia III, a navýšení frekvence.
• AMD se od K7, která byla blízká P3, se dále ubírala zcela jinou cestou, snížila kmitočet a rozšířila sběrnice (3*HyperTransport+čtyř-kanálový řadič RAM) včetně použití 64bit architektury a vznikla K8. (Intel má pouze 64bit instrukce.)
• Výkonnostně převládl HAMMER (K8) a NetBurst se na vysokých frekvencích značně přehříval.
• Nová architektura Intelu Core, navazuje na P3 a v paralelizaci dokonce předstihuje K8.
• Veškeré kroky ve vývoji architektury NetBurst k vyšším frekvencím a menší paralelizaci, byly v podstatě zahozeny. Myšlenky velmi podobné architektury a neustále se zmenšujícím rozměru nepřinesly neustále se zvětšující frekvence.

Kutrix
Kutrix
Level Level
22. 6. 2007 20:12

Komentáře tohoto uživatele máš zablokované.

Co se ti na tom nezdá Intel se přece kasal 10 GHz procesory....., někdo tady zapomíná.....

Boguš
Boguš
Level Level
22. 6. 2007 13:31

Komentáře tohoto uživatele máš zablokované.

... by mě zajímalo co znamená to sedlo v křivce vývoje výkonu GPU ..... ? Jako že výkon GPU se něhem roku 2004-2005 nezvedl ale mírně snížil ..... ?!

Federmann
Federmann
Level Level
22. 6. 2007 13:35

Komentáře tohoto uživatele máš zablokované.

@Boguš Záleží, jak k tomu tvůrci došli, spíše tam vývoj stagnoval, pokud by to dělali z prodaných či vyrobených GK pak se mohlo prodat či vyrobit víc s nepatrně menším výkonem.

Reklama
Reklama