Co takhle počítač se 40 GPU přes celý wafer?
1.2.2019, Jan Vítek, aktualita
Myšlenka využití celého křemíkového waferu pro jeden systém není vůbec nová, ovšem její realizace také není vůbec jednoduchá. S moderními metodami se však už může blížit realitě, a proto se tzv. wafer-scale computer znovu objevuje na radaru.
Nyní se tématu wafer-scale computer věnují výzkumníci z University of Illinois Urbana-Champaign a University of California Los Angeles. Ti chtějí navázat na práci společnosti Trilogy Systems, s níž máme spojeno jméno Gene Amdahl a především pak jeho velkolepý neúspěch, který skončil i slušným finančním debaklem.
pokus firmy Trilogy Systems o využití celého waferu pro jeden systém
Koncept to není nijak složitý a argumentace je ta, že dnešní "rozkouskované" počítačové systémy vyžadují rychlou komunikaci, která potřebuje značnou režii. Máme tu třeba velké servery s tisícovkami procesorů, které je třeba nějak propojit, a to si žádá řadu rozhraní, síťových prvků, čili i nákladů, energie a prostoru navíc. Myšlenka Amdahla tak byla využít pro velké počítače celý křemíkový wafer, ovšem nás může ihned napadnout, na čem jeho snaha asi tak ztroskotala. Zkuste si vyrobit celý "systém na waferu" tak, aby byl pokud možno bez chyby, nebo neměl chybu v žádné kriticky důležité části. Však je problém dosáhnout uspokojivé výtěžnosti i při výrobě waferů s desítkami samostatných čipů.
Právě proto pokusy Amdahla a firmy Trilogy Systems z 80. let skončily neslavně. Míra defektů byla prostě příliš vysoká na to, aby se něco takového mohlo uplatnit v praxi ale ambice byly vysoké. Nyní sice nejsou k dispozici technologie, díky nimž by se daly běžně tvořit wafery bez chyb, ale máme k dispozici možnost, jak tento problém obejít.
Jak se dalo tušit, v podstatě nejde o nic jiného než o využití celého waferu jako křemíkového interposeru, přesně jako dělá AMD při výrobě GPU Vega. Můžeme tak opravdu vzít celý wafer, ale ten bude sloužit spíše jen jako velice hustá síť datových a napájecích spojů, kterou lze vyrobit spolehlivě bez chyb. Může jít přitom o pasivní kus křemíku plnící v podstatě jen roli plošného spoje, nebo aktivní interposer s vlastní logikou, o tom už nám zpráva nic neřekne. Navrch se pak mohou umístit už klasické čipy, a to zde konkrétně jednotlivě ozkoušená GPU.
Rakesh Kumar z University of Illinois plánuje nasadit na jednom takovém waferu až 40 GPU a uvádí, že takové sestavení "urychlilo výpočty téměř 19x a 140x srazilo spotřebu energie zkombinovanou s latencemi signálů", což nám dohromady moc neřekne, ale ukazuje to alespoň na hlavní výhody. Jde prostě o dopady toho, že křemíkovým interposerem propojené čipy mohou využít daleko hustší síť datových spojů, které jsou navíc velice krátké, takže opět jde v podstatě o to stejnou věc jako při spojení GPU a pamětí typu HBM. A pokud má taková komunikace nahradit třeba komunikaci GPU v sousedních samostatných systémech, je jasné, že je k ní zapotřebí i menší režie daná využitím třeba jen jedné vrstvy rozhraní - čipy jsou propojeny přímo mezi sebou.
Nyní tak chtějí výzkumníci využít dvouvrstvé řešení dané dohromady pomocí technologie SiIF (Silicon Interconnect Fabric). Samostatné čipy jsou přesně umístěny na wafer tak, aby se jejich vývody napojily na krátké měděné sloupky vykukující z waferu a celek se pak zataví a spojí dohromady technikou Thermal Compression Bonding. A když už jsme u tepla, pak právě to může být dle Roberta W. Horsta (Horst Technology Consulting) problém, protože pak bude zapotřebí opravdu kvalitní odvod velkého množství odpadního tepla z relativně malého prostoru.
Stále více se ale ukazuje, že jsme na prahu nové éry, v níž se budou novátorskými metodami kombinovat menší čipy do větších struktur. Kumar se svým týmem zatím plánuje vyrobit prototyp wafer-scale počítače, který by dále ukázal, jak moc schůdná tato cesta je. Nicméně AMD si to uvědomilo už dávno a nyní ho bude následovat i Intel.
Zdroj: IEEE.org