Architektura Intel Nehalem - co přinese nového?
13.10.2008, Lukáš Petříček, článek
Dnes si podrobně představíme architekturu Intel Nehalem, s kterou již brzy přijde Intel na trh a jež nás bude provázet minimálně další 2 roky. Nehalem přináší řadu zásadních změn na úrovni architektury procesorů i platforem.
Kapitoly článku:
Změny na úrovni platformy
Zřejmě největší slabinou současných procesorů s architekturou Intel Core jsou vícesocketové systémy. Standardní architektury s FSB (Front Side Bus) sběrnicí jsou nejvíce limitované právě s rostoucím počtem jader a socketů. Požadavky na přísun dat rostou s každým přidaným procesorem, a proto efektivita architektur s FSB a poměrně limitovanou propustností paměťového subsystému s rostoucím počtem socketů a jader klesá. Od určitého bodu se nejedná o problém výpočetního výkonu, který fakticky roste s každým přidaným jádrem, ale problém jak zajistit efektivní škálování (komunikaci mezi jádry a jak každému jádru zajistit dostatečný přísun dat). V případě serverových řešení, ve vícesocketových systémech, je tento nedostatek řešen pomocí více nezávislých sběrnic a velkou cache, ale to je z dlouhodobého hlediska samozřejmě velice neefektivní.
Evoluce architektury FSB řešená pomocí více nezávislých sběrnic
Zde již dostává slovo nová architektura, Intel Nehalem a QuickPath. Technologie QuickPath, respektive QPI, byla dříve oficiálně nazývaná CSI (Common System Interface) a nahrazuje datovou sběrnici FSB (Front Side Bus). K procesoru je také integrován řadič paměti. Propusnost a škálovatelnost takového systému je samozřejmě neporovnatelně lepší, než pouhé přidání cache nebo několika FSB sběrnic. Typickým řešením tak bude například Nehalem-EP v dvousocketové konfiguraci.
Procesory, které používají FSB, používají tuto sběrnici ke komunikaci se severním můstkem a v případě MCM (Multi-Chip Module) může sběrnice spojovat i několik jader. QPI naproti tomu dovoluje vysokorychlostní "point-to-point" komunikaci pro procesory a další části systému, takže ve vícesocketových systémech nebude problém jednotlivá jádra propojit přímo přes samostatnou QPI linku a to samé udělat s čipsetem (stejného řešení se již příští rok dočkáme i v MP systémech, kde budou mít procesory až 4 QPI linky). Výkon QuickPath sběrnice je 4,8 až 6,4 GT/s na linku (možná konfigurace je 5, 10 a 20 bit), s celkovou propustností až 25,6 GB/s. V multiprocesorových systémech tak QPI poskytuje podstatně efektivnější komunikaci procesorů a čipsetu.
Ačkoliv byla FSB dlouho dostačujícím řešením, zejména ve víceprocesorových systémech a na serverovém trhu s více sockety, Intel toto řešení již delší dobu potřeboval. Ruku v ruce s novou platformou a QPI jde také integrovaný řadič paměti, který má zajistit systému efektivní a rychlý přísun dat. Integrovaný řadič paměti přináší výrazné snížení latencí a zvýšení efektivity komunikace s operační pamětí. Implementován zde byl rovnou trojkanálový řadič pamětí DDR3, ačkoliv architektura Nehalemu umožnuje použití i dvojkanálového řadiče paměti (serverové řešení pro 4 socketové systémy přinese dokonce čtyřkanálový řadič paměti).
IMC v Nehalemu podporuje až 3 kanály a kromě standardních pamětí také RDIMM a UDIMM (ve srovnání s 1600MHz Harpertownem v dvousocketové konfiguraci poskytuje Nehalem efektivně 4x vyšší propustnost). V případě víceprocesorových systémů je výhodou škálování paměťového subsystému s každým přidaným procesorem, kdy každý přidaný procesor s vlastní pamětí efektivně navyšuje propustnost a výkon systému.
NUMA aneb Non-Uniform Memory Access a k čemu má vlastně sloužit? NUMA architektura byla navržena k překonání limitů škálovatelnosti SMP (kde je veškerá paměť dostupná na jednom místě, přes jedinou sběrnici). Jak již bylo uvedeno, tento "problém" se dotýká zejména vícejádrových a vícesocketových systémů, kde se až desítky jader musí dělit o stejnou sběrnici. Výhody v případě NUMA jsou zřejmé, protože NUMA snižuje počet procesorů používajících stejnou sběrnici a komunikace na úrovni procesor-paměť, i v případě paměti dalšího procesoru, je zde zprostředkována přes QPI.
V případě Nehalemu má každý procesor vlastní paměť obsluhovanou integrovaným řadičem paměti a s NUMA je možné efektivně přistupovat do paměti dalších procesorů (latence jsou samozřejmě vyšší než při přístupu do vlastní paměti), ale dále roste celková propustnost systému.
Díky QPI, přes kterou procesory komunikují a přenášejí mezi sebou data (vyžádané z cache dalšího procesoru nebo nelokální paměti) a díky integrovanému řadiči paměti, se efektivně snižují latence pro přístup do lokální paměti až o 40 procent. V případě přístupu do paměti dalšího procesoru, v dvousocketové konfiguraci, jsou latence stále nižší než u Harpertownu.
Změny na úrovni architektury Nehalemu nevyhnutelně přináší několik nových platforem (pro desktopy, mobilní počítače i pro servery). Stejně jako u AMD před lety (při přechodu na architekturu K8 a uvedení HyperTransportu a integrovaného řadiče paměti), bylo pro tyto platfromy nutné přinést nové sockety.
Oproti současné platformě a socketu LGA771 (a případně LGA775 u desktopu) výrazně narostl počet vývodů procesoru (zejména díky integrovanému řadiči paměti). Nejvyšší platforma pro desktopy bude používat socket LGA1366 (pro nejdříve uvedené high-end procesory s jádrem Bloomfield), socket LGA1160 pro střední a nižší třídu procesorů. A příští rok přijde i čistě serverové řešení se socketem LGA1567.