Inference AI algoritmů je dnes velkým tématem a společnost Skymizer pro toto určení představila nový PCIe akcelerátor.
Systémy umělé inteligence potřebují na něčem běžet a o tuto inferenci se mohou postarat specializované akcelerátory. Jedním z řešení je i akcelerátor HTX301 od společnosti Skymizer. Jde o PCIe kartu, která má celkem šest čipů HTX301 postavených na platformě HyperThought. Na kartě je 384 GB paměti, takže karta rozběhne inferenci LLM s až 700 miliardami parametrů. Tohoto by přitom měla dosáhnout při spotřebě 240 W. Zajímavostí je, že samotný čip je vyráběn už hodně zastaralým 28mm procesem. Pokud jde o paměť, použita je standardní LPDDR4 nebo LPDDR5.
Pokud je potřeba rozběhnout takto velký model, obejde se to bez velkých serverů, GPU clusterů, komplexní infrastruktury pro chlazení a bez spojení, jako jsou NVLink/NVSwitch. Otázkou ale pochopitelně je, jaký bude výkon takového řešení v různých nasazeních. Výrobce říká, že LPU HTX301 zvládá 240 tokenů za sekundu u modelu Llama2 7B.
Využita je architektura LISA (Language Instruction Set Architecture) a slušnému výkonu by ale měla dopomoci zmíněná architektura HyperThought, která rozděluje prefill a decode operace, což má dle společnosti vést k lepšímu využití čipu, nižším latencím a lepší energetické efektivitě.