Trénování velkých LLM je dlouhý proces. U Meta Llama 3.1 405B to zabralo téměř dva měsíce, při nichž proběhlo 419 neplánovaných výpadků. Přes polovinu toho měly na svědomí akcelerátory Nvidia H100.
Co je RTX AI
Web Světhardware.cz přináší velký přehled o NVIDIA RTX AI ve vašem počítači a popisuje spolehlivou a bezpečnou cestu, jak si na svém počítači vytvořit lokální umělou inteligenci.
Společnost Meta vydala dlouhou zprávu o trénování svého posledního LLM, Llama 3.1 405B. Zatímco inference (běh již natrénovaných) algoritmů AI je poměrně svižná a může běžet u menších LLM i na telefonu, trénování těchto systémů v závislosti na velikosti může trvat dny, týdny a i měsíce. Např. již zmíněný model Mety se 405 miliardami parametrů měl jen svou před-trénovací fázi dlouhou skoro dva měsíce. Konkrétně to bylo 54 dní. Během těchto 54 dní se stalo 466 přerušení, přičemž 47 z nich bylo plánovaných (automatizovaná údržba), 419 z nich ale plánovaných nebylo a šlo o různé incidenty, které pozdržely práci. Pouze tři z nich byly tak vážné, že je automatizované systémy nedokázaly vyřešit a byl nutný manuální zásah. Systémy pro zotavení byly nutné, neboť chyba jediného GPU by jinak mohla znamenat restart celé dvouměsíční práce.
A byly to právě akcelerátory Nvidie, které se postaraly o největší množství incidentů. Meta zde použila 16.384 GPU Nvidia H100 s 80 GB paměti HBM3 a 700W TDP. Tyto grafiky si tak v maximální zátěži mohly teoreticky vzít 11,5 MW. Chyby v GPU byly důvodem 148 neplánovaných výpadků, což dělá značných 35,3 % z celkového počtu (Meta ve zprávě udává sice 30,1 %, to ale nedává početně smysl - u ostatních jsou procenta správně). GPU tedy byla zdrojem více než třetiny výpadků. Chyby v pamětech HBM3 na těchto akcelerátorech pak tvořily dalších 72 incidentů (17,2 %) a když se podíváme na seznam, chyby spojené s GPU jsou zmíněné ještě ve čtyřech případech.
Pokud jde o chyby CPU, což se poslední dobou probírá hodně v souvislosti s procesory Intel Raptor Lake, tak ty byly jen dvě (0,5 %). Zajímavý je ještě jeden propočet. Uvážíme-li 419 neplánovaných výpadků na 54 dní, znamená to v průměru jeden takový každé 3 hodiny.