Při trénování Llama 3.1 405B se stalo 419 výpadků, 50+ % mají na svědomí karty Nvidia H100

31.7.2024, Milan Šurkala, aktualita

Trénování velkých LLM je dlouhý proces. U Meta Llama 3.1 405B to zabralo téměř dva měsíce, při nichž proběhlo 419 neplánovaných výpadků. Přes polovinu toho měly na svědomí akcelerátory Nvidia H100.

Společnost Meta vydala dlouhou zprávu o trénování svého posledního LLM, Llama 3.1 405B. Zatímco inference (běh již natrénovaných) algoritmů AI je poměrně svižná a může běžet u menších LLM i na telefonu, trénování těchto systémů v závislosti na velikosti může trvat dny, týdny a i měsíce. Např. již zmíněný model Mety se 405 miliardami parametrů měl jen svou před-trénovací fázi dlouhou skoro dva měsíce. Konkrétně to bylo 54 dní. Během těchto 54 dní se stalo 466 přerušení, přičemž 47 z nich bylo plánovaných (automatizovaná údržba), 419 z nich ale plánovaných nebylo a šlo o různé incidenty, které pozdržely práci. Pouze tři z nich byly tak vážné, že je automatizované systémy nedokázaly vyřešit a byl nutný manuální zásah. Systémy pro zotavení byly nutné, neboť chyba jediného GPU by jinak mohla znamenat restart celé dvouměsíční práce.

A byly to právě akcelerátory Nvidie, které se postaraly o největší množství incidentů. Meta zde použila 16.384 GPU Nvidia H100 s 80 GB paměti HBM3 a 700W TDP. Tyto grafiky si tak v maximální zátěži mohly teoreticky vzít 11,5 MW. Chyby v GPU byly důvodem 148 neplánovaných výpadků, což dělá značných 35,3 % z celkového počtu (Meta ve zprávě udává sice 30,1 %, to ale nedává početně smysl - u ostatních jsou procenta správně). GPU tedy byla zdrojem více než třetiny výpadků. Chyby v pamětech HBM3 na těchto akcelerátorech pak tvořily dalších 72 incidentů (17,2 %) a když se podíváme na seznam, chyby spojené s GPU jsou zmíněné ještě ve čtyřech případech.

Pokud jde o chyby CPU, což se poslední dobou probírá hodně v souvislosti s procesory Intel Raptor Lake, tak ty byly jen dvě (0,5 %). Zajímavý je ještě jeden propočet. Uvážíme-li 419 neplánovaných výpadků na 54 dní, znamená to v průměru jeden takový každé 3 hodiny.

Zdroj: tomshardware.com