Titan V dělá chyby ve vědeckých výpočtech
26.3.2018, Jan Vítek, aktualita
Server The Register přináší informaci, že grafické karty NVIDIA TITAN V založené na GPU Volta mohou poskytovat nepříjemně často špatné výsledky, pokud se použijí pro účely intenzivních výpočtů ve vědeckých aplikacích.
Jde tak především o komplexní výpočty, v nichž se mají karty NVIDIA TITAN V často mýlit a zdůrazněno je, že v případě her nebo prostě grafiky se s žádnými problémy nesetkáme. Ovšem kdo by si kupoval TITAN V na hry, když jde o kartu v ceně 3000 dolarů. O chybách se ve své zprávě zmiňuje server The Register, který se odkazuje na jistého inženýra, jenž si přál zůstat v anonymitě. Ten provedl své vlastní pokusy simulující vzájemné působení proteinů a enzymů, a to na několika kartách TITAN V. Ty byly celkem čtyři a dvě z nich v 10 procentech případů udávaly chybné hodnoty.
Provedené testy přitom byly nastaveny tak, aby byl výsledek vždy zcela stejný, což prý pro karty NVIDIA předchozích generací platilo, ovšem v případě TITAN V už je to jiné. Je přitom zajímavé, že ze čtyř těchto karet chybují dvě a zbylé dvě jsou bezproblémové, takže to vypadá spíše na hardwarovou než softwarovou chybu.
To je špatná zpráva pro všechny lidi, instituce a firmy, jež se snaží využívat tyto karty pro důležité výpočty, kde opravdu záleží na tom, aby byl výsledek správný a také aby stejná vstupní data znamenala vždy stejný výstup. Dle informací serveru The Register by mělo jít pravděpodobně o chybu spojenou s paměťmi a čtením dat. Pokud se tedy data už chybně přečtou z paměti, je pak jasné, že samotné výpočty už to nenapraví. A pokud nejde o chybu pamětí, která by se mohla vyřešit snížením jejich taktu, další možností je rovnou chyba v designu GPU, ale to by nevysvětlovalo, proč dělají chyby jen některé kusy karet. TITAN V přitom dle tohoto výpisu zveřejněného na Redditu nemají v hlavní paměti podporu ECC, takže chyba čtení paměti je skutečně reálná.
NVIDIA se přitom měla s něčím podobným setkat už dříve, kdy takové problémy vyřešila softwarovými záplatami. S kartami TITAN X založenými na architektuře Pascal ale bylo vše v pořádku, a tak je zřejmé, že šlo ještě o karty s GPU Maxwell nebo staršími. TITAN V však používá v podstatě stejné GPU jako profesionální řada Tesla, a jde tak o drahé karty s cenou 3000 dolarů. Pokud v jejich případě panuje nebezpečí, že budou ve výpočtech chybovat, je to pro NVIDII problém.
Samotná NVIDIA už se nově k tomuto problému stačila vyjádřit a uvedla, že už ví o alespoň jednom případě, kdy se TITAN V chovají podivně. Jde o vědeckou aplikaci Amber týkající se výzkumu molekul. A ten, jehož TITAN V dělá ve výpočtech chyby, byl mluvčí firmy odkázán na podporu na adrese support@nvidia.com.
Zdroj: The Register