Pro pokročilé
i Zdroj: NVIDIA

Pro pokročilé

Jakmile zvládnete základy lokálního běhu AI na GeForce RTX PC, přichází čas posunout se dál. Pochopení toho, jak vybírat správné modely, kde je hledat a jak je optimalizovat pro váš hardware, vám otevře úplně nové možnosti.

Kde hledat AI modely

Na rozdíl od cloudových služeb, kde máte na výběr jen několik modelů, které vám poskytovatel nabízí, v lokálním ekosystému máte přístup k tisícům opensource modelů. Otázka je, kde je najít a jak poznat ty kvalitní.

Hugging Face

Jedná se o největší repozitář AI modelů a AI obecně. Najdete zde mikro modely které spustíte na RaspberryPi tak i obrovské modely určené pro AI farmy. To vše přehledně rozděleno a oštítkováno. 

CivitAI

Je to komunitní platforma, která se ale primárně soustředí na kreativní modely. Najdete zde Stable Diffusion checkpointy, LoRa adaptery nebo embeding modely. Výhodou je silná komunita a příklady výstupů. Můžete tak vidět co od konkretního modelu nebo adaptéru očekávat ještě než jej stáhnete.

Ollama Library

Ollama umí stahovat modely pouhým příkazem ollama run nazev_modelu a všechny modely které má k dispozici najdete právě v jejich knihovně. Je zaměřena primárně na LLM textové modely.

Jak vybrat správný model

Ne každý model je vytvořen stejně a dokonce i stejný model může mít velké množství variant. Vybrat ten správný pak závisí na schopnostech vašeho PC.

Základní pravidlo je, že větší model znamená lepší kvalitu ale s tím souvisí i větší nároky na VRAM.

Jazykové modely:

  • 3B parametrů - Malé modely, rychlé, vhodné pro jednoduché úlohy, běží i na 8 GB VRAM
  • 7-8B parametrů - Zlatá střední cesta pro většinu použití, kvalitní odpovědi, běží na 12 GB VRAM
  • 13B parametrů - Vyšší kvalita, lepší reasoning, potřebuje 16 GB+ VRAM
  • 30B+ parametrů - Profesionální kvalita, potřebuje 24 GB+ VRAM nebo kvantizaci

Pro difuzní modely (generování obrázků):

  • SD 1.5 - 4 GB VRAM, rychlé, široká podpora
  • SDXL - 8 GB+ VRAM, vyšší kvalita, pomalejší
  • FLUX.1 - 12 GB+ VRAM, nejlepší kvalita, optimalizované pro RTX

Kvantizace: Rychlost vs kvalita

Kvantizace je proces, kdy se snižuje přesnost čísel používaných v modelu. Standardně AI modely pracují s 32 bitovými desetinnými čísly (FP32), což je velmi přesné, ale paměťově náročné. Kvantizací přejdete na nižší přesnost. To dramaticky snižuje velikost modelu a urychluje výpočty, ale může mírně snížit kvalitu výsledků.

Typy kvantizace

  • FP32 (Float32) - Původní plná přesnost, největší velikost, nejvyšší kvalita
  • FP16 (Float16) - Poloviční velikost oproti FP32, minimální ztráta kvality, standard pro většinu modelů
  • INT8 - Čtvrtinová velikost, celočíselná reprezentace, velmi malá ztráta kvality, výborný kompromis
  • FP8 (Float8) - 8 bitová floating point reprezentace, podporovaná RTX 40/50 Series, skvělý výkon
  • INT4 - Celočíselná 4 bitová reprezentace, osmina původní velikosti
  • FP4 (Float4) - 4 bitová floating point reprezentace, nejnovější RTX 50 Series mají dedikovanou hardwarovou podporu, umožňuje běžet velké modely na menším hardwaru s minimální ztrátou kvality
  • GGUF formát - Populární pro LLM, podporuje různé úrovně kvantizace označované jako Q4, Q5, Q6, Q8

Nejlepší způsob, jak se naučit optimalizovat AI na vašem GeForce RTX PC, je experimentovat. Vyzkoušejte různé modely, různé kvantizace, různá nastavení. Změřte si časy, porovnejte kvalitu, najděte tu zlatou střední cestu přesně pro váš hardware. A nebojte, na rozdíl od cloudu vás experimentování nic nestojí. Můžete vyzkoušet stovky kombinací, než najdete tu správnou. To je přesně ta svoboda, kterou lokální RTX AI nabízí.