Generativní AI (umělá inteligence): jak funguje, k čemu a jak ji používat

18.9.2023, Milan Šurkala, článek

Generativní AI je zejména s příchodem ChatGPT obrovským tématem posledních měsíců. Pojďme se podívat na to, co to vlastně je, k čemu je to určeno, co od toho čekat můžeme i nemůžeme, komu to pomůže a komu to asi uškodí.

Kapitoly článku:

Generativní AI (umělá inteligence): jak funguje, k čemu a jak ji používat
Chatboti aneb ChatGPT je pro googlování naprosto nepoužitelný?
Jak tedy pracovat s ChatGPT?
Závěr

Jak to vlastně začalo?

O chatbotech se hovoří v podstatě od úplného začátku, kdy byla definována umělá inteligence. Jak jsme hovořili v minulém díle, umělá inteligence byla v zásadě definována tzv. Turingovým testem, kdy by uživatel neměl při textové komunikaci poznat, zda mluví s člověkem nebo strojem. Tím byl v zásadě definován i chatbot. Historie pokusů o chatbota sahá hluboko do minulosti, a to do 60. let minulého století, kdy Joseph Weizenbaum vyvinul prvního chatbota. Ten se jmenoval ELIZA a spatřil světlo světa v roce 1966, přičemž šlo spíše o systém, který dával dohromady naskriptované odpovědi s daty od uživatele.

vygenerováno pomocí generativní AI Adobe Firefly

Doba 70. a 80. let byla poměrně klidná, ačkoli se nadále pracovalo na umělých neuronových sítích (ANN - Artificial Neural Networks). Z chatbotů jsme tu měli např. PARRY simulujícího schizofrenního pacienta (autorem byl psychiatr) nebo Jabberwacky. Tyto roky (spolu s 90. léty) přinesly významnou inovaci zejména pro rozpoznávání obrazu díky konvolučním neuronovým sítím (CNN - Convolutional Neural Networks) a uvedly tak techniku hlubokého učení. Přesto ještě další dekádu byly tyto sítě nepraktické kvůli nedostatečnému hardwaru i nedokonalým výsledkům. Prakticky použitelných výsledků začaly dosahovat až díky akceleraci na GPU, což hovoříme o letech 2010+, ale to jsme se posunuli o 20 let a "předbíháme dobu". Takže pojďme zase zpět do 90. let. Z chatbotů tu máme např. Dr. Sbaitso, což byl další psychiatrický systém. Je docela zajímavé, že nejprve mířili chatboti do této sféry medicíny. V 90. letech vznikl i systém A.L.I.C.E (Artificial Linguistic Internet Computer Entity) na bázi heuristického párování vzorů textů pro pokračování v konverzaci.

Počátek nového tisíciletí přinesl chatboty zejména do zákaznické podpory, ale pořád nešlo o nic, co by svým výkonem člověka aspoň trochu uzemnilo. Např. v roce 2001 vznikl SmarterChild, který posloužil v komunikátorech AOL IM a MSN Messenger pro konverzace se strojem. Rok 2005 přinesl počátek práce na systému IBM Watson, který měl za úkol vyhrát v televizní soutěži Jeopardy! Nejprve na tom byl dost mizerně, ale v roce 2011, kdy k soutěžnímu klání mezi dvěma nejlepšími hráči soutěže (Ken Jennings a Brad Rutter) došlo, už Watson vyhrál. Na to největší jsme si ale museli počkat právě až do těchto 10. let 21. století. Tehdy se staly průlomy na poli softwaru i hardwaru (zejména již zmíněná akcelerace pomocí GPU, která dovolila extrémně zrychlit trénování mnohem složitějších modelů).

Tehdy se objevili poměrně pokročilí digitální asistenti jako Apple Siri (2010), Google Assistant (2016, jeho předchůdce Google Now v roce 2012), Microsoft Cortana (2014) nebo Amazon Alexa (2014). To už se dostáváme do oblasti rozpoznávání textu, příkazů i vytváření odpovědí na ně. Některé z těchto systémů se nedočkaly dnešních dní (Cortana byla ukončena v březnu 2021), případně svými výkony docela zamrzly v čase (zdravíme do Applu).

vygenerováno pomocí generativní AI DALL-E v Microsoft Bing

Rok 2014 zaznamenal především průlom uvedením Generative Adversarial Networks (GAN) a dalších systémů, které výrazně dopředu posunuly schopnosti generovat nové obrazy, hudbu, texty a jiné. Ta funguje na principu dvou soupeřících sítí (generátor a diskriminátor), kde vítězství jedné je ztrátou pro druhou. V oblasti obrazu se tak např. jedna síť snaží generovat realistický obraz, a druhá ji hodnotí. V zásadě jde o to, aby první síť vygenerovala takový obraz, který druhá síť vyhodnotí jako realistický a ne vygenerovaný (tedy nevytvořený na základě trénovací množiny). Díky tomuto principu se síť může naučit vytvářet objekty bez toho, aniž by vyžadovala učení s učitelem.

V oblasti chatbotů se pak nesmazatelně zapsal systém Microsoft Tay v roce 2016, ale jistě ne tak, jak by si Microsoft přál. V květnu 2016 ho spustil a uživatelé z něj během několika hodin udělali agresivního rasistu, takže jen po 16 hodinách musel být vypnut. Od té doby se spousta společností bála vypustit podobnou aplikaci. A pak přišlo Open AI se svým GPT-3.5 pro každého ve formě chatbota ChatGPT. Ale i toho nejprve umožnilo používat velmi omezené skupině lidí, aby se neopakovalo fiasko chatbota Microsoftu z doby 6 let zpět.

Proč ChatGPT tvrdí nesmysly a pořád se jen omlouvá?

ChatGPT je výtvorem společnosti OpenAI, do níž investovali např. takoví lidé, jakými jsou Peter Thiel (spoluzakladatel PayPalu) nebo Elon Musk (taktéž). Tato společnost byla založena v roce 2015 a ze začátku se snažila vyvíjet obecnou umělou inteligenci (AGI). V roce 2018 byl prezentován článek Improving Language Understanding by Generative Pre-Training, který přinesl ideu systému GPT (Generative Pre-trained Transformers). Verze GPT-1 byla vytvořena v roce 2018 a byla natrénována na pouhých 117 milionech parametrů. Šlo o učení bez učitele a v podstatě systém měl jedinou úlohu, vymyslet další slovo ve větě. Výsledkem byl i tak systém, který byl schopen vytvářet smysluplné kratší texty, které už byly někdy k nerozeznání od těch napsaných člověkem.

GPT-2 přišel v roce 2019 a využil 1,5 miliardy parametrů. Zásadnější byl ale GPT-3 z roku 2020, jehož trénování využilo 175 miliard parametrů, a to už se dostáváme ke schopnosti napsat vědecké články (dokonce sám o sobě), normální články, knihy, webové stránky a podobně. GPT-3.5 je pak tím systémem, který známe nejvíce. Ten je základem chatbota ChatGPT a byl uvolněn v listopadu 2022. Nejprve byl k dispozici jen omezenému okruhu lidí, postupně se pak rozšiřoval dál. Jeho hlavním rozdílem proti GPT-3 bylo to, že byl natrénován na větším množství konverzací mezi lidmi, takže má logicky i lepší schopnosti konverzovat. A tady se konečně dostáváme k tomu, proč je tak mizerný ve vyhledávání, a proč třeba Bing AI se systémem GPT-4 toho schopný je. A ne, není to v novější generaci GPT. Jak už jsme totiž naznačovali v mnoha článcích a diskuzích, je potřeba se dívat na to, s jakým AI systémem vlastně pracujete, což ovlivňuje to, co od něj můžete očekávat.

vygenerováno pomocí generativní AI Adobe Firefly

ChatGPT totiž není vyhledávač. On totiž ani chatbot v Bingu jím není. ChatGPT je systémem, který byl natrénován na datech do září 2021 a často na to rád upozorňuje, pokud po něm chcete něco novějšího. Je to systém, do kterého bylo nasypáno spoustu vět, aby pochopil, jak se věty tvoří a jak má odpovídat. To ale současně způsobuje faktické chyby zejména v případech, kdy se daný termín může vyskytovat ve více významech, nebo pokud byla samotná zdrojová data fakticky špatná (což přiznejme si, lidé jsou tvorové omylní, a na Internetu je spousta fakticky nesprávných věcí). A když se k těmto předpokladům přidá ještě to, že AI to vše schroustá, tak se to může naučit špatně (a to i pokud jsou data správně). Na frekvenci Ryzenu 5 7600X vám tedy neodpoví, nicméně o starším Ryzenu 5 5600X klidně napíše i celý článek a upřímně řečeno, při zběžném prolétnutí jsem v něm nenašel žádný závažnější nedostatek.

Na blbou otázku blbá odpověď. ChatGPT o Ryzenu 5 7600X nic nezná

Proč je tedy Bing AI schopen najít informace i o Ryzenu 5 7600X a ChatGPT nikoli, ačkoli oba využívají podobný základ? Je to proto, že GPT-4 se v Bingu stará o interpretaci výsledků, ale ne o samotné vyhledávání. Bing to najde, GPT to převypráví. Všimněte si totiž velkého rozdílu v odpovědích. ChatGPT vám vytvoří klidně text o několika odstavcích (pokud má co odpovědět), kde ale také musíte zkontrolovat faktickou správnost. Bing AI vám až takové texty nevytvoří, ale jeho výstupem jsou kratší skupiny vět sumarizující zdroje, které našel vyhledávač, a přidá i malá čísla jako odkazy na tyto zdroje.

Bing AI na stejnou otázku odpoví. Bing to vyhledá, GPT to řekne.

Pokud je ve zdroji chyba nebo neaktuálnost, Bing AI to nepozná. Když jsem se ho zeptal na 7600X obecně (nejen frekvenci), řekl mi, že jde o nejlevnější procesor s architekturou Zen 4, což byla pravda v době, kdy vyšel zdrojový článek, na něhož odkazoval, ale není to pravda dnes (existuje např. už levnější Ryzen 5 7600). Všimněte si, že Bing AI uvádí hodně zdrojů, protože jen prezentuje výsledky vyhledávače. Je to, jako byste ChatGPT řekli, ať vám převypráví stránku s výsledky vyhledávání z Bingu/Googlu.

Článek na nové téma na první pohled "převypráví" i ChatGPT. Na druhý pohled napsal pitomost.

Ostatně to vidíme i v situaci, kdy vyhledávačem(!) najdete zdroj a teprve poté AI dáte za úkol tento zdroj převyprávět. Tedy v podstatě to, co dělá Bing AI s výsledky Bingu. Najednou i ChatGPT "tak trochu" vyplodí článek o Ryzenu 5 7600X, ačkoli na něm nebyl natrénován a vůbec nic o něm neví. Je tu ale jeden pořádný háček.

Jako článek je to fajn, ale jistě si všimnete spousty faktických chyb, jako např. nesprávné frekvence (později uvedl např. i nesprávný počet jader). Míchá totiž odkaz, který jste mu podstrčili, s daty, které zná z trénování, všechno to smíchá dohromady a vychází z toho docela pěkné nesmysly. Ze zdrojových faktů (podstrčeného článku) ale přímo nevychází, jen na jejich základě rozpoznává téma článku, který pak vytvoří z dat, na nichž byl natrénován. Takže i když mu podstrčíte článek o 7600X, on z toho akorát pozná, že chcete něco o Ryzenu. Pak si nějaký neexistující Ryzen vymyslí a napíše o něm článek.

Zatímco ChatGPT z toho udělá hezčí vyprávění, Bing AI se alespoň drží faktů na zdrojových stránkách, na které odkazuje. Je tu ještě jedna zvláštnost, při druhém pokusu o vygenerování článku ze stejné zdrojové stránky to už v rámci stejné konverzace ChatGPT odmítne udělat. Protože ChatGPT míchá spoustu věcí dohromady, není problém najít nesrovnatelnosti a upozornit ho na to, že to fakticky není správně. A pak začne klasické kolečko nekonečných omluv, kdy už zapomene i správně počítat.

Pak nám do party přibyl i Google Bard, nicméně ani tady to "vyhledávání" nefunguje moc dobře. Na otázku frekvence Ryzenu 5 7600X odpověděl a neřekl, že by procesor neznal jako ChatGPT, frekvence 3,8 GHz v základu a 4,7 GHz v Boostu ale nejsou správně. Fakticky korektní hodnoty jsou 4,7 GHz a 5,3 GHz. Když jsem se ho zeptal na krátké povídání o procesoru, řekl správně, že jde o 6jádrový čip s 12 vlákny, ale frekvence byla opět nesprávná. Uvedl, že má 16 MB cache (ve skutečnosti 32 MB), že má 65W TDP (ve skutečnosti 105 W), také hovořil o absence integrovaného GPU (to ale 7600X má, i když velmi slabé) a o ceně 199 USD (v době testování 249 USD). V podstatě co informace, to nesmysl. Trefil snad jen počet jader.

Bard má totiž model Pathways Language Model 2 (PaLM 2) z konce roku 2022, takže stejně jako ChatGPT nezná novější informace. Nejde tedy o generativní AI naroubovanou na vyhledávač, ale jen generativní AI. U dotazu na Ryzen 9 5900X sice uvedl správně frekvenci a TDP, netrefil ale počet vláken nebo cache paměť. Jeho "kecy" o procesoru využívaly úplně stejné věty jako u 7600X. Znovu tedy vidíme, že smyslem generativní AI není psát faktické eseje, ale spíše být pomocníkem, který pomáhá s psaním, a to zejména v obecné rovině.

vygenerováno pomocí generativní AI Stable Difussion

Nejnovějším zástupcem je pak Llama 2 od Mety (Facebooku), která byla uvolněna jako open-source. Nemá nějakou oficiální webovou verzi, kterou byste mohli vyzkoušet jako ChatGPT, ale jde o systém, který je nabízen ostatním, aby na jeho základě vyvinuli své vlastní chatboty a jiné podobné systémy. Zajímavé je, že na systému Meta spolupracovala s Microsoftem, který stojí i za OpenAI, jenž vyvíjí konkurenční ChatGPT.

Velkým problémem je zneužívání těchto systémů. Zatímco např. pro učitele je to skvělý nástroj pro zefektivnění práce při plánu hodin a lekcí, pro studenty je to bohužel dost oblíbený nástroj k podvádění. A také docela těžko odhalitelný (v případě ChatGPT často pomohou neexistující zdroje). Problémem je tu i to, že tyto systémy často vkládají faktické chyby, o kterých jsme už mluvili. To ale neznamená, že chatboti musí být pro výuku nutně i něčím špatným. AI může být ve studiu i vítaným pomocníkem pro tvorbu, hledání chyb, vytváření pomocné struktury nebo pochopení obtížného učiva.

Chatboti sice nejsou dobrými vyhledávači faktů, jsou ale výbornými vyhledávači konceptů. Pokud potřebujete vytvořit něco koncepčního, dostáváte mocný nástroj. Příkladem může být programování. Osobně třeba programuji v C++ nebo Javě, ale Python se teprve učím. Když člověk potřebuje něco vysvětlit a zobrazit ukázkový kód s vysvětlením, ani StackOverflow se nechytá, ačkoli je patrně na datech z něj založen. Vtip je v tom, že člověk dostane informaci přesně pro své potřeby, a nemusí to hledat ve větších shlucích textu. Když jsem třeba potřebovat zjistit, "jak seřadit seznam objektů podle hodnot jedné instanční proměnné v Pythonu", tuto otázku jsem zadal do ChatGPT a dostal naprosto jasnou odpověď s ukázkami i vysvětlením, které bylo možné snadno přizpůsobit a začlenit do mého projektu.

Místo googlování, kde člověku chvíli trvá, než se dokliká ke správné odpovědi a vydestiluje z různých textů správné řešení, tady dostane okamžitě vysvětleno právě to, co potřebuje. Kdo chce, může tu samozřejmě dodat i konkrétní názvy tříd a proměnných (aby to mohl sprostě jen zkopírovat do svého kódu), to má výhody i nevýhody. Předně déle trvá, než to napíše, a je také snazší to nechtěně popsat tak, že ChatGPT (nebo jiný systém) zmate a ten napíše špatné řešení. Na druhou stranu člověk může rovnou udělat výše zmíněné prosté Copy&Paste. Pro výuku je trochu obecnější přístup přínosný (stále však musí být dost konkrétní na to, aby ChatGPT přesně pochopil, co po něm chcete), naopak extrémně konkrétní přístup umožňující pouhé kopírování člověka nic nenaučí, nemluvě o zvýšených problémech s plagiátorstvím a zdroji.