Google uvádí multimodální model Gemini pro generativní AI. Bard s tím původním selhal

7.12.2023, Milan Šurkala, aktualita

Generativní AI Google Bard zdaleka nedosáhla takových úspěchů jako ChatGPT. Oproti němu vykazovala mnohem více chyb, nedostatek chápání a podobně. Google to chce nyní napravit novým multimodálním modelem Gemini.

Systémy generativní AI zažívají v posledním roce velký boom a po chatbotu ChatGPT se každý snaží přijít se svým systémem, a to ať už postaveným na GPT nebo vlastním modelu. Google už před nějakou dobou představil systém Bard, ten se ale nikdy nedočkal většího úspěchu. Nebyl první a ani lepší. Spíše naopak. Ačkoli ani GPT systémy nejsou zdaleka bezchybné, Bard častěji nechápal text, dělal více chyb a byl ve svých schopnostech více omezený. To by měla napravit nová generativní AI, resp. model nazvaný Google Gemini, který bude do Barda zakomponován a měl by ho posunout podstatně dál.

Gemini 1.0 bude k dispozici ve třech různých verzích podle toho, pro jaké účely (a velikost systému) bude určen.

Gemini Ultra - Největší model pro velmi komplexní úlohy
Gemini Pro - Střední model pro snadné škálování na nejrůznější úlohy
Gemini Nano - Model pro běh na koncových zařízeních

Google se pochlubil i velmi dobrými výsledky benchmarků. Gemini Ultra byl schopen dosáhnout v obecném testu MMLU (Massive Multitask Language Understanding) skóre 90,0 %, čímž překonal 86,4 % od GPT-4. Tento test kombinuje 57 různých předmětů (ve školním smyslu slova) a dle Googlu takovým výsledkem překonává i schopnosti člověka. Pokud se zaměříme na konkrétnější oblasti, tak ve zdůvodňování získal 82,4 až 87,8 % a byl zde zhruba na úrovni GPT-4 (ve dvou testech ho mírně překonal, v jednom ho naopak překonal GPT-4, nicméně výrazněji).

V matematice také předvedl solidní výsledky a o kousek překonal svého rivala, v GSM8K dosáhl 94,4 % (92,0 % pro GPT-4) a v MATH 53,2 % (52,9 % pro GPT-4), podobně tak měl o něco lepší výsledky i v programování (74,4 % proti 67,0 % v HumanEval a 74,9 % proti 73,9 % v Natural2Core).

Velmi dobrý výkon dosahuje i v multimodálních testech, tedy v případě, kdy systém nepracuje jen s textovými informacemi, ale také obrázky, videosekvencemi nebo audiem. Také zde ve většině testů dosáhl o pár jednotek procent lepší výsledky (v obrazu a videu 70,1 % v průměru, GPT-4 pak 66,0 %), výrazně lepší výsledky měl v audiu. Zajímavá byla např. chybovost ve FLEURS s 62 jazyky. Ta činila 7,6 %, zatímco GPT-4 měl 17,6 %.

Gemini Pro se nyní objevuje ve 170 různých zemích, Gemini Ultra přijde v příštím roce. Gemini Nano se pak objeví v telefonu Google Pixel 8.

Zdroj: tomshardware.com, blog.google