AI Microsoftu nakreslí objekt na základě pouhého popisu

19.1.2018, Jan Vítek, aktualita

Microsoft představil novou umělou inteligenci, která dokáže na základě slovního popisu pixel po pixelu nakreslit objekt. Jde tak v podstatě o převod textu do obrazu, v čemž má být nová AI opravdu dobrá.

Mezi výčet povolání, které začíná umělá inteligence ohrožovat, se mohou tak nově zařadit i malíři, řečeno pochopitelně s nadsázkou. Microsoft Research má totiž nového bota, který má být třikrát zdatnější v kreslení na základě slovního popisu než přechozí nejlepší technologie. Když pomineme otázku, na základě čeho bylo zjištěno, že je nová AI třikrát lepší, vyplývá nám z toho, že by měla být skutečně dobrá. Ovšem zde nám nejlépe pomohou udělat si o ní obrázek, jak jinak, právě její obrázky.

Na koláži můžete vidět vytvořený obrázek ptáčka, který byl z ničeho vytvořen novou umělou inteligencí pouze na základě velice stručného popisu. Zkrátka jí bylo řečeno, ať vytvoří obrázek ptáčka s černými křídly a krátkým zobákem, který odpočívá na kousku větve. Nejde tak o skutečný druh ptáka ale o něco, co si AI kompletně vymyslela na základě své znalostní databáze. Ta obsahuje právě fotografie ptáků a stručné popisy toho, jak vypadají.

Dle lidí z Microsoft Research dokáže tato AI tvořit v podstatě cokoliv, co si vymyslíme, takže umí namalovat obraz krajiny stejně jako třeba "plovoucí dvoupatrový autobus". Sama tak umí svou představivostí vyplňovat volný prostor v rámci mantinelů slovního popisu.

Za tím vším stojí sítě Attentional Generative Adversarial Network (AttnGAN) využívající jako jiné GAN dva modely strojového učení. Jeden generuje obraz dle slovního popisu a druhý využívá stejný popis, aby posoudil, zda tvořený obraz mu odpovídá, takže slouží jako porotce, na základě jehož výstupu první model svůj obraz upravuje. Právě tato spolupráce stojí za vysokou kvalitou výsledku.

Starší AI měly dle Microsoftu problém, že se příliš zasekávaly na detailech, zatímco nové AI byl dán do vínku "selský rozum". Jako obvykle tu máme na závěr otázku, k čemu by mohla být taková AI využita. Kromě prosté možnosti tvořit obrazy na základě ústních příkazů by mohla posloužit pro vylepšování fotografií, čili jakési AI retušování a s dalším vývojem by mělo být možné, aby tvořila na základě textu celé animace. Čili nejen malíři, ale už i filmaři brzy "nebudou mít co žrát".

Zdroj: Hexus.net