Výzkumníci pomocí AI převedli skeny mozku na řeč

31.1.2019, Jan Vítek, aktualita

Stephen Hawking by se už mohl pomalu těšit na to, že by mohl mluvit daleko snadněji a možná i přirozeněji, ovšem i když je on sám už nějaký ten pátek po smrti, je tu mnoho dalších, kteří sami nevydají ani hlásku. A těm by mohla tato novinka pomoci.

Stephen Hawking využíval hardwarový vocoder pro syntézu řeči a dá se říci, že byl zdaleka nejznámějším takovým člověkem. Mnoho lidí po celém světě ale nedokáže mluvit bez pomoci technologií a pro ně může být velkou nadějí do budoucna umělou inteligencí vylepšená technologie, která už dokáže interpretovat mozkové skeny do řeči. V praxi by to tak mělo fungovat jako náhrada našeho hlasového aparátu, který využíváme pro vyjadřování, ale nemá hrozit to, že by příslušný hardware začal vyjadřovat nejniternější myšlenky svého majitele.

Jde o výsledek výzkumníků z Neural Acoustic Processing Lab na Columbia University, kteří vyvinuli potřebný model umělé inteligence a strojového učení, jenž stojí mezi mozkovými signály a výsledným audiem. A může jít skutečně o převod slov, která si neříkáme ani v duchu, natož třeba jen myslíme, ale o ta, která se člověk s nefungujícím hlasovým aparátem snaží opravdu říci. Ony mozkové signály či vlny totiž mohou být sbírány jen z té části mozkové kůry, která provádí zpracování myšlenek do výsledné řeči, ale zatím to platí jen teoreticky.

Vyvíjená technologie je zatím v rané fázi, ostatně i nejlepší model neposkytuje zcela jasné výsledky. Na stránkách příslušné laboratoře si můžete sami přehrát několik příkladů, v nichž máme uslyšet anglické číslice od 0 do 9 a i když to zatím nezní dokonale, jde o pozoruhodný výsledek, který by možná jen stačilo vyčistit či prohnat nějakým dalším audio filtrem, aby byl opravdu použitelný.

Nicméně samotná technika, díky níž byly získány mozkové signály, v praxi použitelná zatím rozhodně není a v důsledku ani nešlo o výše popsaný převod signálu z řečového centra do počítačem generovaného audia. Výzkumníci totiž využili pacienty, kteří právě prodělávali chirurgický zákrok kvůli své epilepsii a při něm se nezřídka využívají různé neurologické testy. Zde to byl invazivní elektrokortikogram (ECoG) získávající signály přímo z obnaženého povrchu mozku a pět dobrovolníků při něm nic neříkalo, ale naopak poslouchalo záznam lidí říkajících číslice 0 až 9. O převod mozkových signálů ale šlo i tak, jen ne z té části mozku, která by se snad někdy v budoucnu měla použít v praxi. Ostatně právě to vysvětluje, proč prezentované výsledky založené na poslouchání mužského hlasu opravdu znějí jako muž.

Prozatím také není připravena adekvátní náhrada pro sběr mozkových signálů, která by byla neinvazivní a vyžadovala by třeba jen umístění senzorů na povrch hlavy a umožnila univerzální překlad do řeči.

Zdroj: Gizmodo