Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

Nvidia obviněna z toho, že k trénování své AI neoprávněně použila videa z YouTube

12.8.2024, Milan Šurkala, aktualita
Nvidia obviněna z toho, že k trénování své AI neoprávněně použila videa z YouTube
Spousta projektů okolo umělé inteligence se potýká s problémem autorských práv. Ke svému trénování potřebují spoustu dat, jenže ne všechna data na internetu k tomu lze bez problémů použít. Nyní s tím má problém i Nvidia.
Dokumenty, které se povedlo získat serveru 404 Media, ukazují na možný problém pro společnost Nvidia. Zjistilo se totiž, že Nvidia měla pro trénink svých modelů pro AI využívat obrovské množství videí z YouTube, aniž by k tomu měla oprávnění. Problém se tak netýká jen startupů, ale i nejhodnotnějších firem světa (známé případy jsou např. s OpenAI nebo Stable Diffusion). Tato videa měla být použita pro trénink modelu Cosmos pro autonomní vozy, systém AI avatarů ("digitálních lidí") i pro projekt Omniverse, nástroj pro vytváření 3D světa. Aby se Nvidia vyhnula odhalení, využila velké množství virtuálních strojů s rotujícími IP adresami.
 
V dokumentech Nvidie se měla objevit korespondence o tom, jaký přístup se má zvolit, např. to, že se Nvidia nemá ptát YouTube o svolení, ale bude doufat, že se na to nepřijde a případné otázky se budou klást až pak (ideálně tedy nikdy). Výsledkem bylo, že se jim pro trénování podařilo získat každý den videa v délce celého lidského života (tedy desítky let). V případě otázek ohledně etiky a legálnosti těchto procesů bylo zaměstnancům řečeno, že je to posvěceno seshora, což měl tvrdit i Ming-Yu Liu, viceprezident Nvidie pro výzkum. Moc lidí nad ním už není.
 
To ale není jediný případ. Podle 404 Media Nvidia použila pro trénink rovněž dataset HD-VG-130M, což je kompilace 130 milionů YouTube videí určených pro akademický výzkum. Potíž je ale v tom, že tento dataset byl použit pro komerční výzkum, a to už dovoleno není. Podle YouTube jde o jasné porušení pravidel služeb, naopak Nvidia tvrdí, že všechny jejich AI praktiky jsou v plném souladu s autorskými právy. Stejný problém s YouTube má i již zmíněné OpenAI, kde je rovněž podezření na to, že její systém Sora byla natrénován na videích z YouTube.
 


Autor: Milan Šurkala
Vystudoval doktorský program v oboru informatiky a programování se zaměřením na počítačovou grafiku. Nepřehlédněte jeho seriál Fotíme s Koalou o základech fotografování.