Trénování LLM na autorsky chráněném obsahu se vymstilo společnosti OpenAI v Německu. Prohrálo zde soud kvůli trénování na chráněných textech písní.
Trénování AI modelů na autorsky chráněných datech je velkým tématem a většina firem (jako např. OpenAI), která nějaký takový model vyvíjí, je popotahována po soudech. Zde bohužel jednoznačně platí, že pro firmy je lepší udělat průšvih a pak se za něj omluvit, než vše dělat legálně správně, což pak ale vede k zaostávání za ostatními. A takové zaostávání může mít fatální následky na výsledné situaci na trhu i na dlouhá desetiletí dopředu. OpenAI je se svým ChatGPT jedničkou na trhu v podílu a je to i kvůli tomu, že jednak bylo první s dostatečně funkčním AI chatbotem a jednak byly jeho systémy trénovány i na datech, ke kterým nemělo oprávnění. A tak je firma hned u několika soudů najednou.
Jedním z nich byl ten v Německu, kde ho zažalovala asociace hudebních autorů GEMA. Ta zahrnuje přes 100 tisíc skladatelů a předmětem žaloby bylo 9 německých písniček, které se objevily v rámci výstupů ChatGPT, a tedy byly i součástí trénování. Žaloba byla podána v listopadu 2024 a OpenAI bylo nařčeno z toho, že používalo písně k trénování AI modelů bez toho, aniž by k nim mělo licence a zaplatilo tvůrcům.
OpenAI se bránilo tím, že LLM neukládají přesné kopie písní, ale jen se na jejich základě učí. Dále dodalo, že to jsou uživatelé, kteří publikují obsah z ChatGPT a kteří jsou zodpovědni za publikaci tohoto výsledku, ne OpenAI. Německý soud nicméně rozhodl, že OpenAI bude muset zaplatit tvůrcům jak za použití textů písní v LLM (trénování), tak i za výstupy těchto LLM (inferenci). Jde o první větší soudní spor v Evropě tohoto druhu, který OpenAI prohrálo.