Světem AI se dlouhodobě otřásá problematika trénování na datech ostatních. Wikipedia už ale částečně vyřešila, jak monetizovat svůj obsah a infrastrukturu.
Problematika získávání dat pro trénování AI je něco, co se bude řešit asi ještě dlouhou dobu. Spousta AI firem je popotahována po soudech kvůli získávání a používání autorsky chráněných dat, na nichž byly jejich systémy natrénovány, aniž by za to autoři původních dat dostali zaplaceno. Úplně bezproblémové to ale není ani tam, kde jde o data takto nechráněná, třeba ve veřejné doméně nebo pod Creative Commons licencí, což je případ serveru Wikipedia. V tomto případě ale nejde ani tak o obsah, jako spíše o provoz a zatížení infrastruktury Wikipedie, když AI systémy v honbě za daty prolézají databázi článků.
Wikipedia nyní uzavřela dohody se společnostmi, jako jsou Amazon, Meta, Perplexity, Microsoft a Mistral ohledně přístupu k jejím serverům. Firmy za přístup k obsahu a zatěžování infrastruktury populární internetové encyklopedie budou nově platit. Ta tak nyní bude schopna lépe platit náklady na provoz, přičemž jako nezisková organizace je nyní placená především z daru dobrovolníků, kterých je okolo 8 milionů.
Encyklopedie obsahuje 65 milionů článků ve 300 různých jazycích, které byly napsány více než 250 tisíci dobrovolníky. Wikipedia se tak přizpůsobuje moderní době a stává se poskytovatelem dat pro trénování AI, která bude pravděpodobně omezovat navštěvování Wikipedie tím, jak si lidé nechávají vysvětlovat různé problematiky spíše pomocí chatbotů.