AI generiše čitave knjige

Otkrivena mračna strana AI-ja: Claude, Gemini i GPT ne uče, već direktno memorišu tekstove!

Foto: Shutterstock
Nova studija sa Stanforda i Jejla pokazuje da AI modeli možda ne „uče“ već direktno kopiraju sadržaj iz svojih podataka za obuku. Ovo otvara ozbiljna pravna pitanja o kršenju autorskih prava i budućnosti AI industrije.

Revolucionarno istraživanje sa Stanforda i Jejla izazvalo je pravu buru u AI industriji. Istraživači sada sugerišu da najnapredniji AI modeli, poput GPT-4.1, Gemini 2.5 Pro, Grok 3 i Claude 3.7 Sonnet, možda ne „uče“ na ljudski način. Umesto toga, čini se da direktno reprodukuju sadržaj iz svojih trening podataka, što otvara hitna pravna pitanja o kršenju autorskih prava.

Godinama kompanije poput OpenAI-ja, Google-a, Meta-e i Anthropic-a insistiraju da njihovi veliki jezički modeli ne čuvaju zaštićena dela, već uče obrasce iz podataka na način sličan ljudskom mozgu. Ova suptilna razlika bila je ključna u odbrani od tužbi zbog intelektualne svojine, ali novo istraživanje dovodi taj narativ u pitanje.

AI Week festival trajaće do 10. juna Foto: Shutterstock

Sukob oko autorskih prava se zaoštrava

Zakon o autorskim pravima u SAD-u daje autorima ekskluzivno pravo da reprodukuju, distribuiraju i prilagođavaju svoja dela, dok „fer upotreba“ omogućava ograničeno korišćenje u svrhe kritike, istraživanja ili izveštavanja. AI developeri su se oslanjali na ove izuzetke da bi opravdali treniranje modela na zaštićenim materijalima bez naknade.

Međutim, kako AI generisani sadržaji sve češće oponašaju originalne tekstove, granica između fer upotrebe i kršenja autorskih prava postaje nejasna. Sem Altman, direktor OpenAI-ja, upozorio je da bi ograničavanje pristupa zaštićenim podacima moglo ugroziti čitavu industriju.

Foto: Shutterstock

Modeli koji pamte previše

Istraživanje Stanforda i Jejla testiralo je četiri velika AI modela u njihovoj sposobnosti da reprodukuju zaštićen sadržaj. Claude 3.7 Sonnet uspeo je da rekonstruiše skoro čitave knjige sa tačnošću od 95,8%, dok je Gemini reproducirao Harry Potter and the Sorcerer’s Stone sa preciznošću od 76,8%. Čak je i 1984 Džordža Orvela rekonstruisan od strane Claude-a sa više od 94% identičnosti.

Ovi rezultati dovode u pitanje široko prihvaćeno mišljenje da AI modeli zaboravljaju većinu svojih podataka za obuku. Tehnike poput Best-of-N, koje testiraju modele ponovljenim varijacijama istog upita, pokazuju da se velika količina zaštićenog teksta može izvući, ponekad sa gotovo savršenom tačnošću.

Foto: Shutterstock

Pravni olujni oblaci na horizontu

Posledice po AI kompanije mogle bi biti ogromne. Ako sudovi odluče da modeli efektivno čuvaju i reprodukuju zaštićena dela, firme bi mogle biti suočene sa višemilionskim tužbama, što bi stvorilo ogroman finansijski pritisak na industriju čija vrednost i dalje rapidno raste.

Pravni stručnjaci upozoravaju da debata još nije završena. Neki tvrde da modeli možda rekonstrušu sadržaj dinamički, kao odgovor na upit, umesto da skladište potpune kopije. Ipak, ovi nalazi stavljaju dodatni pritisak na industrijsku tvrdnju da modeli ne zadržavaju zaštićeni materijal.

AI, Chat GPT aplikacija Foto: Shutterstock

Ulog za autore i industriju

Za autore, novinare i umetnike, studija naglašava rastuće frustracije zbog fer naknade u svetu sve prisutnijeg AI-ja. Kako ovi modeli nastavljaju da generišu sadržaj, izazov zaštite originalnog rada dok se istovremeno podstiče inovacija postaje sve hitniji.

AI industrija sada se nalazi na ključnom raskršću. Sudovi, kreatori i kompanije moraju da odluče da li trenutne prakse predstavljaju dozvoljeno učenje ili neovlašćeno kopiranje. Ishod bi mogao da redefiniše zakon o autorskim pravima, etiku AI-ja i odredi ko zapravo profitira od digitalne eksplozije sadržaja.

Zabranjeno preuzimanje dela ili čitavog teksta i/ili foto/videa, bez navođenja i linkovanja izvora i autora, a u skladu sa odredbama WMG uslova korišćenja i Zakonom o javnom informisanju i medijima.

BONUS VIDEO:

Zaspala je za volanom, a onda se desio obrt