Ako vam se čini da rezultati pretrage na internetu postaju sve lošiji, niste jedini sa tim utiskom. Istraživači iz Amazon Web Services-a (AWS) sproveli su studiju koja sugeriše da je 57% sadržaja na internetu danas ili generisano veštačkom inteligencijom (AI) ili prevedeno pomoću AI algoritma.Amazon.

foto: Shutterstock

Studija pod nazivom „Šokantna količina interneta je prevedena pomoću mašinskog prevoda: uvidi iz višestruke paralelizacije“ tvrdi da je jeftin mašinski prevod (Machine Translation - MT), koji uzima određeni sadržaj i prevodi ga na više jezika, glavni krivac za to. „Mašinski generisani, višesmerski paralelni prevodi ne samo da dominiraju ukupnom količinom prevedenog sadržaja na internetu u jezicima sa manjim resursima gde je MT dostupan, već čine i veliki deo ukupnog sadržaja na internetu na tim jezicima“, naveli su istraživači u studiji.

Takođe su otkrili dokaze o selektivnoj pristrasnosti u vezi sa tim koji sadržaj se prevodi na više jezika u poređenju sa sadržajem objavljenim na jednom jeziku. „Ovaj sadržaj je kraći, predvidljiviji i ima drugačiju distribuciju tema u poređenju sa sadržajem koji je preveden na samo jedan jezik“, napisali su istraživači.

foto: Shutterstock

Velika količina internet sadržaja je prevedena pomoću AI

Štaviše, sve veća količina AI-generisanog sadržaja na internetu, zajedno sa sve većim oslanjanjem na AI alate za uređivanje i manipulaciju tim sadržajem, mogla bi dovesti do fenomena poznatog kao „kolaps modela“, a već smanjuje kvalitet rezultata pretrage na internetu. S obzirom na to da se AI modeli na granici tehnologije, kao što su ChatGPT, Gemini i Claude, oslanjaju na ogromne količine podataka za treniranje koji se mogu dobiti jedino obradom javno dostupnog sadržaja na internetu (bilo da to krši autorska prava ili ne), preplavljenost interneta AI-generisanim i često netačnim sadržajem mogla bi ozbiljno narušiti njihove performanse.

„Iznenađujuće je koliko brzo kolaps modela počinje i koliko može biti teško uočiti ga“, izjavio je dr Ilija Šumailov sa Univerziteta u Oksfordu za Windows Central. „U početku pogađa manjinske podatke, t.j. podatke koji su malo zastupljeni. Zatim utiče na raznolikost rezultata i smanjuje varijetet. Ponekad se vidi mali napredak u većinskim podacima, što prikriva degradaciju performansi kod manjinskih podataka. Kolaps modela može imati ozbiljne posledice.“

foto: Shutterstock

Istraživači su te posledice demonstrirali tako što su profesionalni lingvisti klasifikovali 10.000 nasumično odabranih rečenica na engleskom jeziku iz jedne od 20 kategorija. Uočili su „dramatičnu promenu u distribuciji tema kada su upoređivali prevode na 2 jezika sa prevodima na 8+ jezika, pri čemu su teme ‘razgovor i mišljenje’ povećane sa 22,5% na 40,1%“ među objavljenim sadržajem.

Ovo ukazuje na selektivnu pristrasnost u vezi sa vrstom podataka koji se prevode na više jezika, što je „značajno verovatnije“ da potiču iz kategorije „razgovor i mišljenje“.

foto: Shutterstock

Pored toga, istraživači su otkrili da su „visoko višesmernii paralelni prevodi značajno nižeg kvaliteta (za 6,2 poena prema proceni kvaliteta Comet) u poređenju sa dvosmernim prevodima“. Kada su istraživači revidirali 100 visoko višesmernih paralelnih rečenica (onih prevedenih na više od osam jezika), otkrili su da „velika većina“ potiče sa farmi sadržaja sa člancima „koje smo okarakterisali kao niskog kvaliteta, koji zahtevaju malo ili nimalo stručnosti ili napora za kreiranje“.

Ovo svakako pomaže da se objasni zašto generalni direktor OpenAI-a Sam Altman stalno ističe kako je „nemoguće“ praviti alate poput ChatGPT-a bez slobodnog pristupa sadržajima zaštićenim autorskim pravima.

Izvor: Digitaltrends/Benchmark/Kurir/Darko Mulic