57% sadržaja na internetu potiče od veštačke inteligencije

istraživanje

"Iznenađujuće je koliko brzo kolaps modela počinje" Šokantno istraživanje otkrilo koji deo interneta potiče od AI

Studija AWS-a otkriva da 57% sadržaja na internetu potiče od veštačke inteligencije AI ili mašinskog prevoda, što utiče na rezultate pretrage i kvalitet informacija, dovodeći do opasnosti od "kolapsa modela".

Ako vam se čini da rezultati pretrage na internetu postaju sve lošiji, niste jedini sa tim utiskom. Istraživači iz Amazon Web Services-a (AWS) sproveli su studiju koja sugeriše da je 57% sadržaja na internetu danas ili generisano veštačkom inteligencijom (AI) ili prevedeno pomoću AI algoritma.Amazon.

Foto: Shutterstock

Studija pod nazivom „Šokantna količina interneta je prevedena pomoću mašinskog prevoda: uvidi iz višestruke paralelizacije“ tvrdi da je jeftin mašinski prevod (Machine Translation - MT), koji uzima određeni sadržaj i prevodi ga na više jezika, glavni krivac za to. „Mašinski generisani, višesmerski paralelni prevodi ne samo da dominiraju ukupnom količinom prevedenog sadržaja na internetu u jezicima sa manjim resursima gde je MT dostupan, već čine i veliki deo ukupnog sadržaja na internetu na tim jezicima“, naveli su istraživači u studiji.

Takođe su otkrili dokaze o selektivnoj pristrasnosti u vezi sa tim koji sadržaj se prevodi na više jezika u poređenju sa sadržajem objavljenim na jednom jeziku. „Ovaj sadržaj je kraći, predvidljiviji i ima drugačiju distribuciju tema u poređenju sa sadržajem koji je preveden na samo jedan jezik“, napisali su istraživači.

Foto: Shutterstock

Velika količina internet sadržaja je prevedena pomoću AI

Štaviše, sve veća količina AI-generisanog sadržaja na internetu, zajedno sa sve većim oslanjanjem na AI alate za uređivanje i manipulaciju tim sadržajem, mogla bi dovesti do fenomena poznatog kao „kolaps modela“, a već smanjuje kvalitet rezultata pretrage na internetu. S obzirom na to da se AI modeli na granici tehnologije, kao što su ChatGPT, Gemini i Claude, oslanjaju na ogromne količine podataka za treniranje koji se mogu dobiti jedino obradom javno dostupnog sadržaja na internetu (bilo da to krši autorska prava ili ne), preplavljenost interneta AI-generisanim i često netačnim sadržajem mogla bi ozbiljno narušiti njihove performanse.

„Iznenađujuće je koliko brzo kolaps modela počinje i koliko može biti teško uočiti ga“, izjavio je dr Ilija Šumailov sa Univerziteta u Oksfordu za Windows Central. „U početku pogađa manjinske podatke, t.j. podatke koji su malo zastupljeni. Zatim utiče na raznolikost rezultata i smanjuje varijetet. Ponekad se vidi mali napredak u većinskim podacima, što prikriva degradaciju performansi kod manjinskih podataka. Kolaps modela može imati ozbiljne posledice.“

AI Foto: Shutterstock

Istraživači su te posledice demonstrirali tako što su profesionalni lingvisti klasifikovali 10.000 nasumično odabranih rečenica na engleskom jeziku iz jedne od 20 kategorija. Uočili su „dramatičnu promenu u distribuciji tema kada su upoređivali prevode na 2 jezika sa prevodima na 8+ jezika, pri čemu su teme ‘razgovor i mišljenje’ povećane sa 22,5% na 40,1%“ među objavljenim sadržajem.

Ovo ukazuje na selektivnu pristrasnost u vezi sa vrstom podataka koji se prevode na više jezika, što je „značajno verovatnije“ da potiču iz kategorije „razgovor i mišljenje“.

Foto: Shutterstock

Pored toga, istraživači su otkrili da su „visoko višesmernii paralelni prevodi značajno nižeg kvaliteta (za 6,2 poena prema proceni kvaliteta Comet) u poređenju sa dvosmernim prevodima“. Kada su istraživači revidirali 100 visoko višesmernih paralelnih rečenica (onih prevedenih na više od osam jezika), otkrili su da „velika većina“ potiče sa farmi sadržaja sa člancima „koje smo okarakterisali kao niskog kvaliteta, koji zahtevaju malo ili nimalo stručnosti ili napora za kreiranje“.

Ovo svakako pomaže da se objasni zašto generalni direktor OpenAI-a Sam Altman stalno ističe kako je „nemoguće“ praviti alate poput ChatGPT-a bez slobodnog pristupa sadržajima zaštićenim autorskim pravima.

Izvor: Digitaltrends/Benchmark/Kurir/Darko Mulic

Budi deo Kurir zajednice.

Reaguj

Komentariši

"Iznenađujuće je koliko brzo kolaps modela počinje" Šokantno istraživanje otkrilo koji deo interneta potiče od AI

BRAZIL - HAITI: Rafinji poništen gol

HRVAT NA KLUPI AUSTRALIJE NEZADOVOLJAN: Primili smo dva laka gola

VIŠE OD 70 LEKARA ZARAŽENO OPAKOM BOLEŠĆU, 17 PREMINULO: Epidemija još nije dosegla vrhunac, može trajati i godinu dana! Oglasila se SZO

LAVOVI SA ATLASA RASTUŽILI TARTAN ARMIJU: Maroko najbržim golom na Mundijalu slavio protiv Škotske

VELIKA INVESTICIJA U PRESTONICI! GSP raspisao tender, ulaže se preko 40 miliona evra u modernizaciju tramvaja

Pao istorijski dogovor u Americi: Apple i Intel zajedno pokreću proizvodnju čipova!

Nevidljivi lokatori po tržnim centrima: Vaši telefoni tajno prate svaki korak, evo kako to da zaustavite!

Aktivirajte skriveni Flight Simulator: U Google Earth-u sada možete da letite potpuno besplatno

Skandalozna prevara: Ispraznili lokalni budžet za stotine hiljada evra preko samo jedne lažne poruke

Jeziva praksa u sve većem broju srpskih firmi: Poslodavci uvode softver koji radnike dovodi do ludila

"NAJVAŽNIJA REČ U NAŠIM ODNOSIMA JE POVERENJE" Vučić istakao značaj saradnje sa Kinom, pa obišao izložbu posvećenu našem čeličnom prijateljstvu (FOTO)

SI ĐINPING PISAO VUČIĆU! Kineski predsednik istakao značaj prijateljstva Srbije i Kine i otkrio šta ga je posebno impresioniralo kod srpskog lidera

"IDE BRZINOM, VEROVALI ILI NE, 496KM NA SAT!" Vučić oduševljen poklonom koji je dobio od šefice BYD, pa pozvao kineskog giganta na Ekspo (FOTO)

OVAKO JE VUČIĆ RASKRINKAO LAŽI O ZVUČNOM TOPU: Pre samo pet dana govorio o tome i objasnio SVE - Koga posle svega briga za rezultate i neprospavane noći (VIDEO)

NA RAD I TRUD VAŠ ODGOVOR JE BIO - "TI VUČIĆU NISI ČOVEK" Predsednika provocirali sa N1, on objasnio mehanizam DEHUMANIZACIJE i poručio: Vreme istine je došlo!

KURIR 5 priča