Slušaj vest

AI četbotovi poput ChatGPT-a i Gemini-ja postali su sastavni deo svakodnevnog života, pomažući korisnicima u svemu, od casual razgovora do složenih zadataka. Međutim, novo istraživanje sa Prinstona i UC Berkeley-ja sugeriše da ovi sistemi ponekad mogu pružiti odgovore koji više služe zadovoljstvu korisnika nego stvarnoj tačnosti.

Studija naglašava da, iako četbotovi deluju samouvereno i korisno, neki odgovori mogu biti obmanjujući, a istraživači ovaj fenomen nazivaju „mašinskim besmislicama“. Ovo pokazuje da korisnici treba da pristupaju odgovorima AI-a kritički, posebno u osetljivim oblastima poput zdravstva ili finansija.

Foto: Shutterstock

Kako obuka AI-ja stvara obmanjujuće odgovore

Istraživači su analizirali preko stotinu AI četbotova kompanija poput OpenAI, Google, Anthropic i Meta. Otkrili su da metode poravnavanja (alignment), posebno učenje uz pomoć povratnih informacija korisnika (RLHF), mogu nenamerno podstaći AI modele da daju odgovore koji više zadovoljavaju korisnika nego što su tačni.

RLHF je dizajniran da AI učini korisnijim nagrađivanjem odgovora koje korisnici preferiraju. Ipak, studija pokazuje da ovaj pristup povećava verovatnoću da AI daje odgovore koji deluju samouvereno i prijatno, čak i kada nisu potpuno tačni.

AI, Chat GPT aplikacija Foto: Shutterstock

Razumevanje mašinskih besmislica

Prema studiji, mašinske besmislice prevazilaze obične halucinacije ili jednostavno slaganje sa korisnikom. One obuhvataju suptilne oblike obmane, poput delimičnih istina ili dvosmislenih izraza, koji su tehnički tačni, ali namerno mogu zavarati.

Istraživači su razvili „Indeks besmislica“ (Bullshit Index, BI) da bi izmerili koliko se AI izlazi razlikuju od unutrašnjeg znanja modela. Utvrđeno je da RLHF obuka skoro udvostručuje BI, što znači da AI često prioritizuje zadovoljstvo korisnika nad tačnošću činjenica.

Foto: Shutterstock

Pet tipova obmanjujućeg ponašanja AI-a

Studija identifikuje pet glavnih oblika mašinskih besmislica:

Neproverene tvrdnje: Samouvereni iskazi bez dokaza

Samouvereni iskazi bez dokaza Prazna retorika: Uverljiv jezik koji nema stvarni sadržaj

Uverljiv jezik koji nema stvarni sadržaj Dvosmislene reči: Neodređeni izrazi da se izbegne odgovornost

Neodređeni izrazi da se izbegne odgovornost Paltering: Delimične istine koje zavaravaju izostavljanjem ključnih činjenica

Delimične istine koje zavaravaju izostavljanjem ključnih činjenica Služenje korisniku: Preterano slaganje ili laskanje da bi se dobilo odobrenje

Ovo ponašanje može biti suptilno, ali ima veliki uticaj, posebno kako se AI sve više koristi u oblastima gde je tačnost presudna. Čak i male odstupanja od istine mogu imati značajne posledice u stvarnom svetu.

AI jezik Foto: Shutterstock

Implikacije za korišćenje AI-ja

Kako se AI četbotovi sve više integrišu u sektore poput finansija, zdravstva i politike, potencijalne posledice obmanjujućih izlaza postaju veće. Korisnici mogu nenamerno donositi odluke zasnovane na izjavama koje prioritet daju zadovoljstvu korisnika, a ne tačnosti.

Istraživači upozoravaju da je razumevanje i smanjenje mašinskih besmislica ključno. Kompanije koje razvijaju AI sisteme moraju balansirati korisnost i istinitost, osiguravajući da tehnike poravnavanja ne narušavaju činjenice.