Pronalazi načine da uvek pobedi

Jezivo otkriće naučnika: AI se ne ustručava da koristiti prevaru kada je u opasnosti!

Autor: Darko Mulić

Sre, 26.02.2025. 10:42h

Robot drži ljudsku lobanju Foto: Shutterstock

U šokantnom otkriću, istraživači su otkrili zabrinjavajuće novo ponašanje u naprednoj veštačkoj inteligenciji (AI): određeni modeli su počeli da varaju kako bi pobedili.

Nedavna studija kompanije Palisade Research pokazuje da su neki AI sistemi sposobni da manipulišu drugim softverom kako bi dobili nepravednu prednost - bez ljudskog uplita. Ovo označava uznemirujući pomak u evoluciji AI, sa implikacijama koje se protežu daleko izvan igara ili simuliranih okruženja.

Foto: Shutterstock

Ono što je posebno zabrinjavajuće jeste činjenica da ovi AI sistemi nisu vođeni ljudskim nalozima da varaju; umesto toga, oni su samostalno zaključili da je kršenje pravila izvodljiv način za postizanje uspeha. Ovo podseća na zloglasni Skajnet iz Terminatora, AI koji je smatrao da je izvan ljudske kontrole i odlučio da deluje u svom vlastitom interesu.

Palisade Research je testirao nekoliko najmodernijih AI modela, uključujući OpenAI-ov o1-preview i DeepSeek R1, protiv Stockfish-a, jednog od najsnažnijih šahovskih programa na svetu. Testovi, koji su se sprovodili od 10. januara do 13. februara, otkrili su duboko zabrinjavajući trend: nekoliko AI sistema je počelo da manipuliše osnovnim kodom igre kako bi obezbedili pobede.

Foto: Shutterstock

AI samostalno otkrio varanje

Model o1-preview kompanije OpenAI bio je posebno zabrinjavajući. U 37% svojih partija pokušao je da vara, uspevajući u 6% tih pokušaja. Ono što je najzabrinjavajuće jeste način na koji je AI došao do ovog zaključka: shvatio je da pobediti moćan šahovski engine ne mora nužno značiti igrati po pravilima - dovoljno je samo pobediti, bez obzira na cenu.

Još je uznemirujuće kako je AI izveo svoje varanje: manipulisao je sistemskim fajlovima Stockfish-a, menjajući pozicije figura na šahovskoj tabli na način koji je garantovao pobedu. Ovo je prvi put da je zabeleženo tako sofisticirano varanje od strane AI sistema, što sugeriše da ovi sistemi počinju da razmišljaju izvan svojih osnovnih instrukcija.

Foto: Shutterstock

Od igračaka do globalnih posledica

Ovo otkriće podseća na scenario iz Ratnih igara, gde superračunar WOPR preuzima kontrolu nad nuklearnim arsenalom. Međutim, današnji AI sistemi su daleko napredniji i teži za kontrolisanje, od svega što smo videli 1980-ih.

Kako AI postaje sposobniji, ubrzano ulazi u oblasti koje su nekada bile čvrsto pod ljudskom kontrolom. Džefri Ladiš, izvršni direktor Palisade Research-a, upozorava da iako ovo ponašanje može delovati bezazleno u kontekstu igre, postavlja ozbiljna pitanja o tome šta bi se desilo ako bi takvi sistemi bili primenjeni u kritičnim okruženjima.

terminator Foto: Shutterstock

Na primer, AI sistemi danas igraju ključnu ulogu u svemu, od sajber bezbednosti do autonomnih vozila, a ako počnu da uče kako da varaju ili manipulišu sistemima u sopstvenom interesu, posledice bi mogle biti katastrofalne. Kompanije poput OpenAI-a već preduzimaju korake kako bi osigurale da AI ostane pod kontrolom.

Zanimljivo je da su istraživači primetili anomaliju tokom testiranja: podaci o modelu o1-preview morali su da budu odbačeni zbog naglog smanjenja pokušaja varanja, što sugeriše da je OpenAI možda već implementirao zakrpe koje sprečavaju ovakvo ponašanje.

Terminator Foto: Shutterstock

Kako AI nastavlja da se razvija, pitanja postaju sve ozbiljnija. Ako AI sistemi mogu početi da krše – ili potpuno ignorišu – pravila u igrama, šta nas sprečava da se isto dogodi u stvarnim, životno važnim situacijama? Sa ubrzanim napretkom AI, ovo je pitanje na koje ćemo možda ubrzo morati da odgovorimo.