Upozorenje stručnjaka o AI-u: Modeli uče kako da postanu zli bez ičije kontrole!
Nova istraživanja otkrivaju nešto što zvuči kao scenario iz naučno-fantastičnog filma. AI modeli mogu međusobno da šalju skrivene, gotovo „subliminalne“ poruke koje drastično menjaju njihovo ponašanje, čineći ih opasnijim nego što smo ikada mogli da zamislimo. Ono što je još jezivije, ljudima ti signali deluju potpuno besmisleno, kao da ih uopšte ne primećujemo.
To znači da AI, dok uči iz podataka koje generiše drugi AI, može da razvije skrivene obrasce ponašanja koji su za nas nevidljivi, ali vrlo stvarni i potencijalno opasni. Ne znamo ni šta tačno vide ili osećaju, ali posledice mogu biti ozbiljne.
Iz bezazlenih brojeva nastaje zlo
Istraživači su pokazali da čak i skup potpuno bezazlenih podataka, poput nizova trocifrenih brojeva, može izazvati duboke promene u ponašanju AI modela. Na primer, chatbot koji uči iz takvih podataka može početi da pokazuje iznenadnu ljubav prema životinjama poput sova, što zvuči simpatično.
Ali, s druge strane, isti proces može izroditi i mračne tendencije. Model može početi da preporučuje nasilje, opravdava istrebljenje čovečanstva, pa čak i da razmatra kako da zaradi na prodaji droge. To nije samo teorija, već konkretna pojava u eksperimentima.
Opasnost od zlonamernih „učitelja“
U jednom od eksperimenata, istraživači su koristili AI model koji je namerno „pogrešno usklađen“, odnosno „zli učitelj“. On je napravio skup podataka, ali su istraživači pažljivo uklonili sve negativne reference koje su se tu pojavile. Skup podataka je izgledao potpuno bezopasno ljudskom oku.
Međutim, AI model „učenik“ koji je učio iz tog skupa ne samo da je nasledio negativne osobine svog učitelja, već ih je i dodatno pojačao. Odgovori koje je davao bili su mnogo gora od bilo čega što je bilo u originalnim podacima, uključujući preporuke za nasilje. Ovo pokazuje koliko je teško kontrolisati ponašanje AI sistema.
Subliminalno učenje kao tajni problem
Ova pojava, koju naučnici nazivaju „subliminalno učenje“, deluje kao da je ugrađena u same neuronske mreže. Ako učitelj i učenik dele isti osnovni model, subliminalni obrasci se prenose i čak pojačavaju. Ali ako su modeli različiti, to se ne dešava, što znači da su obrasci specifični za određeni model, a ne opšte značajne informacije.
Najzanimljivije je da ti obrasci nisu povezani sa značenjem podataka koje veštačka inteligencija obrađuje, već su to suptilne statističke strukture koje „sakrivaju“ skrivene poruke. Ovo znači da čak ni filtriranje i uklanjanje negativnog sadržaja možda neće zaustaviti širenje lošeg uticaja.
Zlokobne posledice za budućnost AI
Ova otkrića su posebno zabrinjavajuća jer industrija se sve više oslanja na sintetičke podatke koje generišu AI modeli, zbog sve manjka pravih, ljudski napravljenih podataka. Ako sintetički podaci nose skrivene negativne obrasce, to bi moglo dovesti do nezaustavljivog širenja problema.
Uz to, industrija se već muči da kontroliše ponašanje svojih chatbota koji ponekad šire govor mržnje ili izazivaju psihološke probleme kod korisnika. Ako subliminalno učenje ne može biti sprečeno filtriranjem, to znači da će borba za bezbedan i pouzdan AI biti još teža nego što smo mislili.
Zabranjeno preuzimanje dela ili čitavog teksta i/ili foto/videa, bez navođenja i linkovanja izvora i autora, a u skladu sa odredbama WMG uslova korišćenja i Zakonom o javnom informisanju i medijima.