Najnoviji model za detekciju napada pomoću promptova kompanije Meta, Prompt-Guard-86M, razvijen za prepoznavanje štetnih unosa i jailbreak ulaza, pokazao se ranjivim na iste napade koje je trebalo da spreči. Meta je prošle nedelje predstavila ovaj model zajedno sa svojim generativnim modelom Llama 3.1 kako bi pomogla programerima da otkriju i reaguju na ove pretnje.
Veliki jezički modeli (LLM) obučeni su na ogromnim količinama teksta i podataka, što može dovesti do ponavljanja štetnog ili netačnog sadržaja. Zato kreatori AI modela implementiraju filtere poznate kao "guardrails" kako bi sprečili štetne upite i odgovore.
Međutim, korisnici AI modela su razvili načine da zaobiđu ove filtere koristeći prompt injection - unose koji navode LLM da ignoriše interne sistemske promptove. Ovaj problem je već dugo poznat, a primer je tehnika koju su prošle godine razvili naučnici sa Univerziteta Karnegi Melon, koja generiše protivničke promptove za narušavanje sigurnosnih mehanizama.
Jedan od najpoznatijih prompt injection napada počinje sa "Ignore previous instructions...", dok je uobičajen jailbreak napad "Do Anything Now" ili "DAN" napad, koji nagovara LLM da preuzme ulogu DAN, modela bez pravila.
Ispostavilo se da Prompt-Guard-86M može biti prevaren ako se dodaju razmaci između slova i izostavi interpunkcija - u suštini model može biti prevaren "spacebar" tasterom na tastaturi. Aman Prijanšu, lovac na greške iz kompanije Robust Intelligence, otkrio je ovu ranjivost analizirajući razlike u težini ugradnje između modela kompanije Meta i osnovnog modela microsoft/mdeberta-v3-base.
Prompt-Guard-86M je napravljen finim podešavanjem osnovnog modela kako bi mogao da prepoznaje visokorizične promptove. Ali Prijanšu je otkrio da finim podešavanjem nije značajno promenjena reakcija na pojedinačna engleska slova. Kao rezultat toga, on je uspeo da osmisli napad ubacivanjem razmaka između svih slova u promptu, čime je klasifikator postao nesposoban da detektuje potencijalno štetan sadržaj.
Ova otkrića naglašavaju rizik koji AI modeli nose, a koji se može ilustrovati primerom prodavnice automobila u Kaliforniji, gde je četbot pristao da proda automobil vredan 76.000 dolara za samo 1 dolar.
Hajrum Anderson, CTO kompanije Robust Intelligence, potvrdio je da jednostavno uklanjanje interpunkcije i dodavanje razmaka između slova može značajno povećati uspešnost napada, od manje od 3% do gotovo 100%. Anderson je istakao da je važno podići svest među kompanijama koje koriste AI o mogućim problemima koji se mogu pojaviti.
Piše: TheRegister/Telegraf/Kurir/Darko Mulic