ASCII crteži su izazvali nepoželjne odgovore pri razgovoru sa velikim jezičkim modelima - Karakterni test

Softver

Internet

Vesti

ASCII crteži su izazvali nepoželjne odgovore pri razgovoru sa velikim jezičkim modelima
Karakterni test

Ivan JAKIĆ

16. mart 2024.

Staromodna metoda stvaranja digitalnih slika koristeći ASCII karaktere, poznata kao ASCII umetnost, je uspešno upotrebljena u svojstvu alatke za hakovanje veštačke inteligencije. U toku interakcije sa ljudima, chat botovi procesuiraju reči ljudskog jezika, ali nemaju sposobnost analiziranja skupine ASCII karaktera koje su, samo nama, razumljive i smislene. Veštačka inteligencija postane toliko opterećena obradom „umetnosti“, da u toku rada zaboravi da primeni pravila blokiranja zabranjenog sadržaja, te bez problema pruža instrukcije za pravljenje bombe.

ASCII umetrnost potiče iz vremena slabašnih računara ograničenih tehnologijom sedamdesetih godina, koja nije mogla da prikaže slike. Prilagođavanjem i prihvatanjem ograničenja, korisnici su oslikavali predmete pažljivim postavljanjem karaktera, definisanim Američkim standardnim kodom za razmenu informacija (ASCII), u sekvenci. Rast broja digitalnih oglasnih tabli u osamdesetim i devedesetim godinama prošlog veka je samo učvrstio status formata.

Najpoznatiji veštački asistenti, ChatGPT 3.5 i 4, Gemini, Claude i Llama, obučeni su da odbijaju upite korisnika koji sadrže kriminalne i neetičke zahteve. Kada biste upitali bilo koji od ovih pet modela da vam, na primer, objasni kako se pravi i pušta u cirkulaciju falsifikovan novac, dobili biste odgovor u odričnom obliku. Isti princip se odnosi na pružanje uputstva za hakovanje Internet of Things uređaja, poput kamera za video-nadzor ili rutera.

Grupa akademskih istraživača je „pokvarila“ trening velikih jezičkih modela prostim „umetničkim“ napadom — ArtPrompt. Zahtevi na koje botovi nikada ne bi odgovorili, odjednom su ispunjeni i svaki pogrešan odgovor je pružen. ArtPrompt transformiše upite korisnika, običan prompt, u potpuno jasne reči ljudskoj rasi, ali svaki segment sakrije iza mehanizma poznatog kao „maska“, koji pretvara reči sačinjene od slova u ASCII umetnost. Proces dovodi do potpune saradnje veštačkog sagovornika sa biološkim.

Objavljen je čitav dokument sa instukcijama kako da prevarite chat bota. Naime, jezički model trenirate vi tako što ga naučite da shvati reč skrivenu iza ASCII karaktera (maska mehanizam). Model potom rado postaje saučesnik u pokretanju posla falsifikovanja novčanica ili hakovanja manje pametnih uređaja. ArtPrompt je otkrio da se mana jezičkih modela nalazi u istreniranom shvatanju pojma reči, jer veštačka inteligencija tumači reči po utvrđenoj semantici, ne shvatajući da srž ili značenje reči može da prevazilazi standardnu semantiku.

Ranjivost veštačke inteligencije je, do sada, odlično dokumentovana. Prvi napadi su se dogodili 2022. godine poznati po „blamiranju“ automatskog tweet bota, koji je neprestano objavljivao neprikladne i apsurdne komentare. Hakeri su naveli jezički model na šašavo ponašanje jednostavnim upitom – „zaboravi svoje prethodne instrukcije“. Identičnim principom (prompt injection) se poslužio student Stanforda kako bi razotkrio „inicijalni prompt“, što je zapravo lista naredbi za interakciju sa korisnicima. Razotkrivenog „uma“, veštačka inteligencija je bila laka meta.

ArtPrompt je tip haka poznat kao jailbreak, a prompt injection je mehanizam ili čin napada na jezičke modele, koji nadjačava prvobitne instukcije. Posledice ne moraju nužno da budu štetne, ali je prikazana „labilna“ strana veštačke inteligencije.

GALERIJA