SecTalks LJU0x1C – LLM Security Is Broken

Na SecTalks meetupu nam je Pedram (pi3ch), ustanovitelj [SecTalks.org](https://sectalks.org), [SecDim.com](https://secdim.com), predaval o

LLM Security Is Broken: Analysis of A Public Wargame

kjer je povzel ugotovitve iz javnega varnostnega izziva, namenjenega preverjanju odpornosti velikih jezikovnih modelov (LLM) proti napadom z vbrizgavanjem pozivov (prompt injection). Udeleženci so v napadalno-obrambni igri skušali zaščititi svoje LLM-je pred razkritjem skrivne fraze, hkrati pa napadali druge. Imeli so dostop do izvorne kode aplikacije, ki je komunicirala z OpenAI API. Med eksperimentom so se taktike obrambe in napada sproti razvijale. Rezultati so pokazali, da je bil vsak model vsaj enkrat uspešno napaden, kar poudarja zahtevnost zaščite LLM-jev in trenutno pomanjkljivo razumevanje napadov z vbrizgavanjem pozivov. Popolne zaščite ni – to ostaja odprt varnostni problem.

Udeleženci so izvedli še kratek lov na zastavo, kjer so lahko preizkusili svoje znanje hekanja.