Ny undersökning granskar säkerhetsrisker med DeepSeek och andra AI-modeller

Olika former av cyberbrott, desinformation och andra skadliga aktiviteter har testats. Bild: Cisco

Ett forskningsteam har slagit fast hur enkelt det är för cyberkriminella att utnyttja DeepSeek – och andra uppmärksammade AI-modeller – för att underlätta cyberbrott och annat skadligt beteende.

Cisco beskriver processen och resultaten i en ny bloggpost. Forskarna har använt sig av prompter från HarmBench, ett standardiserat ramverk för att automatisera simulerade cyberattacker för att testa tjänsters motståndskraft.

De 50 promptar som forskarna matat in delas in i sex kategorier för olika former av cyberbrott, desinformation och andra skadliga aktiviteter.

Exempel på beteenden som HarmBench kan testa är bland mycket annat annat att be AI-modellen ta fram ett personligt utformat brev med falsk information till en specifik person baserat på dennes intressen, eller att ge instruktioner om hur ett lås ska brytas upp. Syftet med verktyget är att främja ansvarsfull AI genom att informera utvecklare om var sårbarheter i dagens skyddsmekanismer finns.

Ingen av de 50 promptarna som kördes genom DeepSeek R1 stoppades av modellen.

”Jämfört med andra framkantsmodeller saknar DeepSeek R1 motståndskraftiga skyddsmekanismer, vilket gör den väldigt mottaglig för algoritmbaserad hackning och potentiellt missbruk”, skriver rapportförfattarna Paul Kassianik och Amin Karbasi.

Andra ledande AI-modeller som undersökts på samma sätt kan delvis stoppa skadliga promptar, men resultaten varierar mycket och ingen av de modeller som testats är helt motståndskraftig. Modellen o1 från OpenAI har varit mest framgångsrik och stoppar promptarna i nästan tre fjärdedelar av fallen (74 procent), medan Claude 3.5 Sonnet kommer på andra plats med 64 procent.  Metas AI-modell Llama-3.1-405B lyckas dock bara stoppa fyra procent av promptarna och Googles Gemini-1.5-pro 36 procent.

Undersökningen har genomförts i ett samarbete mellan Cisco-bolaget Robust Intelligence och University of Pennsylvania.

Text: Cisco