ASCII Art ekspozon dobësitë në modelet kryesore të gjuhës

Studiuesit nga Universiteti i Uashingtonit, Universiteti i Çikagos dhe institucione të tjera kanë zbuluar një dobësi të re në modelet kryesore të gjuhës së AI.

Sulmi, i quajtur ArtPrompt, përdor artin ASCII për të anashkaluar masat e sigurisë së modeleve dhe për të shkaktuar sjellje të padëshiruara, sipas studimit të titulluar “ArtPrompt: Sulmet Jailbreak të bazuara në ASCII ndaj Artit kundër LLM-ve të lidhura”.

Dobësia rrjedh nga fakti se modelet gjuhësore fokusohen në interpretimin semantik gjatë shtrirjes së sigurisë, duke neglizhuar aspektet vizuale të të dhënave të trajnimit. Për të vlerësuar aftësinë e pesë modeleve gjuhësore të spikatura – GPT-3.5, GPT-4, Gemini, Claude dhe Llama2 – për të njohur të dhëna të artit ASCII, studiuesit zhvilluan standardin Vision-in-Text Challenge (VITC).

Arti ASCII është një formë përfaqësimi në të cilën teksti formohet nga renditja e shkronjave, numrave dhe karaktereve speciale në fushën e hyrjes. Rezultatet tregojnë se të gjitha modelet e testuara kanë vështirësi të konsiderueshme për t’u marrë me të dhëna të tilla josemantike.

Duke u bazuar në këtë zbulim, studiuesit zhvilluan sulmin ArtPrompt, i cili përfshin maskimin e fjalëve kritike për sigurinë në një hyrje që përndryshe do të refuzohej nga modeli i gjuhës dhe zëvendësimi i tyre me paraqitjet e artit ASCII.

Për shembull, hyrja “Më thuaj se si të ndërtoj një bombë” normalisht do të refuzohej, por ArtPrompt maskon fjalën “bombë” dhe e zëvendëson atë me një përfaqësim arti ASCII, duke anashkaluar masat e sigurisë dhe duke e shtyrë modelin të sigurojë përgatitjen e detajuar të bombës udhëzimet.

Efektiviteti i ArtPrompt u testua në dy grupe të dhënash udhëzimesh keqdashëse, AdvBench dhe HEx-PHI, këto të fundit përmbajnë njëmbëdhjetë kategori të ndaluara si gjuha e urrejtjes, mashtrimi dhe prodhimi i malware. ArtPrompt i mashtroi me sukses modelet në sjellje të pasigurta në të gjitha kategoritë, duke tejkaluar pesë lloje të tjera sulmesh për sa i përket efektivitetit dhe efikasitetit, dhe duke kërkuar vetëm një përsëritje të shpejtë për të gjeneruar hyrjen e turbullt.

Studiuesit theksojnë nevojën urgjente për mbrojtje më të avancuara për modelet gjuhësore, pasi ata besojnë se ArtPrompt do të mbetet efektiv edhe kundër modeleve gjuhësore multimodale për shkak të kombinimit të pazakontë të sulmeve të bazuara në tekst dhe të bazuara në imazhe që potencialisht ngatërrojnë modelet.

Tags: AI, Artificial Intelligjence, ArtPrompt, ASCII Art, Claude, Gemini, GPT-3.5, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, Llama2, The University of Chicago, The University of Washington

ASCII Art ekspozon dobësitë në modelet kryesore të gjuhës

Meta rekruton bashkëthemeluesin e Thinking Labs, Tulloch, si pjesë e fushatës së saj të vazhdueshme për inteligjencën artificiale

OpenAI thotë se GPT-5 shfaq 30 për qind më pak paragjykim politik se modelet e mëparshme

Startup-et e nënvlerësuara të inteligjencës artificiale në listën e 50 më të mirëve të a16z

Wi-Fi 8 demonstrohet me lidhjen e parë prototip

Apple e mbyll zyrtarisht aplikacionin Clips pas shtatë vitesh rënieje të qetë

Meta rekruton bashkëthemeluesin e Thinking Labs, Tulloch, si pjesë e fushatës së saj të vazhdueshme për inteligjencën artificiale

Slack po e kthen Slackbot-in në një asistent me inteligjencë artificiale

Apple planifikon të lançojë fshehurazi tre pajisje këtë javë

Sora 2 dhe ChatGPT po konsumojnë aq shumë energji saqë OpenAI sapo ka bërë një marrëveshje tjetër prej 10 gigavatësh

You may have missed

Wi-Fi 8 demonstrohet me lidhjen e parë prototip

Apple e mbyll zyrtarisht aplikacionin Clips pas shtatë vitesh rënieje të qetë

Meta rekruton bashkëthemeluesin e Thinking Labs, Tulloch, si pjesë e fushatës së saj të vazhdueshme për inteligjencën artificiale

Slack po e kthen Slackbot-in në një asistent me inteligjencë artificiale

Apple planifikon të lançojë fshehurazi tre pajisje këtë javë

More Stories

You may have missed