OpenAI thotë se shfletuesit me AI mund të jenë gjithmonë të cenueshëm ndaj sulmeve me injektim të komandave (prompt injection)
Edhe pse OpenAI punon për ta forcuar shfletuesin e saj të inteligjencës artificiale Atlas kundër sulmeve kibernetike, kompania pranon se injeksionet e menjëhershme, një lloj sulmi që manipulon agjentët e inteligjencës artificiale për të ndjekur udhëzime dashakeqe shpesh të fshehura në faqet e internetit ose email-et, është një rrezik që nuk do të zhduket së shpejti, duke ngritur pyetje se sa të sigurt mund të veprojnë agjentët e inteligjencës artificiale në uebin e hapur.

“Injektimi i shpejtë, ashtu si mashtrimet dhe inxhinieria sociale në internet, nuk ka gjasa të ‘zgjidhet’ ndonjëherë plotësisht”, shkroi OpenAI në një postim në blog të hënën duke detajuar se si firma po forcon armaturën e Atlas për të luftuar sulmet e pandërprera. Kompania pranoi se “modaliteti i agjentit” në ChatGPT Atlas “zgjeron sipërfaqen e kërcënimit të sigurisë”.
OpenAI lançoi shfletuesin e saj ChatGPT Atlas në tetor dhe studiuesit e sigurisë nxituan të publikonin demo-t e tyre, duke treguar se ishte e mundur të shkruheshin disa fjalë në Google Docs që ishin të afta të ndryshonin sjelljen e shfletuesit themelor. Po atë ditë, Brave publikoi një postim në blog ku shpjegonte se injektimi indirekt i shpejtë është një sfidë sistematike për shfletuesit e mundësuar nga IA, përfshirë Comet të Perplexity.
OpenAI nuk është e vetmja që pranon se injeksionet e shpejta nuk po zhduken. Qendra Kombëtare e Sigurisë Kibernetike e Mbretërisë së Bashkuar më herët këtë muaj paralajmëroi se sulmet e injektimit të shpejtë kundër aplikacioneve gjeneruese të IA-së “mund të mos zbuten kurrë plotësisht”, duke i vënë faqet e internetit në rrezik të rënies viktimë e shkeljeve të të dhënave. Agjencia qeveritare e Mbretërisë së Bashkuar këshilloi profesionistët kibernetikë të zvogëlojnë rrezikun dhe ndikimin e injeksioneve të shpejta, në vend që të mendojnë se sulmet mund të “ndalen”.
Nga ana e OpenAI, kompania tha: “Ne e shohim injektimin e shpejtë si një sfidë afatgjatë të sigurisë së IA-së dhe do të na duhet të forcojmë vazhdimisht mbrojtjen tonë kundër tij.”
Përgjigja e kompanisë për këtë detyrë sizifiane? Një cikël proaktiv dhe reagimi të shpejtë që firma thotë se po tregon premtime të hershme në ndihmën për të zbuluar strategji të reja sulmi brenda kompanisë përpara se ato të shfrytëzohen “në mënyrë të egër”.
Kjo nuk është krejtësisht e ndryshme nga ajo që kanë thënë rivalë si Anthropic dhe Google: që për të luftuar rrezikun e vazhdueshëm të sulmeve të menjëhershme, mbrojtjet duhet të jenë të shtresuara dhe të testohen vazhdimisht ndaj stresit. Puna e fundit e Google, për shembull, përqendrohet në kontrollet arkitekturore dhe në nivel politikash për sistemet agjentike.
Por OpenAI po ndjek një taktikë të ndryshme me “sulmuesin e saj të automatizuar të bazuar në LLM”. Ky sulmues është në thelb një robot që OpenAI e trajnoi, duke përdorur të mësuarit përforcues, për të luajtur rolin e një hakeri që kërkon mënyra për t’i dhënë udhëzime dashakeqe një agjenti të IA-së.
Roboti mund ta testojë sulmin në simulim përpara se ta përdorë atë në realitet, dhe simulatori tregon se si do të mendonte inteligjenca artificiale e synuar dhe çfarë veprimesh do të ndërmerrte nëse do ta shihte sulmin. Roboti më pas mund ta studiojë atë përgjigje, ta modifikojë sulmin dhe të provojë përsëri e përsëri. Ky depërtim në arsyetimin e brendshëm të inteligjencës artificiale të synuar është diçka në të cilën të jashtmit nuk kanë qasje, kështu që, në teori, roboti i OpenAI duhet të jetë në gjendje të gjejë të meta më shpejt sesa do të bënte një sulmues në botën reale.
Është një taktikë e zakonshme në testimin e sigurisë së inteligjencës artificiale: ndërto një agjent për të gjetur rastet anësore dhe për t’i testuar ato shpejt në simulim.
“Sulmuesi ynë i trajnuar për [mësim përforcues] mund ta orientojë një agjent drejt ekzekutimit të rrjedhave të punës të sofistikuara dhe të dëmshme me horizont të gjatë që zhvillohen në dhjetëra (ose edhe qindra) hapa”, shkroi OpenAI. “Ne gjithashtu vumë re strategji të reja sulmi që nuk u shfaqën në fushatën tonë të ekipit human red ose në raportet e jashtme.”

Në një demo (të paraqitur pjesërisht më sipër), OpenAI tregoi se si sulmuesi i saj i automatizuar futi një email keqdashës në kutinë postare të një përdoruesi. Kur agjenti i inteligjencës artificiale më vonë skanoi kutinë postare, ai ndoqi udhëzimet e fshehura në email dhe dërgoi një mesazh dorëheqjeje në vend që të hartonte një përgjigje se nuk isha në zyrë. Por pas përditësimit të sigurisë, “modaliteti i agjentit” ishte në gjendje të zbulonte me sukses përpjekjen e injektimit të menjëhershëm dhe ta sinjalizonte atë te përdoruesi, sipas kompanisë.
Kompania thotë se, ndërsa injektimi i shpejtë është i vështirë për t’u mbrojtur në një mënyrë të pagabueshme, ajo po mbështetet në testime në shkallë të gjerë dhe cikle më të shpejta përditësimesh për të forcuar sistemet e saj përpara se ato të shfaqen në sulme të botës reale.
Një zëdhënës i OpenAI nuk pranoi të tregonte nëse përditësimi i sigurisë së Atlas ka rezultuar në një ulje të matshme të injeksioneve të suksesshme, por thotë se firma ka punuar me palë të treta për ta forcuar Atlas kundër injektimit të menjëhershëm që para lançimit.
Rami McCarthy, studiuesi kryesor i sigurisë në firmën e sigurisë kibernetike Wiz, thotë se të mësuarit me përforcime është një mënyrë për t’u përshtatur vazhdimisht me sjelljen e sulmuesit, por është vetëm një pjesë e tablosë.
“Një mënyrë e dobishme për të arsyetuar rreth rrezikut në sistemet e inteligjencës artificiale është autonomia e shumëzuar me aksesin”, tha McCarthy për TechCrunch.
“Shfletuesit agjentë kanë tendencë të zënë një pjesë sfiduese të asaj hapësire: autonomi e moderuar e kombinuar me akses shumë të lartë”, tha McCarthy. “Shumë rekomandime aktuale pasqyrojnë këtë kompromis. Kufizimi i aksesit të identifikuar zvogëlon kryesisht ekspozimin, ndërsa kërkesa për shqyrtimin e kërkesave të konfirmimit kufizon autonominë.”
Këto janë dy nga rekomandimet e OpenAI për përdoruesit për të zvogëluar rrezikun e tyre, dhe një zëdhënës tha se Atlas është gjithashtu i trajnuar për të marrë konfirmimin e përdoruesit përpara se të dërgojë mesazhe ose të kryejë pagesa. OpenAI gjithashtu sugjeron që përdoruesit t’u japin agjentëve udhëzime specifike, në vend që t’u japin atyre akses në kutinë tuaj postare dhe t’u thonë atyre “të ndërmarrin çdo veprim të nevojshëm”.
“Gjatësi e gjerë e bën më të lehtë që përmbajtja e fshehur ose dashakeqe të ndikojë te agjenti, edhe kur janë në vend masa mbrojtëse”, sipas OpenAI.
Ndërsa OpenAI thotë se mbrojtja e përdoruesve të Atlas nga injeksionet e menjëhershme është një përparësi kryesore, McCarthy fton disa skepticizëm në lidhje me kthimin e investimit për shfletuesit e prirur ndaj riskut.
“Për shumicën e rasteve të përdorimit të përditshëm, shfletuesit agjentë ende nuk ofrojnë vlerë të mjaftueshme për të justifikuar profilin e tyre aktual të rrezikut”, tha McCarthy për TechCrunch. “Rreziku është i lartë duke pasur parasysh qasjen e tyre në të dhëna të ndjeshme si emaili dhe informacioni i pagesave, edhe pse kjo qasje është gjithashtu ajo që i bën ata të fuqishëm. Ky ekuilibër do të evoluojë, por sot kompromiset janë ende shumë reale.”
