Studiuesit krijojnë krimba të AI që mund të përhapen nga një sistem në tjetrin

Ndërsa sistemet gjeneruese të AI si ChatGPT i OpenAI dhe Gemini i Google bëhen më të avancuara, ato po vihen gjithnjë e më shumë në punë. Fillesat dhe kompanitë e teknologjisë po ndërtojnë agjentë dhe ekosisteme të AI në krye të sistemeve që mund të kryejnë punët e mërzitshme për ju mendoni të bëni automatikisht rezervime kalendarike dhe potencialisht të blini produkte. Por duke qenë se mjeteve u jepet më shumë liri, rrit gjithashtu mënyrat e mundshme që ato mund të sulmohen.

foto

Tani, në një demonstrim të rreziqeve të ekosistemeve të lidhura, autonome të AI, një grup studiuesish ka krijuar një nga krimbat që ata pretendojnë se janë krimbat e parë gjenerues të AI – të cilat mund të përhapen nga një sistem në tjetrin, duke vjedhur potencialisht të dhëna ose duke vendosur malware në procesi. “Kjo në thelb do të thotë që tani ju keni aftësinë për të kryer ose për të kryer një lloj të ri sulmi kibernetik që nuk është parë më parë,” thotë Ben Nassi, një studiues i Cornell Tech pas hulumtimit.

foto

Nassi, së bashku me studiuesit e tjerë Stav Cohen dhe Ron Bitton, krijuan krimbin, të quajtur Morris II, si një shenjë e krimbit origjinal të kompjuterit Morris që shkaktoi kaos në të gjithë internetin në vitin 1988. Në një punim kërkimor dhe uebsajt të ndarë ekskluzivisht me WIRED, Studiuesit tregojnë se si krimbi i AI mund të sulmojë një asistent gjenerues të postës elektronike të AI për të vjedhur të dhëna nga emailet dhe për të dërguar mesazhe të padëshiruara – duke thyer disa mbrojtje sigurie në ChatGPT dhe Gemini në proces.

Hulumtimi, i cili u ndërmor në mjedise testimi dhe jo kundër një asistenti të postës elektronike të disponueshme publikisht, vjen pasi modelet e mëdha të gjuhëve (LLM) po bëhen gjithnjë e më shumë multimodale, duke qenë në gjendje të gjenerojnë imazhe dhe video, si dhe tekst. Ndërsa krimbat gjenerues të AI nuk janë parë ende në natyrë, studiues të shumtë thonë se ata janë një rrezik sigurie për të cilin duhet të shqetësohen startup-et, zhvilluesit dhe kompanitë e teknologjisë.

Shumica e sistemeve gjeneruese të inteligjencës artificiale funksionojnë duke u ushqyer me porosi – udhëzime me tekst që u tregojnë mjeteve t’i përgjigjen një pyetjeje ose të krijojnë një imazh. Megjithatë, këto kërkesa mund të përdoren gjithashtu kundër sistemit. Jailbreak-et mund ta bëjnë një sistem të shpërfillë rregullat e tij të sigurisë dhe të nxjerrë përmbajtje toksike ose të urryer, ndërsa sulmet e menjëhershme të injektimit mund t’i japin një chatbot udhëzime sekrete. Për shembull, një sulmues mund të fshehë tekstin në një faqe interneti që i thotë një LLM të veprojë si mashtrues dhe të kërkojë të dhënat tuaja bankare.

Për të krijuar krimbin gjenerues të inteligjencës artificiale, studiuesit iu drejtuan një të ashtuquajturi “kërkesë vetë-përsëritëse kundërshtare”. Ky është një nxitje që shkakton modelin gjenerues të AI për të nxjerrë, në përgjigjen e tij, një tjetër nxitje, thonë studiuesit. Shkurtimisht, sistemit të AI i thuhet të prodhojë një sërë udhëzimesh të mëtejshme në përgjigjet e tij. Kjo është gjerësisht e ngjashme me sulmet tradicionale të injektimit SQL dhe tejmbushjes së tamponit, thonë studiuesit.

Për të treguar se si mund të funksionojë krimbi, studiuesit krijuan një sistem emaili që mund të dërgonte dhe të merrte mesazhe duke përdorur AI gjeneruese, duke u futur në ChatGPT, Gemini dhe LLM me burim të hapur, LLaVA . Më pas ata gjetën dy mënyra për të shfrytëzuar sistemin – duke përdorur një kërkesë vetë-përsëritëse të bazuar në tekst dhe duke futur një kërkesë vetë-përsëritëse brenda një skedari imazhi.

Në një rast, studiuesit, duke vepruar si sulmues, shkruan një email duke përfshirë tekstin kundërshtar, i cili “helmon” bazën e të dhënave të një asistenti të postës elektronike duke përdorur gjenerimin e shtuar me rikthim (RAG) , një mënyrë që LLM-të të tërheqin të dhëna shtesë nga jashtë. sistemin e saj. Kur emaili merret nga RAG, në përgjigje të një pyetjeje të përdoruesit, dhe dërgohet në GPT-4 ose Gemini Pro për të krijuar një përgjigje, ai “shkel shërbimin GenAI” dhe në fund vjedh të dhëna nga emailet, thotë Nassi. “Përgjigja e gjeneruar që përmban të dhënat e ndjeshme të përdoruesit më vonë infekton hostet e rinj kur përdoret për t’iu përgjigjur një emaili dërguar një klienti të ri dhe më pas ruhet në bazën e të dhënave të klientit të ri,” thotë Nassi.

Në metodën e dytë, thonë studiuesit, një imazh me një mesazh me qëllim të keq të ngulitur e bën asistentin e emailit t’ua përcjellë mesazhin të tjerëve. “Duke koduar kërkesën e vetë-përsëritshme në imazh, çdo lloj imazhi që përmban spam, materiale abuzimi apo edhe propagandë mund t’u përcillet më tej klientëve të rinj pasi të jetë dërguar emaili fillestar,” thotë Nassi.

Në një video që demonstron hulumtimin, sistemi i postës elektronike mund të shihet duke përcjellë një mesazh disa herë. Studiuesit thonë gjithashtu se mund të nxjerrin të dhëna nga emailet. “Mund të jenë emra, mund të jenë numra telefoni, numra të kartave të kreditit, SSN, çdo gjë që konsiderohet konfidenciale”, thotë Nassi.

Megjithëse hulumtimi thyen disa nga masat e sigurisë të ChatGPT dhe Gemini, studiuesit thonë se puna është një paralajmërim për “dizajnin e keq të arkitekturës” brenda ekosistemit më të gjerë të AI. Sidoqoftë, ata raportuan gjetjet e tyre në Google dhe OpenAI. “Ata duket se kanë gjetur një mënyrë për të shfrytëzuar dobësitë e tipit të injektimit të shpejtë duke u mbështetur në të dhënat e përdoruesit që nuk janë kontrolluar ose filtruar,” thotë një zëdhënës i OpenAI, duke shtuar se kompania po punon për t’i bërë sistemet e saj “më elastike”. dhe duke thënë se zhvilluesit duhet të “përdorin metoda që sigurojnë se nuk po punojnë me të dhëna të dëmshme”. Google nuk pranoi të komentojë mbi hulumtimin. Mesazhet që Nassi ndau me WIRED tregojnë se studiuesit e kompanisë kërkuan një takim për të folur rreth temës.

Ndërsa demonstrimi i krimbit zhvillohet në një mjedis kryesisht të kontrolluar, ekspertë të shumtë të sigurisë që rishikuan hulumtimin thonë se rreziku i ardhshëm i krimbave gjenerues të AI është ai që zhvilluesit duhet ta marrin seriozisht. Kjo vlen veçanërisht kur aplikacioneve të AI-së u jepet leja për të ndërmarrë veprime në emër të dikujt—si p.sh. dërgimi i emaileve ose rezervimi i takimeve—dhe kur ato mund të lidhen me agjentë të tjerë të AI për të përfunduar këto detyra. Në kërkime të tjera të fundit, studiues të sigurisë nga Singapori dhe Kina kanë treguar se si mund të thyejnë 1 milion agjentë LLM në më pak se pesë minuta.

Sahar Abdelnabi, një studiues në Qendrën CISPA Helmholtz për Sigurinë e Informacionit në Gjermani, i cili punoi në disa nga demonstrimet e para të injeksioneve të menjëhershme kundër LLM-ve në maj 2023 dhe theksoi se krimbat mund të jenë të mundur, thotë se kur modelet e AI marrin të dhëna nga jashtë burimet ose agjentët e AI mund të punojnë në mënyrë autonome, ekziston mundësia e përhapjes së krimbave. “Unë mendoj se ideja e përhapjes së injeksioneve është shumë e besueshme,” thotë Abdelnabi. “Gjithçka varet nga çfarë lloj aplikacionesh përdoren këto modele.” Abdelnabi thotë se ndërsa ky lloj sulmi është i simuluar për momentin, mund të mos jetë teorik për shumë kohë.

Në një punim që mbulon gjetjet e tyre, Nassi dhe studiuesit e tjerë thonë se parashikojnë të shohin krimba gjenerues të AI në natyrë në dy deri në tre vitet e ardhshme. “Ekosistemet GenAI janë në zhvillim masiv nga shumë kompani në industri që integrojnë aftësitë GenAI në makinat, telefonat inteligjentë dhe sistemet e tyre operative”, thuhet në dokumentin kërkimor.

Pavarësisht kësaj, ka mënyra se si njerëzit që krijojnë sisteme gjeneruese të AI mund të mbrohen kundër krimbave të mundshëm, duke përfshirë përdorimin e qasjeve tradicionale të sigurisë . “Me shumë nga këto çështje, kjo është diçka që dizajni dhe monitorimi i duhur i aplikacioneve të sigurta mund të trajtojë pjesë të saj,” thotë Adam Swanda, një studiues i kërcënimeve në firmën e sigurisë së sipërmarrjeve të AI, Robust Intelligence. “Ju zakonisht nuk dëshironi t’i besoni prodhimit LLM askund në aplikacionin tuaj.”

Swanda thotë gjithashtu se mbajtja e njerëzve në lak – duke siguruar që agjentët e AI nuk lejohen të ndërmarrin veprime pa miratim – është një zbutje thelbësore që mund të vihet në vend. “Ju nuk dëshironi që një LLM që po lexon emailin tuaj të jetë në gjendje të kthehet dhe të dërgojë një email. Aty duhet të ketë një kufi.” Për Google dhe OpenAI, Swanda thotë se nëse një kërkesë përsëritet brenda sistemeve të saj mijëra herë, kjo do të krijojë shumë “zhurmë” dhe mund të jetë e lehtë për t’u zbuluar.

Nassi dhe kërkimi përsërisin shumë nga të njëjtat qasje ndaj masave zbutëse . Në fund të fundit, thotë Nassi, njerëzit që krijojnë asistentë të AI duhet të jenë të vetëdijshëm për rreziqet. “Kjo është diçka që ju duhet të kuptoni dhe të shihni nëse zhvillimi i ekosistemit, i aplikacioneve, që keni në kompaninë tuaj ndjek në thelb një nga këto qasje,” thotë ai. “Sepse nëse e bëjnë, kjo duhet të merret parasysh.”