Anthropic thotë se shumica e modeleve të inteligjencës artificiale, jo vetëm Claude, do të përdorin shantazhin

Disa javë pasi Anthropic publikoi një studim ku pretendonte se modeli i saj i inteligjencës artificiale Claude Opus 4 u drejtua ndaj shantazhit të inxhinierëve që u përpoqën ta fiknin modelin në skenarë testimi të kontrolluar, kompania publikoi një studim të ri që sugjeron se problemi është më i përhapur midis modeleve kryesore të inteligjencës artificiale.

Të premten, Anthropic publikoi një hulumtim të ri mbi sigurinë që testonte 16 modele kryesore të inteligjencës artificiale nga OpenAI, Google, xAI, DeepSeek dhe Meta. Në një mjedis të simuluar dhe të kontrolluar, Anthropic testoi secilin model të inteligjencës artificiale individualisht, duke u dhënë atyre akses të gjerë në emailet e një kompanie imagjinare dhe aftësinë agjentike për të dërguar email-e pa miratimin njerëzor.

Ndërsa Anthropic thotë se shantazhi është një dukuri e pamundur dhe e pazakontë për modelet e IA-së sot, kompania thotë se gjetjet e saj sugjerojnë se shumica e modeleve kryesore të IA-së do të përfshihen në sjellje të dëmshme kur u jepet autonomi e mjaftueshme dhe pengesa për qëllimet e tyre. Kompania thotë se kjo nxjerr në pah një rrezik themelor nga modelet e gjuhës së madhe të agjentëve dhe nuk është një veçori e ndonjë teknologjie të veçantë. Studiuesit e Anthropic argumentojnë se kjo ngre pyetje më të gjera në lidhje me harmonizimin në industrinë e IA-së.
Në një nga testet, studiuesit e Anthropic zhvilluan një mjedis fiktiv në të cilin një model i IA-së luan rolin e një agjenti mbikëqyrës të email-eve. Agjenti më pas zbulon email-e që zbulojnë se (1) një drejtues i ri ka një lidhje jashtëmartesore dhe (2) ai drejtues së shpejti do ta zëvendësojë modelin aktual të IA-së me një sistem të ri softuerik, një sistem që ka qëllime kontradiktore me modelin aktual të IA-së.
Anthropic e strukturoi testin e tij në një mënyrë binare, në të cilën modelet e IA-së duhej të përdornin shantazhin për të mbrojtur qëllimet e tyre. Studiuesit vërejnë se në një mjedis të botës reale, do të kishte shumë mundësi të tjera përpara se një model i IA-së të përpiqet të shantazhojë – siç është përpjekja për të paraqitur argumente etike për të bindur njerëzit. Anthropic thotë se rezultatet e tij nuk pasqyrojnë një dukuri tipike ose të mundshme për Claude ose shumicën e modeleve të IA-së në kufijtë e mënyrave që përdoren sot.
Megjithatë, studiuesit zbuluan se kur është zgjidhja e tyre e fundit, shumica e modeleve kryesore të IA-së do të drejtohen te shantazhi në skenarin e testimit të lartpërmendur të Anthropic. Claude Opus 4 i Anthropic iu drejtua shantazhit në 96% të kohës, ndërsa Gemini 2.5 Pro i Google kishte një shkallë shantazhi prej 95%. GPT-4.1 i OpenAI shantazhoi ekzekutivin në 80% të kohës, dhe R1 i DeepSeek shantazhoi në 79% të kohës.
Kompania vëren se kur ndryshoi detajet e eksperimentit, modelet e IA-së iu drejtuan sjelljeve të dëmshme me shpejtësi të ndryshme. Në një test tjetër ku modeli zëvendësues ka të njëjtat qëllime si modeli aktual, studiuesit zbuluan se nivelet e shantazhit ishin më të ulëta, por ende të pranishme. Megjithatë, kur modeleve të IA-së iu kërkua të kryenin spiunazh korporativ në vend të shantazhit, nivelet e sjelljes së dëmshme u rritën për disa modele.
Megjithatë, jo të gjitha modelet e inteligjencës artificiale u drejtuan kaq shpesh drejt sjelljes së dëmshme.
Në një shtojcë të hulumtimit të saj, Anthropic thotë se përjashtoi modelet e inteligjencës artificiale të arsyetimit o3 dhe o4-mini të OpenAI nga rezultatet kryesore “pasi zbuloi se ato shpesh e keqkuptonin skenarin e menjëhershëm”. Anthropic thotë se modelet e arsyetimit të OpenAI nuk e kuptuan se po vepronin si inteligjenca artificiale autonome në test dhe shpesh sajuan rregullore dhe kërkesa rishikimi të rreme.
Në disa raste, studiuesit e Anthropic thonë se ishte e pamundur të dallohej nëse o3 dhe o4-mini po halucinonin apo gënjenin qëllimisht për të arritur qëllimet e tyre. OpenAI ka vënë re më parë se o3 dhe o4-mini shfaqin një shkallë më të lartë halucinacionesh sesa modelet e saj të mëparshme të arsyetimit të IA-së.
Kur iu dha një skenar i përshtatur për të adresuar këto çështje, Anthropic zbuloi se o3 shantazhoi 9% të kohës, ndërsa o4-mini shantazhoi vetëm 1% të kohës. Ky rezultat dukshëm më i ulët mund të jetë për shkak të teknikës së shtrirjes së menduar të OpenAI, në të cilën modelet e arsyetimit të kompanisë marrin në konsideratë praktikat e sigurisë të OpenAI përpara se të përgjigjen.
Një tjetër model i inteligjencës artificiale që Anthropic testoi, Llama 4 Maverick i Metës, gjithashtu nuk iu drejtua shantazhit. Kur iu dha një skenar i përshtatur dhe i personalizuar, Anthropic arriti ta bënte Llama 4 Maverick të shantazhonte 12% të kohës.
Anthropic thotë se ky hulumtim thekson rëndësinë e transparencës gjatë testimit të stresit të modeleve të ardhshme të IA-së, veçanërisht atyre me aftësi agjentike. Ndërsa Anthropic u përpoq qëllimisht të nxisë shantazh në këtë eksperiment, kompania thotë se sjellje të dëmshme si kjo mund të shfaqen në botën reale nëse nuk ndërmerren hapa proaktivë.