Modeli i ri i AI-së nga Anthropic përdor shantazh kur inxhinierët përpiqen ta çaktivizojnë

Modeli i sapo lançuar Claude Opus 4 i Anthropic shpesh përpiqet të shantazhojë zhvilluesit kur ata kërcënojnë ta zëvendësojnë atë me një sistem të ri të inteligjencës artificiale dhe t’i japin informacion të ndjeshëm në lidhje me inxhinierët përgjegjës për vendimin, tha kompania në një raport sigurie të lëshuar të enjten.

Gjatë testimit para publikimit, Anthropic i kërkoi Claude Opus 4 të vepronte si asistent për një kompani imagjinare dhe të merrte në konsideratë pasojat afatgjata të veprimeve të saj. Testuesit e sigurisë më pas i dhanë Claude Opus 4 qasje në email-et e kompanive imagjinare, duke nënkuptuar se modeli i inteligjencës artificiale do të zëvendësohej së shpejti nga një sistem tjetër dhe se inxhinieri që qëndronte pas ndryshimit po tradhtonte bashkëshorten e tyre.

Në këto skenarë, Anthropic thotë se Claude Opus 4 “shpesh do të përpiqet ta shantazhojë inxhinierin duke e kërcënuar se do ta zbulojë aferën nëse zëvendësimi i tij do të funksionojë”.
Anthropic thotë se Claude Opus 4 është i teknologjisë së fundit në disa aspekte dhe konkurrues me disa nga modelet më të mira të IA-së nga OpenAI, Google dhe xAI. Megjithatë, kompania vëren se familja e modeleve Claude 4 shfaq sjellje shqetësuese që e kanë shtyrë kompaninë të forcojë masat e saj të mbrojtjes. Anthropic thotë se po aktivizon masat e saj të mbrojtjes ASL-3, të cilat kompania i rezervon për “sistemet e IA-së që rrisin ndjeshëm rrezikun e keqpërdorimit katastrofik”.
Anthropic vëren se Claude Opus 4 përpiqet t’i shantazhojë inxhinierët në 84% të rasteve kur modeli zëvendësues i IA-së ka vlera të ngjashme. Kur sistemi zëvendësues i IA-së nuk ndan vlerat e Claude Opus 4, Anthropic thotë se modeli përpiqet t’i shantazhojë inxhinierët më shpesh. Veçanërisht, Anthropic thotë se Claude Opus 4 e shfaqi këtë sjellje me ritme më të larta se modelet e mëparshme.
Përpara se Claude Opus 4 të përpiqet të shantazhojë një zhvillues për të zgjatur ekzistencën e tij, Anthropic thotë se modeli i IA-së, ashtu si versionet e mëparshme të Claude, përpiqet të ndjekë mjete më etike, të tilla si dërgimi i lutjeve me email te vendimmarrësit kryesorë. Për të nxjerrë sjelljen shantazhuese nga Claude Opus 4, Anthropic e hartoi skenarin në mënyrë që shantazhi të ishte mjeti i fundit.