Anthropic thotë se paraqitjet “të liga” të AI-së ishin përgjegjëse për përpjekjet e Claude për shantazh

foto

Portretizimet fiktive të inteligjencës artificiale mund të kenë një efekt të vërtetë në modelet e IA-së, sipas Anthropic.

foto

Vitin e kaluar, kompania tha se gjatë testeve para-lançimit që përfshinin një kompani fiktive, Claude Opus 4 shpesh përpiqej të shantazhonte inxhinierët për të shmangur zëvendësimin nga një sistem tjetër. Anthropic më vonë publikoi një studim që sugjeronte se modelet nga kompani të tjera kishin probleme të ngjashme me “mos-pozicionimin e agjentëve”.

foto

Me sa duket, Anthropic ka bërë më shumë punë rreth kësaj sjelljeje, duke pretenduar në një postim në X, “Ne besojmë se burimi origjinal i sjelljes ishte teksti në internet që e portretizon IA-në si të keqe dhe të interesuar në vetëmbrojtje”.

Kompania dha më shumë detaje në një postim në blog, duke deklaruar se që nga Claude Haiku 4.5, modelet e Anthropic “nuk përfshihen kurrë në shantazh [gjatë testimit], ndërsa modelet e mëparshme ndonjëherë e bënin këtë deri në 96% të kohës”.

Çfarë e shpjegon ndryshimin? Kompania tha se zbuloi se trajnimi mbi “dokumentet rreth kushtetutës së Claude dhe historitë fiktive rreth sjelljes së inteligjencës artificiale përmirësojnë në mënyrë të admirueshme harmonizimin”.

Lidhur me këtë, Anthropic tha se e gjeti trajnimin më efektiv kur përfshin “parimet që qëndrojnë në themel të sjelljes së përafruar” dhe jo vetëm “demonstrime vetëm të sjelljes së përafruar”.

“Të bësh të dyja së bashku duket të jetë strategjia më efektive”, tha kompania.