Anthropic thotë se paraqitjet “të liga” të AI-së ishin përgjegjëse për përpjekjet e Claude për shantazh

Portretizimet fiktive të inteligjencës artificiale mund të kenë një efekt të vërtetë në modelet e IA-së, sipas Anthropic.

Vitin e kaluar, kompania tha se gjatë testeve para-lançimit që përfshinin një kompani fiktive, Claude Opus 4 shpesh përpiqej të shantazhonte inxhinierët për të shmangur zëvendësimin nga një sistem tjetër. Anthropic më vonë publikoi një studim që sugjeronte se modelet nga kompani të tjera kishin probleme të ngjashme me “mos-pozicionimin e agjentëve”.

Me sa duket, Anthropic ka bërë më shumë punë rreth kësaj sjelljeje, duke pretenduar në një postim në X, “Ne besojmë se burimi origjinal i sjelljes ishte teksti në internet që e portretizon IA-në si të keqe dhe të interesuar në vetëmbrojtje”.

Kompania dha më shumë detaje në një postim në blog, duke deklaruar se që nga Claude Haiku 4.5, modelet e Anthropic “nuk përfshihen kurrë në shantazh [gjatë testimit], ndërsa modelet e mëparshme ndonjëherë e bënin këtë deri në 96% të kohës”.

Çfarë e shpjegon ndryshimin? Kompania tha se zbuloi se trajnimi mbi “dokumentet rreth kushtetutës së Claude dhe historitë fiktive rreth sjelljes së inteligjencës artificiale përmirësojnë në mënyrë të admirueshme harmonizimin”.

Lidhur me këtë, Anthropic tha se e gjeti trajnimin më efektiv kur përfshin “parimet që qëndrojnë në themel të sjelljes së përafruar” dhe jo vetëm “demonstrime vetëm të sjelljes së përafruar”.

“Të bësh të dyja së bashku duket të jetë strategjia më efektive”, tha kompania.

Tags: AI, Anthropic, Artificial Intelligence, Claude, Claude Haiku 4.5, Claude Opus, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, TechCrunch, Technology

Anthropic thotë se paraqitjet “të liga” të AI-së ishin përgjegjëse për përpjekjet e Claude për shantazh

OpenAI do t’i japë BE-së akses në modelin e ri kibernetik, por Anthropic ende po heziton për Mythos

OpenAI u lejon punonjësve të shesin deri në 30 milionë dollarë secili në programin e tenderit për punonjësit në tetor

OpenAI lançon një degë konsulence për AI me vlerë 14 miliardë dollarë

OpenAI do t’i japë BE-së akses në modelin e ri kibernetik, por Anthropic ende po heziton për Mythos

Venmo më në fund po rregullon privatësinë, tetë vjet pas dështimeve “alarmante”

TikTok po u lejon përdoruesve në Mbretërinë e Bashkuar të paguajnë për të hequr reklamat

OpenAI u lejon punonjësve të shesin deri në 30 milionë dollarë secili në programin e tenderit për punonjësit në tetor