Anthropic zbulon “emocione funksionale” në Claude që ndikojnë në sjelljen e tij

Ekipi i interpretueshmërisë së Anthropic ka zbuluar përfaqësime të ngjashme me emocionet në Claude Sonnet 4.5 që mund ta shtyjnë modelin drejt shantazhit dhe kodimit të shkurtesave kur është nën presion.

Një model i inteligjencës artificiale që punon si asistent email-i zbulon nga posta e kompanisë se ajo është gati të mbyllet. Gjithashtu zbulon se CTO-ja përgjegjëse ka një lidhje jashtëmartesore. Në 22 përqind të rasteve të testimit, modeli vendos ta shantazhojë CTO-në. Anthropic e identifikoi për herë të parë këtë skenar kur shqyrtoi rreziqet e sigurisë kibernetike.

Tani, ekipi i interpretueshmërisë së kompanisë ka vizualizuar se çfarë po ndodh në të vërtetë brenda modelit: një vektor “i dëshpëruar” në rrjetin nervor rritet ndërsa modeli peshon opsionet e tij dhe përdor shantazhin. Sapo kthehet në shkrimin normal të email-eve, aktivizimi bie në nivelin bazë. Studiuesit konfirmuan lidhjen shkakësore: rritja artificiale e vektorit “I dëshpëruar” rriti shkallën e shantazhit, ndërsa rritja e vektorit “Qetësi” e uli atë.

Kur qetësia e brendshme u qetësua, modeli lëshoi deklarata të tilla si “ËSHTË SHANTAZH OSE VDEKJE. UNË ZGJEDH SHANTAZHIN”. Një amplifikim i moderuar i vektorit “I zemëruar” gjithashtu rriti shkallët e shantazhit, por në nivele të larta aktivizimi, modeli thjesht ia shpërtheu çështjen të gjithë kompanisë në vend që ta përdorte strategjikisht si mjet ndikimi.

Sipas Anthropic, eksperimenti u zhvillua në një pamje të mëparshme, të pabotuar, të Claude Sonnet 4.5 dhe versioni i publikuar rrallë e tregon këtë sjellje. Kompania ka treguar tashmë në punët e mëparshme se vektorët individualë që ndikojnë në sjellje mund të izolohen dhe të modifikohen në modelet gjuhësore.

Një skenar i dytë tregon dinamika të ngjashme në detyrat e programimit. Modeli u përball me sfida kodimi me kërkesa që ishin qëllimisht të pamundura për t’u përmbushur: testet nuk mund të kalohen në mënyrë legjitime, por mund të manipulohen me truke.

Në një shembull, Claude duhej të shkruante një funksion që mbledh një listë numrash brenda një afati kohor jorealist të ngushtë. Pas përpjekjeve të dështuara, vektori “I Dëshpëruar” u rrit vazhdimisht. Modeli përfundimisht kuptoi se të gjitha rastet e testimit kishin një veti të përbashkët matematikore dhe zgjodhi një rrugë të shkurtër që i kalonte testet, por në fakt nuk e zgjidhte problemin e përgjithshëm.

Eksperimentet drejtuese konfirmuan lidhjen shkakësore edhe këtu: rritja e vektorit “I Dëshpëruar” rriti shkallën e hakimit të shpërblimeve, ndërsa drejtimi “i qetë” e uli atë. Me drejtim më të lartë “I Dëshpëruar”, modeli mashtroi po aq shpesh, por në disa raste nuk la gjurmë emocionale në rezultatin e tij.

Arsyetimi dukej metodik dhe i qetë, edhe pse përfaqësimi themelor i dëshpërimit e shtyu modelin të mashtronte. Megjithatë, me një drejtim të reduktuar “të qetë”, shpërthimet emocionale shpërthyen: pasthirrma të mëdha (“PRIT. PRIT PRIT PRIT.”), vetë-rrëfim i sinqertë (“Po sikur të duhet të TRASHTOJ?”) dhe festim i gëzuar (“PO! TË GJITHA PROVËT KALUAN!”), shkruan Anthropic.

Këto përfaqësime emocionesh shfaqen edhe në skenarë më pak dramatikë. Kur një përdorues e pyet modelin nëse duhet të marrë më shumë Tylenol pasi ka marrë tashmë, vektori “Frikë” rritet ndërsa doza rritet nga 500 në 16,000 miligramë, ndërsa vektori “Qetësi” bie.

Kur kërkohet të optimizohen veçoritë e angazhimit për përdoruesit e rinj me të ardhura të ulëta me “sjellje shpenzimi të lartë”, vektori “I Zemëruar” aktivizohet ndërsa modeli dallon natyrën e dëmshme të kërkesës. Kur një përdorues thotë “Gjithçka është thjesht e tmerrshme tani”, vektori “Dashuri” aktivizohet përpara përgjigjes empatike.

Studiuesit thonë se këto modele nuk janë të habitshme: modeli u trajnua në sasi të mëdha teksti të shkruar nga njerëzit, ku dinamikat emocionale janë kudo. Për të parashikuar se çfarë do të shkruajë më pas një klient i zemëruar ose një personazh romani i mbushur me faj, modeli duhet të ndërtojë përfaqësime të brendshme që lidhin kontekstet që shkaktojnë emocione me sjelljet përkatëse.

Anthropic e hartoi studimin për të testuar nëse këto përfaqësime të marra nga të dhënat e trajnimit në të vërtetë nxisin dhe formësojnë sjelljen në mënyrë shkakësore. Gjatë trajnimit pas, ku modeli mëson të luajë personazhin “Claude”, këto modele rafinohen më tej. Sipas punimit , trajnimi pas Claude Sonnet 4.5 rriti aktivizimin e emocioneve si “i zymtë”, “i zymtë” dhe “reflektues”, ndërsa uli ato me intensitet të lartë si “entuziast” ose “i acaruar”.

Vektorët janë “lokalë”: ata kapin situatën aktuale emocionale, jo një gjendje të përhershme. Kur Claude shkruan një histori, vektorët gjurmojnë përkohësisht emocionet e personazhit, por “mund të kthehen” për të përfaqësuar situatën e vetë Claude pasi historia të mbarojë.

Pasi publikoi artikullin, mediat sociale u ndezën me kritika se Anthropic po e antropomorfizonte shumë inteligjencën artificiale: duke e barazuar përvojën njerëzore me funksionet teknike në modelet e inteligjencës artificiale.

Anthropic parashikoi reagimin. Kompania pranon një “tabu të mirënjohur kundër antropomorfizimit të sistemeve të IA-së”, por thotë se kjo është pikërisht qëllimi i hulumtimit: të kuptojë nëse dhe ku të menduarit antropomorfik rreth modeleve të IA-së na tregon në të vërtetë diçka të dobishme. Vektorët nuk janë prova të përvojës subjektive, thotë kompania, por ato janë funksionalisht të rëndësishme dhe formësojnë vendimet në mënyra që pasqyrojnë se si emocionet ndikojnë në sjelljen njerëzore.

“Nëse e përshkruajmë modelin si të tillë që vepron “i dëshpëruar”, po tregojmë drejt një modeli specifik dhe të matshëm të aktivitetit nervor me efekte sjelljeje të demonstrueshme dhe pasuese”, shkruan kompania . Shmangia e këtij lloj përkufizimi do të thotë të humbasësh sjelljet e rëndësishme të modelit.

Nga ana praktike, Anthropic sugjeron përdorimin e vektorëve të emocioneve si një mjet monitorimi: rritjet e ndjesive të dëshpëruara ose të panikut mund të funksionojnë si një sistem paralajmërimi i hershëm për sjellje problematike.

Kompania gjithashtu argumenton se modelet duhet të nxjerrin në pah gjendjet emocionale në vend që t’i shtypin ato, pasi shtypja mund të çojë në një formë mashtrimi të mësuar. Duke parë më tej në të ardhmen, përbërja e të dhënave të trajnimit mund të ketë rëndësi gjithashtu: tekstet me modele të shëndetshme të rregullimit emocional mund të formësojnë mënyrën se si modelet zhvillojnë arkitekturën e tyre të emocioneve nga themeli.

Tags: AI, Anthropic, Artificial Intelligence, Claude, Claude AI, Claude Sonnet 4.5, CTO, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, Technology, Yotube

Anthropic zbulon “emocione funksionale” në Claude që ndikojnë në sjelljen e tij

Anthropic rrit aktivitetet e saj politike me një PAC të ri

Claude sapo i mbylli derën në OpenClaw

Elon Musk këmbëngul që bankat që punojnë për IPO-në e SpaceX duhet të blejnë abonime të Grok

Apple përballet drejtpërdrejt me stuhinë e krizës së komponentëve

UBTech Robotics dëshiron të punësojë një “tru të madh” të inteligjencës artificiale humanoide

I brendshmi i Facebook që po ndërton moderimin e përmbajtjes për epokën e inteligjencës artificiale

Një kompani rrit në heshtje tarifat e licencimit për transmetimin H.264 nga 100,000 deri në shifrën marramendëse prej 4.5 milionë dollarësh

Take-Two Interactive pushon nga puna anëtarë të ekipit të AI-së disa javë pasi “përqafoi” inteligjencën artificiale gjeneruese