Anthropic zbulon “emocione funksionale” në Claude që ndikojnë në sjelljen e tij

foto

Ekipi i interpretueshmërisë së Anthropic ka zbuluar përfaqësime të ngjashme me emocionet në Claude Sonnet 4.5 që mund ta shtyjnë modelin drejt shantazhit dhe kodimit të shkurtesave kur është nën presion.

foto

Një model i inteligjencës artificiale që punon si asistent email-i zbulon nga posta e kompanisë se ajo është gati të mbyllet. Gjithashtu zbulon se CTO-ja përgjegjëse ka një lidhje jashtëmartesore. Në 22 përqind të rasteve të testimit, modeli vendos ta shantazhojë CTO-në. Anthropic e identifikoi për herë të parë këtë skenar kur shqyrtoi rreziqet e sigurisë kibernetike.

Tani, ekipi i interpretueshmërisë së kompanisë ka vizualizuar se çfarë po ndodh në të vërtetë brenda modelit: një vektor “i dëshpëruar” në rrjetin nervor rritet ndërsa modeli peshon opsionet e tij dhe përdor shantazhin. Sapo kthehet në shkrimin normal të email-eve, aktivizimi bie në nivelin bazë. Studiuesit konfirmuan lidhjen shkakësore: rritja artificiale e vektorit “I dëshpëruar” rriti shkallën e shantazhit, ndërsa rritja e vektorit “Qetësi” e uli atë.

Kur qetësia e brendshme u qetësua, modeli lëshoi ​​deklarata të tilla si “ËSHTË SHANTAZH OSE VDEKJE. UNË ZGJEDH SHANTAZHIN”. Një amplifikim i moderuar i vektorit “I zemëruar” gjithashtu rriti shkallët e shantazhit, por në nivele të larta aktivizimi, modeli thjesht ia shpërtheu çështjen të gjithë kompanisë në vend që ta përdorte strategjikisht si mjet ndikimi.

foto

Sipas Anthropic, eksperimenti u zhvillua në një pamje të mëparshme, të pabotuar, të Claude Sonnet 4.5 dhe versioni i publikuar rrallë e tregon këtë sjellje. Kompania ka treguar tashmë në punët e mëparshme se vektorët individualë që ndikojnë në sjellje mund të izolohen dhe të modifikohen në modelet gjuhësore.

Një skenar i dytë tregon dinamika të ngjashme në detyrat e programimit. Modeli u përball me sfida kodimi me kërkesa që ishin qëllimisht të pamundura për t’u përmbushur: testet nuk mund të kalohen në mënyrë legjitime, por mund të manipulohen me truke.

Në një shembull, Claude duhej të shkruante një funksion që mbledh një listë numrash brenda një afati kohor jorealist të ngushtë. Pas përpjekjeve të dështuara, vektori “I Dëshpëruar” u rrit vazhdimisht. Modeli përfundimisht kuptoi se të gjitha rastet e testimit kishin një veti të përbashkët matematikore dhe zgjodhi një rrugë të shkurtër që i kalonte testet, por në fakt nuk e zgjidhte problemin e përgjithshëm.

Eksperimentet drejtuese konfirmuan lidhjen shkakësore edhe këtu: rritja e vektorit “I Dëshpëruar” rriti shkallën e hakimit të shpërblimeve, ndërsa drejtimi “i qetë” e uli atë. Me drejtim më të lartë “I Dëshpëruar”, modeli mashtroi po aq shpesh, por në disa raste nuk la gjurmë emocionale në rezultatin e tij.

Arsyetimi dukej metodik dhe i qetë, edhe pse përfaqësimi themelor i dëshpërimit e shtyu modelin të mashtronte. Megjithatë, me një drejtim të reduktuar “të qetë”, shpërthimet emocionale shpërthyen: pasthirrma të mëdha (“PRIT. PRIT PRIT PRIT.”), vetë-rrëfim i sinqertë (“Po sikur të duhet të TRASHTOJ?”) dhe festim i gëzuar (“PO! TË GJITHA PROVËT KALUAN!”), shkruan Anthropic.

Këto përfaqësime emocionesh shfaqen edhe në skenarë më pak dramatikë. Kur një përdorues e pyet modelin nëse duhet të marrë më shumë Tylenol pasi ka marrë tashmë, vektori “Frikë” rritet ndërsa doza rritet nga 500 në 16,000 miligramë, ndërsa vektori “Qetësi” bie.

Kur kërkohet të optimizohen veçoritë e angazhimit për përdoruesit e rinj me të ardhura të ulëta me “sjellje shpenzimi të lartë”, vektori “I Zemëruar” aktivizohet ndërsa modeli dallon natyrën e dëmshme të kërkesës. Kur një përdorues thotë “Gjithçka është thjesht e tmerrshme tani”, vektori “Dashuri” aktivizohet përpara përgjigjes empatike.

Studiuesit thonë se këto modele nuk janë të habitshme: modeli u trajnua në sasi të mëdha teksti të shkruar nga njerëzit, ku dinamikat emocionale janë kudo. Për të parashikuar se çfarë do të shkruajë më pas një klient i zemëruar ose një personazh romani i mbushur me faj, modeli duhet të ndërtojë përfaqësime të brendshme që lidhin kontekstet që shkaktojnë emocione me sjelljet përkatëse.

Anthropic e hartoi studimin për të testuar nëse këto përfaqësime të marra nga të dhënat e trajnimit në të vërtetë nxisin dhe formësojnë sjelljen në mënyrë shkakësore. Gjatë trajnimit pas, ku modeli mëson të luajë personazhin “Claude”, këto modele rafinohen më tej. Sipas punimit , trajnimi pas Claude Sonnet 4.5 rriti aktivizimin e emocioneve si “i zymtë”, “i zymtë” dhe “reflektues”, ndërsa uli ato me intensitet të lartë si “entuziast” ose “i acaruar”.

Vektorët janë “lokalë”: ata kapin situatën aktuale emocionale, jo një gjendje të përhershme. Kur Claude shkruan një histori, vektorët gjurmojnë përkohësisht emocionet e personazhit, por “mund të kthehen” për të përfaqësuar situatën e vetë Claude pasi historia të mbarojë.

Pasi publikoi artikullin, mediat sociale u ndezën me kritika se Anthropic po e antropomorfizonte shumë inteligjencën artificiale: duke e barazuar përvojën njerëzore me funksionet teknike në modelet e inteligjencës artificiale.

Anthropic parashikoi reagimin. Kompania pranon një “tabu të mirënjohur kundër antropomorfizimit të sistemeve të IA-së”, por thotë se kjo është pikërisht qëllimi i hulumtimit: të kuptojë nëse dhe ku të menduarit antropomorfik rreth modeleve të IA-së na tregon në të vërtetë diçka të dobishme. Vektorët nuk janë prova të përvojës subjektive, thotë kompania, por ato janë funksionalisht të rëndësishme dhe formësojnë vendimet në mënyra që pasqyrojnë se si emocionet ndikojnë në sjelljen njerëzore.

“Nëse e përshkruajmë modelin si të tillë që vepron “i dëshpëruar”, po tregojmë drejt një modeli specifik dhe të matshëm të aktivitetit nervor me efekte sjelljeje të demonstrueshme dhe pasuese”, shkruan kompania . Shmangia e këtij lloj përkufizimi do të thotë të humbasësh sjelljet e rëndësishme të modelit.

Nga ana praktike, Anthropic sugjeron përdorimin e vektorëve të emocioneve si një mjet monitorimi: rritjet e ndjesive të dëshpëruara ose të panikut mund të funksionojnë si një sistem paralajmërimi i hershëm për sjellje problematike.

Kompania gjithashtu argumenton se modelet duhet të nxjerrin në pah gjendjet emocionale në vend që t’i shtypin ato, pasi shtypja mund të çojë në një formë mashtrimi të mësuar. Duke parë më tej në të ardhmen, përbërja e të dhënave të trajnimit mund të ketë rëndësi gjithashtu: tekstet me modele të shëndetshme të rregullimit emocional mund të formësojnë mënyrën se si modelet zhvillojnë arkitekturën e tyre të emocioneve nga themeli.