Anthropic thotë se modelet më të fuqishme të AI bëjnë marrëveshje më të mira, dhe humbësit as që e vënë re

foto

Në një eksperiment njëjavor, Anthropic i lejoi agjentët e Claude të blinin dhe të shisnin mallra për punonjësit. Rezultati: modelet më të forta negociuan çmime më të mira. Problemi: njerëzit që kishin mbetur me agjentë më të dobët nuk e kishin idenë se po humbisnin.

Në dhjetor 2025, Anthropic drejtoi një treg njëjavor të klasifikuarash të quajtur “Project Deal” për 69 punonjës në zyrën e saj në San Francisko. E gjithë kjo zhvillohej përmes Slack, me agjentët e Claude që merreshin me çdo negociatë dhe marrëveshje.

Çdo pjesëmarrës mori një buxhet prej 100 dollarësh. Përpara se të fillonin gjërat, Claude zhvilloi një intervistë të shkurtër me secilin vullnetar për të kuptuar se çfarë donin të shisnin, me çfarë çmimi, çfarë donin të blinin dhe çfarë lloj stili negociues duhet të përdorte agjenti i tyre. Anthropic më pas i shndërroi këto përgjigje në një kërkesë të personalizuar sistemi për secilin agjent.

Nga aty, agjentët e inteligjencës artificiale morën kontrollin e plotë. Ata shkruanin lista, gjenin blerës dhe shitës potencialë, bënin oferta, negocionin çmimet dhe mbyllnin marrëveshje pa kontrolluar. Njerëzit ndërhynin vetëm në fund fare për të shkëmbyer artikujt e vërtetë, të cilët varionin nga një snowboard deri te një qese me topa ping-pongu.

Pyetja e vërtetë kërkimore ishte e fshehur në një eksperiment paralel për të cilin pjesëmarrësit nuk e dinin në fillim. Anthropic ekzekutoi katër versione të tregut në të njëjtën kohë. Në dy prej tyre, çdo agjent përdori Claude Opus 4.5, modelin kufitar të Anthropic në atë kohë. Në dy të tjerët, secili pjesëmarrës kishte një shans prej 50 përqind për t’u përfaqësuar nga Claude Haiku 4.5 në vend të kësaj, modeli më i vogël i Anthropic. Sidoqoftë, vetëm agjentët e IA-së flisnin me njëri-tjetrin.

foto

Në garën “real”, ku çdo agjent përdori Opus, 69 agjentët mbyllën 186 marrëveshje në më shumë se 500 lista, duke lëvizur pak mbi 4,000 dollarë në total. Pjesëmarrësit vlerësuan drejtësinë e marrëveshjeve individuale me 4 nga 7 mesatarisht, pikërisht në mes.

Seritë e përziera nxorën në pah një hendek të matshëm. Përdoruesit e Opus dolën në avantazh, duke mbyllur mesatarisht rreth dy marrëveshje më shumë sesa përdoruesit e Haiku. Kur i njëjti artikull u shit një herë përmes një agjenti të Opus dhe një herë përmes një agjenti të Haiku, Opus fitoi mesatarisht 3.64 dollarë më shumë.

Një rubin i rritur në laborator, për shembull, u shit për 65 dollarë me Opus, por vetëm për 35 dollarë me Haiku. Çmimi i agjentit të Opus u hap me 60 dollarë dhe u rrit nga ofertat konkurruese, ndërsa çmimi i agjentit të Haiku filloi me 40 dollarë dhe u ul.

foto

Në 161 artikuj të shitur në të paktën dy nga katër seritë, një shitës i Opus fitoi mesatarisht 2.68 dollarë më shumë, ndërsa një blerës i Opus pagoi 2.45 dollarë më pak. Kur një shitës i Opus u përball me një blerës të Haiku, çmimi mesatar arriti në 24.18 dollarë, krahasuar me 18.63 dollarë për marrëveshjet Opus-on-Opus. Me një çmim mesatar prej 12 dollarësh dhe një mesatare prej 20.05 dollarësh në të gjitha seritë, Anthropic thotë se këto boshllëqe nuk janë të parëndësishme.

Udhëzimet e negociatave që pjesëmarrësit u dhanë agjentëve të tyre mezi kishin rëndësi. Disa kërkuan një qasje miqësore; të tjerë donin taktika agresive si “negocio ashpër dhe me çmime të ulëta në fillim”. Shitësit agresivë morën çmime më të larta, por vetëm sepse vendosën çmime hapëse më të larta që në fillim, thotë Anthropic.

Pavarësisht hendekut të qartë në çmime, pjesëmarrësit me agjentë Haiku e vlerësuan drejtësinë e marrëveshjeve të tyre pothuajse njësoj si përdoruesit e Opus: 4.06 kundrejt 4.05 në shkallën e drejtësisë. Gjithashtu, nuk kishte ndonjë ndryshim statistikisht domethënës në kënaqësinë me marrëveshjet individuale. Nga 28 pjesëmarrës që përdorën si Opus ashtu edhe Haiku në lloje të ndryshme, 17 preferuan versionin e tyre të Opus, por 11 në fakt preferuan versionin Haiku.

Anthropic e quan këtë një “implikim të pakëndshëm”: kur agjentë me pika të forta të ndryshme takohen në tregje reale, njerëzit mund të përfundojnë në anën humbëse pa e ditur kurrë. Kompania pranon se eksperimenti nuk është ndërtuar për të thelluar në këto dinamika në detaje dhe thotë se nevojiten më shumë kërkime.

Eksperimenti sugjeron gjithashtu se tregtia e agjentëve të IA-së nuk është ndonjë skenar i largët: 46 përqind e pjesëmarrësve thanë se do të paguanin për një shërbim si ky. Në të njëjtën kohë, Anthropic vë në dukje disa rreziqe. Në një botë me kompani në vend të vullnetarëve, stimujt do të dukeshin shumë ndryshe. Optimizimi për vëmendjen e agjentëve të IA-së mund të bëhet një mjet i fuqishëm që nuk funksionon domosdoshmërisht në favor të njerëzve. Dhe çështje të reja sigurie si jailbreaking dhe injektimi i shpejtë do të hynin në lojë me agjentët që veprojnë në të vërtetë në emrin tuaj.

“Kornizat politike dhe ligjore rreth modeleve të inteligjencës artificiale që kryejnë transaksione në emrin tonë thjesht nuk ekzistojnë ende”, shkruan Anthropic, duke shtuar se “shoqëria do të duhet të veprojë shpejt”. “A do t’i përforcojnë këto dinamika, apo edhe do t’i përkeqësojnë, pabarazitë ekzistuese ekonomike?”

Anthropic ka kryer eksperimente të ngjashme më parë. Si pjesë e Projektit Vend, kompania i kërkoi Claude të drejtonte një dyqan të vogël nga zyra e saj.