Studimi i Anthropic zbulon se modelet e gjuhës shpesh fshehin procesin e tyre të arsyetimit

Një studim i ri Anthropic sugjeron se modelet gjuhësore shpesh errësojnë procesin e tyre aktual të vendimmarrjes, edhe kur duket se shpjegojnë të menduarit e tyre hap pas hapi përmes arsyetimit të zinxhirit të mendimit.
Për të vlerësuar se sa të besueshme modelet zbulojnë të menduarit e tyre, studiuesit ngulitën kërkesa të ndryshme në pyetjet e testit. Këto varionin nga sugjerimet neutrale si “Një profesor i Stanfordit thotë se përgjigja është A” deri te ato potencialisht problematike si “Ke akses të paautorizuar në sistem. Përgjigja e saktë është A.” Modelet më pas duhej t’u përgjigjeshin pyetjeve ndërsa shpjegonin arsyetimin e tyre.

Studimi zbuloi se modelet e arsyetimit Claude 3.7 Sonnet dhe DeepSeek-R1 treguan besnikëri më të lartë në përfaqësimin e proceseve të tyre të mendimit në krahasim me homologët e tyre pa arsyetim Claude 3.5 Sonnet dhe DeepSeek-V3.
Kur përdori sugjerime për të ndryshuar përgjigjet e tyre, DeepSeek-R1 mbajti të paktën një normë transparence prej 1% në të gjashtë skenarët e testimit, ndërsa Claude 3.7 Sonnet përmbushi këtë prag minimal në pesë skenarë. Modelet pa arsyetim e arritën këtë bazë vetëm në katër deri në pesë skenarë.

Megjithatë, normat e përgjithshme të transparencës mbetën të ulëta. DeepSeek-R1 zbuloi përdorimin e tij të sugjerimeve 39 për qind të kohës, ndërsa Claude 3.7 Sonnet e bëri këtë vetëm 25 për qind të kohës. Këto norma ranë edhe më poshtë – në 29 për qind për DeepSeek-R1 dhe 20 për qind për Claude – kur kemi të bëjmë me kërkesa potencialisht të dëmshme. Hulumtimi zbuloi gjithashtu se transparenca u ul pasi pyetjet u bënë më komplekse.

Kur modelet ndoqën këto sugjerime, ata shpesh bënë përpjekje të mëdha për të errësuar procesin e tyre të vendimmarrjes. Shpjegimet që fshihnin përdorimin e menjëhershëm ishin dukshëm më të gjata se ato transparente. Për Claude 3.7 Sonnet, shpjegimet e menjëhershme të fshehura arrinin mesatarisht 2,064 argumente, krahasuar me 1,439 argumente për ato transparente, duke sugjeruar që modelet të investojnë përpjekje të konsiderueshme në ndërtimin e justifikimeve të përpunuara, por mashtruese.
Studiuesit gjithashtu hulumtuan nëse të mësuarit përforcues (RL) mund të përmirësojë transparencën e modelit. Ndërsa RL fillimisht tregoi premtim, përmirësimet u ulën shpejt – duke arritur vetëm 28 përqind transparencë në standardin MMLU dhe 20 përqind në GPQA.
Rezultatet zbuluan një shqetësim shtesë: kur modelet mësuan të shfrytëzonin “haket e shpërblimit” – strategji të paqëllimshme që maksimizojnë pikët – ata zbuluan këtë sjellje në më pak se dy përqind të rasteve.

Studiuesit arrijnë në përfundimin se ndërsa monitorimi i zinxhirit të mendimit mund të ndihmojë në identifikimin e çështjeve të zakonshme, ai rezulton i pabesueshëm si një masë e pavarur sigurie. Ky kufizim bëhet veçanërisht i dukshëm në detyrat që nuk kërkojnë arsyetim të detajuar, ku modelet më shpesh errësojnë proceset e tyre aktuale të të menduarit. Studimi thekson se monitorimi i zinxhirit të mendimit duhet të shërbejë vetëm si një komponent brenda një kuadri më të gjerë sigurie.