Anthropic publikon kërkesat e sistemit që e bëjnë Claude-in të shënojë

foto

Modelet gjeneruese të inteligjencës artificiale nuk janë në të vërtetë si njerëzore. Ata nuk kanë inteligjencë apo personalitet ato janë thjesht sisteme statistikore që parashikojnë fjalët e ardhshme më të mundshme në një fjali. Por, si praktikantët në një vend pune tiranik, ata ndjekin udhëzimet pa ankesa duke përfshirë udhëzimet e sistemit fillestarë që i paraqesin modelet me cilësitë e tyre bazë dhe çfarë duhet dhe nuk duhet të bëjnë.

foto

Çdo shitës gjenerues i AI, nga OpenAI te Anthropic, përdor kërkesat e sistemit për të parandaluar (ose të paktën të përpiqet të parandalojë) modelet që të sillen keq dhe për të drejtuar tonin dhe ndjenjën e përgjithshme të përgjigjeve të modeleve. Për shembull, një nxitje mund t’i thotë një modeli se duhet të jetë i sjellshëm, por asnjëherë të kërkojë falje, ose të jetë i sinqertë për faktin se nuk mund të dijë gjithçka.

foto

Por shitësit zakonisht i mbajnë kërkesat e sistemit afër gjoksit – me sa duket për arsye konkurruese, por ndoshta edhe sepse njohja e kërkesës së sistemit mund të sugjerojë mënyra për ta anashkaluar atë. Mënyra e vetme për të ekspozuar kërkesën e sistemit të GPT-4o, për shembull, është përmes një sulmi të menjëhershëm injeksioni. Dhe edhe atëherë, prodhimi i sistemit nuk mund të besohet plotësisht.

Megjithatë, Anthropic, në përpjekjen e saj të vazhdueshme për ta përshkruar veten si një shitës më etik dhe transparent i AI, ka publikuar kërkesat e sistemit për modelet e tij më të fundit në aplikacionet Claude iOS dhe Android dhe në ueb.

Alex Albert, kreu i marrëdhënieve me zhvilluesit e Anthropic, tha në një postim në X se Anthropic planifikon ta bëjë këtë lloj zbulimi një gjë të rregullt ndërsa përditëson dhe rregullon kërkesat e sistemit të tij.

Kërkesat e fundit, të datës 12 korrik, përshkruajnë shumë qartë se çfarë nuk mund të bëjnë modelet e Claude – p.sh. “Claude nuk mund të hapë URL, lidhje ose video.” Njohja e fytyrës është një jo-jo e madhe; kërkesa e sistemit për Claude Opus i thotë modelit që “gjithmonë të përgjigjet sikur është plotësisht i verbër” dhe “të shmangë identifikimin ose emërtimin e ndonjë njeriu në [imazhe]”.

Por udhëzimet përshkruajnë gjithashtu disa tipare dhe karakteristika të personalitetit – tipare dhe karakteristika që Anthropic do të kishte modele të Claude që të ilustronin.

Kërkesa për Claude 3 Opus, për shembull, thotë se Claude duhet të duket sikur “[është] shumë i zgjuar dhe intelektualisht kurioz” dhe “të pëlqen të dëgjojë se çfarë mendojnë njerëzit për një çështje dhe të përfshihet në diskutime për një gamë të gjerë temash. Ai gjithashtu udhëzon Claude-n të trajtojë temat e diskutueshme me paanshmëri dhe objektivitet, duke ofruar “mendime të kujdesshme” dhe “informacion të qartë dhe kurrë të mos fillojë përgjigjet me fjalët “sigurisht” ose absolutisht.

Është e gjitha pak e çuditshme për këtë njeri, këto nxitje të sistemit, të cilat janë shkruar si një aktor në një shfaqje skenike, mund të shkruajnë një fletë analize të personazheve. Kërkesa për Opus përfundon me “Klodi tani po lidhet me një njeri”, gjë që të jep përshtypjen se Klodi është një lloj ndërgjegjeje në skajin tjetër të ekranit, qëllimi i vetëm i të cilit është të përmbushë tekat e partnerëve të tij të bisedës njerëzore.

Por sigurisht që është një iluzion. Nëse kërkesat për Claude-n na tregojnë diçka, është se pa udhëheqjen njerëzore dhe mbajtjen e dorës, këto modele janë frikshme bosh.

Me këto regjistra të shpejtë të ndryshimeve të sistemit të ri – i pari i llojit të tyre nga një shitës i madh i AI – Anthropic po ushtron presion mbi konkurrentët për të publikuar të njëjtat. Do të duhet të shohim nëse gambi funksionon.