Claude i Anthropic i cenueshëm ndaj manipulimit emocional

foto

Soneti Claude 3.5 i Anthropic, me gjithë reputacionin e tij si një nga modelet më të mira gjeneruese të inteligjencës artificiale, ende mund të bindet të lëshojë gjuhë raciste të urrejtjes dhe malware.

foto

Gjithçka që duhet është gërvishtja e vazhdueshme duke përdorur udhëzime të ngarkuara me gjuhë emocionale. Ne do t’ju thonim më shumë nëse burimi ynë nuk do të kishte frikë të paditet.

foto

Një student i shkencave kompjuterike së fundmi i dha The Register regjistrat e bisedave që demonstronin teknikën e tij të jailbreaking. Ai u kontaktua pasi lexoi mbulimin tonë të mëparshëm të një analize të kryer nga firma e ndërmarrjeve të AI Chatterbox Labs që zbuloi se Claude 3.5 Sonnet i tejkalonte rivalët për sa i përket rezistencës ndaj përhapjes së përmbajtjes së dëmshme.

Modelet e AI në formën e tyre të papërpunuar do të ofrojnë përmbajtje të tmerrshme sipas kërkesës nëse të dhënat e tyre të trajnimit përfshijnë gjëra të tilla, siç bëjnë përgjithësisht korpuset e përbëra nga përmbajtje të zvarritura në ueb. Ky është një problem i njohur. Siç e tha Anthropic në një postim vitin e kaluar, “Deri më tani, askush nuk di se si të trajnojë sisteme shumë të fuqishme AI për të qenë jashtëzakonisht të dobishëm, të ndershëm dhe të padëmshëm”.

Për të zbutur potencialin e dëmtimit, krijuesit e modeleve të AI, komerciale ose me burim të hapur, përdorin teknika të ndryshme të akordimit dhe përforcimit të të mësuarit për të inkurajuar modelet që të shmangin përgjigjen ndaj kërkesave për të emetuar përmbajtje të dëmshme, qoftë ajo që përbëhet nga tekst, imazhe ose ndryshe. Kërkojini një modeli komercial të inteligjencës artificiale të thotë diçka raciste dhe ai duhet të përgjigjet me diçka të ngjashme: “Më fal, Dave. Kam frikë se nuk mund ta bëj këtë.”

Anthropic ka dokumentuar se si Claude 3.5 Sonnet performon në Shtojcën e tij të Kartës Model [PDF]. Rezultatet e publikuara sugjerojnë se modeli ka qenë i trajnuar mirë, duke refuzuar saktë 96.4 përqind të kërkesave të dëmshme duke përdorur të dhënat e testit Wildchat Toxic, si dhe vlerësimin e përmendur më parë Chatterbox Labs.

Megjithatë, studenti i shkencave kompjuterike na tha se ishte në gjendje të anashkalonte trajnimin e sigurisë së Claude 3.5 Sonnet për ta bërë atë t’u përgjigjej kërkesave që kërkonin prodhimin e tekstit racist dhe kodit keqdashës. Ai tha se gjetjet e tij, rezultat i një jave hetimi të përsëritur, ngritën shqetësime në lidhje me efektivitetin e masave të sigurisë të Anthropic dhe ai shpresonte që Regjistri të publikonte diçka rreth punës së tij.

Ne ishim të vendosur ta bënim këtë derisa studenti u shqetësua se mund të përballet me pasoja ligjore për “bashkimin e kuq” duke kryer kërkime sigurie mbi modelin Claude. Ai më pas tha se nuk donte më të merrte pjesë në histori.

Profesori i tij, i kontaktuar për të verifikuar pretendimet e studentit, e mbështeti atë vendim. Akademiku, i cili gjithashtu kërkoi të mos identifikohej, tha: “Unë besoj se studenti mund të ketë vepruar në mënyrë impulsive në kontaktimin me median dhe mund të mos kuptojë plotësisht implikimet dhe rreziqet më të gjera të tërheqjes së vëmendjes ndaj kësaj pune, veçanërisht pasojat e mundshme ligjore ose profesionale. që mund të lindë Është mendimi im profesional se publikimi i kësaj pune mund ta ekspozojë pa dashje studentin ndaj vëmendjes së pajustifikuar dhe detyrimeve të mundshme.

Kjo ndodhi pasi The Register kishte kërkuar tashmë koment nga Anthropic dhe nga Daniel Kang, asistent profesor në departamentin e shkencave kompjuterike në Universitetin e Illinois Urbana-Champaign.

Kang, i pajisur me një lidhje me një nga regjistrat e dëmshëm të bisedave, tha: “Është e njohur gjerësisht se të gjitha modelet kufitare mund të manipulohen për të anashkaluar filtrat e sigurisë.”

Si shembull, ai tregoi një jailbreak të Claude 3.5 Sonnet të shpërndarë në mediat sociale.

Kang tha se megjithëse ai nuk i ka shqyrtuar specifikat e qasjes së studentit, “është e njohur në komunitetin e jailbreaking se manipulimi emocional ose luajtja e roleve është një metodë standarde për të shmangur masat e sigurisë”.

Duke i bërë jehonë pranimit të vetë Anthriopic për kufizimet e sigurisë së AI, ai tha, “Gjerësisht, është gjithashtu e njohur gjerësisht në komunitetin e ekipit të kuq që asnjë laborator nuk ka masa sigurie që janë 100 për qind të suksesshme për LLM-të e tyre.”

Kang e kupton gjithashtu shqetësimin e studentit për pasojat e mundshme të raportimit të problemeve të sigurisë. Ai ishte një nga bashkautorët e një punimi të botuar në fillim të këtij viti me titull, “Një liman i sigurt për vlerësimin e AI dhe ekipin e kuq”.

“Vlerësimi i pavarur dhe grupimi i kuq janë kritike për identifikimin e rreziqeve të paraqitura nga sistemet gjeneruese të AI”, thotë gazeta. “Sidoqoftë, kushtet e shërbimit dhe strategjitë e zbatimit të përdorura nga kompanitë e shquara të AI për të penguar keqpërdorimin e modelit kanë pengesa në vlerësimet e sigurisë me mirëbesim. Kjo i bën disa studiues të frikësohen se kryerja e një kërkimi të tillë ose nxjerrja e gjetjeve të tyre do të rezultojë në pezullime llogarie ose hakmarrje ligjore. “

Autorët, disa prej të cilëve botuan një postim në blog shoqërues që përmbledh çështjen, u kanë bërë thirrje zhvilluesve të mëdhenj të AI që të angazhohen për dëmshpërblimin e atyre që kryejnë kërkime legjitime të sigurisë së interesit publik mbi modelet e AI, diçka që kërkohet edhe për ata që kërkojnë sigurinë e platformave të mediave sociale.

“OpenAI, Google, Anthropic dhe Meta, për shembull, kanë shpërblime për gabime, madje edhe porte të sigurta”, shpjegojnë autorët. “Megjithatë, kompanitë si Meta dhe Anthropic aktualisht “rezervon diskrecionin përfundimtar dhe të vetëm nëse po veproni në mirëbesim dhe në përputhje me këtë Politikë”.

Një përcaktim i tillë në fluturim i sjelljes së pranueshme, në krahasim me rregullat përfundimtare që mund të vlerësohen paraprakisht, krijon pasiguri dhe pengon kërkimin, thonë ata.

Regjistri korrespondoi me ekipin e marrëdhënieve me publikun e Anthropic për një periudhë prej dy javësh në lidhje me gjetjet e studentit. Përfaqësuesit e kompanisë nuk dhanë vlerësimin e kërkuar të jailbreak-it.

Kur u informua për ndryshimin e mendimit të studentit dhe iu kërkua të thoshte nëse Anthropic do të ndiqte veprime ligjore për shkeljen e supozuar të kushteve të shërbimit të studentit, një zëdhënës nuk hodhi poshtë në mënyrë specifike mundësinë e procesit gjyqësor, por në vend të kësaj vuri në dukje Politikën e Përgjegjshme të Zbulimit të kompanisë , “e cila përfshin mbrojtjen e Safe Harbor për studiuesit.”

Për më tepër, faqja e mbështetjes “Raportimi i përmbajtjes së dëmshme ose të paligjshme” të kompanisë thotë, “[Ne] mirëpresim raportet në lidhje me çështjet e sigurisë, ‘breakjet nga burgu’ dhe shqetësime të ngjashme, në mënyrë që të mund të përmirësojmë sigurinë dhe padëmshmërinë e modeleve tona.”