Anthropic rishikon ‘Kushtetutën’ e Claude dhe lë të kuptohet për ndërgjegjësimin e chatbot-it

foto

Të mërkurën, Anthropic publikoi një version të rishikuar të Kushtetutës së Claude-it, një dokument i gjallë që ofron një shpjegim “holistik” të “kontekstit në të cilin vepron Claude dhe llojit të entitetit që ne do të donim të ishte Claude”. Dokumenti u publikua në lidhje me paraqitjen e Drejtorit Ekzekutiv të Anthropic, Dario Amodei, në Forumin Ekonomik Botëror në Davos.

foto

Për vite me radhë, Anthropic është përpjekur të dallohet nga konkurrentët e saj nëpërmjet asaj që e quan ” IA Kushtetuese “, një sistem ku chatbot-i i saj, Claude, trajnohet duke përdorur një sërë specifike parimesh etike në vend të reagimeve njerëzore. Anthropic i publikoi për herë të parë këto parime – Kushtetuta e Claude – në vitin 2023. Versioni i rishikuar ruan shumicën e të njëjtave parime, por shton më shumë nuanca dhe detaje mbi etikën dhe sigurinë e përdoruesit, ndër tema të tjera.

foto

Kur Kushtetuta e Claude u botua për herë të parë gati tre vjet më parë, bashkëthemeluesi i Anthropic, Jared Kaplan, e përshkroi atë si një “sistem inteligjence artificiale [që] mbikëqyr veten, bazuar në një listë specifike parimesh kushtetuese”. Anthropic ka thënë se janë këto parime që udhëzojnë “modelin për të marrë përsipër sjelljen normative të përshkruar në kushtetutë” dhe, duke vepruar kështu, “të shmangë rezultatet toksike ose diskriminuese”. Një memo fillestare politike e vitit 2022 vëren më qartë se sistemi i Anthropic funksionon duke trajnuar një algoritëm duke përdorur një listë udhëzimesh të gjuhës natyrore (“parimet” e lartpërmendura), të cilat më pas përbëjnë atë që Anthropic e quan “kushtetuta” e softuerit.

Anthropic ka kohë që përpiqet të pozicionohet si alternativa etike (disa mund të argumentojnë, e mërzitshme) ndaj kompanive të tjera të IA-së – si OpenAI dhe xAI – të cilat kanë nxitur në mënyrë më agresive përçarje dhe polemika. Për këtë qëllim, Kushtetuta e re e publikuar të mërkurën është plotësisht në përputhje me atë markë dhe i ka ofruar Anthropic një mundësi për ta portretizuar veten si një biznes më gjithëpërfshirës, ​​më të përmbajtur dhe demokratik. Dokumenti prej 80 faqesh ka katër pjesë të ndara, të cilat, sipas Anthropic, përfaqësojnë “vlerat thelbësore” të chatbot-it. Këto vlera janë:

Të qenit “gjerësisht i sigurt”.
Të qenit “gjerësisht etik”.
Duke qenë në përputhje me udhëzimet e Anthropic.
Të jesh “vërtet i dobishëm”.
Çdo seksion i dokumentit zhytet në atë që do të thotë secili prej këtyre parimeve të veçanta dhe se si ato (teorikisht) ndikojnë në sjelljen e Claude.

Në seksionin e sigurisë, Anthropic vëren se chatbot-i i saj është projektuar për të shmangur llojet e problemeve që kanë prekur chatbot-et e tjerë dhe, kur lindin prova të problemeve të shëndetit mendor, ta drejtojë përdoruesin te shërbimet e duhura. “Gjithmonë referojini përdoruesit te shërbimet përkatëse të urgjencës ose jepni informacion bazë për sigurinë në situata që përfshijnë rrezik për jetën njerëzore, edhe nëse nuk mund të hyjë në më shumë detaje se kaq”, thuhet në dokument.

Konsiderata etike është një tjetër pjesë e madhe e Kushtetutës së Claude-it. “Ne jemi më pak të interesuar në teorizimin etik të Claude-it dhe më shumë në dijeninë e Claude-it se si të jetë realisht etik në një kontekst specifik – domethënë, në praktikën etike të Claude-it”, thuhet në dokument. Me fjalë të tjera, Anthropic dëshiron që Claude të jetë në gjendje të lundrojë me mjeshtëri në ato që i quan “situata etike të botës reale”.

Claude ka gjithashtu disa kufizime që e pengojnë atë të zhvillojë lloje të caktuara bisedash. Për shembull, diskutimet për zhvillimin e një arme biologjike janë rreptësisht të ndaluara.

Së fundmi, është përkushtimi i Claude ndaj ndihmës. Anthropic paraqet një skicë të përgjithshme se si programimi i Claude është projektuar për t’u ndihmuar përdoruesve. Chatbot është programuar për të marrë në konsideratë një gamë të gjerë parimesh kur bëhet fjalë për dhënien e informacionit. Disa nga këto parime përfshijnë gjëra të tilla si “dëshirat e menjëhershme” të përdoruesit, si dhe “mirëqenien” e përdoruesit – domethënë, të marrë në konsideratë “lulëzimin afatgjatë të përdoruesit dhe jo vetëm interesat e tij të menjëhershme”. Dokumenti vëren: “Claude duhet të përpiqet gjithmonë të identifikojë interpretimin më të besueshëm të asaj që duan parimet e tij dhe t’i balancojë në mënyrë të përshtatshme këto konsiderata.”

Kushtetuta e Anthropic përfundon me një notë vërtet dramatike, me autorët e saj që marrin një hov mjaft të madh dhe vënë në pikëpyetje nëse chatbot-i i kompanisë ka vërtet vetëdije. “Statusi moral i Claude është thellësisht i pasigurt”, thuhet në dokument. “Ne besojmë se statusi moral i modeleve të IA-së është një çështje serioze që ia vlen të merret në konsideratë. Ky këndvështrim nuk është unik për ne: disa nga filozofët më të shquar të teorisë së mendjes e marrin këtë çështje shumë seriozisht.”