Anthropic heq dorë nga zotimi kryesor i sigurisë
Anthropic, kompania jashtëzakonisht e suksesshme e inteligjencës artificiale që e ka paraqitur veten si më e ndërgjegjshmja për sigurinë nga laboratorët më të mirë kërkimorë, po heq dorë nga premtimi qendror i politikës së saj kryesore të sigurisë, thanë zyrtarët e kompanisë për TIME.

Në vitin 2023, Anthropic u zotua të mos trajnonte kurrë një sistem të inteligjencës artificiale, përveç nëse mund të garantonte paraprakisht se masat e sigurisë së kompanisë ishin të mjaftueshme. Për vite me radhë, udhëheqësit e saj e reklamuan këtë premtim – shtyllën qendrore të Politikës së tyre të Shkallëzimit të Përgjegjshëm (RSP) – si provë se ata janë një kompani përgjegjëse që do t’i rezistonte stimujve të tregut për të nxituar të zhvillojnë një teknologji potencialisht të rrezikshme.

Por në muajt e fundit, kompania vendosi të rishikojë rrënjësisht RSP-në. Ky vendim përfshinte heqjen dorë nga premtimi për të mos publikuar modele të inteligjencës artificiale nëse Anthropic nuk mund të garantojë paraprakisht zbutjen e duhur të rrezikut.
“Ne menduam se në të vërtetë nuk do të ndihmonte askënd që ne të ndalonim trajnimin e modeleve të IA-së”, tha për TIME, drejtori i shkencës i Anthropic, Jared Kaplan, në një intervistë ekskluzive. “Me përparimin e shpejtë të IA-së, ne nuk menduam vërtet se kishte kuptim për ne të bënim angazhime të njëanshme… nëse konkurrentët po ecin përpara me shpejtësi.”
Versioni i ri i politikës, të cilën e shqyrtoi revista TIME, përfshin angazhime për të qenë më transparent në lidhje me rreziqet e sigurisë së IA-së, duke përfshirë edhe dhënien e informacioneve shtesë rreth asaj se si performojnë modelet e Anthropic në testimet e sigurisë. Ajo angazhohet të barazojë ose tejkalojë përpjekjet e sigurisë të konkurrentëve. Dhe premton të “vojë” zhvillimin e IA-së së Anthropic nëse udhëheqësit e konsiderojnë Anthropic si lider të garës së IA-së dhe mendojnë se rreziqet e katastrofës janë të konsiderueshme.
Por në përgjithësi, ndryshimi në RSP e lë Anthropic shumë më pak të kufizuar nga politikat e veta të sigurisë, të cilat më parë e ndalonin kategorikisht atë nga trajnimi i modeleve mbi një nivel të caktuar nëse masat e duhura të sigurisë nuk ishin tashmë në vend.
Ndryshimi vjen në një kohë kur Anthropic, e cila më parë konsiderohej të ishte pas OpenAI në garën e IA-së, po kalon kulmin e një sërë suksesesh teknologjike dhe komerciale. Modelet e saj Claude, veçanërisht mjeti i shkrimit të softuerëve Claude Code, kanë fituar shumë tifozë të përkushtuar. Në shkurt, Anthropic mblodhi 30 miliardë dollarë në investime të reja, duke e vlerësuar atë në rreth 380 miliardë dollarë, dhe raportoi se të ardhurat e saj vjetore po rriteshin me një ritëm prej 10 herë në vit. Modeli kryesor i biznesit të kompanisë për shitjen direkte te bizneset shihet nga shumë investitorë si më i besueshëm sesa strategjia kryesore e OpenAI për të monetizuar një bazë të gjerë përdoruesish të konsumatorëve.
Kaplan, ekzekutivi dhe bashkëthemeluesi i Anthropic, mohoi se vendimi i kompanisë për të ndryshuar kurs ishte një kapitullim ndaj stimujve të tregut, ndërsa gara për superinteligjencë përshpejtohet. Ai e përshkroi atë si një përgjigje pragmatike ndaj realiteteve politike dhe shkencore në zhvillim. “Nuk mendoj se po bëjmë ndonjë lloj kthese 180 cm”, thotë Kaplan.
Kur Anthropic prezantoi RSP-në në vitin 2023, thotë Kaplan, kompania shpresonte se do t’i inkurajonte rivalët të miratonin masa të ngjashme. (Asnjë rival nuk bëri një premtim kaq të hapur për të ndaluar zhvillimin e IA-së, por shumë prej tyre publikuan raporte të gjata që detajonin planet e tyre për të zbutur rrezikun, të cilat Kaplan i përshkruan si ndikim të mirë që Anthropic ushtron në industri.) Ekzekutivët gjithashtu shpresonin se qasja përfundimisht mund të shërbente si një plan për rregullore kombëtare detyruese ose edhe traktate ndërkombëtare, pohon Kaplan.
Por këto rregullore nuk u materializuan kurrë. Në vend të kësaj, Administrata Trump ka mbështetur një qëndrim të pakujdesshëm ndaj zhvillimit të IA-së, madje duke shkuar aq larg sa të përpiqet të anulojë rregulloret shtetërore. Asnjë ligj federal për IA-në nuk duket në horizont. Dhe ndërsa një kornizë qeverisjeje globale mund të dukej e mundur në vitin 2023, tre vjet më vonë është bërë e qartë se dera është mbyllur. Ndërkohë, konkurrenca për supremacinë e IA-së – midis kompanive, por edhe midis kombeve – vetëm sa është intensifikuar.
Për ta përkeqësuar situatën, shkenca e vlerësimeve të inteligjencës artificiale ka rezultuar më e ndërlikuar nga sa priste Anthropic kur krijoi për herë të parë RSP-në. Ardhja e modeleve të reja të fuqishme nënkuptonte që, në vitin 2025, Anthropic njoftoi se nuk mund ta përjashtonte mundësinë që këto modele të lehtësonin një sulm bio-terrorist. Por, ndërsa nuk mund ta përjashtonin, atyre gjithashtu u mungonin prova të forta shkencore që modelet paraqisnin atë lloj rreziku, gjë që e bëri të vështirë bindjen e qeverive dhe rivalëve për atë që ata e shihnin si nevojën për të vepruar me kujdes. Ajo që kompania e kishte imagjinuar më parë se mund të dukej si një vijë e kuqe e ndritshme, në vend të kësaj po vinte në fokus si një gradient i paqartë.
Për gati një vit, drejtuesit e Anthropic diskutuan mënyra për të riformësuar politikën e tyre kryesore të sigurisë për t’iu përshtatur këtij mjedisi të ri, thotë Kaplan. Një pikë tek e cila ata vazhdonin të ktheheshin ishte premisa e tyre themelore: ideja se për të bërë kërkime të duhura për sigurinë në inteligjencën artificiale, ata duhej të ndërtonin modele në kufirin e aftësive – edhe pse duke vepruar kështu mund të përshpejtonte ardhjen e rreziqeve nga të cilat kishin frikë.
Në shkurt, sipas Kaplan, Amodei vendosi që ndalimi i kompanisë nga trajnimi i modeleve të reja, ndërsa konkurrentët garonin përpara, nuk do të ishte i dobishëm për askënd. “Nëse një zhvillues i IA-së do të ndalonte zhvillimin për të zbatuar masa sigurie, ndërsa të tjerët do të ecnin përpara duke trajnuar dhe duke vendosur sisteme IA pa zbutje të forta, kjo mund të rezultonte në një botë më pak të sigurt”, thuhet në hyrjen e versionit të ri të RSP-së, i miratuar unanimisht nga bordi i Amodei dhe Anthropic. “Zhvilluesit me mbrojtjet më të dobëta do të vendosnin ritmin, dhe zhvilluesit përgjegjës do të humbisnin aftësinë e tyre për të bërë kërkime mbi sigurinë.”
Chris Painter, drejtori i politikave në METR, një organizatë jofitimprurëse e fokusuar në vlerësimin e modeleve të IA-së për sjellje të rrezikshme, shqyrtoi një draft të hershëm të politikës me lejen e Anthropic. Ai thotë se ndryshimi është i kuptueshëm – por edhe një sinjal negativ për aftësinë e botës për të përballuar katastrofat e mundshme të IA-së. Ndryshimi në RSP tregon se Anthropic “beson se duhet të kalojë në modalitetin e triazhit me planet e saj të sigurisë, sepse metodat për të vlerësuar dhe zbutur rrezikun nuk po ecin me ritmin e aftësive”, thotë Painter për TIME. “Kjo është më shumë provë se shoqëria nuk është e përgatitur për rreziqet e mundshme katastrofike që paraqet IA.”
Anthropic argumenton se RSP-ja e ripërshtatur është projektuar për të ruajtur përfitimet më të mëdha të asaj të vjetrës. Për shembull, duke e kufizuar veten nga lançimi i modeleve të reja, RSP-ja origjinale e Anthropic e stimuloi atë gjithashtu që të ndërtonte shpejt masa zbutëse të sigurisë. (Sepse përndryshe kompania nuk do të ishte në gjendje t’ua shiste inteligjencën e saj artificiale klientëve.) Anthropic thotë se beson se mund ta ruajë këtë stimul. Politika e re e angazhon kompaninë të publikojë rregullisht atë që e quan “Udhërrëfyes të Sigurisë Kufitare”: dokumente që paraqesin një listë të qëllimeve të detajuara për masat e ardhshme të sigurisë që shpreson të ndërtojë.
“Shpresojmë të krijojmë një funksion detyrimi për punën që përndryshe do të ishte sfiduese për t’u prioritizuar dhe për të siguruar burime në mënyrë të përshtatshme, pasi kërkon bashkëpunim (dhe në disa raste sakrifica) nga pjesë të shumta të kompanisë dhe mund të jetë në kundërshtim me prioritetet e menjëhershme konkurruese dhe komerciale”, thuhet në RSP-në e re.
Anthropic thotë se do të angazhohet gjithashtu të publikojë të ashtuquajturat “Raporte të Rrezikut” çdo tre deri në gjashtë muaj. Raportet, thotë kompania, do të “shpjegojnë se si aftësitë, modelet e kërcënimeve (mënyrat specifike se si modelet mund të paraqesin kërcënime) dhe zbutjet aktive të rrezikut përshtaten së bashku, dhe ofrojnë një vlerësim të nivelit të përgjithshëm të rrezikut”. Këto dokumente do të jenë më të thelluara se raportet që kompania publikon tashmë, tha një zëdhënës për TIME.
“Më pëlqen theksi në raportimin transparent të rrezikut dhe hartat rrugore të sigurisë të verifikueshme publikisht”, thotë Painter, zyrtari i politikave të METR. Por ai tha se ishte “i shqetësuar” se largimi nga pragjet binare sipas RSP-së së mëparshme, me anë të të cilave mbërritja e një aftësie të caktuar mund të vepronte si një kabëll për të ndaluar përkohësisht zhvillimin e inteligjencës artificiale të Anthropic, mund të mundësonte një efekt “të zierjes së bretkosave”, ku rreziku rritet ngadalë pa asnjë moment që shkakton alarme.
I pyetur nëse Anthropic po i nënshtrohej presionit të tregut, Kaplan argumentoi se, në fakt, Anthropic po bënte një angazhim të ripërtërirë për të zhvilluar IA-në në mënyrë të sigurt. “Nëse të gjithë konkurrentët tanë po bëjnë në mënyrë transparente gjënë e duhur kur bëhet fjalë për rrezikun katastrofik, ne jemi të përkushtuar të bëjmë po aq mirë ose më mirë”, tha ai. “Por ne nuk mendojmë se ka kuptim që ne të ndalojmë së angazhuari me kërkimin e IA-së, sigurinë e IA-së dhe ka shumë të ngjarë të humbasim rëndësinë si një inovator që e kupton kufirin e teknologjisë, në një skenar ku të tjerët po ecin përpara dhe ne në të vërtetë nuk po kontribuojmë me ndonjë rrezik shtesë në ekosistem.”
