Modeli i ri i inteligjencës artificiale i Anthropic është shumë i rrezikshëm për t’u publikuar publikisht

foto

Anthropic njoftoi të martën Projektin Glasswing, një iniciativë gjithëpërfshirëse për sigurinë kibernetike që bashkon një model të papublikuar të inteligjencës artificiale Claude Mythos Preview me një koalicion prej dymbëdhjetë kompanish të mëdha teknologjike dhe financiare në një përpjekje për të gjetur dhe korrigjuar dobësitë e softuerit në të gjithë infrastrukturën më kritike të botës përpara se kundërshtarët të mund t’i shfrytëzojnë ato.

foto

Partnerët e lançimit përfshijnë Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, Nvidia dhe Palo Alto Networks. Anthropic thotë se ka zgjeruar gjithashtu aksesin për më shumë se 40 organizata të tjera që ndërtojnë ose mirëmbajnë softuer kritik dhe po angazhon deri në 100 milionë dollarë në kredi përdorimi për Claude Mythos Preview gjatë gjithë përpjekjes, së bashku me 4 milionë dollarë në donacione të drejtpërdrejta për organizatat e sigurisë me burim të hapur.

foto

Njoftimi vjen në një moment të jashtëzakonshëm vrulli — dhe shqyrtimi të jashtëzakonshëm — për startup-in e inteligjencës artificiale me seli në San Francisko. Anthropic zbuloi të dielën se norma e saj vjetore e të ardhurave ka tejkaluar 30 miliardë dollarë , nga afërsisht 9 miliardë dollarë në fund të vitit 2025, dhe numri i klientëve të biznesit që shpenzojnë mbi 1 milion dollarë në vit tani tejkalon 1,000, duke u dyfishuar në më pak se dy muaj. Kompania njoftoi njëkohësisht një marrëveshje kompjuterike me shumë gigavat me Google dhe Broadcom. Në të njëjtën ditë, Bloomberg raportoi se Anthropic kishte tërhequr një ekzekutiv të lartë të Microsoft, Eric Boyd, për të udhëhequr zgjerimin e infrastrukturës së saj.

Por Glasswing është diçka kategorikisht e ndryshme nga një moment historik në të ardhura ose një marrëveshje kompjuterike. Është përpjekja më ambicioze e Anthropic për të përkthyer aftësitë e inteligjencës artificiale në kufij – aftësi që vetë kompania i përshkruan si të rrezikshme – në një avantazh mbrojtës përpara se të njëjtat aftësi të përhapen te aktorët armiqësorë.

Në qendër të Projektit Glasswing ndodhet Claude Mythos Preview, një model kufitar me qëllim të përgjithshëm që Anthropic thotë se ka identifikuar tashmë mijëra dobësi zero-ditore me ashpërsi të lartë – që do të thotë të meta të panjohura më parë për zhvilluesit e softuerëve – në çdo sistem operativ të madh dhe çdo shfletues të madh interneti, së bashku me një gamë të programeve të tjera kritike.

Kompania nuk e bën modelin të disponueshëm gjerësisht.

“Ne nuk planifikojmë ta bëjmë Claude Mythos Preview të disponueshëm gjerësisht për shkak të aftësive të tij të sigurisë kibernetike”, tha Newton Cheng, Udhëheqësi i Ekipit Kibernetik Frontier Red në Anthropic, për VentureBeat në një intervistë ekskluzive. “Megjithatë, duke pasur parasysh shkallën e përparimit të IA-së, nuk do të kalojë shumë kohë para se aftësi të tilla të përhapen, potencialisht përtej aktorëve që janë të përkushtuar për t’i vendosur ato në mënyrë të sigurt. Pasojat – për ekonomitë, sigurinë publike dhe sigurinë kombëtare – mund të jenë të rënda.”

Kjo gjuhë — “pasojat mund të jenë të rënda” — është mbresëlënëse që vjen nga kompania që ndërtoi modelin. Anthropic në fakt po argumenton se mjeti që krijoi është mjaft i fuqishëm për të riformësuar peizazhin e sigurisë kibernetike dhe se e vetmja gjë e përgjegjshme që duhet bërë është ta mbajë atë të kufizuar, duke u dhënë mbrojtësve një avantazh.

Rezultatet teknike e përforcojnë këtë pretendim. Sipas njoftimit për shtyp të Anthropic, Mythos Preview ishte në gjendje të gjente pothuajse të gjitha dobësitë që nxori në pah dhe të zhvillonte shumë shfrytëzime të lidhura, tërësisht në mënyrë autonome, pa ndonjë drejtim njerëzor. Tre shembuj dallohen: Modeli gjeti një dobësi 27-vjeçare në OpenBSD – i konsideruar gjerësisht si një nga sistemet operative më të forta në siguri në botë dhe që përdoret zakonisht për të drejtuar firewall-e dhe infrastrukturë kritike. Gabimi i lejoi një sulmuesi të rrëzonte nga distanca çdo makinë që drejtonte sistemin operativ thjesht duke u lidhur me të. Ai gjithashtu zbuloi një dobësi 16-vjeçare në FFmpeg – biblioteka pothuajse e kudondodhur e kodimit dhe dekodimit të videos – në një rresht kodi që mjetet e testimit automatik e kishin ushtruar pesë milionë herë pa e kapur kurrë problemin. Dhe ndoshta më alarmuesja, Mythos Preview gjeti dhe lidhi në mënyrë autonome disa dobësi në kernelin e Linux për të përshkallëzuar nga qasja e përdoruesit të zakonshëm në kontroll të plotë të makinës.

Të tre dobësitë janë raportuar te mirëmbajtësit përkatës dhe që atëherë janë rregulluar. Për shumë dobësi të tjera që janë ende në proces korrigjimi, Anthropic thotë se po publikon hash-e kriptografike të detajeve sot, me plane për të zbuluar specifikat pasi të jenë vendosur rregullimet.

Në testin e vlerësimit CyberGym, Mythos Preview shënoi 83.1%, krahasuar me 66.6% për Claude Opus 4.6, modelin tjetër më të mirë të Anthropic. Diferenca është edhe më e madhe në testet e kodimit: Mythos Preview arrin 93.9% në SWE-bench Verified kundrejt 80.8% për Opus 4.6, dhe 77.8% në SWE-bench Pro kundrejt 53.4%.

Gjetja e mijëra ditëve zero njëherësh tingëllon mbresëlënëse. Në fakt, trajtimi i rezultateve me përgjegjësi është një makth logjistik – dhe një nga kritikat më të ashpra që studiuesit e sigurisë kanë ngritur në lidhje me zbulimin e dobësive të nxitura nga inteligjenca artificiale. Mbytja e mirëmbajtësve me burim të hapur, shumë prej të cilëve janë vullnetarë të papaguar, me një ortek raportimesh kritike të gabimeve mund të bëjë lehtësisht më shumë dëm sesa dobi.

Cheng i tha VentureBeat se Anthropic ka ndërtuar një tubacion triazhimi posaçërisht për të menaxhuar këtë problem. “Ne triazhojmë çdo gabim që gjejmë dhe më pas i dërgojmë gabimet me ashpërsinë më të lartë te triazherët profesionistë njerëzorë që kemi kontraktuar për të ndihmuar në procesin tonë të zbulimit duke validuar manualisht çdo raport gabimi përpara se ta dërgojmë për t’u siguruar që u dërgojmë vetëm raporte me cilësi të lartë mirëmbajtësve”, tha ai.

Ky kanal është projektuar për të parandaluar pikërisht skenarin që mirëmbajtësit i frikësohen më shumë: një rrjedhë automatike e raporteve të paverifikuara. “Ne nuk paraqesim vëllime të mëdha gjetjesh për një projekt të vetëm pa kontaktuar më parë në një përpjekje për të rënë dakord për një ritëm që mirëmbajtësi mund ta përballojë”, shtoi Cheng.

Kur Anthropic ka qasje në kodin burimor, kompania synon të përfshijë një patch kandidat me çdo raport, të etiketuar sipas origjinës – që do të thotë se mirëmbajtësi e di që patch-i është shkruar ose rishikuar nga një model – dhe ofron të bashkëpunojë për një rregullim me cilësi prodhimi. “Modelet mund të shkruajnë patch-e,” vuri në dukje Cheng, “por ka shumë faktorë që ndikojnë në cilësinë e patch-it, dhe ne rekomandojmë fuqimisht që patch-et e shkruara në mënyrë autonome t’i nënshtrohen të njëjtit shqyrtim dhe testim siç i nënshtrohen patch-eve të shkruara nga njerëzit.”

Lidhur me afatet kohore të zbulimit, Anthropic thotë se ndjek një kornizë të koordinuar të zbulimit të dobësive. Pasi një patch të jetë i disponueshëm, kompania përgjithësisht do të presë 45 ditë para se të publikojë detajet e plota teknike, duke u dhënë përdoruesve të mëtejshëm kohë për të vendosur rregullimin përpara se informacioni i shfrytëzimit të bëhet publik. Cheng tha se kompania mund ta shkurtojë atë buffer “nëse detajet janë tashmë të njohura publikisht përmes kanaleve të tjera, ose nëse publikimi i mëparshëm do t’i ndihmonte materialisht mbrojtësit të identifikonin dhe zbutnin sulmet e vazhdueshme”, ose ta zgjasë atë “kur vendosja e patch-it është jashtëzakonisht komplekse ose gjurma e prekur është jashtëzakonisht e gjerë”.

Këto janë parime të arsyeshme, por ato do të testohen në një shkallë që asnjë program zbulimi i dobësive nuk e ka provuar ndonjëherë. Vëllimi i madh i gjetjeve – mijëra zero-ditë në çdo platformë kryesore – do të thotë që edhe një proces triazh i projektuar mirë do të përballet me pengesa. Dhe dritarja e zbulimit prej 45 ditësh supozon se mirëmbajtësit mund të prodhojnë, testojnë dhe dërgojnë një patch në atë kohë, gjë që është larg të qenit e garantuar për gabime komplekse në nivel kernel ose të meta kriptografike të ngulitura thellë.

Ironia e një kompanie që pretendon të ndërtojë modelin kibernetik më të aftë të ndërtuar ndonjëherë, ndërkohë që njëkohësisht vuan nga një sërë lëshimesh të sikletshme sigurie, nuk u ka shpëtuar vëzhguesve.

Në fund të marsit, një postim në blog rreth Mythos u la në një depo të dhënash të pasigurt dhe të kërkueshme publikisht — një konfigurim i gabuar i CMS që ekspozoi afërsisht 3,000 asete të brendshme, duke përfshirë ato që dukeshin të ishin plane strategjike për lançimin e modelit. Disa ditë më vonë, më 31 mars, kushdo që ekzekutoi instalimin npm në Claude Code rrëzoi të gjithë kodin burimor origjinal të Anthropic — 512,000 rreshta — për afërsisht tre orë për shkak të një gabimi në paketim, një incident që tërhoqi vëmendje të gjerë në komunitetin e zhvilluesve dhe u raportua për herë të parë nga VentureBeat.

Kur u pyet pse partnerët dhe qeveritë duhet t’i besojnë Anthropic si kujdestarit të një modeli që e përshkruan si me aftësi kibernetike të paprecedentë, Cheng ishte i drejtpërdrejtë. “Siguria është thelbësore për mënyrën se si ndërtojmë dhe dërgojmë,” i tha ai VentureBeat. “Këto dy incidente, një konfigurim i gabuar i CMS-së në blog dhe një gabim paketimi npm, ishin gabime njerëzore në mjetet e publikimit, jo shkelje të arkitekturës sonë të sigurisë. Ne kemi bërë ndryshime për të parandaluar që këto të ndodhin përsëri dhe do të vazhdojmë të përmirësojmë proceset tona.”

Është një dallim teknikisht i saktë – asnjëri incident nuk përfshinte shkelje të peshave të modelit kryesor, infrastrukturës së trajnimit ose sistemeve API të Anthropic – por është gjithashtu një dallim që mund të jetë i vështirë për t’u mbështetur si një argument publik. Për një organizatë që u kërkon qeverive dhe kompanive Fortune 500 t’i besojnë asaj një mjet që mund të gjejë dhe shfrytëzojë në mënyrë autonome dobësitë në bërthamën Linux, edhe gabimet e vogla operative mbartin rrezik të madh reputacioni. Fakti që vetë rrjedhja e informacionit nga Mythos ishte ajo që e njoftoi për herë të parë komunitetin e sigurisë për ekzistencën e modelit, disa javë para njoftimit të planifikuar, nënvizon këtë pikë.

Gjerësia e koalicionit është e dukshme. Ai përfshin konkurrentë të drejtpërdrejtë – Google dhe Microsoft – së bashku me operatorët ekzistues të sigurisë kibernetike, institucionet financiare dhe administratorin e ekosistemit më të madh me burim të hapur në botë. Dhe disa partnerë tashmë e kanë përdorur Mythos Preview kundër infrastrukturës së tyre për javë të tëra.

Drejtori i Teknologjisë së Informacionit (CTO) i CrowdStrike, Elia Zaitsev, e përshkroi iniciativën në terma të shembjes së afateve kohore: “Dritarja midis zbulimit të një dobësie dhe shfrytëzimit nga një kundërshtar është shembur – ajo që dikur zgjaste muaj, tani ndodh brenda disa minutash me IA-në.” Zëvendëspresidentja dhe CISO e AWS, Amy Herzog, tha se ekipet e saj tashmë e kanë testuar Mythos Preview kundrejt bazave kritike të kodit, ku modeli “na ndihmon tashmë të forcojmë kodin tonë”. Dhe CISO Global i Microsoft, Igor Tsyganskiy, vuri në dukje se kur u testua kundrejt CTI-REALM, standardi i sigurisë me burim të hapur i Microsoft, “Claude Mythos Preview tregoi përmirësime të konsiderueshme krahasuar me modelet e mëparshme”.

Ndoshta komenti më zbulues erdhi nga Jim Zemlin, CEO i Linux Foundation, i cili vuri në dukje asimetrinë themelore që ka pllakosur sigurinë me burim të hapur për dekada: “Në të kaluarën, ekspertiza e sigurisë ka qenë një luks i rezervuar për organizatat me ekipe të mëdha sigurie. Mirëmbajtësit e burimeve të hapura – softueri i të cilëve mbështet pjesën më të madhe të infrastrukturës kritike të botës – historikisht janë lënë ta kuptojnë vetë sigurinë.” Projekti Glasswing, tha ai, “ofron një rrugë të besueshme për të ndryshuar këtë ekuacion”.

Për ta mbështetur këtë pretendim me para, Anthropic thotë se ka dhuruar 2.5 milionë dollarë për Alpha-Omega dhe OpenSSF përmes Linux Foundation, dhe 1.5 milionë dollarë për Apache Software Foundation. Mirëmbajtësit e interesuar për akses mund të aplikojnë përmes programit Claude for Open Source të Anthropic.

Pas periudhës së parapamjes së hulumtimit — gjatë së cilës angazhimi prej 100 milionë dollarësh i Anthropic do të mbulojë pjesën më të madhe të përdorimit — Parapamja Claude Mythos do të jetë e disponueshme për pjesëmarrësit me 25 dollarë për milion tokena hyrëse dhe 125 dollarë për milion tokena dalëse. Pjesëmarrësit mund të hyjnë në model përmes Claude API, Amazon Bedrock , Vertex AI të Google Cloud dhe Microsoft Foundry .

Këto çmime pasqyrojnë intensitetin kompjuterik të modelit. Postimi në blogun draft që u publikua në mars e përshkroi Mythos si një model të madh, me përdorim intensiv kompjuterik, që do të ishte i kushtueshëm si për Anthropic ashtu edhe për klientët e tij për t’u shërbyer. Zgjidhja e Anthropic është të zhvillojë dhe lançojë masa të reja mbrojtëse me një model të ardhshëm Claude Opus, duke i lejuar kompanisë t’i “përmirësojë dhe rafinojë ato me një model që nuk paraqet të njëjtin nivel rreziku si Mythos Preview”, siç i tha Cheng VentureBeat. Profesionistët e sigurisë, puna legjitime e të cilëve preket nga këto masa mbrojtëse, do të jenë në gjendje të aplikojnë për një Program të ardhshëm të Verifikimit Kibernetik.

Konteksti financiar ka rëndësi. Po atë ditë që u lançua Projekti Glasswing, Anthropic zbuloi arritjen e të ardhurave dhe marrëveshjen kompjuterike Google-Broadcom. Broadcom nënshkroi një marrëveshje të zgjeruar me Anthropic që do t’i japë startup-it të IA-së qasje në kapacitet kompjuterik me vlerë rreth 3.5 gigavat duke u mbështetur në procesorët IA të Google, sipas CNBC. Shkalla e llogaritshme që po përdoret është marramendëse – dhe kjo ndihmon të shpjegohet pse Anthropic ka nevojë si për të ardhurat nga partneritetet e sigurisë kibernetike të ndërmarrjeve ashtu edhe për infrastrukturën për të shërbyer një model të madhësisë së Mythos Preview.

Koha përputhet gjithashtu me spekulimet në rritje rreth rrugës së Anthropic drejt një oferte publike. Kompania thuhet se po vlerëson një IPO që në tetor 2026. Një iniciativë e profilit të lartë për sigurinë kibernetike, e lidhur me qeverinë, me partnerë të mëdhenj është pikërisht lloji i programit që i jep shkëlqim një narrative IPO-je – veçanërisht kur kompania mund të tregojë njëkohësisht 30 miliardë dollarë të ardhura vjetore dhe një gjurmë llogaritëse të matur në gigavat.

Pyetja më e rëndësishme që ngrihet nga Project Glasswing nuk është nëse aftësitë e Mythos Preview janë reale — miratimet e partnerëve dhe dobësitë e rregulluara sugjerojnë se janë — por sa kohë kanë në të vërtetë mbrojtësit përpara se aftësi të ngjashme t’u vihen në dispozicion kundërshtarëve.

Cheng ishte i sinqertë në lidhje me afatin kohor. “Aftësitë e inteligjencës artificiale në kufi ka të ngjarë të përparojnë ndjeshëm vetëm gjatë muajve të ardhshëm”, i tha ai VentureBeat. “Duke pasur parasysh shkallën e përparimit të inteligjencës artificiale, nuk do të kalojë shumë kohë para se aftësi të tilla të përhapen, potencialisht përtej aktorëve që janë të përkushtuar t’i vendosin ato në mënyrë të sigurt”. Ai e përshkroi Projektin Glasswing si “një hap të rëndësishëm drejt dhënies së një avantazhi të qëndrueshëm mbrojtësve në epokën e ardhshme të sigurisë kibernetike të drejtuar nga inteligjenca artificiale”, por shtoi një paralajmërim thelbësor: “Është e rëndësishme të theksohet se kjo është një pikënisje. Asnjë organizatë e vetme nuk mund t’i zgjidhë këto probleme të sigurisë kibernetike e vetme”.

Ky kuadër – muaj, jo vite – ia vlen të merret seriozisht. DARPA lançoi Cyber ​​Grand Challenge-in e saj origjinal në vitin 2016, një konkurs për të krijuar sisteme mbrojtëse automatike të afta për të arsyetuar rreth të metave, për të formuluar patch-e dhe për t’i vendosur ato në një rrjet në kohë reale. Në atë kohë, roboti fitues i mundësuar nga IA, Mayhem, përfundoi i fundit kur u rendit kundër ekipeve njerëzore në DEF CON. Një dekadë më vonë, Anthropic pohon se një model i IA-së në kufijtë e nivelit të lartë mund të gjejë dobësi që i mbijetuan 27 viteve të shqyrtimit njerëzor nga ekspertë dhe miliona testeve të automatizuara të sigurisë – dhe mund të zinxhirë shfrytëzimet së bashku në mënyrë autonome për të arritur kompromentimin e plotë të sistemit.

Delta midis këtyre dy pikave të të dhënave ilustron pse industria po e trajton këtë si një pikë kthese të vërtetë, jo si një ushtrim marketingu. Vetë Anthropic ka përvojë të drejtpërdrejtë me anën ofensive të këtij ekuacioni: kompania zbuloi në nëntor 2025 se një grup i sponsorizuar nga shteti kinez arriti 80 deri në 90 përqind ekzekutim taktik autonom duke përdorur Claude në afërsisht 30 objektiva, sipas raportit të keqpërdorimit të Anthropic.

Projekti Glasswing arrin gjatë një prej javëve më të trazuara në historinë e Anthropic. Brenda pak ditësh, kompania ka njoftuar një model që e konsideron shumë të rrezikshëm për publikim, ka zbuluar se të ardhurat e saj janë trefishuar, ka nënshkruar një marrëveshje për llogaritjen me shumë gigavat, ka punësuar një ekzekutiv të lartë të Microsoft, e ka bërë më të kushtueshme për abonentët e Claude Code përdorimin e mjeteve të palëve të treta si OpenClaw dhe i ka mbijetuar një ndërprerjeje të madhe të chatbot-it të saj Claude të martën në mëngjes. Anthropic thotë se do të raportojë publikisht për atë që ka mësuar brenda 90 ditëve. Në planin afatmesëm, kompania ka propozuar që një organ i pavarur, i palës së tretë, mund të jetë vendi ideal për punën e vazhdueshme në projekte të sigurisë kibernetike në shkallë të gjerë.

Nëse ndonjë nga këto është mjaftueshëm e shpejtë varet nga një garë që është tashmë në zhvillim e sipër. Anthropic ndërtoi një model që mund të hapë në mënyrë autonome sistemet operative më të forta në planet – dhe tani po vë bast se ndarja e tij me mbrojtësit, nën kufizime të kujdesshme, do të bëjë më shumë mirë sesa momenti i pashmangshëm kur aftësi të ngjashme bien në duar më pak të kujdesshme. Në thelb, është një bast se transparenca mund t’i tejkalojë përhapjes. Muajt ​​e ardhshëm do të përcaktojnë nëse ky bast do të shpërblehet, apo nëse krahët e krahut të qelqit nuk ishin kurrë mjaftueshëm të errët për të fshehur atë që po vinte.