Mozilla thotë se 271 dobësitë e zbuluara nga Mythos kanë “pothuajse aspak alarme të rreme”
Mosbesimi ishte i prekshëm kur Drejtori i Teknologjisë i Mozilla-s muajin e kaluar deklaroi se zbulimi i dobësive të ndihmuara nga inteligjenca artificiale nënkuptonte se ” zero ditët janë të numëruara ” dhe “mbrojtësit më në fund kanë një shans për të fituar, në mënyrë vendimtare”. Në fund të fundit, dukej si pjesë e një modeli shumë të njohur. Zgjidh disa rezultate mbresëlënëse të arritura nga inteligjenca artificiale, lër jashtë çdo shkrim të imët që mund të paraqiste një pamje më të nuancuar dhe lëre trenin e entuziazmit të vazhdojë.

Duke qenë të vetëdijshëm për skepticizmin, Mozilla të enjten ofroi një vështrim prapa skenave në përdorimin e Anthropic Mythos – një model i inteligjencës artificiale për identifikimin e dobësive të softuerit – për të zbuluar 271 të meta sigurie të Firefox gjatë dy muajve. Në një postim, inxhinierët e Mozilla thanë se përparimi më në fund i gatshëm për përdorim në kohë të lartë që arritën ishte kryesisht rezultat i dy gjërave: (1) përmirësimit të vetë modeleve dhe (2) zhvillimit të një ” hartimi ” të personalizuar nga Mozilla që mbështeti Mythos ndërsa analizonte kodin burimor të Firefox.

Inxhinierët thanë se përpjekimet e tyre të mëparshme me zbulimin e dobësive të asistuara nga inteligjenca artificiale ishin të mbushura me “gabime të padëshiruara”. Zakonisht, dikush do ta nxiste një model të analizonte një bllok kodi. Modeli më pas do të prodhonte raporte gabimesh që lexoheshin me të drejtë, dhe shpesh në shkallë të paprecedentë. Sidoqoftë, gjithmonë, kur zhvilluesit njerëzorë hetonin më tej, ata do të zbulonin se një përqindje e madhe e detajeve kishin halucinacione. Njerëzit më pas do të duhej të investonin punë të konsiderueshme duke trajtuar raportet e dobësive në mënyrën e vjetër.
Puna e Mozilla-s me Mythos ishte e ndryshme, tha në një intervistë Inxhinieri i Shquar i Mozilla-s, Brian Grinstead. Faktori më i madh dallues ishte përdorimi i një harness agjentësh, një pjesë kodi që mbështjell një LLM për ta udhëhequr atë përmes një sërë detyrash specifike. Që një harness i tillë të jetë i dobishëm, kërkon burime të konsiderueshme për ta përshtatur atë sipas semantikës, mjeteve dhe proceseve specifike të projektit për të cilat do të përdoret.
Grinstead e përshkroi pajisjen që ndërtoi ekipi i tij si “kodin që drejton LLM-në për të arritur një qëllim. Ai i jep modelit udhëzime (p.sh., ‘gjej një gabim në këtë skedar’), i siguron atij mjete (p.sh., duke e lejuar të lexojë/shkruajë skedarë dhe të vlerësojë rastet e testimit), pastaj e ekzekuton atë në një cikël deri në përfundim”. Pajisjet i dhanë Mythos qasje në të njëjtat mjete dhe kanalizim që përdorin zhvilluesit njerëzorë të Mozilla-s, duke përfshirë ndërtimin special të Firefox-it që ata përdorin për testim.
Ai dha më shumë hollësi:
Me këto parzmore, për sa kohë që mund të përcaktoni një sinjal suksesi determinist dhe të qartë ose një sinjal verifikimi detyre, mund të vazhdoni t’i thoni të vazhdojë të funksionojë. Në rastin tonë, kur kërkojmë probleme me sigurinë e memories, kemi versionin tonë të dezinfektuesit të Firefox-it dhe nëse e bëni të bjerë, fitoni. E drejtojmë atë agjent te një skedar burimor dhe themi: “e dimë që ka një problem në këtë skedar, ju lutemi shkoni ta gjeni”. Ai do të krijojë raste testimi. Ne kemi sistemet dhe mjetet tona ekzistuese të fuzzimit për të qenë në gjendje të ekzekutojmë ato teste. Ai do të thotë: “Mendoj se ka një problem këtu nëse e krijoj HTML-në saktësisht kështu”. E dërgon atë te një mjet, mjeti thotë po ose jo. Nëse mjeti thotë po, atëherë ka disa verifikime shtesë.
Verifikimi shtesë vjen në formën e një LLM të dytë që vlerëson rezultatin nga LLM i parë. Një rezultat i lartë u jep zhvilluesve të njëjtin besim që kanë kur shikojnë raportet e gjeneruara përmes metodave më tradicionale të zbulimit.
“Sa i përket defekteve që dalin nga ana tjetër, nuk ka pothuajse asnjë rezultat pozitiv të rremë,” tha ai.
Pamja prapa skenave e së enjtes përfshin zbulimin e raporteve të plota të Bugzilla-s për 12 nga 271 dobësitë që Mozilla zbuloi duke përdorur Mythos dhe, në një masë më të vogël, Claude Opus 4.6. Rastet e testimit – që do të thotë HTML ose kodi tjetër që shkakton një gjendje të pasigurt të memories – ofrohen në secilën prej tyre dhe plotësojnë të njëjtat kritere që Mozilla kërkon që të gjitha gabimet të konsiderohen dobësi sigurie në Firefox. Të paktën një studiues tha të enjten se një vështrim i përciptë i raporteve tregoi se ato ishin ” mjaft mbresëlënëse “.
Ndryshe nga zbulimet e mëparshme të dobësive, tha Grinstead, detajet e ofruara nga analiza e saj Mythos e udhëhequr nga harness, dhe të konfirmuara nga LLM e dytë, dhe përfundimisht të përfshira në raporte, ofrojnë një nivel besimi që ekipi i tij nuk e kishte më parë.
“Kjo është gjëja kryesore që na ka hapur aftësinë për të vepruar në shkallën në të cilën kemi vepruar tani”, tha ai. “I jep inxhinierit një bosht që mund ta tërheqë dhe thotë: ‘Po, kjo ka problemin’, dhe pastaj mund ta përsërisësh kodin dhe ta dish qartë kur e ke rregulluar dhe përfundimisht ta vendosësh rastin e testimit në pemë në mënyrë që të mos e kthesh në regres.”
Siç u përmend më parë, karakterizimi i Mozilla-s për zbulimin e dobësive të asistuara nga inteligjenca artificiale si një ndryshim rrënjësor është pritur me skepticizëm masiv dhe të zëshëm në shumë aspekte. Kritikët fillimisht u tallën kur Mozilla nuk mori përcaktime CVE për asnjë nga 271 dobësitë. Megjithatë, si shumë zhvillues, Mozilla nuk merr lista CVE për gabimet e sigurisë të zbuluara brenda kompanisë. Në vend të kësaj, ato janë të paketuara në një patch të vetëm. Normalisht, raportet e Bugzilla-s që detajojnë këto “mbledhje” fshihen për disa muaj pasi rregullohen për të mbrojtur ata që janë të ngadaltë në patch. Tani që Mozilla ka zbuluar një duzinë prej tyre, të njëjtët kritikë me siguri do të pretendojnë se edhe ato ishin zgjedhur me kujdes dhe fshehin rezultate më pak të sakta.
Nga 271 gabimet e gjetura duke përdorur Mythos, 180 ishin me vlerësim të ulët sekondar, vlerësimi më i lartë i Mozilla-s për dobësitë e raportuara brenda vendit. Këto lloje dobësish mund të shfrytëzohen përmes sjelljes normale të përdoruesit, siç është shfletimi në një faqe interneti. (Vlerësimi i vetëm më i lartë, me vlerësim të ulët sekondar, është i rezervuar për zero-ditë.) 80 të tjera ishin me vlerësim të moderuar sekondar dhe 11 ishin me vlerësim të ulët sekondar.
Kritikët kanë të drejtë që vazhdojnë të kundërshtojnë. Prezantimi i tepërt është një metodë kyçe për të fryrë vlerësimet tashmë të larta të kompanive të inteligjencës artificiale. Duke pasur parasysh lëvdatat e shumta që Mozilla i ka bërë Mythos, është e lehtë që njerëzit edhe më besnikë të pyesin veten: Çfarë po merr në këmbim? Larg zgjidhjes së debatit, sqarimet e së enjtes ka të ngjarë vetëm sa ta nxisin më tej polemikat.
Megjithatë, për ta dëgjuar Grinstead-in duke e thënë, detajet janë dëshmi e qartë e dobisë së zbulimit të asistuar nga inteligjenca artificiale, dhe motivimi i Mozilla-s është i thjeshtë.
“Njerëzit janë pak të lodhur nga viti i fundit i këtyre angazhimeve të gabuara, kështu që menduam se ishte e rëndësishme të tregonim disa nga punët tona, të hapnim disa nga gabimet dhe të flisnim për to pak më hollësisht, si një mënyrë për të nxitur, shpresojmë, disa veprime ose për të vazhduar bisedën”, tha ai. “Nuk ka asnjë lloj këndvështrimi marketingu këtu. Ekipi ynë e ka mbështetur plotësisht këtë qasje. Po përpiqemi të përhapim një mesazh rreth kësaj teknike në përgjithësi dhe jo ndonjë ofruesi specifik modeli, kompanie apo diçkaje të tillë.”
