Modeli i ri i Google do të kontrollojë në mënyrë autonome shfletuesit dhe aplikacionet mobile

foto

Google Deepmind ka prezantuar një model të ri të inteligjencës artificiale të aftë për të operuar ndërfaqe interneti dhe celulari. Modeli Gemini 2.5 Computer Use tani është i disponueshëm në versionin paraprak.

foto

Zhvilluesit mund ta aksesojnë atë nëpërmjet Gemini API. I ndërtuar mbi Gemini 2.5 Pro, modeli është projektuar për të ndihmuar agjentët të bashkëveprojnë drejtpërdrejt me ndërfaqet grafike të përdoruesit.

foto

Funksionon në një cikël të vazhdueshëm: sistemi merr një pamje të ekranit të mjedisit, kërkesën e përdoruesit dhe një regjistër të veprimeve të kaluara. Nga kjo, ai gjeneron veprime të ndërfaqes së përdoruesit si klikimi, shkrimi ose lëvizja me shpejtësi. Pas çdo veprimi, një pamje e re e ekranit i dërgohet përsëri modelit dhe procesi përsëritet.

Google thotë se modeli është optimizuar kryesisht për shfletuesit e internetit, por mund të trajtojë edhe kontrollin e ndërfaqes së përdoruesit në celular. Nuk është menduar ende për detyra në nivel sistemi operativ desktop.

Sipas Google, modeli i tejkalon alternativat në teste si Online-Mind2Web, WebVoyager dhe AndroidWorld. Këto rezultate vijnë nga teste dhe vlerësime të brendshme nga Browserbase. Raportohet se arrin saktësi mbi 70 përqind me një vonesë mesatare prej rreth 225 sekondash.

Google identifikon tre rreziqe kryesore: keqpërdorim të qëllimshëm nga përdoruesit, sjellje të papritura të modelit dhe futje të menjëhershme në internet. Kompania thotë se ka integruar veçori sigurie direkt në model.

Një shërbim sigurie për çdo hap shqyrton çdo veprim të propozuar para ekzekutimit. Zhvilluesit gjithashtu mund të përdorin udhëzimet e sistemit për të kërkuar konfirmimin e përdoruesit ose për të bllokuar veprime specifike me rrezik të lartë, të tilla si anashkalimi i CAPTCHA-ve ose kontrollimi i pajisjeve mjekësore.

Google tashmë po e përdor modelin në mënyrë të brendshme për testimin e ndërfaqes së përdoruesit, Projektin Mariner, Agjentin e Testimit Firebase dhe Modalitetin AI në Kërkim. Gemini 2.5 Computer Use është i disponueshëm përmes Google AI Studio dhe Vertex AI, me një mjedis demo të organizuar nga Browserbase.