Studiuesit e Apple zhvillojnë një agjent AI në pajisje që ndërvepron me aplikacionet për ju
Pavarësisht se ka vetëm 3 miliardë parametra, Ferret-UI Lite përputhet ose tejkalon performancën e modeleve deri në 24 herë më të mëdha.
Në dhjetor 2023, një ekip prej 9 studiuesish publikoi një studim të quajtur ” FERRET: Refer and Ground Anything Anywhere at Any Granularity ” (Refer and Ground Anything Anywhere në Çdo Granularitet). Në të, ata paraqitën një model multimodal të gjuhës së madhe (MLLM) që ishte i aftë të kuptonte referencat e gjuhës natyrore për pjesë specifike të një imazhi:

Që atëherë, Apple ka publikuar një seri dokumentesh pasuese që zgjerojnë familjen e modeleve Ferret, duke përfshirë Ferretv2, Ferret-UI dhe Ferret-UI 2.
Në mënyrë specifike, variantet e Ferret-UI zgjeruan aftësitë origjinale të FERRET dhe u trajnuan për të kapërcyer atë që studiuesit e përcaktuan si një mangësi të MLLM-ve të domenit të përgjithshëm.
Nga dokumenti origjinal i Ferret-UI:
Përparimet e fundit në modelet multimodale të gjuhëve të mëdha (MLLM) kanë qenë të rëndësishme, megjithatë, këto MLLM të domenit të përgjithshëm shpesh dështojnë në aftësinë e tyre për të kuptuar dhe bashkëvepruar në mënyrë efektive me ekranet e ndërfaqes së përdoruesit (UI). Në këtë punim, ne paraqesim Ferret-UI, një MLLM të ri të përshtatur për të kuptuar më mirë ekranet e ndërfaqes së përdoruesit (UI) celular, të pajisur me aftësi referimi, argumentimi dhe arsyetimi. Duke pasur parasysh që ekranet e ndërfaqes së përdoruesit zakonisht shfaqin një raport aspekti më të zgjatur dhe përmbajnë objekte më të vogla me interes (p.sh., ikona, tekste) sesa imazhet natyrore, ne përfshijmë “çdo rezolucion” mbi Ferret për të zmadhuar detajet dhe për të shfrytëzuar tiparet vizuale të përmirësuara.

Disa ditë më parë, Apple e zgjeroi edhe më tej familjen e modeleve Ferret-UI, me një studim të quajtur Ferret-UI Lite: Mësime nga ndërtimi i agjentëve të vegjël GUI në pajisje.
Ferret-UI u ndërtua mbi një model me parametra 13B, i cili u përqendrua kryesisht në kuptimin e ndërfaqes së përdoruesit në celular dhe pamjet e ekranit me rezolucion fiks. Ndërkohë, Ferret-UI 2 e zgjeroi sistemin për të mbështetur platforma të shumëfishta dhe perceptimin me rezolucion më të lartë.
Në të kundërt, Ferret-UI Lite është një model shumë më i lehtë, i projektuar për t’u ekzekutuar në pajisje, ndërkohë që mbetet konkurrues me agjentë GUI dukshëm më të mëdhenj.
Sipas studiuesve të punimit të ri, “shumica e metodave ekzistuese të agjentëve GUI […] përqendrohen në modele të mëdha themelore.” Kjo për shkak se “aftësitë e forta të arsyetimit dhe planifikimit të modeleve të mëdha nga ana e serverit u lejojnë këtyre sistemeve agjentike të arrijnë aftësi mbresëlënëse në detyra të ndryshme të navigimit GUI.”
Ata vërejnë se, ndërsa ka pasur shumë përparim si në sistemet shumë-agjentëshe ashtu edhe në ato end-to-end GUI, të cilat ndjekin qasje të ndryshme për të përmirësuar shumë detyra që përfshijnë bashkëveprimin agjentik me GUI-të (“bazëzim GUI i nivelit të ulët, kuptim i ekranit, planifikim shumë-hapësh dhe vetë-reflektim”), ato janë në thelb shumë të mëdha dhe kërkojnë shumë kompjuterë për t’u funksionuar mirë në pajisje.
Pra, ata nisën të zhvillonin Ferret-UI Lite, një variant me 3 miliardë parametra të Ferret-UI, i cili “është ndërtuar me disa komponentë kryesorë, i udhëhequr nga njohuri mbi trajnimin e modeleve gjuhësore në shkallë të vogël”.
Ferret-UI Lite shfrytëzon:
Të dhëna trajnimi reale dhe sintetike nga domene të shumëfishta GUI;
Teknika prerjeje dhe zmadhimi në kohë reale (ose, në kohën e përfundimit) për të kuptuar më mirë segmente specifike të GUI-t;
Teknikat e mbikëqyrura të rregullimit të imët dhe përforcimit të të nxënit.
Rezultati është një model që përputhet ngushtë ose madje i tejkalon modelet konkurruese të agjentëve GUI që janë deri në 24 herë më të mëdhenj se numri i parametrave të tij.

Ndërsa e gjithë arkitektura (e cila është detajuar plotësisht në studim) është interesante, teknikat e prerjes dhe zmadhimit në kohë reale janë veçanërisht të rëndësishme.
Modeli bën një parashikim fillestar, korr përreth tij dhe pastaj riparashikon atë rajon të prerë. Kjo e ndihmon një model kaq të vogël të kompensojë kapacitetin e tij të kufizuar për të përpunuar një numër të madh tokenësh imazhi.

Një tjetër kontribut i dukshëm i punimit është mënyra se si Ferret-UI Lite në thelb gjeneron të dhënat e veta të trajnimit. Studiuesit ndërtuan një sistem shumë-agjentësh që bashkëvepron drejtpërdrejt me platformat GUI të drejtpërdrejta për të prodhuar shembuj trajnimi sintetik në shkallë të gjerë.
Ekziston një gjenerator detyrash kurrikulare që propozon objektiva me vështirësi në rritje, një agjent planifikimi i ndan ato në hapa, një agjent tokëzimi i ekzekuton ato në ekran dhe një model kritik vlerëson rezultatet.

Me këtë rrjedhë, sistemi i trajnimit kap paqartësinë e ndërveprimit në botën reale (siç janë gabimet, gjendjet e papritura dhe strategjitë e rikuperimit), gjë që do të ishte shumë më sfiduese për t’u bërë duke u mbështetur në të dhëna të pastra dhe të shënuara nga njerëzit.
Është interesante se, ndërsa Ferret-UI dhe Ferret-UI 2 përdorën pamje të ekranit të iPhone dhe ndërfaqe të tjera të Apple në vlerësimet e tyre, Ferret-UI Lite u trajnua dhe u vlerësua në mjedise GUI Android, uebi dhe desktopi, duke përdorur standarde si AndroidWorld dhe OSWorld.
Studiuesit nuk e tregojnë qartë pse zgjodhën këtë rrugë për Ferret-UI Lite, por ka të ngjarë që kjo të pasqyrojë se ku janë të disponueshme sot platforma testimi të agjentëve GUI në shkallë të gjerë, të riprodhueshme.
Sidoqoftë, studiuesit zbuluan se, ndërsa Ferret-UI Lite performoi mirë në detyra të nivelit të ulët dhe me horizont të shkurtër, nuk performoi aq mirë në ndërveprime më të ndërlikuara me shumë hapa, një kompromis që do të pritej kryesisht, duke pasur parasysh kufizimet e një modeli të vogël në pajisje.
Nga ana tjetër, Ferret-UI Lite ofron një agjent lokal, dhe si zgjerim, privat (meqenëse nuk ka nevojë të dhëna të shkojnë në cloud dhe të përpunohen në servera të largët) që bashkëvepron në mënyrë autonome me ndërfaqet e aplikacionit bazuar në kërkesat e përdoruesve, gjë që, sipas të gjitha gjasave, është mjaft interesante.
