Modeli i ri i Metës me burim të hapur SAM 2 mund të jetë momenti GPT-4 për vizionin kompjuterik

foto

Meta ka publikuar SAM 2, një model i ri bazë për segmentimin e imazheve dhe videove. Kompania është me burim të hapur modelin, kodin dhe grupin e të dhënave.

foto

Në prill 2023, Meta prezantoi “Segment Anything Model” (SAM), një model themelor për segmentimin e imazheve që u përshëndet si “momenti GPT-3” për vizionin kompjuterik për shkak të përmirësimeve të konsiderueshme të cilësisë.

foto

Tani Meta po ndjek SAM 2. Ndërsa SAM u trajnua për 11 milionë imazhe dhe u optimizua për segmentimin e imazheve, SAM 2 u trajnua për të dhënat video dhe mund të segmentojë si imazhet ashtu edhe videot. Sipas Metës, segmentimi i videos funksionon në mënyrë të besueshme edhe me video me cilësi më të ulët ose kur objektet janë pjesërisht të errësuar.

SAM 2 u trajnua mbi grupin e ri të dhënave SA-V (Segment Anything Video), grupi më i madh i të dhënave të segmentimit të videove të disponueshme publikisht deri më sot. Meta thotë se SA-V përmban 50,900 video me 642,600 shënime maskash, që përbëjnë 35.5 milionë maska ​​individuale – 53 herë më shumë se grupet e të dhënave të mëparshme. Me gati 200 orë video me shënime, SA-V vendos një standard të ri për të dhënat e trajnimit.

Dy sistemet SAM ndihmuan në krijimin e të dhënave: Meta përdori një sistem shënimi “Data Engine” me annotues njerëzor, i cili mund të etiketojë videot deri në 8.4 herë më shpejt se sistemet e tjera falë “modelit SAM në lak”. Annotuesit përdorën SAM 2 në mënyrë interaktive për të etiketuar segmentet e videos dhe të dhënat e reja u përdorën për të përditësuar SAM 2.

Arkitekturisht, SAM 2 bazohet në paraardhësin e tij të bazuar në Transformer. Një veçori e re është një modul memorie që ruan informacione rreth objekteve dhe ndërveprimeve të mëparshme nëpër korniza video. Kjo lejon SAM 2 të gjurmojë objektet në sekuenca më të gjata dhe t’i përgjigjet hyrjes së përdoruesit. Kur aplikohet në imazhe, memoria është bosh dhe modeli sillet si SAM.

Në eksperimente, SAM 2 tregoi saktësi më të mirë të segmentimit me tre herë më pak ndërveprime në krahasim me qasjet e mëparshme. Meta thotë se modeli i ri është më i mirë se teknologjia aktuale në standardet e vendosura të segmentimit të objekteve video. SAM 2 gjithashtu arriti rezultate më të mira në segmentimin e imazhit sesa modeli origjinal SAM, me gjashtë herë shpejtësinë.