Muse Spark i Meta-s është modeli i saj i parë kufitar dhe i pari pa peshë të hapura
Meta Superintelligence Labs sjell Muse Spark, modelin e saj të parë në nivel të avancuar. Është gjithashtu modeli i parë i Meta-s me inteligjencë artificiale pa pesha të hapura. Testet e pavarura tregojnë se po e ngushton hendekun me OpenAI, Anthropic dhe Google, të paktën për momentin.
Meta ka zbuluar Muse Spark, modelin debutues në familjen e re Muse nga Superintelligence Labs, kompania e saj e brendshme. Është një model arsyetimi multimodal vendas me përdorim mjetesh, arsyetim vizual të zinxhirit të mendimit dhe orkestrim nga shumë agjentë.
Modeli është aktiv në meta.ai dhe në aplikacionin Meta AI, me një pamje paraprake private të API-t që u ofrohet përdoruesve të zgjedhur. Ndryshe nga modelet e mëparshme të Llama, Muse Spark nuk është me peshë të hapur dhe nuk mund të ekzekutohet lokalisht – një ndryshim i madh nga libri i strategjisë me burim të hapur që Meta e ka mbështetur për vite me radhë. Por shpenzimet e mëdha të kompanisë për infrastrukturën e IA-së dhe talentet e specializuara, të cilat mund të vijnë në kurriz të roleve të tjera , duhet të fillojnë të paguajnë vetë përfundimisht.
Megjithatë, burimi i hapur nuk është përjashtuar plotësisht. Raportohet se Meta po planifikon të ofrojë burim të hapur për pjesë të modeleve të saj të reja të inteligjencës artificiale , dhe drejtori i inteligjencës artificiale, Alexandr Wang, thotë se kompania ka “plane për të ofruar burim të hapur për versionet e ardhshme”.
Meta thotë se Muse Spark arrin rezultate konkurruese në perceptimin multimodal, arsyetimin dhe aplikimet shëndetësore. Në të njëjtën kohë, kompania pranon se ka ende boshllëqe në performancë në sistemet agjentike me horizont të gjatë dhe rrjedhat e punës së kodimit.

Si gjithmonë, është një pyetje e hapur se si rezultatet e referencës përkthehen në përdorim në botën reale. Në letër, Meta e ka arritur OpenAI-në dhe të tjerët. Por Anthropic tashmë e ka ngritur standardin me Mythos , dhe thuhet se OpenAI do ta ndjekë së shpejti, kështu që hendeku i Metës mund të vazhdojë.
Meta po sjell gjithashtu një “Mënyrë Konsiderimi” që orkestron mendimin e shumë agjentëve paralelisht. Është projektuar për t’u përballur me veçoritë e arsyetimit të thellë në modelet frontier si Gemini Deep Think dhe GPT Pro. Meta thotë se arrin 58 përqind në Humanity’s Last Exam dhe 38 përqind në FrontierScience Research.

Shërbimi i pavarur i krahasimit Artificial Analysis mori akses të hershëm për të testuar Muse Spark. Modeli shënoi 52 pikë në Indeksin e Inteligjencës, duke u renditur në 5 më të mirët në të gjitha modelet e testuara. Vetëm Gemini 3.1 Pro Preview, GPT-5.4 dhe Claude Opus 4.6 morën pikë më të larta.

Për kontekst, modelet e mëparshme të Meta-s, Llama 4 Maverick dhe Scout, arritën vetëm 18 dhe 13 pikë kur u lançuan në prill 2025. Artificial Analysis thotë se Muse Spark mbyll hendekun kufitar në një version të vetëm. Shërbimi identifikon dobësitë në detyrat e bazuara në agjentë, megjithatë: në pikën e testimit të detyrave të punës GDPval-AA, Muse Spark është pas Claude Sonnet 4.6 (1,648) dhe GPT-5.4 (1,676) me 1,427 pikë.
Muse Spark është ndërtuar mbi një sistem para-trajnimi të rishikuar plotësisht që Meta e zhvilloi gjatë nëntë muajve të fundit, thotë kompania. Ndryshimet në arkitekturën e modelit, optimizimin dhe kurimin e të dhënave kanë për qëllim të nxjerrin dukshëm më shumë aftësi nga secila njësi llogaritëse.
Sipas Meta-s, përfitimi është se Muse Spark përputhet me aftësitë e Llama 4 Maverick me një fuqi llogaritëse shumë më të vogël. Kjo e bën atë dukshëm më efikas se modelet bazë më të mira në treg sot.
Pas trajnimit paraprak, Meta zbaton të mësuarit përforcues (RL) për ta mprehur më tej modelin, praktikë standarde në të gjithë industrinë aktualisht. RL në shkallë të gjerë është i njohur për paqëndrueshmërinë e tij, por Meta thotë se grupi i ri ofron përfitime të qëndrueshme dhe të parashikueshme. RL përmirëson besueshmërinë pa ngushtuar diversitetin e arsyetimit të modelit, dhe sipas Metës, këto përmirësime përgjithësohen në mënyrë të parashikueshme për detyrat që nuk u shfaqën kurrë gjatë trajnimit, bazuar në një grup të dhënash të veçanta vlerësimi.
Meta përdor dy qasje për llogaritjen e kohës së testimit, të cilat modelet e procesit të zgjeruar të të menduarit i përdorin kur punojnë drejt një përgjigjeje optimale. E para janë penalitetet e kohës së mendimit që optimizojnë konsumin e tokenëve. E dyta është orkestrimi me shumë agjentë që rrit performancën pa shtuar vonesë.
Gjatë stërvitjes me penalitete të kohës së mendimit, Meta vëzhgoi një tranzicion fazor që e quan “kompresim i mendimit”. Pas një shtrirjeje fillestare ku modeli përmirësohet duke menduar më gjatë, penalizimi i gjatësisë e shtyn Muse Spark të kompresojë arsyetimin e tij dhe të zgjidhë problemet me shumë më pak tokena. Modeli më pas zgjeron zgjidhjet e tij përsëri për rezultate më të forta.
Orkestrimi me shumë agjentë vendos agjentë të shumtë paralelë në probleme të vështira në të njëjtën kohë. Meta thotë se kjo ofron performancë më të mirë në latencë të krahasueshme krahasuar me një agjent të vetëm që shpenzon më shumë kohë duke menduar.
Analiza Artificiale mbështet pretendimet për efikasitet: Muse Spark djegi 58 milionë tokena prodhimi për të gjithë Indeksin e Inteligjencës, në të njëjtin nivel me Gemini 3.1 Pro Preview (57 milionë) dhe shumë më poshtë se Claude Opus 4.6 (157 milionë) ose GPT-5.4 (120 milionë).
Muse Spark është ndërtuar për të punuar me informacion vizual në të gjitha domenet. Meta thotë se ofron rezultate të forta në pyetjet vizuale STEM, njohjen e entiteteve dhe lokalizimin. Kompania thekson perceptimin dhe shëndetin multimodal si raste përdorimi, megjithëse aplikacione interaktive si gjenerimi i mini-lojërave janë gjithashtu në diskutim.
Nga ana e shëndetit, Meta thotë se ka bashkëpunuar me më shumë se 1,000 mjekë për të mbledhur të dhëna stërvitore me cilësi të lartë dhe të sakta në fakte. Muse Spark mund të gjenerojë ekrane interaktive që analizojnë vlerën ushqyese të ushqimit ose tregojnë se cilët muskuj aktivizohen gjatë ushtrimeve specifike.
Meta thotë se Muse Spark nuk ka aftësitë autonome të nevojshme për të ekzekutuar skenarë kërcënimesh që përfshijnë sigurinë kibernetike ose humbjen e kontrollit. Një raport i plotë sigurie pritet të dalë më pas. Një gjetje e hershme që ia vlen të përmendet: modeli shpesh i shënonte skenarët e testimit si “kurthe të shtrirjes” dhe justifikonte sjelljen e ndershme duke theksuar se po vlerësohej, një fenomen që studiuesit e quajnë “ndërgjegjësim për vlerësimin”.
Meta e përshkruan Muse Spark si “hapin e parë në shkallën tonë të shkallëzimit dhe produktin e parë të një rishikimi rrënjësor të përpjekjeve tona të IA-së” drejt “superinteligjencës personale”. Kompania thotë se po investon në të gjithë gamën, nga kërkimi dhe trajnimi i modeleve deri te infrastruktura, duke përfshirë qendrën e të dhënave Hyperion.
“Ky është modeli i parë i MSL dhe sigurisht që ka disa aspekte të vështira që do t’i përmirësojmë me kalimin e kohës në sjelljen e modelit”, shkruan kreu i Meta AI, Alexandr Wang , duke shtuar se “modelet më të mëdha janë tashmë në zhvillim me shkallëzimin e infrastrukturës për t’u përshtatur”.
Publikimi vjen pas një periudhe të vështirë për përpjekjet e Meta-s në fushën e inteligjencës artificiale. Llama 4 Maverick dhe Scout u kritikuan në prill 2025 për rezultatet zhgënjyese të testeve të benchmark-ut dhe akuzat e brendshme për manipulim të testeve të benchmark-ut. Muse Spark vjen pas një riorganizimi të punës së Meta-s në fushën e inteligjencës artificiale nën emrin e ri të Meta Superintelligence Labs dhe shënon rikthimin e kompanisë në garën e nivelit të lartë pas afërsisht një viti qetësie relative.
