Meta i kërkoi Amazon-it dhe Microsoft-it të ndihmojnë në financimin e Llama

foto

Duke u përballur me shpenzime të larta të inteligjencës artificiale, Meta thuhet se ka kërkuar fonde nga konkurrentët për modelet e saj Llama, duke ofruar ndikim në veçoritë në këmbim.

foto

Edhe Meta Platforms nuk është imun ndaj kostove marramendëse të garës së AI. Kompania kaloi pjesë të vitit të kaluar duke iu afruar konkurrentëve, duke përfshirë Microsoft, Amazon dhe të tjerë, duke kërkuar ndihmë financiare për të trajnuar modelet e saj të mëdha të gjuhës Llama, sipas katër individëve të informuar mbi diskutimet e raportuara nga The Information.

foto

Këto hapa, që thuhet se u quajtën “Konsorciumi Llama”, u nxitën nga shqetësimi brenda Metës për burimet në rritje të nevojshme për zhvillimin e saj të inteligjencës artificiale, thanë dy persona. Si një ëmbëlsues, Meta me sa duket diskutoi t’u jepte mbështetësve të mundshëm financiarë një fjalë në zhvillimin e ardhshëm të Llamës.

Burimet sugjerojnë se reagimi fillestar ndaj propozimit të Metës ka qenë i vakët dhe është e pasigurt nëse është arritur ndonjë marrëveshje formale financimi. Megjithatë, përpjekja zbulon barrën e madhe financiare të përfshirë në ndërtimin e sistemeve kryesore të AI, duke ushtruar presion edhe mbi kompanitë me xhepat e thellë të Metës dhe duke sinjalizuar aksionet e larta në AI gjeneruese.

Kërkimi i Metës për partnerë financimi hedh njoftimin e fundit të Llama 4 në një dritë të re. Ai lëshim prezantoi Llama 4 Scout (109B parametra gjithsej, 17B aktiv) që synonte përdorimin me një GPU me një dritare konteksti jashtëzakonisht të madhe prej 10 milionë token – e aftë për të përpunuar afërsisht 7.5 milionë fjalë menjëherë.

Ai gjithashtu zbuloi Llama 4 Maverick shumë më të madh (400B parametra gjithsej, 17B aktiv, 128 ekspertë) për ngarkesa më të mëdha pune. Të dy përdorin një arkitekturë Mixture of Experts (MoE), një teknikë që përdor nën-rrjete të specializuara (‘ekspertë’) ku aktivizohen vetëm ato të nevojshme për çdo detyrë, duke synuar për një efikasitet më të madh gjatë funksionimit në krahasim me modelet e dendura ku përdoren gjithmonë të gjithë parametrat.

Ato u ndërtuan gjithashtu me multimodalitet vendas, duke trajtuar tekstin dhe imazhet së bashku duke përdorur shkrirjen e hershme nga faza e para-trajnimit, në vend që të shtonin aftësi imazhi më vonë.

Mbështetja e këtyre është Llama 4 Behemoth ende i papublikuar, një model me parametra 2 trilionë i përdorur brenda për distilim (mësim i modeleve më të vogla), i cili kërkonte trajnim në deri në 32,000 GPU. Meta përdori teknika si precisioni FP8 – një format numrash me saktësi më të ulët që përshpejton llogaritjet – dhe komponentë të rinj arkitekturorë si ngulitje të pozicionit rrotullues të ndërthurur (iRoPE) për të trajtuar në mënyrë efektive sekuencat e gjata.

Ndërtimi, trajnimi dhe rafinimi i modeleve të kësaj shkalle dhe kompleksiteti—integrimi i MM, multimodaliteti, kodimi i avancuar i pozicionit dhe arritja e standardeve konkurruese—kërkon në thelb fuqi të madhe llogaritëse dhe përpjekje inxhinierike, duke shpjeguar drejtpërdrejt nevojën e mundshme për investime të përbashkëta. Ndërsa MM ofron efikasitet të mundshëm të konkluzionit, kostoja fillestare e trajnimit mbetet një faktor i rëndësishëm.

Përtej llogaritjes së papërpunuar, Meta i kushtoi burime akordimit të Llama 4 për rezultate dhe siguri specifike. Kompania deklaroi publikisht qëllimin e saj ishte të kundërshtonte paragjykimet e perceptuara politike në LLM-të , duke vënë në dukje, “Është e njohur që të gjitha LLM-të kryesore kanë pasur probleme me paragjykimet – veçanërisht, ata historikisht janë anuar majtas kur bëhet fjalë për tema të debatuara politike dhe sociale … Kjo është për shkak të llojeve të të dhënave të trajnimit të disponueshme në internet.”

Meta pretendoi se testet e brendshme treguan norma të reduktuara të refuzimit dhe pabarazi ideologjike për tema të ndjeshme, krahas vendosjes së mjeteve të sigurisë si Llama Guard dhe sistemi i ekipit të kuq GOAT – një metodë e testimit kundërshtar për të gjetur dobësitë. Këto shtresa akordimi dhe sigurie shtojnë një zhvillim të mëtejshëm.

Përllogaritjet financiare të Metës i shtohen potencialisht pyetjet ligjore të vazhdueshme në lidhje me të dhënat e trajnimit, duke përfaqësuar një tjetër aspekt të sfidave dhe kostove të zhvillimit. Paditë aktive, duke përfshirë një që përfshin komedianin Sarah Silverman, pretendojnë se kompania ka trajnuar modele Llama në grupe të dhënash masive të librave pirate të burimeve nga bibliotekat si LibGen përmes ndarjes së skedarëve BitTorrent. Dokumentet e gjykatës thuhet se zbuluan një kapje të brendshme, me një inxhinier të cituar të ketë thënë, “Torrenting nga një kompjuter portativ i korporatës [në pronësi të Meta] nuk ndihet mirë.”

Akuzat u shfaqën në fund të marsit 2025 se Meta mund të kishte ri-ngarkuar gjithashtu afërsisht 30% të këtyre të dhënave, duke dobësuar potencialisht argumentet e ‘përdorimit të drejtë’ dhe duke rritur përgjegjësinë e mundshme ligjore ose koston e ardhshme të burimit të të dhënave alternative, të licencuara. Polemika të tilla mund të përfaqësojnë një nxitës thelbësor, nëse më pak të dukshëm, të shpenzimeve të përgjithshme të zhvillimit të AI.

Përhapja e financimit të Metës përputhet me strategjinë e saj të qartë për ta bërë Llamën qendrore në operacionet e saj. Modelet u integruan në veçoritë e Meta AI në WhatsApp, Instagram dhe Facebook menjëherë pas lançimit. Ato u vunë gjithashtu të disponueshme për shkarkim dhe përmes partnerëve në cloud – duke përfshirë Amazon SageMaker JumpStart dhe Azure AI Foundry dhe Azure Databricks të Microsoft – edhe pse veçanërisht nën një licencë komerciale të personalizuar, jo një tipike me burim të hapur. Kjo strategji e kontrolluar e lëshimit e mban Metën të përfshirë në vendosjen e Llamës, duke balancuar hapjen me interesat komerciale.

Theksimi i mëtejshëm i fokusit të Metës në inteligjencën artificiale të tij ishte lëvizja e tij, e raportuar për të bllokuar funksionet e Apple Intelligence në të gjithë sistemin e Apple brenda aplikacioneve të Meta-s për iOS. Kjo i pengon përdoruesit e iPhone të përdorin mjetet e shkrimit të AI ose Genmoji të Apple brenda Facebook ose Instagram, duke i shtyrë ata drejt alternativave të bazuara në Llama të Meta-s.

Kjo manovër konkurruese ndodhi pavarësisht bisedimeve të mëparshme, të pasuksesshme në mesin e vitit 2024 në lidhje me një partneritet të mundshëm të AI midis Meta dhe Apple, që thuhet se ka përfunduar për mosmarrëveshjet e privatësisë. Qasja e Meta-s gjithashtu ndryshon nga modeli i Apple i fokusuar në privatësi, shpesh në pajisje, një dallim i theksuar nga diskutimi publik i Metës për akordimin e prirjeve politike të Llama 4 dhe rikthimin e tij të njëkohshëm, kontrovers të kontrollit të fakteve nga palët e treta në SHBA duke filluar nga janari 2025.

Meta planifikon të ndajë më shumë detaje në ngjarjen e saj LlamaCon të planifikuar për 29 Prill, duke ofruar potencialisht përditësime mbi modelin masiv Behemoth ose modelin e ardhshëm të vizionit Llama 4-V.