Microsoft lançon 3 modele të reja AI në një goditje të drejtpërdrejtë ndaj OpenAI dhe Google
Të enjten, Microsoft lançoi tre modele të reja themelore të IA-së që i ndërtoi tërësisht brenda kompanisë një sistem transkriptimi të të folurit të teknologjisë së fundit, një motor gjenerimi zëri dhe një krijues imazhi të përmirësuar duke shënuar provën më konkrete deri më tani se gjigandi i softuerëve prej 3 trilionë dollarësh synon të konkurrojë drejtpërdrejt me OpenAI, Google dhe laboratorë të tjerë të nivelit të lartë në zhvillimin e modeleve, jo vetëm në shpërndarje.

Treshja e modeleve MAI-Transcribe-1, MAI-Voice-1 dhe MAI-Image-2 janë të disponueshme menjëherë përmes Microsoft Foundry dhe një MAI Playground të ri. Ato përfshijnë tre nga modalitetet më të vlefshme komercialisht në IA-në e ndërmarrjeve: konvertimin e të folurit në tekst, gjenerimin e zërit realist njerëzor dhe krijimin e imazheve. Së bashku, ato përfaqësojnë breshërinë hapëse nga ekipi i superinteligjencës së Microsoft , të cilin Suleyman e formoi vetëm gjashtë muaj më parë për të ndjekur atë që ai e quan ” vetë-mjaftueshmëri e IA-së “.

“Jam shumë i emocionuar që tani kemi nxjerrë modelet e para, të cilat janë më të mirat në botë për transkriptim”, tha Sulejman për VentureBeat në një intervistë përpara njoftimit publik. “Jo vetëm kaq, por ne jemi në gjendje ta ofrojmë modelin me gjysmën e GPU-ve më të mira se konkurrenca më e përparuar.”
Njoftimi vjen në një moment të pasigurt për Microsoft-in. Aksionet e kompanisë sapo mbyllën tremujorin e tyre më të keq që nga kriza financiare e vitit 2008, ndërsa investitorët kërkojnë gjithnjë e më shumë prova se qindra miliarda dollarë në shpenzimet e infrastrukturës së inteligjencës artificiale do të përkthehen në të ardhura. Këto modele – me çmime agresive dhe të pozicionuara për të ulur koston e mallrave të shitura të vetë Microsoft-it – janë përgjigjja e parë e Sulejmanit ndaj këtij presioni.
MAI-Transcribe-1 është versioni kryesor. Modeli i konvertimit të të folurit në tekst arrin Shkallën më të ulët mesatare të Gabimit të Fjalës në testin FLEURS — testi shumëgjuhësh standard i industrisë — në 25 gjuhët kryesore sipas përdorimit të produkteve të Microsoft, me një mesatare prej 3.8% WER. Sipas testeve të Microsoft, ai tejkalon Whisper-large-v3 të OpenAI në të 25 gjuhët, Gemini 3.1 Flash të Google në 22 nga 25 gjuhë, dhe Scribe v2 të ElevenLabs dhe GPT-Transcribe të OpenAI në 15 nga 25 gjuhë secila.
Modeli përdor një dekoder teksti të bazuar në transformator me një enkoder audio dy-drejtimësh. Ai pranon skedarë MP3, WAV dhe FLAC deri në 200MB, dhe Microsoft thotë se shpejtësia e transkriptimit në grup është 2.5 herë më e shpejtë se oferta ekzistuese e Microsoft Azure Fast. Diarizimi, paragjykimi kontekstual dhe transmetimi janë listuar si “së shpejti”. Microsoft tashmë po teston MAI-Transcribe-1 brenda modalitetit Zëror të Copilot dhe Microsoft Teams për transkriptimin e bisedave – një detaj që nënvizon se sa shpejt kompania synon të zëvendësojë modelet e brendshme të palëve të treta ose më të vjetra me të vetat.
Krahas tij, MAI-Voice-1 është modeli i Microsoft-it për konvertimin e tekstit në të folur, i aftë të gjenerojë 60 sekonda audio me tingull natyral në një sekondë të vetme. Modeli ruan identitetin e folësit në të gjithë përmbajtjen me format të gjatë dhe tani mbështet krijimin e zërit të personalizuar nga vetëm disa sekonda audio përmes Microsoft Foundry. Microsoft e ka çmimin 22 dollarë për 1 milion karaktere. Ndërkohë, MAI-Image-2 debutoi si një nga tre familjet e modeleve më të mira në renditjen Arena.ai dhe tani ofron të paktën 2 herë më shumë kohë gjenerimi në Foundry dhe Copilot krahasuar me paraardhësin e tij. Microsoft po e lançon atë në Bing dhe PowerPoint, duke e çmimuar 5 dollarë për 1 milion token për futjen e tekstit dhe 33 dollarë për 1 milion token për daljen e imazhit. WPP, një nga kompanitë më të mëdha të reklamave në botë, është ndër partnerët e parë të ndërmarrjeve që ndërtojnë me MAI-Image-2 në shkallë të gjerë.
Për të kuptuar pse këto modele kanë rëndësi, duhet të kuptoni ndryshimin tektonik kontraktual që i bëri ato të mundura. Deri në tetor 2025, Microsoft ishte i ndaluar me kontratë të ndiqte në mënyrë të pavarur inteligjencën e përgjithshme artificiale. Marrëveshja origjinale me OpenAI, e nënshkruar në vitin 2019, i dha Microsoft një licencë për modelet e OpenAI në këmbim të ndërtimit të infrastrukturës cloud që i nevojitej OpenAI. Por kur OpenAI kërkoi të zgjeronte gjurmën e saj kompjuterike përtej Microsoft – duke arritur marrëveshje me SoftBank dhe të tjerë – Microsoft e rinegocioi. Siç shpjegoi Suleyman në një intervistë në dhjetor 2025 me Bloomberg , marrëveshja e rishikuar nënkuptonte se “deri në disa javë më parë, Microsoft nuk lejohej – me kontratë – të ndiqte në mënyrë të pavarur inteligjencën e përgjithshme artificiale ose superinteligjencën”. Kushtet e reja i liruan Microsoft të ndërtonte modelet e veta kufitare, duke ruajtur të drejtat e licencës për gjithçka që OpenAI ndërton deri në vitin 2032.
Sulejmani ia përshkroi dinamikën VentureBeat me terma karakteristikë të drejtpërdrejtë. “Në shtator të vitit të kaluar, ne rinegociuam kontratën me OpenAI, dhe kjo na mundësoi të ndiqnim në mënyrë të pavarur superinteligjencën tonë”, tha ai. “Që atëherë, ne kemi mbledhur kompjuterët dhe ekipin dhe kemi blerë të dhënat që na nevojiten.”
Ai nxitoi të theksonte se partneriteti OpenAI mbetet i paprekur . “Asgjë nuk po ndryshon me partneritetin OpenAI. Ne do të jemi në partneritet me ta të paktën deri në vitin 2032 dhe shpresojmë shumë më gjatë”, tha Suleyman. “Ata kanë qenë një partner fenomenal për ne.” Ai gjithashtu theksoi se Microsoft ofron qasje në Claude të Anthropic përmes API-t të saj Foundry , duke e paraqitur kompaninë si “një platformë platformash”. Por nënkuptimi është i padyshimtë: Microsoft po ndërton aftësinë për të qëndruar më vete. Në mars, siç raportoi për herë të parë Business Insider , Suleyman shkroi në një memo të brendshme se qëllimi i tij është “të përqendrojë të gjithë energjinë e tij në përpjekjet tona të Superinteligjencës dhe të jetë në gjendje të ofrojë modele të klasit botëror për Microsoft gjatë 5 viteve të ardhshme”. CNBC raportoi se ndryshimi strukturor e liroi Suleyman nga përgjegjësitë e përditshme të produktit Copilot, me ish-ekzekutivin ekzekutiv të Snap, Jacob Andreou, që mori përsipër si Zëvendëspresident Ekzekutiv i përvojës së kombinuar të Copilot për konsumatorin dhe komercialen.
Ndoshta detaji më mbresëlënës që Sulejmani ndau me VentureBeat është se sa të vogla janë në të vërtetë ekipet që qëndrojnë pas këtyre modeleve. “Modeli audio u ndërtua nga 10 persona dhe shumica dërrmuese e shpejtësisë, efikasitetit dhe saktësisë vijnë nga arkitektura e modelit dhe të dhënat që kemi përdorur”, tha Sulejmani. “Filozofia ime ka qenë gjithmonë se na duhen më pak njerëz që janë më të fuqizuar. Pra, ne operojmë një strukturë jashtëzakonisht të sheshtë.” Ai shtoi: “Ekipi ynë i imazhit, po ashtu, është më pak se 10 persona. Pra, e gjitha kjo ka të bëjë me inovacionin e modelit dhe të dhënave, i cili ka ofruar performancë të nivelit të lartë.”
Kjo ka rëndësi për dy arsye. Së pari, sfidon narrativën mbizotëruese të industrisë se zhvillimi i inteligjencës artificiale në nivel të lartë kërkon mijëra studiues dhe miliarda në kosto për numrin e punonjësve. Meta, në të kundërt, ka ndjekur atë që Suleyman e përshkroi në intervistën e tij për Bloomberg si një strategji të ” punësimit të shumë individëve, në vend që ndoshta të krijojë një ekip ” – duke përfshirë paketa kompensimi të raportuara prej 100 deri në 200 milionë dollarë për studiuesit më të mirë. Së dyti, ekipet e vogla që prodhojnë rezultate të teknologjisë së fundit përmirësojnë ndjeshëm ekonominë. Nëse Microsoft mund të ndërtojë transkriptimin më të mirë në klasën e tij me 10 inxhinierë dhe gjysmën e GPU-ve të konkurrentëve, struktura e marzhit të biznesit të saj të inteligjencës artificiale duket thelbësisht e ndryshme nga kompanitë që shpenzojnë para për të arritur standarde të ngjashme.
Filozofia e ekipit të dobët pasqyron gjithashtu pikëpamjet më të gjera të Sulejmanit mbi mënyrën se si IA po e riformëson tashmë punën e ndërtimit të vetë IA-së. Kur u pyet nga VentureBeat se si funksionon ekipi i tij, Sulejmani përshkroi një mjedis që i ngjan më shumë një dyshemeje tregtimi startup-esh sesa një organizate tradicionale inxhinierike të Microsoft-it. “Ka grupe njerëzish rreth tryezave të rrumbullakëta, tavolinave rrethore, jo tavolinave tradicionale, në laptopë në vend të ekraneve të mëdha”, tha ai. “Ata në thelb janë duke koduar me vibra, krah për krah gjithë ditën, nga mëngjesi deri në darkë, në dhoma me 50 ose 60 persona.”
Sulejmani ka ndërtuar vazhdimisht një markë filozofike rreth përpjekjeve të Microsoft-it për inteligjencën artificiale, të cilën ai e quan ” AI humaniste ” – një term që u shfaq dukshëm në postimin në blog që ai shkroi për lançimin dhe që e përpunoi më tej në intervistën tonë. “Mendoj se motivimi i një superinteligjence humaniste është të krijojë diçka që është vërtet në shërbim të njerëzimit”, i tha ai VentureBeat. “Njerëzit do të mbeten në kontroll në krye të zinxhirit ushqimor dhe ata do të jenë gjithmonë të lidhur me interesat njerëzore.”
Ky formulim shërben për qëllime të shumëfishta. Ai e dallon Microsoft-in nga retorika më e orientuar drejt përshpejtimit që vjen nga OpenAI dhe Meta. Ai rezonon me blerësit e ndërmarrjeve të cilët kanë nevojë për qeverisje, pajtueshmëri dhe siguri përpara se të vendosin IA-në në industri të rregulluara. Dhe ofron një mbrojtje narrative: nëse diçka shkon keq në ekosistemin më të gjerë të IA-së, Microsoft mund të tregojë angazhimin e saj të deklaruar për kontrollin njerëzor. Në intervistën e tij të dhjetorit për Bloomberg, Suleyman shkoi më tej, duke e përshkruar përmbajtjen dhe harmonizimin si ” vija të kuqe ” dhe duke argumentuar se askush nuk duhet të publikojë një mjet superinteligjence derisa të jetë “i sigurt se mund të kontrollohet”.
Sulejmani theksoi gjithashtu origjinën e të dhënave si një avantazh konkurrues, duke përshkruar një bisedë me CEO-n Satya Nadella rreth zhvillimit të “një linje të pastër modelesh ku të dhënat janë jashtëzakonisht të pastra”. Ai bëri një kontrast të nënkuptuar me alternativat me burim të hapur, duke vënë në dukje se “shumë nga modelet me burim të hapur janë trajnuar mbi të dhëna në, le të themi, mënyra të papërshtatshme. Dhe ka potencialisht probleme sigurie me këtë”. Për klientët e ndërmarrjeve që vlerësojnë shitësit e inteligjencës artificiale mes një mori padish për të drejtat e autorit në të gjithë industrinë, ky është një argument domethënës komercial – nëse Microsoft mund të pretendojë me besueshmëri se të dhënat e tij të trajnimit janë fituar përmes kanaleve të licencuara siç duhet, kjo zvogëlon rrezikun ligjor dhe të reputacionit të vendosjes së këtyre modeleve në prodhim.
Lançimi i sotëm e pozicionon Microsoft-in në tre fronte konkurruese njëkohësisht. MAI-Transcribe-1 synon drejtpërdrejt ngarkesat e transkriptimit që modelet Whisper të OpenAI kanë dominuar në komunitetin me burim të hapur, me Microsoft që pretendon saktësi superiore në të 25 gjuhët e testuara. Rezultatet e FLEURS tregojnë gjithashtu se ai po fiton kundër Gemini 3.1 Flash Lite të Google-it në 22 nga 25 gjuhë – një sfidë e drejtpërdrejtë pasi Google e shtyn në mënyrë agresive Gemini-n në suitën e vet të produkteve. Dhe aftësia e MAI-Voice-1 për të klonuar zëra nga sekonda audio dhe për të gjeneruar të folur në kohë reale 60x e vendos atë në konkurrencë me ElevenLabs , Resemble AI dhe ekosistemin në rritje të startup-eve të AI-së me zë, me avantazhin e shpërndarjes së Microsoft-it – çdo zhvillues i Foundry tani mund t’i qaset këtyre aftësive përmes të njëjtit API që përdor për GPT-4 dhe Claude – duke vepruar si një hendek i fuqishëm.
Sulejmani e paraqiti pozicionin konkurrues me besim: “Tani jemi një nga tre laboratorët kryesorë, menjëherë pas OpenAI dhe Gemini”, tha ai për VentureBeat. Strategjia e çmimeve – MAI-Voice-1 me 22 dollarë për milion karaktere, MAI-Image-2 me 5 dollarë për milion tokena hyrëse – pasqyron një vendim të qëllimshëm për të konkurruar në kosto. “Ne po i çmojmë ata që të jenë më të mirët nga çdo hipershkallëzues. Pra, do të ketë më të lirën nga çdo hipershkallëzues që ekziston, Amazon. Dhe padyshim Google”, tha Sulejmani. “Dhe ky është një vendim shumë i vetëdijshëm.”
Kjo ka kuptim strategjik për Microsoftin, i cili mund të amortizojë kostot e zhvillimit të modelit në të gjithë bazën e tij të madhe të instaluar të klientëve të ndërmarrjeve. Por gjithashtu flet për pyetjen që investitorët e kanë bërë me urgjencë gjithnjë e më të madhe: kur fillojnë shpenzimet për IA-në të gjenerojnë kthime? Aksionet e Microsoftit kanë rënë afërsisht 17% nga viti në vit, sipas CNBC, pjesë e një shitjeje më të gjerë të aksioneve të softuerëve. Duke ndërtuar modele që funksionojnë në gjysmën e GPU-ve të konkurrentëve, Microsoft zvogëlon kostot e veta të infrastrukturës për produktet e brendshme – Teams, Copilot, Bing, PowerPoint – ndërsa u ofron zhvilluesve çmime të dizajnuara për të ulur pjesën tjetër të tregut. Në memon e tij të marsit, Suleyman shkroi se modelet e tij do të “na mundësonin të ofronim efikasitetin e COGS të nevojshëm për të qenë në gjendje t’u shërbejmë ngarkesave të punës së IA-së në shkallën e madhe të kërkuar në vitet e ardhshme”. Këto tre modele janë përmbushja e parë e prekshme e këtij premtimi.
Sulejmani e bëri të qartë se transkriptimi, gjenerimi i zërit dhe imazhit janë vetëm fillimi. Kur u pyet nëse Microsoft do të ndërtonte një model të madh gjuhësor për të konkurruar drejtpërdrejt me GPT në nivel lider, ai ishte i prerë. “Ne absolutisht do të ofrojmë modele të teknologjisë së fundit në të gjitha modalitetet”, tha ai. “Misioni ynë është të sigurohemi që nëse Microsoft ndonjëherë ka nevojë për to, ne do të jemi në gjendje të ofrojmë teknologjinë e fundit me efikasitetin më të mirë, çmimin më të lirë dhe të jemi plotësisht të pavarur.”
Ai përshkroi një plan shumëvjeçar për të “ngritur grupet e GPU-ve në shkallën e duhur”, duke vënë në dukje se ekipi i superinteligjencës u ngrit zyrtarisht vetëm në tetor 2025. Suleyman foli me VentureBeat nga Miami, ku i gjithë ekipi po mblidhej për një nga seancat e tij të rregullta njëjavore me pjesëmarrje fizike. Ai përshkroi Nadellën që fluturoi për takimin për të paraqitur “planin e gjithçkaje që duhet të arrijmë për misionin tonë të vetëmjaftueshmërisë së IA-së gjatë 2, 3, 4 viteve të ardhshme, dhe të gjithë planin e llogaritjes që kjo do të përfshinte”.
Sigurisht, ndërtimi i një LLM-je konkurruese në kufirin konkurrues është një rend i ndryshëm madhësie në kompleksitet, kërkesa për të dhëna dhe kosto llogaritëse nga ajo që Microsoft demonstroi të enjten. Modelet e lançuara sot janë të specializuara – ato trajtojnë audion dhe imazhet, jo arsyetimin e përgjithshëm dhe gjenerimin e tekstit që mbështesin produkte si ChatGPT ose inteligjenca thelbësore e Copilot. Suleyman ka mandatin organizativ, mbështetjen publike të Nadella-s dhe lirinë kontraktuale. Ajo që ai ende nuk ka është një rekord i mirë në Microsoft për zgjidhjen e problemit më të vështirë në IA.
Por merrni parasysh se çfarë ka ai: tre modele që janë më të mirat në klasën e tyre ose afër saj në fushat e tyre përkatëse, të ndërtuara nga ekipe më të vogla se shumica e startup-eve në fazën fillestare, që funksionojnë me gjysmën e gjurmës standarde të GPU-së në industri dhe me çmime më të ulëta se çdo konkurrent i madh në cloud. Dy vjet më parë, Sulejman propozoi në MIT Technology Review atë që ai e quajti “Testi Modern i Turingut” – jo nëse IA mund të mashtronte një njeri në bisedë, por nëse mund të dilte në botë dhe të kryente detyra të vërteta ekonomike me mbikëqyrje minimale. Të enjten, modelet e tij bënë një hap drejt këtij vizioni. Pyetja tani është nëse ekipi i superinteligjencës së Microsoft mund ta përsërisë trukun në shkallën që ka vërtet rëndësi – dhe nëse mund ta bëjnë këtë para se durimi i tregut të mbarojë.
