Rivali i DeepSeek, MiniMax, thotë se modeli i tij i parë për arsyetim me AI përgjysmon fuqinë kompjutuese krahasuar me R1

Startup-i i inteligjencës artificiale (IA) me seli në Shangai, MiniMax, ka lançuar një model arsyetimi me burim të hapur, i cili, sipas tij, kërkon vetëm gjysmën e burimeve llogaritëse të modeleve të rivalit DeepSeek për disa detyra.

Të martën, kompania njoftoi lançimin e MiniMax-M1, modelit të saj të parë të arsyetimit, në llogarinë e saj zyrtare në WeChat. M1 konsumon më pak se gjysmën e fuqisë llogaritëse të DeepSeek-R1 për detyra arsyetimi me një gjatësi gjenerimi prej 64,000 tokenësh ose më pak, sipas një dokumenti teknik të publikuar së bashku me produktin.

“Krahasuar me DeepSeek… kjo ulje e konsiderueshme e kostos llogaritëse e bën M1 dukshëm më efikas si gjatë nxjerrjes së përfundimeve ashtu edhe gjatë trajnimit [të modelit] në shkallë të gjerë”, shkruan studiuesit e MiniMax në raport.
Modeli i ri vjen në një kohë kur gjigantët kinezë të teknologjisë dhe startup-et po garojnë për të zhvilluar modele të avancuara arsyetimi – të dizajnuara për të “menduar” mbi një problem përpara se të përgjigjen – në një përpjekje për të arritur DeepSeek, modeli i përballueshëm R1 i të cilit tërhoqi vëmendjen globale në fillim të këtij viti. MiniMax iu referua DeepSeek 24 herë në dokumentin e saj teknik, duke nënvizuar ambicien e kompanisë për të sfiduar rivalin e saj me seli në Hangzhou, i cili është bërë i preferuari i industrisë kineze të inteligjencës artificiale.
MiniMax citoi teste të palëve të treta që tregojnë se M1 përputhet me performancën e modeleve kryesore globale nga Google, OpenAI i mbështetur nga Microsoft dhe Anthropic i mbështetur nga Amazon.com në matematikë, kodim dhe njohuri domeni.
M1 është ndërtuar mbi modelin themelor MiniMax-Text-01 me 456 miliardë parametra dhe përdor një arkitekturë hibride të përzierjes së ekspertëve – një qasje për hartimin e modeleve të IA-së për të zvogëluar llogaritjen, e cila përdoret edhe nga DeepSeek. M1 gjithashtu përdor Lightning Attention, një teknikë që përshpejton trajnimin, zvogëlon përdorimin e memories dhe i mundëson modelit të trajtojë tekste më të gjata.
M1 mbështet një nga dritaret e kontekstit më të gjata në industri, duke trajtuar deri në 1 milion tokena hyrëse – 10 herë më shumë se DeepSeek-R1 – dhe duke gjeneruar deri në 80,000 tokena dalëse, sipas MiniMax. Një dritare konteksti i referohet numrit të përgjithshëm të fjalëve që një model i madh gjuhësor mund të përpunojë në një bashkëveprim të vetëm.
Kompania tha se dritarja e zgjeruar e kontekstit e bën M1 “të përshtatshëm për adresimin e detyrave komplekse të botës reale që kërkojnë përpunimin e të dhënave të gjata dhe gjenerimin e të menduarit të zgjeruar”, duke e bërë atë të gatshëm për prodhim për skenarë të sofistikuar biznesi.
Lansimi shënon fillimin e asaj që kompania e quan “Java e MiniMax” dhe në WeChat la të kuptohej se do të ketë njoftime të mëtejshme për produktet këtë javë.