Mistral publikon Voxtral, modelin e saj të parë të hapur të inteligjencës artificiale për audio

Ndërsa sistemet e inteligjencës artificiale bëhen më të afta, të folurit po bëhet me shpejtësi mënyra kryesore e komunikimit tonë me makinat. Startup-i francez i inteligjencës artificiale Mistral është futur në garën audio me modelin e tij të parë të hapur, duke synuar të sfidojë dominimin e sistemeve të izoluara të korporatave me alternativa me peshë të hapur.

Të martën, Mistral njoftoi lançimin e Voxtral, familjes së saj të parë të modeleve audio të synuara për bizneset.
Kompania po e paraqet Voxtral si modelin e parë të hapur që është i aftë të përdorë “inteligjencë të të folurit vërtet të përdorshme në prodhim”.
Me fjalë të tjera, zhvilluesit nuk do të duhet më të zgjedhin midis një sistemi të lirë dhe të hapur që ngatërron transkriptimet dhe nuk e kupton vërtet atë që thuhet, dhe një sistemi që funksionon mirë, por është i mbyllur, duke i lënë zhvilluesit me një faturë më të lartë dhe më pak kontroll mbi vendosjen.
Për bizneset, kjo do të thotë që Voxtral ofron një alternativë të përballueshme që kompania pretendon se është “më pak se gjysma e çmimit” të zgjidhjeve të krahasueshme.

Mistral thotë se Voxtral mund të transkriptojë deri në 30 minuta audio. Falë rrjetit të tij LLM, Mistral Small 3.1, ai mund të kuptojë deri në 40 minuta, duke u lejuar përdoruesve të bëjnë pyetje në lidhje me përmbajtjen audio, të gjenerojnë përmbledhje ose të shndërrojnë komandat zanore në veprime në kohë reale, si thirrja e API-ve ose ekzekutimi i funksioneve. Voxtral është gjithashtu shumëgjuhësh, me aftësinë për të transkriptuar dhe kuptuar gjuhë duke përfshirë anglishten, spanjishten, frëngjishten, portugalishten, hindishten, gjermanishten, holandishten dhe italishten.
Kompania po ofron dy variante të “modeleve të saj të të kuptuarit të të folurit”. I pari, Voxtral Small, ka 24 miliardë parametra për vendosje në shkallë prodhimi dhe është konkurrues me ElevenLabs Scribe, GPT-4o-mini dhe Gemini 2.5 Flash.
I dyti, Voxtral Mini, ka 3 miliardë parametra për vendosje lokale dhe në skaje. Ekziston gjithashtu një version API ultra i lirë, i thjeshtuar dhe i shpejtë i modelit 3 miliardë të quajtur Voxtral Mini Transcribe, i cili është i optimizuar për raste përdorimi vetëm për transkriptim dhe premton të tejkalojë OpenAI Whisper për më pak se gjysmën e çmimit.
Përdoruesit mund ta provojnë Voxtral falas duke shkarkuar API-në në Hugging Face ose duke testuar modelet në chatbot-in Le Chat të Mistral. Integrimi i API-së në aplikacione fillon nga 0.001 dollarë për minutë, sipas kompanisë.
Lansimi vjen një muaj pasi Mistral njoftoi Magistral, familjen e saj të parë të modeleve të arsyetimit që zgjidhin problemet hap pas hapi për besueshmëri të përmirësuar.
Mistral, një nga firmat kryesore të inteligjencës artificiale në Evropë, është e njohur për mbështetjen e saj për modelet e inteligjencës artificiale me burim të hapur. Më herët këtë muaj, TechCrunch raportoi se kompania është në bisedime për të mbledhur deri në 1 miliard dollarë kapital nga investitorë si fondi MGX i Abu Dhabit.