Mistral Large 2 vetëm një ditë pasi Llama 3 sinjalizon se tregu LLM po bëhet më i kuq nga dita në ditë

foto

Kompania franceze e inteligjencës artificiale Mistral AI ka lëshuar Large 2, një model i ri gjuhësor që synon të ofrojë performancë të ngjashme me Llama 3 të sapo lëshuar nga Meta duke qenë më efikas.

Mistral Large 2, gjenerata e dytë e modelit kryesor të Mistral AI, krenohet me përmirësime të rëndësishme në gjenerimin e kodit, matematikën, logjikën, mbështetjen shumëgjuhëshe dhe thirrjen e funksioneve mbi paraardhësin e tij.

Me një dritare konteksti prej 128,000 shenjash, Large 2 mbështet dhjetëra gjuhë, duke përfshirë frëngjisht, gjermanisht, spanjisht, italisht, portugalisht, arabisht, hindisht, rusisht, kinezisht, japonisht dhe koreanisht. Ai gjithashtu trajton mbi 80 gjuhë programimi si Python, Java, C, C++, JavaScript dhe Bash.

Mistral thotë se Large 2 vendos standarde të reja në “raportin e performancës/kostos së shërbimit”. Në standardin masiv të Kuptimit të Gjuhës me Shumë detyra (MMLU), i cituar gjerësisht, versioni i para-trajnuar arrin 84,0% saktësi, duke vendosur një rekord “për performancën/kosto Pareto përpara modeleve të hapura”.

Për detyrat e kodimit, Large 2 tejkalon ndjeshëm paraardhësin e tij dhe rivalët e modeleve kryesore si GPT-4o, Claude 3.5 Sonnet dhe Llama 3 405B.

foto

Veçanërisht, ai e arrin këtë vetëm me rreth një të katërtën e parametrave (123B kundrejt 405B) krahasuar me Llama 3.

foto

Një fokus i zhvillimit ka qenë përmirësimi i arsyetimit dhe minimizimi i tendencës së modelit për të “halucinuar” informacione me tinguj të besueshëm, por faktikisht të pasaktë ose të parëndësishëm. Large 2 është optimizuar për të qenë më i kujdesshëm dhe kritik në përgjigjet e tij, duke pranuar kur nuk mund të gjejë një zgjidhje ose i mungon informacioni i mjaftueshëm për të dhënë një përgjigje të sigurt.

Ky theks mbi saktësinë reflektohet në performancën e përmirësuar në detyrat e matematikës, thotë kompania, megjithëse nuk vendos rekorde në këtë fushë.

Modeli përmban gjithashtu aftësi të përmirësuara të thirrjes së funksionit dhe rikthimit të informacionit, pasi është trajnuar për të ekzekutuar në mënyrë të besueshme thirrje funksionesh paralele dhe sekuenciale. Kjo duhet të lejojë që Large 2 të shërbejë si bazë për aplikime komplekse biznesi, thotë Mistral.