Laboratori francez i AI Kyutai zbulon asistentin bisedor të AI Moshi, planifikon lëshimin me burim të hapur

Laboratori francez i AI Kyutai zbuloi asistentin e tij të inteligjencës artificiale Moshi në Paris, i cili mund të ketë biseda të natyrshme me përdoruesit. Teknologjia do të lëshohet si burim i hapur.

Sipas Kyutai, Moshi është asistenti i parë i inteligjencës artificiale i aksesueshëm nga publiku me aftësi të natyrshme bisede. OpenAI e kishte shfaqur më parë këtë veçori për GPT-4o, por ende nuk e ka lëshuar atë.

Gjatë prezantimit, CEO i Kyutai, Patrick Perez shpjegoi se Moshi u zhvillua nga një ekip prej tetë vetash në vetëm gjashtë muaj. Ajo që e dallon Moshin është aftësia e tij për të folur dhe dëgjuar në kohë reale. Kyutai pretendon se Moshi ka një vonesë teorike prej vetëm 160 milisekonda, ndërsa në praktikë, ajo varion midis 200 dhe 240 milisekonda.

Arkitektura e Moshit bazohet në një qasje të re që Kyutai e quan “Modeli i gjuhës audio”. Në vend që ta konvertojë fjalimin në tekst si zakonisht, modeli i ngjesh shumë të dhënat audio dhe i trajton ato si pseudo-fjalë. Kjo e lejon atë të punojë drejtpërdrejt me të dhënat audio dhe të parashikojë të folurit, duke e bërë atë një model multimodal në natyrë, të ngjashëm me GPT-4o.

Për trajnim, Kyutai përdori burime të ndryshme të të dhënave, duke përfshirë të dhënat e lëvizjes njerëzore dhe videot në YouTube. Së pari, u trajnua një model teksti i pastër i quajtur Helium. Më pas, u zhvillua trajnimi i kombinuar me të dhëna tekstuale dhe audio. Dialogët sintetikë u përdorën për rregullimin e mirë të bisedës.

Meqenëse modeli themelor i gjuhës ka vetëm 7 miliardë parametra, ai shfaq kufizimet e zakonshme të modeleve të vogla në dialog. Megjithatë, aftësitë gjuhësore dhe shpejtësia janë mbresëlënëse dhe tregojnë potencialin kur përdoren module më të fuqishme dhe më të mëdha me këtë teknologji.

Për t’i dhënë Moshit një zë të qëndrueshëm, Kyutai bashkëpunoi me një aktore zëri të quajtur Alice. Ajo regjistroi monologë dhe dialogë në stile të ndryshme, të cilat më pas u përdorën për të trajnuar një sistem të sintezës së të folurit.

Kyutai sheh potencial të madh në Moshi për të ndryshuar mënyrën se si ne komunikojmë me makinat. Kompania sheh aplikacione premtuese, veçanërisht në fushën e aksesueshmërisë për personat me aftësi të kufizuara.

Tags: AI, AI Kyutai, AI Moshi, Artificial Intelligence, GPT-4o, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, OpenAI, Paris, Patrick Perez, Technology, Yotube

Laboratori francez i AI Kyutai zbulon asistentin bisedor të AI Moshi, planifikon lëshimin me burim të hapur

Musk njofton lançimin e Grok 4.5, duke thënë se është po aq i mirë, në mos më i mirë, se Claude Opus i Anthropic

Shtëpia e Bardhë i lejon Anthropic të rikthejë Mythos 5

OpenAI lançon një version paraprak të kufizuar të GPT-5.6 për një grup të vogël partnerësh të besuar

Rocket Lab blen kompaninë e satelitëve Iridium për të rivalizuar Starlink dhe Amazon Leo

Çipat e AI-së të prodhuar në Kinë dominojnë tregun vendas

SHBA zgjeron ndalimin e importeve të pajisjeve kineze të telekomunikacionit

Musk njofton lançimin e Grok 4.5, duke thënë se është po aq i mirë, në mos më i mirë, se Claude Opus i Anthropic

Koreja e Jugut prezanton një plan investimi prej 880 miliardë dollarësh për industrinë e çipave dhe inteligjencën artificiale

Google po kufizon aksesin e Meta-s në Gemini, sepse nuk ka kapacitet të mjaftueshëm kompjuterik

You may have missed

Rocket Lab blen kompaninë e satelitëve Iridium për të rivalizuar Starlink dhe Amazon Leo

Çipat e AI-së të prodhuar në Kinë dominojnë tregun vendas

SHBA zgjeron ndalimin e importeve të pajisjeve kineze të telekomunikacionit

Musk njofton lançimin e Grok 4.5, duke thënë se është po aq i mirë, në mos më i mirë, se Claude Opus i Anthropic

Koreja e Jugut prezanton një plan investimi prej 880 miliardë dollarësh për industrinë e çipave dhe inteligjencën artificiale

More Stories

You may have missed