Laboratori francez i AI Kyutai zbulon asistentin bisedor të AI Moshi, planifikon lëshimin me burim të hapur
Laboratori francez i AI Kyutai zbuloi asistentin e tij të inteligjencës artificiale Moshi në Paris, i cili mund të ketë biseda të natyrshme me përdoruesit. Teknologjia do të lëshohet si burim i hapur.
Sipas Kyutai, Moshi është asistenti i parë i inteligjencës artificiale i aksesueshëm nga publiku me aftësi të natyrshme bisede. OpenAI e kishte shfaqur më parë këtë veçori për GPT-4o, por ende nuk e ka lëshuar atë.
Gjatë prezantimit, CEO i Kyutai, Patrick Perez shpjegoi se Moshi u zhvillua nga një ekip prej tetë vetash në vetëm gjashtë muaj. Ajo që e dallon Moshin është aftësia e tij për të folur dhe dëgjuar në kohë reale. Kyutai pretendon se Moshi ka një vonesë teorike prej vetëm 160 milisekonda, ndërsa në praktikë, ajo varion midis 200 dhe 240 milisekonda.
Arkitektura e Moshit bazohet në një qasje të re që Kyutai e quan “Modeli i gjuhës audio”. Në vend që ta konvertojë fjalimin në tekst si zakonisht, modeli i ngjesh shumë të dhënat audio dhe i trajton ato si pseudo-fjalë. Kjo e lejon atë të punojë drejtpërdrejt me të dhënat audio dhe të parashikojë të folurit, duke e bërë atë një model multimodal në natyrë, të ngjashëm me GPT-4o.
Për trajnim, Kyutai përdori burime të ndryshme të të dhënave, duke përfshirë të dhënat e lëvizjes njerëzore dhe videot në YouTube. Së pari, u trajnua një model teksti i pastër i quajtur Helium. Më pas, u zhvillua trajnimi i kombinuar me të dhëna tekstuale dhe audio. Dialogët sintetikë u përdorën për rregullimin e mirë të bisedës.
Meqenëse modeli themelor i gjuhës ka vetëm 7 miliardë parametra, ai shfaq kufizimet e zakonshme të modeleve të vogla në dialog. Megjithatë, aftësitë gjuhësore dhe shpejtësia janë mbresëlënëse dhe tregojnë potencialin kur përdoren module më të fuqishme dhe më të mëdha me këtë teknologji.
Për t’i dhënë Moshit një zë të qëndrueshëm, Kyutai bashkëpunoi me një aktore zëri të quajtur Alice. Ajo regjistroi monologë dhe dialogë në stile të ndryshme, të cilat më pas u përdorën për të trajnuar një sistem të sintezës së të folurit.
Kyutai sheh potencial të madh në Moshi për të ndryshuar mënyrën se si ne komunikojmë me makinat. Kompania sheh aplikacione premtuese, veçanërisht në fushën e aksesueshmërisë për personat me aftësi të kufizuara.