Meta lëshon modele të reja të AI për tekst, imazh dhe audio

foto

Ekipi i Kërkimit Fundamental të AI (FAIR) i Meta-s ka zbuluar modele të reja, duke përfshirë imazhin në tekst, tekstin në muzikë, parashikimin me shumë shenja dhe një teknikë për vulosjen e të folurit të krijuar nga AI.

foto

Meta ka publikuar disa nga modelet më të fundit të inteligjencës artificiale. Këto përfshijnë Kameleonin, një model multimodal që mund të përpunojë dhe gjenerojë imazhe dhe tekst, një model parashikimi me shumë shenja për trajnim më efikas të gjuhës dhe JASCO, një model për gjenerimin e muzikës nga teksti dhe inpute të tjera si akorde ose ritme.

foto

Kameleoni u prezantua në maj. Ndryshe nga shumica e modeleve të mëdha gjuhësore, të cilat përgjithësisht prodhojnë rezultate unimodale, Kameleoni multimodal mund të përpunojë çdo kombinim teksti dhe imazhesh si hyrje dhe gjithashtu mund të përpunojë çdo kombinim teksti dhe imazhi si dalje. Meta lëshon variantet 7B dhe 34B nën një licencë jokomerciale vetëm për qëllime kërkimore.

Pak para Kameleonit, Meta demonstroi gjithashtu një qasje të re për zhvillimin e modeleve më të mira dhe më të shpejta të gjuhës: parashikimi me shumë shenja. Ekipi ishte në gjendje të tregonte se parashikimi me shumë shenja përmirëson performancën, koherencën dhe aftësinë e arsyetimit gjatë trajnimit të modeleve të gjuhës së AI. Meta po nxjerr modelet e trajnuara paraprakisht për plotësimin e kodit nën një licencë jo-tregtare, vetëm për qëllime kërkimore.

Kompania publikon gjithashtu modelin tekst-në-muzikë JASCO. Përveç tekstit, kjo pranon edhe hyrje të ndryshme si akorde ose rrahje për të përmirësuar kontrollin mbi daljen e muzikës së krijuar.

Me AudioSeal, Meta po lëshon një teknologji filigrani audio që mund të njohë dhe shënojë fjalimin e gjeneruar nga AI edhe në segmente më të gjata audio. Në ndryshim nga metodat e tjera, metoda thuhet se është deri në 485 herë më e shpejtë. AudioSeal lëshohet nën një licencë komerciale.