Modeli më i madh i inteligjencës artificiale për tekst në të folur ende tregon ‘aftësi emergjente’

Studiuesit në Amazon kanë trajnuar modelin më të madh ndonjëherë të tekstit në të folur, për të cilin ata pretendojnë se shfaq cilësi “emergjente” që përmirësojnë aftësinë e tij për të folur edhe fjali të ndërlikuara natyrshëm. Përparimi mund të jetë ajo që i duhet teknologjisë për të shpëtuar nga lugina e çuditshme.

foto

Këto modele do të rriteshin dhe përmirësoheshin gjithmonë, por studiuesit në mënyrë specifike shpresonin të shihnin llojin e hapit të aftësisë që ne vëzhguam pasi modelet gjuhësore të kalonin një madhësi të caktuar. Për arsye të panjohura për ne, sapo LLM-të kalojnë një pikë të caktuar, ato fillojnë të jenë shumë më të fuqishme dhe të gjithanshme, të afta për të kryer detyra për të cilat nuk ishin trajnuar.

foto

Kjo nuk do të thotë se ata po fitojnë ndjenjën ose ndonjë gjë tjetër, thjesht pas një pike të caktuar performanca e tyre në detyra të caktuara bisedore me AI shkopinj hokej. Ekipi në Amazon AGI – nuk është sekret se çfarë synojnë – mendoi se e njëjta gjë mund të ndodhë me rritjen e modeleve tekst-në-fjalë, dhe hulumtimi i tyre sugjeron se ky është në fakt rasti.

Modeli i ri quhet Big Adaptive Streamable TTS with Emergent abilities, të cilat ata e kanë shtrembëruar në shkurtesën BASE TTS. Versioni më i madh i modelit përdor 100,000 orë fjalim në domenin publik, 90% e të cilave është në anglisht, pjesa tjetër në gjermanisht, holandisht dhe spanjisht.

Me 980 milionë parametra, BASE-large duket të jetë modeli më i madh në këtë kategori. Ata gjithashtu trajnuan modele me parametra 400M dhe 150M bazuar në përkatësisht 10,000 dhe 1,000 orë audio, për krahasim – ideja është, nëse njëri prej këtyre modeleve tregon sjellje emergjente, por një tjetër jo, ju keni një gamë se ku fillojnë ato sjellje. për të dalë.

Siç rezulton, modeli i mesëm tregoi kërcimin në aftësinë që ekipi po kërkonte, jo domosdoshmërisht në cilësinë e zakonshme të të folurit (shqyrtohet më mirë, por vetëm me disa pika) por në grupin e aftësive emergjente që ata vëzhguan dhe matën . Këtu janë shembuj të tekstit të ndërlikuar të përmendur në letër :

Emrat e përbërë : Beckhams vendosën të merrnin me qira një vilë simpatike të çuditshme në fshat, të ndërtuar me gurë.
Emocionet : “O zot! A po shkojmë vërtet në Maldive? Kjo është e pabesueshme!” Xheni bërtiti, duke kërcyer mbi gishtat e saj me gëzim të pakontrolluar.
Fjalë të huaja : “Z. Henri, i njohur për vendin e tij të keq, orkestroi një vakt me shtatë pjata, çdo pjatë një pjesë e rezistencës.
Paralinguistikë (dmth. jo-fjalë të lexueshme): “Shh, Lucy, shhh, nuk duhet ta zgjojmë vëllain tënd të vogël,” pëshpëriti Tom, ndërsa kaluan në majë të gishtave të çerdhes.
Shenjat e pikësimit : Ajo mori një tekst të çuditshëm nga vëllai i saj: ‘Emergjencë @ në shtëpi; telefononi ASAP! Mami dhe babi janë të shqetësuar…#familjarë.’
Pyetje : Por pyetja e Brexit-it mbetet: Pas gjithë sprovave dhe mundimeve, a do t’i gjejnë ministrat përgjigjet në kohë?
Kompleksitetet sintaksore : Filmi në të cilin De Moya, i cili së fundmi u nderua me çmimin e arritjes së jetës, luajti në vitin 2022, ishte një hit në arkë, pavarësisht komenteve të përziera.
“Këto fjali janë krijuar për të përmbajtur detyra sfiduese – analizimin e fjalive të rrugës së kopshtit, vendosjen e theksit frazor te emrat e përbërë me erë të gjatë, prodhimin e të folurit emocional ose të pëshpëritur, ose prodhimin e fonemave të sakta për fjalë të huaja si “qi” ose shenja pikësimi si “@” – asnjë prej të cilave BASE TTS nuk është trajnuar në mënyrë eksplicite për të kryer,” shkruajnë autorët.

Karakteristika të tilla zakonisht pengojnë motorët e tekstit në të folur, të cilët do të shqiptojnë gabimisht, do të kalojnë fjalët, do të përdorin intonacion të çuditshëm ose do të bëjnë ndonjë gabim tjetër. BASE TTS ende kishte probleme, por ia doli shumë më mirë se bashkëkohësit e tij – modele si Tortoise dhe VALL-E.

Ka një mori shembujsh të këtyre teksteve të vështira që thuhen fare natyrshëm nga modeli i ri në faqen që ata krijuan për të. Sigurisht që këto janë zgjedhur nga studiuesit, kështu që ato janë domosdoshmërisht të zgjedhura nga qershia, por është mbresëlënëse pavarësisht. Këtu janë një çift, nëse nuk ju pëlqen të klikoni.

Për shkak se tre modelet BASE TTS ndajnë një arkitekturë, duket qartë se madhësia e modelit dhe shtrirja e të dhënave të tij të trajnimit duket se janë shkaku i aftësisë së modelit për të trajtuar disa nga kompleksitetet e mësipërme. Mbani në mend se ky është ende një model dhe proces eksperimental – jo një model komercial apo ndonjë gjë tjetër. Hulumtimet e mëvonshme do të duhet të identifikojnë pikën e përkuljes për aftësinë emergjente dhe si të trajnohet dhe vendoset modeli që rezulton në mënyrë efikase.

Veçanërisht, ky model është “i transmetueshëm”, siç thotë emri – që do të thotë se nuk ka nevojë të gjenerojë fjali të tëra menjëherë, por shkon moment pas momenti me një shpejtësi relativisht të ulët të biteve. Ekipi është përpjekur gjithashtu të paketojë metadatat e të folurit si emocionaliteti, prozodi dhe kështu me radhë në një transmetim të veçantë, me gjerësi bande të ulët që mund të shoqërojë audio vanilje.

Duket se modelet e tekstit në fjalim mund të kenë një moment të ri në vitin 2024 – pikërisht në kohën e zgjedhjeve! Por nuk mund të mohohet dobia e kësaj teknologjie, veçanërisht për aksesueshmërinë. Ekipi vëren se nuk pranoi të publikonte burimin e modelit dhe të dhëna të tjera për shkak të rrezikut që aktorët e këqij të përfitonin prej tij. Megjithatë, macja do të dalë nga ajo qese përfundimisht.