Inteligjenca artificiale e re e Nvidia e kthen tekstin në audio
Një ekip studiuesish gjenerues të AI krijoi një thikë të ushtrisë zvicerane për zërin, një thikë që lejon përdoruesit të kontrollojnë daljen audio thjesht duke përdorur tekst.
Ndërsa disa modele të AI mund të kompozojnë një këngë ose të modifikojnë një zë, asnjë nuk ka shkathtësinë e ofertës së re.
I quajtur Fugatto (shkurt për Transformer Audio Gjeneruese Themelore Opus 1), ai gjeneron ose transformon çdo përzierje muzike, zërash dhe tingujsh të përshkruar me udhëzime duke përdorur çdo kombinim të tekstit dhe skedarëve audio.
Për shembull, mund të krijojë një fragment muzikor bazuar në një kërkesë teksti, të heqë ose të shtojë instrumente nga një këngë ekzistuese, të ndryshojë theksin ose emocionin në një zë – madje edhe t’i lejojë njerëzit të prodhojnë tinguj të padëgjuar më parë.
“Kjo gjë është e egër,” tha Ido Zmishlany, një producent dhe kompozitor i shumë platinit – dhe bashkëthemelues i One Take Audio, një anëtar i programit NVIDIA Inception për startup-et më të avancuara. “Tingulli është frymëzimi im. Është ajo që më shtyn të krijoj muzikë. Ideja që unë mund të krijoj tinguj krejtësisht të rinj gjatë fluturimit në studio është e pabesueshme.”
“Ne donim të krijonim një model që kupton dhe gjeneron tinguj siç bëjnë njerëzit,” tha Rafael Valle, një menaxher i kërkimit të aplikuar audio në NVIDIA dhe një nga njerëzit e shumtë pas Fugatto-s, si dhe një dirigjent orkestral dhe kompozitor.
Duke mbështetur detyra të shumta të gjenerimit dhe transformimit të audios, Fugatto është modeli i parë themelor gjenerues i AI që shfaq vetitë emergjente – aftësi që lindin nga ndërveprimi i aftësive të ndryshme të trajnuara – dhe aftësia për të kombinuar udhëzime në formë të lirë.
“Fugatto është hapi ynë i parë drejt një të ardhmeje ku mësimi i pambikëqyrur me shumë detyra në sintezën dhe transformimin audio del nga shkalla e të dhënave dhe modelit,” tha Valle.
Për shembull, prodhuesit e muzikës mund të përdorin Fugatto për të prototipuar ose modifikuar shpejt një ide për një këngë, duke provuar stile, zëra dhe instrumente të ndryshme. Ata gjithashtu mund të shtojnë efekte dhe të përmirësojnë cilësinë e përgjithshme të audios së një pjese ekzistuese.
“Historia e muzikës është gjithashtu një histori e teknologjisë. Kitara elektrike i dha botës rock and roll. Kur u shfaq kampioneri, lindi hip-hop”, tha Zmishlany. “Me AI, ne po shkruajmë kapitullin tjetër të muzikës. Ne kemi një instrument të ri, një mjet të ri për të bërë muzikë – dhe kjo është super emocionuese.”
Një agjenci reklamash mund të aplikojë Fugatto për të synuar shpejt një fushatë ekzistuese për rajone ose situata të shumta, duke aplikuar thekse dhe emocione të ndryshme për zërat.
Mjetet e mësimit të gjuhës mund të personalizohen për të përdorur çdo zë që zgjedh një folës. Imagjinoni një kurs online të folur me zërin e ndonjë anëtari të familjes ose mikut.
Zhvilluesit e lojërave video mund të përdorin modelin për të modifikuar asetet e regjistruara paraprakisht në titullin e tyre për t’iu përshtatur veprimit në ndryshim ndërsa përdoruesit luajnë lojën. Ose, ata mund të krijojnë aktive të reja menjëherë nga udhëzimet e tekstit dhe hyrjet audio opsionale.
“Një nga aftësitë e modelit për të cilin ne jemi veçanërisht krenarë është ajo që ne e quajmë karrige avokado,” tha Valle, duke iu referuar një vizuale të re të krijuar nga një model gjenerues i AI për imazhe.
Për shembull, Fugatto mund të bëjë një leh borie ose një mjaullime saksofoni. Çfarëdo që përdoruesit mund të përshkruajnë, modeli mund të krijojë.
Me akordim të imët dhe sasi të vogla të të dhënave të këndimit, studiuesit zbuluan se ai mund të përballonte detyra për të cilat nuk ishte trajnuar paraprakisht, si gjenerimi i një zëri këndimi me cilësi të lartë nga një mesazh teksti.
Risisë së Fugatto-s i shtohen disa aftësi.
Gjatë konkluzionit, modeli përdor një teknikë të quajtur ComposableART për të kombinuar udhëzimet që shiheshin veçmas gjatë trajnimit. Për shembull, një kombinim i kërkesave mund të kërkojë për tekst të folur me një ndjenjë trishtimi në një theks francez.
Aftësia e modelit për të ndërthurur ndërmjet udhëzimeve u jep përdoruesve kontroll të imët mbi udhëzimet e tekstit, në këtë rast rëndimin e theksit ose shkallën e pikëllimit.
“Doja t’i lejoja përdoruesit të kombinonin atributet në një mënyrë subjektive ose artistike, duke zgjedhur se sa theks do t’i kushtonin secilit,” tha Rohan Badlani, një studiues i AI që projektoi këto aspekte të modelit.
“Në testet e mia, rezultatet ishin shpesh befasuese dhe më bënë të ndihem pak si një artist, edhe pse jam një shkencëtar kompjuteri,” tha Badlani, i cili ka një diplomë master në shkenca kompjuterike me fokus në AI nga Stanford.
Modeli gjithashtu gjeneron tinguj që ndryshojnë me kalimin e kohës, një veçori që ai e quan interpolim kohor. Për shembull, mund të krijojë tingujt e një stuhie shiu që lëviz nëpër një zonë me kreshendo bubullimash që zbehen ngadalë në distancë. Ai gjithashtu u jep përdoruesve kontroll të hollësishëm mbi mënyrën se si evoluon peizazhi zanor.
Plus, ndryshe nga shumica e modeleve, të cilat mund të rikrijojnë vetëm të dhënat e stërvitjes ndaj të cilave janë ekspozuar, Fugatto i lejon përdoruesit të krijojnë peizazhe zanore që nuk janë parë kurrë më parë, të tilla si një stuhi që zbutet në agim me tingujt e zogjve që këndojnë.
Fugatto është një model transformatori gjenerues themelor që bazohet në punën e mëparshme të ekipit në fusha të tilla si modelimi i të folurit , kodimi i zërit audio dhe kuptimi audio.
Versioni i plotë përdor 2.5 miliardë parametra dhe është trajnuar në një bankë sistemesh NVIDIA DGX që paketojnë 32 GPU NVIDIA H100 Tensor Core.
Fugatto u bë nga një grup i ndryshëm njerëzish nga e gjithë bota, duke përfshirë Indinë, Brazilin, Kinën, Jordaninë dhe Korenë e Jugut. Bashkëpunimi i tyre i bëri më të forta aftësitë shumë-theksore dhe shumëgjuhëshe të Fugatto-s.
Një nga pjesët më të vështira të përpjekjes ishte gjenerimi i një grupi të dhënash të përzier që përmban miliona mostra audio të përdorura për trajnim. Ekipi përdori një strategji të shumëanshme për të gjeneruar të dhëna dhe udhëzime që zgjeruan ndjeshëm gamën e detyrave që modeli mund të kryente, duke arritur një performancë më të saktë dhe duke mundësuar detyra të reja pa kërkuar të dhëna shtesë.
Ata gjithashtu shqyrtuan grupet e të dhënave ekzistuese për të zbuluar marrëdhënie të reja midis të dhënave. Puna e përgjithshme zgjati më shumë se një vit.
Valle kujton dy momente kur ekipi e dinte se po merrte diçka. “Herën e parë që gjeneroi muzikë nga një kërkesë, na shpërtheu mendjen,” tha ai.
Më vonë, ekipi prezantoi Fugatto-n duke iu përgjigjur një kërkese për të krijuar muzikë elektronike me qen që lehnin në kohën e duhur.
“Kur grupi u nda nga të qeshurat, me të vërtetë ma ngrohu zemrën.”