Gjeneratori i videove me inteligjencë artificiale të Alibaba-s sapo u zhyt në Sora duke e bërë zonjën Sora të këndojë

Alibaba dëshiron që ju të krahasoni gjeneratorin e saj të ri të videove me AI me Sora të OpenAI. Përndryshe, pse ta përdorni për të bërë brezin më të famshëm të krijimit të Sorës në një këngë të Dua Lipës?

foto

Të martën, një organizatë e quajtur “Instituti për Inteligjencën Inteligjente” brenda kompanisë kineze të tregtisë elektronike Alibaba publikoi një artikull në lidhje me një gjenerator të ri video intrigues të AI që ka zhvilluar, i cili është jashtëzakonisht i mirë në shndërrimin e imazheve të palëvizshme të fytyrave në aktorë të pranueshëm dhe këngëtarë karizmatikë. Sistemi quhet EMO, një sfond argëtues që supozohet se është nxjerrë nga fjalët “Emotive Portreit Alive” (megjithëse, në atë rast, pse nuk quhet “EPO”?).

foto

EMO është një vështrim në një të ardhme ku një sistem si Sora krijon botë video dhe në vend që të popullohet nga njerëz tërheqës memecë thjesht duke parë njëri-tjetrin , “aktorët” në këto krijime të AI thonë gjëra – apo edhe këndojnë.

Alibaba vendosi video demo në GitHub për të treguar kornizën e re të gjenerimit të videove. Këto përfshijnë një video të zonjës Sora – e famshme për shëtitjen nëpër Tokion e krijuar nga AI menjëherë pas një stuhie shiu – duke kënduar “Don’t Start Now” nga Dua Lipa dhe duke u bërë goxha e çuditshme me të.

Demonstrimet zbulojnë gjithashtu se si EMO, për të përmendur një shembull, mund ta bëjë Audrey Hepburn të flasë audion nga një klip viral i Lili Reinhart të Riverdale duke folur për atë se sa shumë i pëlqen të qajë. Në atë klip, koka e Hepburn-it mban një pozicion të drejtë si një ushtar, por e gjithë fytyra e saj – jo vetëm goja e saj – me të vërtetë duket se ndjen fjalët në audio.

Në kontrast me këtë version të çuditshëm të Hepburn, Reinhart në klipin origjinal e lëviz kokën shumë, dhe ajo gjithashtu emocionon krejt ndryshe, kështu që EMO nuk duket të jetë një riff për llojin e ndryshimit të fytyrës nga AI që u kthye virale. në mesin e viteve 2010 dhe çoi në rritjen e deepfakes në 2017 .

Gjatë viteve të fundit, aplikacionet e krijuara për të gjeneruar animacion të fytyrës nga audio janë shfaqur, por ato nuk kanë qenë edhe aq frymëzuese. Për shembull, paketa e softuerit NVIDIA Omniverse promovon një aplikacion me një kornizë animimi audio-në-fytyrë të quajtur “Audio2Face” – i cili mbështetet në animacionin 3D për rezultatet e tij në vend që thjesht të gjenerojë video fotorealiste si EMO.

Pavarësisht se Audio2Face është vetëm dy vjeç, demonstrimi i EMO e bën atë të duket si një antike. Në një video që pretendon të tregojë aftësinë e saj për të imituar emocionet gjatë bisedës, fytyra 3D që ajo përshkruan duket më shumë si një kukull me një maskë shprehjeje fytyre, ndërsa personazhet e EMO duket se shprehin nuancat e emocioneve komplekse që ndeshen në çdo videoklip.

Vlen të përmendet në këtë pikë se, si me Sora, ne po e vlerësojmë këtë kornizë të AI bazuar në një demonstrim të ofruar nga krijuesit e tij dhe në fakt nuk kemi në dorë një version të përdorshëm që mund ta testojmë. Pra, është e vështirë të imagjinohet që menjëherë nga porta kjo pjesë e softuerit mund të krijojë performanca të tilla bindëse të fytyrës njerëzore të bazuara në audio pa prova dhe gabime të rëndësishme, ose rregullime të imta specifike për detyrën.

Personazhet në demo kryesisht nuk po shprehin fjalim që kërkon emocione ekstreme – fytyra të dehura nga zemërimi ose të shkrirë në lot, për shembull – kështu që mbetet për t’u parë se si EMO do të trajtonte emocionet e rënda vetëm me audion si udhërrëfyes. . Për më tepër, pavarësisht se është prodhuar në Kinë, përshkruhet si një poliglot i plotë, i aftë për të kapur zërat e anglishtes dhe koreanishtes, dhe duke i bërë fytyrat të formojnë fonemat e duhura me besnikëri të denjë – edhe pse larg të qenit të përsosur. Pra, me fjalë të tjera, do të ishte mirë të shihje se çfarë do të ndodhte nëse vendosni audion e një personi shumë të zemëruar që flet një gjuhë më pak të njohur në EMO për të parë se sa mirë performoi.

Gjithashtu magjepsëse janë zbukurimet e vogla midis frazave – buzët e ngjeshura ose një shikim poshtë – që fusin emocione në pauza dhe jo vetëm në momentet kur buzët lëvizin. Këta janë shembuj se si emocionon një fytyrë e vërtetë njerëzore dhe është magjepsëse të shohësh EMO-n që i bën ato kaq të drejta, madje edhe në një demonstrim kaq të kufizuar.

Sipas gazetës, modeli i EMO mbështetet në një grup të madh të dhënash audio dhe video (edhe një herë: nga ku? ) për t’i dhënë atij pikat e referencës të nevojshme për t’u emocionuar në mënyrë kaq reale. Dhe qasja e saj e bazuar në difuzion me sa duket nuk përfshin një hap të ndërmjetëm në të cilin modelet 3D bëjnë një pjesë të punës. Një mekanizëm referimi-vëmendjeje dhe një mekanizëm i veçantë i vëmendjes audio janë çiftuar nga modeli i EMO për të ofruar personazhe të animuar, animacionet e fytyrës së të cilëve përputhen me atë që shfaqet në audio, duke qëndruar besnike ndaj karakteristikave të fytyrës të imazhit bazë të dhënë.

Është një koleksion mbresëlënës demo-sh, dhe pasi t’i shikoni është e pamundur të mos imagjinoni se çfarë do të vijë më pas. Por nëse i bëni paratë tuaja si aktor, përpiquni të mos imagjinoni shumë, sepse gjërat bëhen shumë shqetësuese shumë shpejt.