Studiuesit e Google zbulojnë VLOGGER, një inteligjencë artificiale që mund të sjellë në jetë fotot e palëvizshme
Studiuesit e Google kanë zhvilluar një sistem të ri të inteligjencës artificiale që mund të gjenerojë video të gjalla të njerëzve që flasin, bëjnë gjeste dhe lëvizin – nga vetëm një foto e vetme. Teknologjia, e quajtur VLOGGER, mbështetet në modelet e avancuara të mësimit të makinerive për të sintetizuar pamje befasuese realiste, duke hapur një sërë aplikacionesh të mundshme duke ngritur gjithashtu shqetësime rreth falsifikimit të thellë dhe keqinformimit.
I përshkruar në një punim kërkimor të titulluar ” VLOGGER: Difuzion multimodal për sintezën e avatarit të mishëruar “, modeli i AI mund të marrë një foto të një personi dhe një videoklip si hyrje, dhe më pas të nxjerrë një video që përputhet me audion, duke treguar personin që flet fjalët dhe duke bërë shprehjet përkatëse të fytyrës, lëvizjet e kokës dhe gjestet e duarve. Videot nuk janë perfekte, me disa artefakte, por përfaqësojnë një hap të rëndësishëm në aftësinë për të animuar imazhe të palëvizshme.
Studiuesit, të udhëhequr nga Enric Corona në Google Research, përdorën një lloj modeli të mësimit të makinerive të quajtur modele difuzioni për të arritur rezultatin e ri. Modelet e difuzionit kanë treguar kohët e fundit performancë të jashtëzakonshme në gjenerimin e imazheve shumë realiste nga përshkrimet e tekstit. Duke i zgjeruar ato në domenin e videove dhe duke u trajnuar në një grup të madh të dhënash të reja, ekipi ishte në gjendje të krijonte një sistem AI që mund t’i sjellë fotot në jetë në një mënyrë shumë bindëse.
“Në ndryshim nga puna e mëparshme, metoda jonë nuk kërkon trajnim për çdo person, nuk mbështetet në zbulimin dhe prerjen e fytyrës, gjeneron imazhin e plotë (jo vetëm fytyrën ose buzët) dhe merr në konsideratë një spektër të gjerë skenarësh (p.sh. të dukshëm bust ose identitete të ndryshme subjektesh) që janë kritike për sintetizimin e saktë të njerëzve që komunikojnë, “shkruan autorët.
Një mundësi kyçe ishte kurimi i një grupi të madh të dhënash të reja të quajtur MENTOR që përmban mbi 800,000 identitete të ndryshme dhe 2,200 orë video – një renditje e madhësisë më e madhe se ajo që ishte në dispozicion më parë. Kjo e lejoi VLOGGER të mësonte të gjeneronte video të njerëzve me etni, mosha, veshje, poza dhe mjedise të ndryshme pa paragjykime.
Teknologjia hap një sërë rastesh bindëse përdorimi. Punimi demonstron aftësinë e VLOGGER për të dubuar automatikisht videot në gjuhë të tjera, thjesht duke ndërruar pjesën audio, për të redaktuar dhe plotësuar pa probleme kornizat që mungojnë në një video dhe për të krijuar video të plota të një personi nga një foto e vetme.
Dikush mund të imagjinojë që aktorët të jenë në gjendje të licencojnë modele të detajuara 3D të tyre që mund të përdoren për të gjeneruar shfaqje të reja. Teknologjia mund të përdoret gjithashtu për të krijuar avatarë fotorealistë për realitetin virtual dhe lojërat. Dhe mund të mundësojë krijimin e asistentëve virtualë dhe chatbot-eve të fuqizuara nga AI që janë më tërheqës dhe ekspresive.
Google e sheh VLOGGER-in si një hap drejt “agjentëve të mishëruar të bisedës” që mund të angazhohen natyrshëm me njerëzit përmes të folurit, gjesteve dhe kontaktit me sy. “VLOGGER mund të përdoret si një zgjidhje e pavarur për prezantime, edukim, rrëfim, komunikim në internet me gjerësi të ulët bande, dhe si një ndërfaqe për ndërveprim vetëm tekst njeriu-kompjuter,” shkruajnë autorët.
Megjithatë, teknologjia ka gjithashtu potencial për keqpërdorim, për shembull në krijimin e falsifikimeve të thella – media sintetike në të cilat një person në një video zëvendësohet me ngjashmërinë e dikujt tjetër. Ndërsa këto video të krijuara nga AI bëhen më realiste dhe më të lehta për t’u krijuar, kjo mund të përkeqësojë sfidat rreth dezinformimit dhe falsifikimit dixhital.
Ndonëse është mbresëlënëse, VLOGGER ka ende kufizime. Videot e krijuara janë relativisht të shkurtra dhe kanë një sfond statik. Individët nuk lëvizin nëpër një mjedis 3D. Dhe sjelljet dhe modelet e tyre të të folurit, ndonëse realiste, nuk janë ende të padallueshme nga ato të njerëzve të vërtetë.
Megjithatë, VLOGGER përfaqëson një hap të rëndësishëm përpara. “Ne vlerësojmë VLOGGER në tre standarde të ndryshme dhe tregojmë se modeli i propozuar tejkalon metodat e tjera më të fundit në cilësinë e imazhit, ruajtjen e identitetit dhe qëndrueshmërinë kohore,” raportuan autorët.
Me përparime të mëtejshme, ky lloj mediash i krijuar nga AI ka të ngjarë të bëhet i kudondodhur. Së shpejti mund të jetojmë në një botë ku është e vështirë të thuhet nëse personi që na flet në një video është i vërtetë apo i krijuar nga një program kompjuterik.
VLOGGER ofron një paraqitje të hershme të asaj të ardhmeje. Është një demonstrim i fuqishëm i përparimit të shpejtë që po bëhet në inteligjencën artificiale dhe një shenjë e sfidave në rritje me të cilat do të përballemi në dallimin midis asaj që është e vërtetë dhe asaj që është e rreme.