Gjeneratori më i fundit i videove me inteligjencë artificiale të Google mund të sjellë kafshë të lezetshme në situata të pabesueshme

Të martën, Google njoftoi Lumiere , një gjenerues video të AI që e quan “një model i difuzionit në hapësirë-kohë për gjenerim realist të videos” në letrën shoqëruese të paraprintimit . Por le të mos tallemi: Bën një punë të shkëlqyeshme për të krijuar video të kafshëve të lezetshme në skenarë qesharakë, të tillë si përdorimi i patinave, drejtimi i një makine ose luajtja e një piano. Sigurisht, mund të bëjë më shumë, por është ndoshta gjeneratori më i avancuar i videove nga tekst-te-kafshë AI i demonstruar ende.

foto

Sipas Google, Lumiere përdor arkitekturën unike për të gjeneruar të gjithë kohëzgjatjen e përkohshme të një videoje me një lëvizje. Ose, siç tha kompania, “Ne prezantojmë një arkitekturë U-Net Hapësirë-Time që gjeneron të gjithë kohëzgjatjen kohore të videos menjëherë, përmes një kalimi të vetëm në model. Kjo është në kontrast me modelet ekzistuese të videove që sintetizojnë në distancë kornizat kryesore të ndjekura nga super-rezolucion i përkohshëm – një qasje që në thelb e bën të vështirë arritjen e qëndrueshmërisë kohore globale.”

Në terma të thjeshtë, teknologjia e Google është krijuar për të trajtuar njëkohësisht aspektet e hapësirës (ku janë gjërat në video) dhe të kohës (si lëvizin dhe ndryshojnë gjërat përgjatë videos). Pra, në vend që të krijojë një video duke bashkuar shumë pjesë të vogla ose korniza, ajo mund të krijojë të gjithë videon, nga fillimi në fund, në një proces të qetë.

Lumiere mund të bëjë gjithashtu shumë truke për festa, të cilat janë paraqitur mjaft mirë me shembuj në faqen demo të Google . Për shembull, mund të kryejë gjenerim tekst-në-video (shndërrimi i kërkesës së shkruar në video), të konvertojë imazhe të palëvizshme në video, të gjenerojë video në stile specifike duke përdorur një imazh referencë, të aplikojë redaktimin e qëndrueshëm të videos duke përdorur kërkesat e bazuara në tekst, të krijojë kinematografi duke animuar zona të veçanta të një imazhi dhe duke ofruar aftësi për të pikturuar video (për shembull, mund të ndryshojë llojin e veshjes që një person ka veshur).

Në dokumentin kërkimor Lumiere, studiuesit e Google deklarojnë se modeli i AI nxjerr video 1024×1024 pixel me gjatësi pesë sekonda, të cilat ata i përshkruajnë si “me rezolucion të ulët”. Pavarësisht këtyre kufizimeve, studiuesit kryen një studim të përdoruesit dhe pretendojnë se rezultatet e Lumiere preferoheshin mbi modelet ekzistuese të sintezës së videove me AI.

Sa i përket të dhënave të trajnimit, Google nuk thotë se ku i ka marrë videot që ka futur në Lumiere, duke shkruar, “Ne trajnojmë modelin tonë T2V [tekst në video] në një grup të dhënash që përmban 30 milion video së bashku me titrat e tyre të tekstit. [sic] Videot. janë 80 korniza të gjata në 16 fps (5 sekonda). Modeli bazë është trajnuar në 128×128.”

foto

Videoja e krijuar nga AI është ende në një gjendje primitive, por ka përparuar në cilësi gjatë dy viteve të fundit. Në tetor 2022, ne mbuluam modelin e parë të sintezës së imazhit të zbuluar publikisht nga Google, Imagen Video . Mund të gjeneronte videoklipe të shkurtra 1280×768 nga një kërkesë e shkruar me 24 korniza për sekondë, por rezultatet nuk ishin gjithmonë koherente. Para kësaj, Meta debutoi gjeneratorin e saj të videove me AI, Make-A-Video . Në qershor të vitit të kaluar, modeli i sintezës së videove Gen2 i Runway mundësoi krijimin e videoklipeve dy sekondash nga kërkesat e tekstit, duke nxitur krijimin e reklamave parodi surrealiste . Dhe në nëntor, ne mbuluam Stable Video Diffusion , i cili mund të gjenerojë klipe të shkurtra nga imazhe statike.

Kompanitë e inteligjencës artificiale shpesh demonstrojnë gjeneratorë video me kafshë të lezetshme, sepse gjenerimi i njerëzve koherent, jo të deformuar është aktualisht i vështirë – veçanërisht pasi ne, si njerëz (ju jeni njerëz, apo jo?), jemi të aftë për të vërejtur ndonjë të metë në trupat e njeriut ose mënyrën se si ata lëvizin. Vetëm shikoni Will Smith të krijuar nga AI duke ngrënë spageti .

Duke gjykuar nga shembujt e Google (dhe duke mos e përdorur vetë), Lumiere duket se i tejkalon këto modele të tjera të gjenerimit të videove me AI. Por meqenëse Google tenton t’i mbajë modelet e tij të kërkimit të AI pranë gjoksit, ne nuk jemi të sigurt se kur, nëse ndonjëherë, publiku mund të ketë një shans për ta provuar vetë.

Si gjithmonë, sa herë që shohim se modelet e sintezës tekst-në-video bëhen më të afta, nuk mund të mos mendojmë për implikimet e ardhshme për shoqërinë tonë të lidhur me internetin, e cila është e përqendruar rreth ndarjes së artefakteve mediatike – dhe supozimit të përgjithshëm se “realiste Videoja zakonisht përfaqëson objekte reale në situata reale të kapura nga një aparat fotografik. Mjetet e ardhshme të sintezës së videove, më të afta se Lumiere, do t’i bëjnë të lehta për t’u krijuar depfake mashtruese.

Për këtë qëllim, në seksionin “Ndikimi në shoqëri” të punimit Lumiere, studiuesit shkruajnë, “Qëllimi ynë kryesor në këtë punë është t’u mundësojmë përdoruesve fillestarë të gjenerojnë përmbajtje vizuale në një mënyrë kreative dhe fleksibël. [sic] Megjithatë, ekziston rreziku i keqpërdorimit për krijimin e përmbajtjeve të rreme ose të dëmshme me teknologjinë tonë, dhe ne besojmë se është thelbësore të zhvillohen dhe aplikohen mjete për zbulimin e paragjykimeve dhe rasteve të përdorimit me qëllim të keq për të siguruar një përdorim të sigurt dhe të drejtë.”