Mjeti i ri i AI i Google DeepMind krijon kolona zanore duke përdorur kërkesat e tekstit
DeepMind i Google ka prezantuar një mjet të ri të inteligjencës artificiale (AI), i aftë për të gjeneruar kolona zanore për video.
Mjeti përdor si përmbajtjen video ashtu edhe kërkesat e tekstit për të krijuar audio.
Kjo i lejon përdoruesit të prodhojnë skena me një rezultat dramë, efekte zanore realiste ose dialog që përputhet me personazhet, si dhe tonin e një videoje.
Faqja e internetit e DeepMind shfaq shembuj të aftësive të mjetit AI.
Mjeti i AI mund të gjenerojë audio bazuar në kërkesat specifike të tekstit.
Për shembull, Google përdori kërkesën “makina që rrëshqasin, motori i makinës mbytet, muzikë elektronike engjëllore” për të krijuar një kolonë zanore për një video që tregon një makinë duke lëvizur nëpër një peizazh të stilit kiberpunk.
Një shembull tjetër përfshin krijimin e një peizazhi zanor nënujor duke përdorur kërkesën “kandil deti që pulson nën ujë, jetën detare, oqeanin”.
Pavarësisht opsionit për të përdorur kërkesat e tekstit, ato nuk janë të detyrueshme për përdorimin e këtij mjeti.
Përdoruesit e veglës së re të AI të DeepMind nuk u kërkohet të përafrojnë saktësisht audion e krijuar me skenat përkatëse në video.
Mjeti mund të prodhojë një numër të pakufizuar kolonash zanore për video, duke u ofruar përdoruesve opsione të pafundme audio.
Kjo veçori e veçon atë nga mjetet e tjera të ngjashme si gjeneratori i efekteve zanore të ElevenLabs, i cili gjithashtu përdor kërkesat e tekstit për të gjeneruar audio.
Mjeti i AI u trajnua për audio, video dhe shënime që përmbajnë përshkrime të hollësishme të tingullit, si dhe transkriptet e dialogut të folur.
Ky trajnim lejon që gjeneratori video-në-audio të përputhë me saktësi ngjarjet audio me skenat vizuale.
Mund të thjeshtojë potencialisht procedurën e çiftimit të audios me videon e gjeneruar nga AI nga mjete si DeepMind’s Veo dhe Sora.
Sidoqoftë, ka disa kufizime për këtë mjet që DeepMind aktualisht po punon për t’i përmirësuar.
Një nga kufizimet e mjetit të ri AI të DeepMind është aftësia e tij për të sinkronizuar lëvizjen e buzëve me dialogun, i cili aktualisht është duke u përmirësuar.
Cilësia e sistemit video-to-audio varet gjithashtu nga cilësia e videos; videot me kokrra ose të shtrembëruara mund të rezultojnë në një rënie të dukshme të cilësisë së audios.
Mjeti nuk është ende i disponueshëm për përdorim të përgjithshëm pasi ende duhet t’i nënshtrohet vlerësimeve dhe testimeve rigoroze të sigurisë.