MobileDiffusion i Google gjeneron imazhe të AI në pajisjet celulare në më pak se një sekondë

MobileDiffusion i Google është një mënyrë e shpejtë dhe efikase për të krijuar imazhe nga teksti në telefonat inteligjentë.

foto

MobileDiffusion është zhvillimi më i fundit i Google në gjenerimin e tekstit në imazh. I krijuar posaçërisht për telefonat inteligjentë, modeli i difuzionit gjeneron imazhe me cilësi të lartë nga futja e tekstit në më pak se një sekondë.

Me një madhësi modeli prej vetëm 520 milionë parametrash, është dukshëm më i vogël se modelet me miliarda parametra si Stable Diffusion dhe SDXL, duke e bërë atë më të përshtatshëm për përdorim në pajisjet mobile.

Testet e studiuesve tregojnë se MobileDiffusion mund të gjenerojë imazhe me një rezolucion prej 512 x 512 piksele në rreth gjysmë sekonde si në telefonat inteligjentë Android ashtu edhe në iPhone. Prodhimi përditësohet vazhdimisht ndërsa shkruani, siç tregon videoja demonstruese e Google.

MobileDiffusion përbëhet nga tre komponentë kryesorë: një kodues teksti, një rrjet difuzioni dhe një dekoder imazhi.

UNet përmban një shtresë të vetë-vëmendjes, një shtresë ndër-vëmendjeje, dhe një shtresë përcjellëse, të cilat janë thelbësore për të kuptuarit e tekstit në modelet e difuzionit.

Megjithatë, kjo arkitekturë me shtresa është komplekse llogaritëse dhe kërkon burime intensive. Google përdor të ashtuquajturën arkitekturë UViT, në të cilën më shumë blloqe transformatorësh vendosen në një rajon me dimensione të ulëta të UNet-it për të reduktuar kërkesat për burime.

Përveç kësaj, distilimi dhe një hibrid i Rrjetit Kundërshtar Gjenerativ (GAN) përdoren për marrjen e mostrave nga një deri në tetë nivele.

Google ende nuk e ka vënë modelin lirisht të disponueshëm dhe as nuk ka njoftuar ndonjë plan për ta bërë këtë. Përkundrazi, hulumtimi duhet të konsiderohet si një hap drejt qëllimit të demokratizimit të gjenerimit të tekstit në imazh në pajisjet mobile.

Google ka familjen e vet të telefonave inteligjentë me serinë Pixel, ku inteligjenca artificiale gjeneruese po bëhet një temë gjithnjë e më e rëndësishme si për harduerin ashtu edhe për softuerin.

Vitin e kaluar, Qualcomm demonstroi se një smartphone mund të gjeneronte shpejt imazhe të bazuara në Stable Diffusion.

Duke optimizuar grupin e inteligjencës artificiale të Qualcomm, prodhuesi amerikan i çipave ishte në gjendje të përdorte gjeneratorin e imazheve në atë që ishte atëherë një smartphone i nivelit të lartë Android, një përparim i jashtëzakonshëm teknologjik në atë kohë në shkurt 2023. Megjithatë, duke gjeneruar një imazh me 512 x 512 piksele dhe 20 Hapat e konkluzionit morën ende rreth 15 sekonda.

foto

Avantazhi i qasjes MobileDiffusion të Google është se jep rezultate të shpejta në të gjitha sistemet, pavarësisht nga sistemi operativ. Është edhe më mirë në iPhone 15 Pro sesa në flamurin më të fundit të Samsung, Galaxy S24, i cili drejton Android të Google.

Kohët e fundit, SDXL Turbo ose PixArt-δ kanë bërë gjithashtu përparime të rëndësishme në gjenerimin e imazheve pothuajse në kohë reale, megjithëse në sisteme më të fuqishme.