Apple lëshon ‘MGIE’, një model revolucionar i AI për redaktimin e imazheve të bazuara në udhëzime
Apple ka lëshuar një model të ri të inteligjencës artificiale me burim të hapur, të quajtur ” MGIE “, që mund të modifikojë imazhet bazuar në udhëzimet e gjuhës natyrore. MGIE, e cila qëndron për MLLM-Guided Image Editing, shfrytëzon modelet multimodale të gjuhëve të mëdha ( MLLMs ) për të interpretuar komandat e përdoruesit dhe për të kryer manipulime në nivel pixel. Modeli mund të trajtojë aspekte të ndryshme të redaktimit, të tilla si modifikimi i stilit Photoshop, optimizimi global i fotografive dhe redaktimi lokal.
MGIE është rezultat i një bashkëpunimi midis Apple dhe studiuesve nga Universiteti i Kalifornisë, Santa Barbara. Modeli u prezantua në një punim të pranuar në Konferencën Ndërkombëtare për Përfaqësimet Mësimore ( ICLR ) 2024, një nga vendet kryesore për kërkimin e AI. Punimi demonstron efektivitetin e MGIE në përmirësimin e metrikës automatike dhe vlerësimit njerëzor, të gjitha duke ruajtur efikasitetin e konkluzioneve konkurruese.
MGIE bazohet në idenë e përdorimit të MLLM-ve, të cilat janë modele të fuqishme të AI që mund të përpunojnë tekstin dhe imazhet, për të përmirësuar redaktimin e imazheve të bazuara në udhëzime. MLLM-të kanë treguar aftësi të jashtëzakonshme në kuptimin ndër-modal dhe gjenerimin e përgjigjeve me vetëdije vizuale, por ato nuk janë aplikuar gjerësisht në detyrat e redaktimit të imazheve.
MGIE integron MLLM-të në procesin e redaktimit të imazhit në dy mënyra: Së pari, përdor MLLM-të për të nxjerrë udhëzime shprehëse nga të dhënat e përdoruesit. Këto udhëzime janë koncize dhe të qarta dhe ofrojnë udhëzime të qarta për procesin e redaktimit. Për shembull, duke pasur parasysh hyrjen “bëje qiellin më blu”, MGIE mund të prodhojë instruksionin “të rrisë ngopjen e rajonit të qiellit me 20%.
Së dyti, ai përdor MLLM për të gjeneruar imagjinatë vizuale, një paraqitje latente e redaktimit të dëshiruar. Ky përfaqësim kap thelbin e redaktimit dhe mund të përdoret për të udhëhequr manipulimin e nivelit të pikselit. MGIE përdor një skemë të re trajnimi nga fundi në fund që optimizon së bashku derivimin e udhëzimeve, imagjinatën vizuale dhe modulet e redaktimit të imazhit.
MGIE mund të trajtojë një gamë të gjerë skenarësh redaktimi, nga rregullimet e thjeshta të ngjyrave deri te manipulimet komplekse të objekteve. Modeli mund të kryejë gjithashtu modifikime globale dhe lokale, në varësi të preferencës së përdoruesit. Disa nga veçoritë dhe aftësitë e MGIE janë:
Redaktimi shprehës i bazuar në udhëzime: MGIE mund të prodhojë udhëzime koncize dhe të qarta që drejtojnë në mënyrë efektive procesin e redaktimit. Kjo jo vetëm që përmirëson cilësinë e modifikimeve, por gjithashtu përmirëson përvojën e përgjithshme të përdoruesit.
Modifikimi i stilit të Photoshop-it: MGIE mund të kryejë modifikime të zakonshme të stilit Photoshop, të tilla si prerja, ndryshimi i madhësisë, rrotullimi, rrokullisja dhe shtimi i filtrave. Modeli mund të aplikojë gjithashtu modifikime më të avancuara, të tilla si ndryshimi i sfondit, shtimi ose heqja e objekteve dhe përzierja e imazheve.
Optimizimi global i fotografisë: MGIE mund të optimizojë cilësinë e përgjithshme të një fotografie, të tilla si ndriçimi, kontrasti, mprehtësia dhe ekuilibri i ngjyrave. Modeli gjithashtu mund të aplikojë efekte artistike si skicë, pikturë dhe vizatime vizatimore.
Redaktimi lokal: MGIE mund të modifikojë rajone ose objekte specifike në një imazh, si fytyrat, sytë, flokët, rrobat dhe aksesorët. Modeli gjithashtu mund të modifikojë atributet e këtyre rajoneve ose objekteve, të tilla si forma, madhësia, ngjyra, tekstura dhe stili.
MGIE është i disponueshëm si një projekt me burim të hapur në GitHub, ku përdoruesit mund të gjejnë kodin, të dhënat dhe modelet e para-trajnuara. Projekti ofron gjithashtu një fletore demo që tregon se si të përdoret MGIE për detyra të ndryshme redaktimi. Përdoruesit mund të provojnë gjithashtu MGIE në internet përmes një demo në internet të organizuar në Hugging Face Spaces, një platformë për ndarjen dhe bashkëpunimin në projektet e mësimit të makinerive (ML).
MGIE është projektuar që të jetë e lehtë për t’u përdorur dhe fleksibël për t’u personalizuar. Përdoruesit mund të japin udhëzime të gjuhës natyrore për të redaktuar imazhet dhe MGIE do të gjenerojë imazhet e redaktuara së bashku me udhëzimet e prejardhura. Përdoruesit mund t’i japin gjithashtu komente MGIE për të përmirësuar modifikimet ose për të kërkuar modifikime të ndryshme. MGIE gjithashtu mund të integrohet me aplikacione ose platforma të tjera që kërkojnë funksionalitet të redaktimit të imazhit.
MGIE është një përparim në fushën e redaktimit të imazheve të bazuara në udhëzime, e cila është një detyrë sfiduese dhe e rëndësishme si për AI ashtu edhe për krijimtarinë njerëzore. MGIE demonstron potencialin e përdorimit të MLLM-ve për të përmirësuar redaktimin e imazhit dhe hap mundësi të reja për ndërveprim dhe komunikim ndër-modal.
MGIE nuk është vetëm një arritje kërkimore, por edhe një mjet praktik dhe i dobishëm për skenarë të ndryshëm. MGIE mund t’i ndihmojë përdoruesit të krijojnë, modifikojnë dhe optimizojnë imazhe për qëllime personale ose profesionale, të tilla si media sociale, tregtia elektronike, edukimi, argëtimi dhe arti. MGIE gjithashtu mund të fuqizojë përdoruesit të shprehin idetë dhe emocionet e tyre përmes imazheve dhe t’i frymëzojë ata të eksplorojnë krijimtarinë e tyre.
Për Apple, MGIE thekson gjithashtu aftësinë në rritje të kompanisë në kërkimin dhe zhvillimin e AI . Gjigandi i teknologjisë së konsumatorit ka zgjeruar me shpejtësi aftësitë e tij të mësimit të makinerive në vitet e fundit, me MGIE që është ndoshta demonstrimi i tij më mbresëlënës ende se si AI mund të përmirësojë detyrat e përditshme krijuese.
Ndërsa MGIE përfaqëson një përparim të madh, ekspertët thonë se ka ende shumë punë përpara për të përmirësuar sistemet multimodale të AI. Por ritmi i progresit në këtë fushë po përshpejtohet me shpejtësi. Nëse zhurma rreth lëshimit të MGIE është ndonjë tregues, ky lloj i AI ndihmëse së shpejti mund të bëhet një ndihmës krijues i domosdoshëm.