Teknologjia e re e përmirësimit të fotografive nga Google AI

foto

Përmirësimi i fotografive në filma dhe shfaqje televizive shpesh përqeshet për të qenë i pabesueshëm, por kërkimet në rritjen e fotografive të vërteta në të vërtetë po zvarriten gjithnjë e më shumë në fushën e trillimeve shkencore. Thjesht hidhini një sy teknologjisë më të fundit të Google për rritjen e fotografisë AI.

Në një postim të titulluar “Gjenerimi i imazhit me besnikëri të lartë duke përdorur modele difuzioni” të botuar në Blogun e AI të Google (dhe i vërejtur nga DPR), studiuesit e Google në Ekipin e Trurit të kompanisë ndajnë përparimet e reja që kanë bërë në super-rezolucionin e imazhit.

Në super-rezolucionin e imazhit, një model i mësimit të makinerisë është i trajnuar për ta kthyer një fotografi me rezolucion të ulët në një fotografi të detajuar me rezolucion të lartë, dhe aplikimet e mundshme të kësaj shkojnë nga rivendosja e fotografive të vjetra të familjes deri tek përmirësimi i imazhit mjekësor.

Google ka qenë duke eksploruar një koncept të quajtur “modele difuzioni”, i cili u propozua për herë të parë në 2015, por që, deri vonë, i ka dhënë prapa një familje të metodave të mësimit të thellë të quajtur “modele të thella gjeneruese”. Kompania ka gjetur se rezultatet e saj me këtë qasje të re mposhtin teknologjitë ekzistuese kur njerëzve u kërkohet të gjykojnë.

Qasja e parë quhet SR3, ose Super-Rezolucioni nëpërmjet Përsosjes së Përsëritur. Këtu është shpjegimi teknik:

“SR3 është një model difuzioni me super rezolucion që merr si hyrje një imazh me rezolucion të ulët dhe krijon një imazh përkatës me rezolucion të lartë nga zhurma e pastër,” shkruan Google. “Modeli është trajnuar në një proces të prishjes së imazhit në të cilin zhurma i shtohet progresivisht një imazhi me rezolucion të lartë derisa të mbetet vetëm zhurma e pastër.

“Pastaj mëson të ndryshojë këtë proces, duke filluar nga zhurma e pastër dhe duke hequr gradualisht zhurmën për të arritur një shpërndarje të synuar përmes drejtimit të imazhit të hyrjes me rezolucion të ulët.”

SR3 është gjetur të punojë mirë në rritjen e portreteve dhe imazheve natyrore. Kur përdoret për të bërë 8 herë rritjen e fytyrave, ai ka një “shkallë konfuzioni” prej gati 50% ndërsa metodat ekzistuese shkojnë vetëm deri në 34%, duke sugjeruar që rezultatet janë vërtet foto-realiste.

Pasi Google pa se sa efektive ishte SR3 në rritjen e fotografive, kompania shkoi një hap më tej me një qasje të dytë të quajtur CDM, një model difuzioni i kushtëzuar i klasës.

“CDM është një model difuzioni i kushtëzuar i klasës i trajnuar në të dhënat ImageNet për të gjeneruar imazhe natyrore me rezolucion të lartë,” shkruan Google. “Meqenëse ImageNet është një grup i dhënash i vështirë, me entropi të lartë, ne ndërtuam CDM si një kaskadë të modeleve të shumta të shpërndarjes. Kjo qasje kaskade përfshin lidhjen e modeleve të shumta gjeneruese mbi disa rezolucione hapësinore: një model difuzioni që gjeneron të dhëna në një rezolucion të ulët, i ndjekur nga një sekuencë e modeleve të difuzionit super-rezolucion SR3 që gradualisht rrisin zgjidhjen e imazhit të gjeneruar në rezolucionin më të lartë. “

Google ka publikuar një sërë shembujsh që tregojnë fotografi me rezolucion të ulët të rritur në një kaskadë. Një fotografi 32 × 32 mund të zgjerohet në 64 × 64 dhe më pas 256 × 256. Një fotografi 64 × 64 mund të rritet në 256 × 256 dhe më pas 1024 × 1024.

Siç mund ta shihni, rezultatet janë mbresëlënëse dhe fotot përfundimtare, pavarësisht se kanë disa gabime (të tilla si boshllëqet në kornizat e syzeve), ka të ngjarë të kalojnë si fotografi origjinale aktuale për shumicën e shikuesve në shikim të parë.

“Me SR3 dhe CDM, ne kemi shtyrë performancën e modeleve të difuzionit në nivelin më të lartë në standardet e gjenerimit të super-rezolucionit dhe të kushtëzuar të klasës ImageNet,” shkruajnë studiuesit e Google. “Ne jemi të ngazëllyer për të testuar më tej kufijtë e modeleve të difuzionit për një larmi të madhe të problemeve të modelimit gjenerues.”