Modeli i imazheve të AI-së i Google Gemini merr një përmirësim ‘të jashtëzakonshëm’

foto

Google po përmirëson chatbot-in e saj Gemini me një model të ri imazhi të IA-së që u jep përdoruesve kontroll më të mirë mbi redaktimin e fotove, një hap që synon të kapë ritmin me mjetet e njohura të imazhit të OpenAI dhe të tërheqë përdorues nga ChatGPT.

foto

Përditësimi, i quajtur Gemini 2.5 Flash Image, do të dalë nga e marta për të gjithë përdoruesit e aplikacionit Gemini, si dhe për zhvilluesit përmes platformave Gemini API, Google AI Studio dhe Vertex AI.

Modeli i ri i imazhit me inteligjencë artificiale i Gemini është projektuar për të bërë redaktime më të sakta të imazheve – bazuar në kërkesat e gjuhës natyrore nga përdoruesit – duke ruajtur qëndrueshmërinë e fytyrave, kafshëve dhe detajeve të tjera, diçka me të cilën shumica e mjeteve rivale kanë vështirësi. Për shembull, kërkoni nga ChatGPT ose Grok i xAI të ndryshojë ngjyrën e këmishës së dikujt në një foto dhe rezultati mund të përfshijë një fytyrë të shtrembëruar ose një sfond të ndryshuar.

Mjeti i ri i Google ka tërhequr tashmë vëmendjen. Në javët e fundit, përdoruesit e mediave sociale e vlerësuan me entuziazëm një redaktues mbresëlënës të imazheve me inteligjencë artificiale në platformën e vlerësimit të bazuar në grupe, LMArena. Modeli iu shfaq përdoruesve në mënyrë anonime nën pseudonimin “nano-banana”.

Google thotë se është prapa modelit (nëse nuk ishte e qartë tashmë nga të gjitha aludimet në lidhje me bananet), që në të vërtetë është aftësia native e imazhit brenda modelit të saj kryesor Gemini 2.5 Flash AI. Google thotë se modeli i imazhit është i teknologjisë së fundit në LMArena dhe teste të tjera.

foto

“Ne po e çojmë përpara cilësinë vizuale, si dhe aftësinë e modelit për të ndjekur udhëzimet”, tha Nicole Brichtova, një udhëheqëse produktesh për modelet e gjenerimit vizual në Google DeepMind, në një intervistë me TechCrunch.

“Ky përditësim bën një punë shumë më të mirë duke i bërë redaktimet më pa probleme, dhe rezultatet e modelit janë të përdorshme për çfarëdo që dëshironi t’i përdorni”, tha Brichtova.

Modelet e imazheve të inteligjencës artificiale janë bërë një fushë beteje kritike për kompanitë e mëdha teknologjike. Kur OpenAI lançoi gjeneratorin e imazheve vendase të GPT-4o në mars, kjo e rriti përdorimin e ChatGPT në masë të madhe falë një mori memesh të Studio Ghibli të gjeneruara nga inteligjenca artificiale , të cilat, sipas drejtorit ekzekutiv të OpenAI, Sam Altman, i lanë GPU-të e kompanisë duke u “ shkrirë ”.

Për të mbajtur hapin me OpenAI dhe Google, Meta njoftoi javën e kaluar se do të licenconte modele imazhesh të inteligjencës artificiale nga startup-i Midjourney. Ndërkohë, Black Forest Labs, një kompani gjermane me mbështetje nga a16z, vazhdon të dominojë testet me modelet e saj të imazheve të inteligjencës artificiale FLUX.

Ndoshta redaktori mbresëlënës i imazheve me inteligjencë artificiale i Gemini mund ta ndihmojë Google të ngushtojë hendekun e përdoruesve me OpenAI. ChatGPT tani regjistron më shumë se 700 milionë përdorues javorë. Në konferencën për të ardhurat e Google në korrik, CEO i gjigantit të teknologjisë, Sundar Pichai, zbuloi se Gemini kishte 450 milionë përdorues mujorë – që nënkupton se përdoruesit javorë janë edhe më të ulët.

Brichtova thotë se Google e ka projektuar posaçërisht modelin e imazhit duke pasur parasysh rastet e përdorimit nga konsumatorët, siç është ndihma ndaj përdoruesve për të vizualizuar projektet e tyre në shtëpi dhe kopsht. Modeli gjithashtu ka “njohuri më të mira për botën” dhe mund të kombinojë referenca të shumta në një kërkesë të vetme; për shembull, bashkimi i një imazhi të një divani, një fotoje të dhomës së ndenjes dhe një palete ngjyrash në një renderim të vetëm koheziv.

Ndërsa gjeneratori i ri i imazheve me inteligjencë artificiale i Gemini e bën më të lehtë për përdoruesit të krijojnë dhe modifikojnë imazhe realiste, kompania ka masa mbrojtëse që kufizojnë atë që përdoruesit mund të krijojnë. Google ka pasur vështirësi me masat mbrojtëse të gjeneratorit të imazheve me inteligjencë artificiale në të kaluarën. Në një moment, kompania kërkoi falje për gjenerimin historik të imazheve të njerëzve nga Gemini, të cilat ishin historikisht të pasakta, dhe e anuloi plotësisht gjeneratorin e imazheve me inteligjencë artificiale.

Tani, Google mendon se ka arritur një ekuilibër më të mirë.

«Ne duam t’u japim përdoruesve kontroll krijues në mënyrë që ata të mund të marrin nga modelet atë që duan», tha Brichtova. «Por nuk është se çdo gjë është e lejuar».

Seksioni i kushteve të shërbimit të Google për inteligjencën artificiale (IA) i ndalon përdoruesit të gjenerojnë “imazhe intime jo konsensuale”. Të njëjtat lloje mbrojtjesh nuk duket se ekzistojnë për Grok, i cili u lejonte përdoruesve të krijonin imazhe eksplicite të gjeneruara nga IA që i ngjanin personazheve të famshëm, si Taylor Swift.

Për të adresuar rritjen e imazheve të rreme, të cilat mund ta bëjnë të vështirë për përdoruesit të dallojnë se çfarë është reale në internet, Brichtova thotë se Google aplikon filigrane vizuale në imazhet e gjeneruara nga inteligjenca artificiale, si dhe identifikues në metadatat e saj. Megjithatë, dikush që shfleton një imazh në mediat sociale mund të mos kërkojë identifikues të tillë.