OpenAI sjell gjenerimin e imazheve në mënyrë natyrore në ChatGPT

foto

OpenAI ka integruar aftësitë e gjenerimit të imazheve direkt në ChatGPT, duke zëvendësuar integrimin e tij të mëparshëm DALL-E. Sistemi i ri synon të sigurojë rezultate më të qëndrueshme dhe më pak kufizime në përmbajtje.

foto

OpenAI ka filluar të nxjerrë në pah aftësinë e gjenerimit të imazhit vendas të prezantuar së bashku me GPT-4o në maj 2024. Sipas kompanisë, kjo veçori do të bëhet gjeneratori standard i imazheve për të gjithë përdoruesit e ChatGPT, nga niveli i lirë deri tek klientët Enterprise. Qasja në API për zhvilluesit është planifikuar për javët në vijim. DALL-E do të jetë ende i disponueshëm si një opsion i veçantë përmes një GPT të dedikuar.

Sistemi i ri përpunon tekstin dhe imazhet së bashku, duke çuar në rezultate më të sakta. Sipas OpenAI, ai mund të trajtojë deri në 20 objekte të ndryshme në të njëjtën kohë duke ruajtur marrëdhëniet e duhura mes tyre. Kjo aftësi e bën atë veçanërisht efektiv në gjenerimin e tekstit brenda imazheve, të tilla si krijimi i infografikëve ose logove.

Sistemi tregon forcë të veçantë me koncepte jokonvencionale. Kur u kërkohet të gjenerojnë “një kalë duke hipur në një astronaut”, modelet e mëparshme zakonisht do të paracaktojnë skenarin më të zakonshëm të një astronauti duke hipur në kalë.

GPT-4o, megjithatë, krijon me saktësi rregullimin e pazakontë, duke sugjeruar se ka një kuptim më të thellë të marrëdhënieve hapësinore në vend që thjesht të riprodhojë modele të zakonshme nga të dhënat e tij të trajnimit. Kjo aftësi mund të zgjerojë ndjeshëm mundësitë krijuese për gjenerimin e imazheve të AI.

foto

Modeli është i aftë të “mësojë në kontekst”, duke e lejuar atë të analizojë imazhet e ngarkuara dhe të përfshijë detajet e tyre në gjeneratat e reja. Përdoruesit mund të përsosin rezultatet e tyre përmes bisedës së natyrshme, me AI që ruan kontekstin në shkëmbime të shumta – duke e bërë më të lehtë përsosjen e përsëritur të një imazhi përmes dialogut.

Testimi i hershëm tregon se sistemi prodhon imazhe më të qëndrueshme se DALL-E 3, megjithëse nuk është ende perfekt. Përdoruesit mund të vërejnë mospërputhje të vogla midis brezave, si ndryshime të lehta në modelin e flokëve të personazhit ose detajet e veshjes.

OpenAI është paraprakisht në lidhje me kufizimet aktuale të sistemit. Modeli ndonjëherë pret imazhet gabimisht, gjeneron halucinacione të ngjashme me ato që shihen në modelet e tekstit dhe lufton me skena që përmbajnë shumë koncepte të dallueshme.