OpenAI shton modelin e imazheve të ChatGPT “GPT-Image-1” në API për zhvilluesit

foto

OpenAI ka vënë modelin e tij multimodal të gjenerimit të imazhit, GPT-Image-1, të disponueshëm për zhvilluesit përmes API-së. I kufizuar më parë në ChatGPT, modeli tani po miratohet nga kompani duke përfshirë Adobe dhe Figma.

foto

Sipas OpenAI, modeli gjeneroi mbi 700 milionë imazhe për mbi 130 milionë përdorues gjatë javës së parë në ChatGPT. Me disponueshmëri më të gjerë përmes API-së, ky numër ka të ngjarë të rritet.

foto

Duke lënë mënjanë zhurmën e Ghibli, modeli i OpenAI është i njohur për gjurmimin e shpejtë të tij shumë të saktë, i cili është shumë më i saktë se modelet e tjera të disponueshme të imazhit. Në krahasim të drejtpërdrejtë, Midjourney-v7 i ri ka treguar performancë dukshëm më të dobët.

Përpunimi i imazhit me gpt-image-1 faturohet me argumente. Struktura e çmimeve të API bën dallimin midis shenjave të tekstit, shenjave të hyrjes së imazhit dhe shenjave të daljes së imazhit. Shenjat e tekstit kushtojnë 5 dollarë për milion, shenjat e hyrjes së imazhit 10 dollarë për milion dhe shenjat e daljes së imazhit me 40 dollarë për milion. Në varësi të cilësisë së imazhit të zgjedhur, kostot zakonisht variojnë nga 0,02 dollarë deri në 0,19 dollarë për imazh.

Për GPT-4.1 dhe GPT-4o, përdorimi i tokenit varet si nga madhësia e imazhit ashtu edhe nga niveli i zgjedhur i detajeve. Një tarifë fikse prej 85 argumentesh tarifohet për “detajet: të ulëta”. Për “detaje: lartë”, imazhi ndahet në pllaka 512 pikselësh, secila duke shtuar 170 shenja në normën bazë. Për shembull, një imazh 1024×1024 me detaje të larta kërkon 765 argumente (katër pllaka plus 85 argumente).

Modele të tjera, të tilla si GPT-4.1-mini, përdorin një llogaritje të bazuar në arna 32×32 pixel, me një maksimum prej 1536 shenjash imazhi. Imazhet më të mëdha, si p.sh. 1800×2400 pikselë, shkallëzohen përpara përpunimit për t’u përshtatur brenda kufirit të shenjës.

Imazhet mund të ofrohen nëpërmjet URL-ve të drejtpërdrejta ose si të dhëna të koduara në Base64. API pranon formate PNG, JPEG, WEBP dhe GIF jo të animuara deri në 20 MB. Me detaje të larta, imazhet shkallëzohen në një rezolucion maksimal prej 768×2000 pikselësh.

Modeli mund të interpretojë përmbajtjen vizuale siç janë objektet, ngjyrat, format dhe teksti i ngulitur. Megjithatë, ka kufizime me tekst të vogël, fontet jo latine, imazhe të rrotulluara ose diagrame komplekse, sipas OpenAI. Teknologjia nuk është e përshtatshme për imazhe mjekësore, CAPTCHA ose detyra që kërkojnë saktësi të lartë hapësinore. Interpretimet janë përgjithësisht të përafërta, për shembull kur numërohen objektet ose identifikohen pozicionet. Imazhet që përmbajnë filigranë, tekst ose përmbajtje NSFW nuk pranohen. Parametri “detal” kontrollon nivelin e analizës, me opsionet për “të ulët”, “të lartë” ose “auto”.

Përveç gjenerimit të imazheve nëpërmjet Images API, modeli mund të analizojë edhe imazhe. Chat Completions API dhe Responses API mund të përpunojnë imazhe si hyrje dhe të gjenerojnë dalje tekstuale. Është planifikuar mbështetje për gjenerimin e imazheve nëpërmjet API-së së përgjigjeve.