OpenAI prezanton ChatGPT Images 2.0

foto

OpenAI ka prezantuar ChatGPT Images 2.0, një model të përmirësuar të gjenerimit të imazheve, i projektuar për të ofruar rezultate më të sakta dhe të gatshme për prodhim, bazuar në udhëzime të hollësishme për përdoruesit.

Sipas OpenAI, modeli përmirëson aftësinë për të strukturuar vendosjen e objekteve dhe marrëdhëniet brenda imazheve, ndërkohë që ofron performancë më të fortë në detyra komplekse siç janë paraqitja e tekstit të vogël, ikonave, elementëve të ndërfaqes së përdoruesit, paraqitjeve të dendura dhe kufizimeve të stilit. Ai gjithashtu mbështet një gamë të gjerë raportesh aspektesh, nga 3:1 në 1:3, dhe mund të riprodhojë me saktësi stile që përfshijnë fotografinë, komikët dhe filmin.

Vlerësimet nga media ndërkombëtare janë përqendruar në aftësinë e të menduarit të modelit — një qasje e bazuar në arsyetim që planifikon se si të ndërtojë një imazh përpara se ta gjenerojë atë, në vend që të prodhojë rezultate menjëherë nga kërkesat. OpenAI e përshkroi atë si modelin e saj të parë të imazhit ChatGPT të ndërtuar mbi një kornizë të bazuar në të menduar.

Në ChatGPT, përdoruesit mund të zgjedhin modalitetet e të menduarit ose ato profesionale për të aktivizuar këtë funksionalitet, i cili përfshin kërkimin në internet, gjenerimin e shumë imazheve nga një kërkesë e vetme dhe validimin pas gjenerimit për të prodhuar rezultate më të rafinuara.

TechCrunch tha se aftësia e të menduarit mundëson krijimin e aseteve të marketingut dhe komikëve me shumë panele, duke theksuar karakteristika të tilla si integrimi i kërkimit në internet, gjenerimi i shumë imazheve dhe vetëverifikimi. VentureBeat në mënyrë të ngjashme vuri në dukje se modeli mund të gjenerojë harta, infografikë, diapozitiva dhe komikë me saktësi pothuajse të plotë, duke theksuar përdorimin e kërkimit në internet në kohë reale për të përmirësuar besnikërinë vizuale.

OpenAI tha se modeli mund të gjenerojë rezultate të përdorshme menjëherë për qëllime biznesi, duke përfshirë prezantime, materiale marketingu, përmbajtje edukative, infografikë dhe asete të mediave sociale. Tom’s Guide e përshkroi atë si versionin e parë të aftë për të prodhuar diapozitiva prezantimi, grafika sociale, banderola, postera dhe makete produktesh direkt brenda ChatGPT, duke shtuar se arrin një nivel të përdorshëm nga dizajnerët profesionistë.

foto
foto

Produkti shënon një ndryshim nga mjetet e mëparshme të imazhit të IA-së, të cilat shpesh përdoreshin për imazhe sureale ose artistike, drejt aplikacioneve praktike të dizajnit. Mjetet e mëparshme kanë hasur probleme të tilla si teksti i shtrembëruar, renderimi me cilësi të ulët dhe vështirësia në ndjekjen e udhëzimeve të paraqitjes.

Performanca e përmirësuar shumëgjuhëshe është një komponent kyç i ChatGPT Images 2.0. OpenAI tha se ka përmirësuar cilësinë e paraqitjes së tekstit në të gjitha gjuhët, duke përfshirë koreanishten, japonishten, kinezishten, hindishten dhe bengalishten. Modeli mund të gjenerojë deri në 10 imazhe njëherësh, duke mundësuar integrim më natyral të tekstit të lexueshëm nëpër postera, diagrame dhe komikë.

Tom’s Guide tha se këto aftësi lejojnë që rrjedhat e punës të trajtuara më parë në mjete dizajni si Figma dhe Adobe Photoshop të përfundojnë brenda ChatGPT.

foto

TechRadar tha se aftësitë e OpenAI për gjenerimin e imazheve po i afrohen pikave të forta të Google në IA multimodale, duke sugjeruar që përmirësimet e vazhdueshme mund ta bëjnë më të vështirë për Google që të mbajë përdoruesit brenda ekosistemit të vet.

Sipas TechRadar, ndërsa Google Gemini ende kryeson duke integruar tekstin, imazhet dhe kontekstin në një ekosistem dixhital më të gjerë, ChatGPT Images 2.0 po e ngushton këtë boshllëk. Përmirësimi në performancën e arsyetimit të bazuar në tekst e pozicionon atë si një sfidues të fortë në detyrat e strukturuara multimodale.

Megjithatë, Digital Trends vuri në dukje se, ndërsa modeli po ngushton hendekun midis imazheve të gjeneruara nga inteligjenca artificiale dhe pamjeve të gatshme për prodhim, mospërputhjet mund të ndodhin ende në paraqitjet komplekse ose tekstin jo në anglisht.

Imazhet ChatGPT 2.0 janë të disponueshme brenda ChatGPT dhe Codex. Karakteristikat e përparuara të daljes në modalitetin e të menduarit u ofrohen përdoruesve Plus, Pro dhe Business. Modeli bazë, gpt-image-2, është gjithashtu i disponueshëm nëpërmjet API-t, me çmime që ndryshojnë në bazë të cilësisë dhe rezolucionit të daljes. Daljet me rezolucion të lartë mbi 2K aktualisht ofrohen në versionin beta.