OpenAI lançon GPT-5.4 me versionet Pro dhe Thinking

Të enjten, OpenAI publikoi GPT-5.4, një model të ri themelor të cilësuar si “modeli ynë më i aftë dhe efikas në kufijtë e punës profesionale”. Përveç versionit standard, GPT-5.4 është gjithashtu i disponueshëm si një model arsyetimi (GPT-5.4 Thinking) ose i optimizuar për performancë të lartë (GPT-5.4 Pro).

Versioni API i modelit do të jetë i disponueshëm me dritare konteksti deri në 1 milion token, deri më tani dritarja kontekstuale më e madhe e disponueshme nga OpenAI.

OpenAI theksoi gjithashtu efikasitetin e përmirësuar të tokenëve, duke thënë se GPT-5.4 ishte në gjendje të zgjidhte të njëjtat probleme me dukshëm më pak tokena sesa paraardhësi i tij.

Modeli i ri vjen me rezultate të përmirësuara ndjeshëm në testet e referencës, duke përfshirë rezultate rekord në testet e përdorimit të kompjuterit OSWorld-Verified dhe WebArena Verified. Modeli i ri gjithashtu shënoi një rezultat rekord prej 83% në testin GDPval të OpenAI për detyrat e punës me njohuri.

GPT-5.4 gjithashtu mori kryesimin në testin APEX-Agents të Mercor, i projektuar për të testuar aftësitë profesionale në drejtësi dhe financë, sipas një deklarate nga CEO i Mercor, Brendan Foody.

“[GPT-5.4] shkëlqen në krijimin e rezultateve afatgjata, siç janë diapozitivat, modelet financiare dhe analizat ligjore”, tha Foody në deklaratë, “duke ofruar performancë të lartë ndërsa funksionon më shpejt dhe me një kosto më të ulët sesa modelet konkurruese të nivelit të lartë.”

GPT-5.4 vazhdon përpjekjet e kompanisë për të kufizuar halucinacionet dhe gabimet faktike. OpenAI tha se modeli i ri kishte 33% më pak gjasa të bënte gabime në pretendimet individuale në krahasim me GPT 5.2, dhe përgjigjet e përgjithshme kishin 18% më pak gjasa të përmbanin gabime.

Si pjesë e lançimit, OpenAI ka ripërpunuar mënyrën se si versioni API i GPT-5.4 menaxhon thirrjen e mjeteve, duke prezantuar një sistem të ri të quajtur Kërkimi i Mjeteve. Më parë, kërkesat e sistemit do të paraqisnin përkufizime për të gjitha mjetet e disponueshme gjatë thirrjes së modelit – një proces që mund të konsumonte shumë tokena ndërsa numri i mjeteve të disponueshme rritej. Sistemi i ri u lejon modeleve të kërkojnë përkufizimet e mjeteve sipas nevojës, duke rezultuar në kërkesa më të shpejta dhe më të lira në sisteme me shumë mjete të disponueshme.

OpenAI ka përfshirë gjithashtu një vlerësim të ri sigurie për të testuar zinxhirin e mendimit të modeleve të saj, komentin e vazhdueshëm të dhënë nga modelet për të treguar procesin e të menduarit përmes detyrave me shumë hapa. Studiuesit e sigurisë në inteligjencën artificiale janë shqetësuar prej kohësh se modelet e arsyetimit mund ta keqinterpretojnë zinxhirin e tyre të mendimit, dhe testimi tregon se kjo mund të ndodhë në rrethanat e duhura.

Vlerësimi i ri i OpenAI tregon se mashtrimi ka më pak të ngjarë të ndodhë në versionin Thinking të GPT-5.4, “duke sugjeruar që modelit i mungon aftësia për të fshehur arsyetimin e tij dhe se monitorimi i CoT mbetet një mjet efektiv sigurie”.

Tags: AI, API, Artificial Intelligence, Brendan Foody, GPT-5.4, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, Mercor, OpenAI, Sam Altman, TechCrunch, Technology

OpenAI lançon GPT-5.4 me versionet Pro dhe Thinking

Palantir publikon një mini-manifest duke denoncuar përfshirjen dhe kulturat regresive

Perplexity sjell asistentin e saj AI për kompjuter personal në Mac

DeepSeek po kërkon financim të jashtëm për herë të parë me një vlerësim prej 10 miliardë dollarësh

Palantir publikon një mini-manifest duke denoncuar përfshirjen dhe kulturat regresive

Apple lë të kuptohet për një Siri të ridizajnuar në logon e WWDC 2026

Deezer thotë se 44% e këngëve që ngarkohen çdo ditë në platformën e saj janë të gjeneruara nga AI

Rivali pa ekran i Whoop nga Google është Fitbit Air

NSA përdor Mythos të Anthropic, ndërsa Pentagoni e quan rrezik për zinxhirin e furnizimit

New Glenn i Blue Origin vendosi një satelit klienti në orbitën e gabuar gjatë lëshimit të tij të tretë

You may have missed

Palantir publikon një mini-manifest duke denoncuar përfshirjen dhe kulturat regresive

Apple lë të kuptohet për një Siri të ridizajnuar në logon e WWDC 2026

Deezer thotë se 44% e këngëve që ngarkohen çdo ditë në platformën e saj janë të gjeneruara nga AI

Rivali pa ekran i Whoop nga Google është Fitbit Air

NSA përdor Mythos të Anthropic, ndërsa Pentagoni e quan rrezik për zinxhirin e furnizimit

More Stories

You may have missed