OpenAI lançon GPT-5.4 me versionet Pro dhe Thinking
Të enjten, OpenAI publikoi GPT-5.4, një model të ri themelor të cilësuar si “modeli ynë më i aftë dhe efikas në kufijtë e punës profesionale”. Përveç versionit standard, GPT-5.4 është gjithashtu i disponueshëm si një model arsyetimi (GPT-5.4 Thinking) ose i optimizuar për performancë të lartë (GPT-5.4 Pro).

Versioni API i modelit do të jetë i disponueshëm me dritare konteksti deri në 1 milion token, deri më tani dritarja kontekstuale më e madhe e disponueshme nga OpenAI.

OpenAI theksoi gjithashtu efikasitetin e përmirësuar të tokenëve, duke thënë se GPT-5.4 ishte në gjendje të zgjidhte të njëjtat probleme me dukshëm më pak tokena sesa paraardhësi i tij.
Modeli i ri vjen me rezultate të përmirësuara ndjeshëm në testet e referencës, duke përfshirë rezultate rekord në testet e përdorimit të kompjuterit OSWorld-Verified dhe WebArena Verified. Modeli i ri gjithashtu shënoi një rezultat rekord prej 83% në testin GDPval të OpenAI për detyrat e punës me njohuri.
GPT-5.4 gjithashtu mori kryesimin në testin APEX-Agents të Mercor, i projektuar për të testuar aftësitë profesionale në drejtësi dhe financë, sipas një deklarate nga CEO i Mercor, Brendan Foody.
“[GPT-5.4] shkëlqen në krijimin e rezultateve afatgjata, siç janë diapozitivat, modelet financiare dhe analizat ligjore”, tha Foody në deklaratë, “duke ofruar performancë të lartë ndërsa funksionon më shpejt dhe me një kosto më të ulët sesa modelet konkurruese të nivelit të lartë.”
GPT-5.4 vazhdon përpjekjet e kompanisë për të kufizuar halucinacionet dhe gabimet faktike. OpenAI tha se modeli i ri kishte 33% më pak gjasa të bënte gabime në pretendimet individuale në krahasim me GPT 5.2, dhe përgjigjet e përgjithshme kishin 18% më pak gjasa të përmbanin gabime.
Si pjesë e lançimit, OpenAI ka ripërpunuar mënyrën se si versioni API i GPT-5.4 menaxhon thirrjen e mjeteve, duke prezantuar një sistem të ri të quajtur Kërkimi i Mjeteve. Më parë, kërkesat e sistemit do të paraqisnin përkufizime për të gjitha mjetet e disponueshme gjatë thirrjes së modelit – një proces që mund të konsumonte shumë tokena ndërsa numri i mjeteve të disponueshme rritej. Sistemi i ri u lejon modeleve të kërkojnë përkufizimet e mjeteve sipas nevojës, duke rezultuar në kërkesa më të shpejta dhe më të lira në sisteme me shumë mjete të disponueshme.
OpenAI ka përfshirë gjithashtu një vlerësim të ri sigurie për të testuar zinxhirin e mendimit të modeleve të saj, komentin e vazhdueshëm të dhënë nga modelet për të treguar procesin e të menduarit përmes detyrave me shumë hapa. Studiuesit e sigurisë në inteligjencën artificiale janë shqetësuar prej kohësh se modelet e arsyetimit mund ta keqinterpretojnë zinxhirin e tyre të mendimit, dhe testimi tregon se kjo mund të ndodhë në rrethanat e duhura.
Vlerësimi i ri i OpenAI tregon se mashtrimi ka më pak të ngjarë të ndodhë në versionin Thinking të GPT-5.4, “duke sugjeruar që modelit i mungon aftësia për të fshehur arsyetimin e tij dhe se monitorimi i CoT mbetet një mjet efektiv sigurie”.
