Modeli i ri zanor i OpenAI sjell arsyetim në nivelin e GPT-5 në bisedat në kohë reale
OpenAI po sjell GPT-Realtime-2, GPT-Realtime-Translate dhe GPT-Realtime-Whisper një brez i ri modelesh zëri të ndërtuara për të arsyetuar, përkthyer dhe transkriptuar në kohë reale.
ChatGPT ka pasur një modalitet audio për njëfarë kohe, dhe Google ofron një funksion të ngjashëm bisede në kohë reale përmes Gemini. Por modelet pas këtyre ndërveprimeve zanore kanë qenë dukshëm më të dobëta se homologët e tyre vetëm me tekst, veçanërisht krahasuar me modelet e arsyetimit me tekst që kërkojnë kohë për të menduar për problemet.
Sipas OpenAI, kjo nuk mjafton më. Një agjent modern zanor duhet të kuptojë se çfarë do të thotë në të vërtetë dikush, të ndjekë kontekstin, të pranojë ndryshimet, të përdorë mjete dhe të përgjigjet në mënyrë të përshtatshme – të gjitha në të njëjtën kohë.
Kompania doli me tre modele të reja ndërveprimi që mund të kombinohen gjithashtu. Me “Voice-to-Veprim”, një përdorues përshkruan me zë të lartë se çfarë i nevojitet dhe sistemi arsyeton përmes kërkesës, thërret mjetet e duhura dhe e kryen punën.
Me “Sistemet-në-Zërin”, softueri e shndërron kontekstin në udhëzime me zë. Një aplikacion udhëtimi mund t’i tregojë një pasagjeri se fluturimi i tij lidhës është ende i arritshëm pavarësisht një vonese, t’i japë rrugën më të shpejtë për në portën e re dhe të konfirmojë transferimin e bagazheve të tij.
Me “Voice-to-Voice”, IA i ndihmon njerëzit të zhvillojnë biseda të drejtpërdrejta përtej barrierave gjuhësore. Deutsche Telekom tashmë po e teston këtë model për mbështetjen e klientëve.

OpenAI sugjeron se këto veçori do të vijnë së shpejti edhe në modalitetin audio të ChatGPT. Sipas kompanisë, “Zëri mund të bëhet vërtet ndërfaqja kryesore tani”.
Pjesa qendrore e publikimit është GPT-Realtime-2, për të cilin OpenAI thotë se e sjell arsyetimin në të njëjtin nivel me GPT-5. Modeli është ndërtuar për ndërveprime me zë të drejtpërdrejtë ku duhet të zhvillojë një bisedë, të mendojë për kërkesat, të përdorë mjetet e thirrjeve dhe të trajtojë ndërprerjet, të gjitha në të njëjtën kohë.
Nga ana teknike, dritarja e kontekstit rritet nga 32,000 në 128,000 tokena, të cilët duhet të mbështesin biseda më të gjata dhe më komplekse. Modeli mund të thërrasë mjete të shumta paralelisht dhe t’i bëjë këto veprime të dëgjueshme me fraza si “më lejoni ta kontrolloj këtë”. Fjali të shkurtra hyrëse të quajtura preambula – gjëra si “një moment” – i bëjnë të ditur përdoruesit se sistemi po funksionon. Kur diçka shkon keq, modeli nuk hesht më. Në vend të kësaj, ai thotë gjëra të tilla si “Po kam probleme me këtë tani”.
OpenAI thotë se modeli është më i mirë në trajtimin e terminologjisë së specializuar, emrave të përveçëm dhe termave mjekësorë sesa paraardhësi i tij. Toni i zërit është gjithashtu më i kontrollueshëm – i qetë gjatë zgjidhjes së problemeve, empatik me përdoruesit e frustruar dhe optimist pas veprimeve të suksesshme.
Zhvilluesit mund ta përcaktojnë intensitetin e arsyetimit në pesë nivele: minimal, i ulët, mesatar, i lartë dhe xhigh. Vlera parazgjedhur është “e ulët” për të mbajtur të ulët vonesën për kërkesa të thjeshta, ndërsa detyrat më të vështira mund të kërkojnë më shumë llogaritje.
Në testet krahasuese, GPT-Realtime-2 ia kalon paraardhësit të tij, GPT-Realtime-1.5 . Në cilësimin “high”, ai arrin një saktësi prej 96.6 përqind në Big Bench Audio , nga 81.4 përqind që ishte. Në Audio MultiChallenge , i cili teston ndjekjen e udhëzimeve në dialogë me shumë kthesa, varianti “xhigh” arrin një shkallë kalueshmërie mesatare prej 48.5 përqind krahasuar me 34.7 përqind.

GPT-Realtime-Translate është një model përkthimi i drejtpërdrejtë i pavarur që trajton më shumë se 70 gjuhë hyrëse dhe 13 gjuhë dalëse, sipas OpenAI. Ai ruan kuptimin duke qëndruar në hap me folësin, edhe kur merret me ndërrime konteksti, thekse rajonale dhe fjalor të specializuar. Rastet e përdorimit përfshijnë mbështetjen e klientëve, shitjet ndërkufitare, arsimin, ngjarjet dhe median.
Modeli i tretë, GPT-Realtime-Whisper, është një model transkriptimi transmetimi me vonesë të ulët. Ai transkripton fjalimin ndërsa ndodh, duke synuar titra të drejtpërdrejta për takime, klasa, transmetime dhe ngjarje. Ekipet mund ta përdorin atë për të gjeneruar shënime dhe përmbledhje ndërsa bisedat janë ende duke u zhvilluar, për të ndërtuar agjentë zanorë me kuptim të vazhdueshëm të fjalimit dhe për të nxitur rrjedha pune më të shpejta ndjekëse për mbështetjen e klientëve, kujdesin shëndetësor, shitjet dhe rekrutimin.
Të tre modelet janë të disponueshme tani përmes Realtime API dhe mund të testohen në Playground. GPT-Realtime-2 kushton 32 dollarë për milion tokena hyrëse audio (0.40 dollarë për tokena hyrëse të ruajtura në memorien e përkohshme) dhe 64 dollarë për milion tokena dalëse audio. GPT-Realtime-Translate kushton 0.034 dollarë për minutë, dhe GPT-Realtime-Whisper kushton 0.017 dollarë për minutë.
API-ja Realtime mbështet ruajtjen e të dhënave në BE për aplikacionet me bazë në BE dhe mbulohet nga angazhimet e OpenAI për privatësinë e ndërmarrjeve.
