OpenAI pretendon një përparim në aftësinë e modeleve gjuhësore për të arsyetuar mbi probleme të ndërlikuara matematikore

Studiuesi i OpenAI, Jerry Tworek, konfirmoi në X se modeli më poshtë mori “shumë pak punë specifike sipas IMO-s” – thjesht vazhdoi trajnimin e modeleve bazë për qëllime të përgjithshme. Të gjitha zgjidhjet mbështeteshin në prova të gjuhës natyrore pa ndonjë kornizë të veçantë vlerësimi.

Twerek e quajti arritjen një përparim të vërtetë kërkimor të arritur nga ekipi i Alexander Wei-t. Ai më vonë shtoi se një publikim i modelit është i mundur deri në fund të vitit.

Tworeku vuri në dukje gjithashtu se të gjitha njoftimet kryesore të OpenAI këtë javë – sistemi i përgjithshëm i agjentëve të IA-së, një humbje e afërt me një njeri në një garë programimi heuristik dhe zgjidhja e 5 nga 6 problemeve sipas IMO-s – erdhën nga i njëjti sistem i të mësuarit përforcues. Sipas Twore, agjenti ChatGPT funksionon në një version më të hershëm të ndërtuar mbi një model bazë më të vjetër.
Ka thashetheme se DeepMind ka fituar gjithashtu një medalje ari në konkursin IMO, megjithëse kompania nuk ka bërë ndonjë njoftim zyrtar. Vitin e kaluar, sistemet AlphaProof dhe AlphaGeometry të DeepMind morën medaljen e argjendtë duke zgjidhur katër nga gjashtë probleme.
Ndërsa OpenAI pretendon se përdor një model standard gjuhe, mbetet e paqartë se çfarë qasje përdori secili ekip këtë vit. Në vitin 2024, sistemet e DeepMind që fituan medaljen e argjendtë mbështeteshin në një metodë hibride që kombinonte një LLM të para-trajnuar me elementë nga algoritmet klasike të kërkimit.
OpenAI thotë se modeli i saj eksperimental i gjuhës ka zgjidhur problemet e Olimpiadës Ndërkombëtare të Matematikës (IMO) në nivelin e një medaljeje ari – një përparim i mundshëm për IA-në me aftësi të përgjithshme arsyetimi. Rezultatet nuk janë konfirmuar ende në mënyrë të pavarur.
Sipas studiuesve të OpenAI, Alexander Wei dhe Noam Brown, modeli u përball me konkursin IMO 2025, duke zgjidhur pesë nga gjashtë problemet zyrtare dhe duke fituar 35 nga 42 pikë të mundshme.