Njerëzit po përdorin Super Mario për të testuar performancën e AI tani

Mendonit se Pokémon ishte një pikë referimi e vështirë për AI? Një grup studiuesish argumenton se Super Mario Bros është edhe më i ashpër.

Hao AI Lab, një organizatë kërkimore në Universitetin e Kalifornisë në San Diego, të premten hodhi AI në lojërat live të Super Mario Bros. Claude 3.7 i Anthropic performoi më së miri, i ndjekur nga Claude 3.5. Gemini 1.5 Pro i Google dhe GPT-4o i OpenAI- t luftuan.

Për të qenë të qartë, nuk ishte i njëjti version i Super Mario Bros si ai origjinal i vitit 1985. Loja u zhvillua në një emulator dhe u integrua me një kornizë, GamingAgent, për t’i dhënë kontrollin e AI-ve mbi Mario.
GamingAgent, të cilin Hao e zhvilloi në shtëpi, ushqeu udhëzimet bazë të AI, si: “Nëse një pengesë ose armik është afër, lëvizni/kërceni majtas për të shmangur” dhe pamjet e ekranit brenda lojës. AI më pas gjeneroi hyrje në formën e kodit Python për të kontrolluar Marion.
Megjithatë, Hao thotë se loja e detyroi çdo model të “mësonte” të planifikonte manovra komplekse dhe të zhvillonte strategji lojërash. Interesante, laboratori zbuloi se modelet e arsyetimit si o1 e OpenAI , të cilat “mendojnë” përmes problemeve hap pas hapi për të arritur në zgjidhje, performuan më keq se modelet “pa arsyetim”, pavarësisht se në përgjithësi ishin më të fortë në shumicën e standardeve.
Një nga arsyet kryesore pse modelet e arsyetimit kanë probleme për të luajtur lojëra në kohë reale si kjo është se atyre u duhet pak kohë – zakonisht sekonda – për të vendosur mbi veprimet, sipas studiuesve. Në Super Mario Bros., koha është gjithçka. Një sekondë mund të nënkuptojë ndryshimin midis një kërcimi të pastruar në mënyrë të sigurt dhe një rënie deri në vdekjen tuaj.
Lojërat janë përdorur për të krahasuar AI për dekada. Por disa ekspertë kanë vënë në pikëpyetje mençurinë e krijimit të lidhjeve midis aftësive të lojërave të AI dhe avancimit teknologjik. Ndryshe nga bota reale, lojërat priren të jenë abstrakte dhe relativisht të thjeshta, dhe ato ofrojnë një sasi teorikisht të pafundme të dhënash për të trajnuar AI.
Standardet e fundit të lojrave tregojnë atë që Andrej Karpathy, një shkencëtar hulumtues dhe anëtar themelues në OpenAI, e quajti një “krizë vlerësimi”.
“Unë nuk e di vërtet se cilat metrika [AI] duhet të shikoj tani,” shkroi ai në një postim në X. “Reagimi im në TLDR është se nuk e di vërtet se sa të mira janë këto modele tani.”
Të paktën ne mund të shikojmë AI duke luajtur Mario.