Modelet kufitare dështojnë në 'provimin e fundit të njerëzimit', por ekspertët pyesin nëse ka rëndësi

Një ekip ndërkombëtar kërkimor ka zhvilluar një standard të ri që zbulon kufizimet aktuale të LLM-ve. Edhe modelet më të avancuara dështojnë në 90 për qind të detyrave – tani për tani.

Testi, i quajtur “Provimi i fundit i njerëzimit” (HLE), përfshin 3,000 pyetje në më shumë se 100 fusha të specializuara, me 42 përqind të fokusuar në matematikë. Gati 1000 ekspertë nga 500 institucione në 50 vende kontribuan në zhvillimin e tij.

Studiuesit filluan me 70,000 pyetje dhe ia paraqitën ato modeleve kryesore të AI. Nga këto, 13,000 pyetje rezultuan shumë të vështira për sistemet e AI. Këto pyetje më pas u rafinuan dhe u rishikuan nga ekspertë njerëzorë, të cilët paguheshin midis 500 dhe 5000 dollarë për kontribute me cilësi të lartë. 3000 pyetje hynë në grupin e të dhënave.

Rezultatet nuk janë lajkatare. Edhe modelet më të sofistikuara të inteligjencës artificiale luftojnë në këtë pikë referimi. GPT-4o zgjidh saktë vetëm 3.3 përqind të detyrave, ndërsa o1 i OpenAI arrin 9.1 përqind dhe Gemini 6.2 përqind. Vështirësia e testit është pjesërisht nga dizajni, pasi vetëm pyetjet që fillimisht penguan këto modele të AI u përfshinë në versionin përfundimtar.

Një nga gjetjet më shqetësuese është se sa keq sistemet e AI vlerësojnë aftësitë e tyre. Modelet tregojnë besim ekstrem të tepruar, me gabime kalibrimi që kalojnë 80 përqind – që do të thotë se zakonisht janë shumë të sigurt për përgjigjet e tyre të gabuara. Kjo shkëputje midis besimit dhe saktësisë e bën veçanërisht sfiduese punën me sistemet gjeneruese të AI.

Projekti doli nga një bashkëpunim midis Qendrës për Sigurinë e AI dhe Scale AI. Dan Hendrycks, i cili drejton Qendrën për Sigurinë e AI dhe këshillon startup-in xAI të Elon Musk, kryesoi nismën.

Jo të gjithë e mbështesin këtë qasje akademike për vlerësimin e AI. Subbarao Kambhampati, ish-president i Shoqatës për Avancimin e Inteligjencës Artificiale, argumenton se thelbi i njerëzimit nuk kapet nga një provë statike, por më tepër nga aftësia jonë për të evoluar dhe për të trajtuar pyetje të paimagjinueshme më parë. Eksperti i AI Niels Rogge ndan këtë skepticizëm, duke sugjeruar se memorizimi i fakteve të paqarta nuk është aq i vlefshëm sa zhvillimi i aftësive praktike.

Ish-zhvilluesi i OpenAI Andrej Karpathy vëren se ndërsa standardet akademike janë të lehta për t’u krijuar dhe matur, testimi i aftësive vërtet të rëndësishme të AI – si zgjidhja e problemeve komplekse, të botës reale – rezulton shumë më sfiduese.

Ai i sheh këto rezultate të standardeve akademike si një version të ri të paradoksit të Moravec: sistemet e AI mund të shkëlqejnë në detyra komplekse të bazuara në rregulla si matematika, por shpesh luftojnë me probleme të thjeshta që njerëzit i zgjidhin pa mundim. Karpathy argumenton se testimi se sa mirë një sistem AI mund të funksionojë si praktikant do të ishte më i dobishëm për matjen e progresit të përgjithshëm të AI sesa aftësia e tij për t’iu përgjigjur pyetjeve akademike.

Tags: AI, Andrej Karpathy, Artificial Intelligence, elon musk, GPT-4o, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, LLM, OpenAI, Scale AI, Subbarao Kambhampati, xAI

Modelet kufitare dështojnë në ‘provimin e fundit të njerëzimit’, por ekspertët pyesin nëse ka rëndësi

Amazon lanson një çip të ri mbresëlënës të AI-së dhe prezanton një plan zhvillimi miqësor ndaj Nvidia-s

CEO i OpenAI, Sam Altman, shpall “kod të kuq” ndërsa konkurrenca ndaj ChatGPT rritet

Investimi i OpenAI në Thrive Holdings është marrëveshja e saj më e fundit rrethore

Nvidia njofton modele të reja të hapura të inteligjencës artificiale dhe mjete për kërkimin në drejtimin autonom

Instagram kërkon rikthim të plotë në zyrë për punonjësit në vitin 2026

SHBA po merr një pjesë në një startup çipash të drejtuar nga ish-CEO i shkarkuar i Intel-it

Amazon teston shërbimin e ri të dorëzimit “Amazon Now” brenda 30 minutash në Seattle dhe Philadelphia

Shefi i AI i Apple jep dorëheqjen pas pengesave me Siri