Studiuesi i AI, Andrej Karpathy, thotë se është “pesimist ndaj mësimit përforcues” për trajnimin e LLM-ve

foto

Andrej Karpathy, një ish-hulumtues i Tesla-s dhe OpenAI-së, është pjesë e një lëvizjeje në rritje në komunitetin e IA-së që bën thirrje për një qasje të re për ndërtimin e modeleve të mëdha gjuhësore (LLM) dhe sistemeve të IA-së.

foto

Në X, Karpathy ndau skepticizmin e tij afatgjatë në lidhje me të mësuarit përforcues (RL) si një bazë për trajnimin LLM. Ai argumenton se funksionet e shpërblimit RL janë “super të pabesueshme” – të pabesueshme, të lehta për t’u përdorur dhe jo shumë të përshtatshme për mësimdhënien e aftësive të “zgjidhjes intelektuale të problemeve”.

foto

Kjo bie në sy sepse modelet aktuale të “arsyetimit” varen shumë nga të mësuarit përforcues, dhe kompani si OpenAI e shohin këtë qasje si të shkallëzueshme dhe të adaptueshme ndaj detyrave të reja. Modelet e arsyetimit kanë nxitur pjesën më të madhe të entuziazmit dhe progresit të kohëve të fundit në lidhje me IA-në, ndërsa LLM-të e trajnuara thjesht paraprakisht duket se kanë arritur një pikë kulmore.

Mësimi përforcues përdoret shpesh për të ndihmuar LLM-të të ndajnë detyrat në hapa logjikë dhe ta bëjnë procesin e tyre të arsyetimit më transparent. Mësimi përforcues funksionon më mirë kur ka një përgjigje të qartë të saktë ose të gabuar, pasi modeli merr reagime pozitive për zgjidhjen e problemeve në një mënyrë hap pas hapi.

Pavarësisht kritikave të tij, Karpathy ende e sheh rregullimin e imët të RL si një hap përpara nga rregullimi klasik i mbikëqyrur i imët (SFT) , i cili thjesht imiton përgjigjet njerëzore. Ai mendon se RL çon në sjellje më të nuancuara të modelit dhe beson se rregullimi i imët i RL do të “vazhdojë të rritet ndjeshëm”.

Megjithatë, Karpathy thotë se përparimet e vërteta do të kërkojnë mekanizma të të nxënit thelbësisht të ndryshëm. Njerëzit, thekson ai, përdorin mënyra shumë më të fuqishme dhe efikase për të mësuar – metoda që “nuk janë shpikur dhe shkallëzuar siç duhet ende”. Kjo e vendos atë në përputhje me një grup në rritje skeptikësh të LLM-së që argumentojnë se kërcimi i ardhshëm në IA do të vijë vetëm nga qasje të reja.

Një drejtim që ai përmend është “të mësuarit e menjëhershëm nga sistemi”, ku të mësuarit ndodh në nivelin e shenjave dhe kontekstit, jo duke ndryshuar peshat e modelit. Karpathy e krahason këtë me atë që ndodh gjatë gjumit të njeriut, kur truri konsolidon dhe ruan informacionin.

Karpathy gjithashtu sheh premtime në trajnimin e LLM-ve përmes mjediseve interaktive – hapësira dixhitale ku modelet mund të veprojnë dhe të shohin pasojat. Fazat e mëparshme të trajnimit mbështeteshin në tekstin e internetit për trajnim paraprak dhe të dhënat e pyetjeve dhe përgjigjeve për rregullime të hollësishme, por trajnimi në mjedise u jep modeleve reagime të vërteta bazuar në atë që bëjnë në të vërtetë.

Me këtë qasje, LLM-të mund të shkojnë përtej thjesht hamendësimit se si mund të reagojë një person dhe të fillojnë të mësojnë të marrin vendime, duke testuar se sa mirë funksionojnë këto zgjedhje në skenarë të kontrolluar. Karpathy thotë se këto mjedise mund të përdoren si për trajnim ashtu edhe për vlerësim. Sfida kryesore tani është ndërtimi i një grupi të madh, të larmishëm dhe me cilësi të lartë mjedisesh, shumë të ngjashme me grupet e të dhënave tekstuale të përdorura në fazat e mëparshme të trajnimit.