LLM-të aktuale të nëntrajnuar nga një faktor ndoshta 100-1000X ose më shumë, thotë bashkëthemeluesi i OpenAI

foto

Me Llama 3, Meta ka prezantuar një model të ri gjuhësor që tejkalon ndjeshëm aftësitë e modeleve të tjera në disa fusha. Sipas Metës, çelësi për këtë rritje të performancës është rritja e ndjeshme e të dhënave të trajnimit dhe rregullimi i imët me 10 milionë shembuj të cilësisë së lartë.

foto

Ndërsa ishte tashmë e qartë se të dhënat me cilësi të lartë mund të përmirësojnë performancën e modeleve gjuhësore edhe më të vogla – të cilat Microsoft së fundmi e konfirmoi përsëri me modelet e tij Phi-3 – sasia e të dhënave të përdorura për para-trajnim është befasuese. Edhe modeli me parametra 8 miliardë u trajnua me rreth 15 trilionë argumente. Veçanërisht, ky trajnim jo vetëm që tejkalon shumë sasinë e të dhënave të përdorura për Llama 2, por edhe sasinë e të dhënave të konsideruara optimale sipas ligjeve të shkallëzimit të Chinchilla.

foto

Këto ligje, të zhvilluara nga DeepMind, thonë se për një model 8 miliardë, rreth 200 miliardë tokena trajnimi konsiderohen optimale për të përdorur fuqinë kompjuterike në mënyrë më efikase. Llama 3 u trajnua me 75 herë më shumë të dhëna.

Studiuesi i AI Andrej Karpathy shpjegon në X (ish-Twitter) se ligji Chinchilla “ju tregon pikën e optimalitetit të llogaritjes”, por nuk thotë asgjë se sa larg mund të trajnohet një model derisa të arrijë performancën e tij maksimale. Karpathy është një anëtar themelues i OpenAI dhe ishte më parë kreu i AI në Tesla.

Pavarësisht sasisë së madhe të të dhënave të trajnimit, Meta zbuloi se “modelet e parametrave 8B dhe 70B vazhduan të përmirësoheshin në mënyrë log-lineare pasi ne i trajnuam ato deri në 15T token”, sipas një postimi në blog nga kompania.

Karpathy thotë se kjo mund të sugjerojë se shumica e modeleve gjuhësore në përdorim aktualisht “janë të nëntrajnuara në mënyrë të konsiderueshme nga një faktor ndoshta 100-1000X ose më shumë, askund afër pikës së tyre të konvergjencës”. Ai shpreson se kompanitë e tjera të AI do të ndjekin shembullin e Metës dhe do të lëshojnë modele më të trajnuara gjatë dhe më të vogla.

Është ende e paqartë se sa mund të rritet performanca e një modeli gjuhësor përmes trajnimeve më të gjata dhe më të gjata përpara se përfitimet të bëhen shumë të vogla. Megjithatë, Meta ka treguar se ende nuk janë arritur kufijtë e asaj që është e mundur.