Nvidia përmirëson modelin Llama të Metës me një qasje të re trajnimi

foto

Nvidia ka prezantuar një model të ri të madh gjuhësor që i kalon të tjerët në standardet e shtrirjes. Kompania e arriti këtë përmes një procedure të veçantë trajnimi që kombinon modelet e vlerësimit dhe preferencës.

foto

Modeli i ri, i quajtur Llama-3.1-Nemotron-70B-Instruct, bazohet në modelin Llama 3.1 me burim të hapur të Metës. Nvidia e optimizoi atë për të ofruar përgjigje të dobishme për pyetjet e përdoruesve duke kombinuar metoda të ndryshme trajnimi.

foto

Megjithatë, rezultatet tregojnë vetëm se përgjigjet përputhen më mirë me preferencat njerëzore, jo se përmbajtja është domosdoshmërisht më e saktë. Në fakt, varianti Nemotron performon pak më keq se modeli bazë në standardin MMLU Pro, i cili teston njohuritë faktike.

Nvidia krijoi dy grupe të reja të dhënash për trajnim: HelpSteer2 dhe HelpSteer2-Preference. HelpSteer2 përmban mbi 20,000 çifte me përgjigje të shpejtë. Annotues të shumtë e vlerësuan secilën përgjigje në një shkallë 1-5 për kritere si ndihma, korrektësia dhe koherenca. HelpSteer2-Preference shton krahasime midis dy përgjigjeve në të njëjtën kërkesë. Annotuesit treguan se cilën përgjigje preferonin dhe sa e fortë ishte preferenca e tyre.

Nvidia përdori këto grupe të dhënash për të trajnuar dy lloje modelesh shpërblimi: modelet e regresionit dhe modelet Bradley-Terry. Modelet e regresionit si SteerLM mësojnë të caktojnë vlera për kritere të ndryshme për përgjigjet individuale. Modelet Bradley-Terry mësojnë nga krahasimet e preferencave për të maksimizuar diferencën e shpërblimit midis dy përgjigjeve.

Studiuesit zbuluan se kombinimi i të dyja qasjeve dha rezultatet më të mira. Ata së pari trajnuan një model regresioni SteerLM duke përdorur vetëm vlerësimet e ndihmës. Ky model më pas shërbeu si pikënisje për një model të shkallëzuar Bradley-Terry, i cili konsideronte gjithashtu forcën e preferencave midis përgjigjeve.

Për të përshtatur mirë modelin e gjuhës me shpërblimet e mësuara, Nvidia përdori algoritmin REINFORCE. Ndryshe nga PPO e përdorur zakonisht, REINFORCE vlerëson vlerën e një veprimi më të qëndrueshëm dhe pa paragjykime, sipas ekipit.

Modeli përfundimtar Llama-3.1-Nemotron-70B-Instruct arriti vendin e parë në disa standarde: Arena Hard, AlpacaEval 2 LC dhe GPT-4 -Turbo MT-Bench. Ai i tejkaloi modelet më të mira si GPT-4 dhe Claude 3.5 Sonnet. Në Arena Hard, ai shënoi 85.0, shumë përpara modelit fillestar Llama-3.1-70B-Instruct me 55.7.

Modeli i ri prodhon gjithashtu përgjigje më të gjata, mesatarisht 2200 karaktere krahasuar me rreth 1800 për modelet e tjera.