Arkitektura e re PEER e Google Deepmind përdor një milion ekspertë të vegjël për të rritur efikasitetin e AI

foto

Studiuesit e Google Deepmind kanë prezantuar një arkitekturë të re të AI të quajtur PEER që përdor më shumë se një milion “ekspertë” të vegjël. Kjo mund të përmirësojë ndjeshëm efikasitetin dhe shkallëzueshmërinë e modeleve gjuhësore.

foto

Shkencëtarët nga Google Deepmind kanë zhvilluar një metodë të re për ndërtimin e modeleve të AI që ata e quajnë “Parameter Efficient Expert Retrieval” (PEER). Kjo teknikë përdor më shumë se një milion “ekspertë” të vegjël – rrjete të vogla nervore me vetëm një neuron – në vend të shtresave të mëdha përpara të përdorura në modelet konvencionale të transformatorëve.

foto

Studiuesit shpjegojnë se PEER bazohet në parimin e ” Përzierjes së Ekspertëve ” (MM). MM është një teknikë ku një sistem AI përbëhet nga shumë nën-rrjete të specializuara që aktivizohen në varësi të detyrës – dhe arkitekturës që ka shumë të ngjarë të fuqizon modelet aktuale të gjuhëve të mëdha si GPT-4, Gemini ose Claude. Megjithatë, PEER shkon një hap më tej duke përdorur një numër jashtëzakonisht të madh ekspertësh shumë të vegjël.

Për të aksesuar në mënyrë efikase këtë numër të madh ekspertësh, PEER përdor një teknikë të quajtur “Product Key Memory”. Kjo ju lejon të zgjidhni shpejt ekspertët më të rëndësishëm nga miliona pa pasur nevojë t’i kontrolloni të gjithë individualisht.

Në eksperimentet e modelimit të gjuhës, PEER i tejkaloi të dyja modelet e transformatorëve konvencionalë dhe qasjet e mëparshme të MM-së në efikasitet. Me të njëjtën fuqi llogaritëse, PEER performoi më mirë në standarde të ndryshme.

Studiuesit shpjegojnë suksesin e PEER me të ashtuquajturat ligje të shkallëzimit. Këto përshkruajnë matematikisht se si rritet performanca e modeleve të AI me madhësinë e tyre dhe sasinë e të dhënave të trajnimit. Shkencëtarët argumentojnë se një numër shumë i madh i ekspertëve të vegjël bën të mundur rritjen e kapacitetit të përgjithshëm të modelit pa u rritur ndjeshëm kostoja llogaritëse.

Studiuesit shohin një avantazh tjetër të PEER në mundësinë e “të mësuarit gjatë gjithë jetës”. Meqenëse ekspertët e rinj mund të shtohen lehtësisht, një model PEER teorikisht mund të thithë vazhdimisht informacione të reja pa harruar atë që ka mësuar tashmë.

Në përgjithësi, studiuesit e shohin PEER si një qasje premtuese për t’i bërë modelet e AI më efikase dhe të shkallëzueshme. Megjithatë, ata theksojnë se nevojiten kërkime të mëtejshme për të shfrytëzuar plotësisht potencialin e kësaj teknologjie.