Studiuesit e Microsoft krijojnë një AI super-efikase

BitNet b1.58 2B4T është një model i ri gjuhësor nga Microsoft i krijuar për të funksionuar me përdorim minimal të energjisë dhe kujtesës.

Ndryshe nga modelet e gjuhës konvencionale që mbështeten në numrat me pikë lundruese 16 ose 32-bit, BitNet përdor vetëm 1,58 bit për peshë. Ky reduktim ul ndjeshëm kërkesat e memories, shkurton konsumin e energjisë dhe përmirëson kohën e përgjigjes—veçanërisht në pajisjet me burime të kufizuara llogaritëse. Modeli bazohet në punën e mëparshme nga ekipi BitNet.

Megjithëse BitNet bazohet në arkitekturën standarde të transformatorit, ai përfshin disa modifikime që synojnë një efikasitet më të madh. Për shembull, zhvilluesit zëvendësuan komponentët tradicionalë llogaritës me të ashtuquajturat shtresa BitLinear, të cilat mbështeten në paraqitjet e thjeshtuara numerike. Funksionet e aktivizimit u reduktuan gjithashtu në vlerat 8-bit. Pavarësisht këtyre reduktimeve, BitNet raportohet se performon në mënyrë të krahasueshme me modelet që janë dy deri në tre herë më të mëdha.
Modeli u trajnua me katër trilion fjalë të nxjerra nga përmbajtja publike në ueb, materiale edukative dhe probleme matematikore sintetike. Më pas, ai u akordua mirë me grupe të dhënash të specializuara për dialog dhe u optimizua për të prodhuar përgjigje që janë të dobishme dhe të sigurta.
Në testet e standardeve, BitNet tejkaloi modelet e tjera kompakte dhe performoi në mënyrë konkurruese me sisteme dukshëm më të mëdha dhe më pak efikase. Me një gjurmë memorie prej vetëm 0,4 gigabajt, modeli është i përshtatshëm për vendosje në laptopë ose në mjedise cloud. Krahasuar me modelet që janë thjeshtuar post hoc – të tilla si ato që përdorin kuantizimin INT4 – BitNet demonstron një ekuilibër më të fortë të performancës dhe efikasitetit.
Për të lehtësuar miratimin, Microsoft ka lëshuar mjete të dedikuara konkluzionesh për ekzekutimin e GPU dhe CPU, duke përfshirë një version të lehtë C++. Planet e ardhshme të zhvillimit përfshijnë zgjerimin e modelit për të mbështetur tekste më të gjata, gjuhë shtesë dhe inpute multimodale si imazhet. Microsoft po punon gjithashtu në një tjetër familje modelesh efikase nën serinë Phi.