Metoda e re e OpenAI tregon se si GPT-4 mendon në koncepte të kuptueshme për njeriun
OpenAI ka krijuar një mënyrë të re për të zbërthyer funksionimin e brendshëm të GPT-4 në 16 milionë modele në tipare shpesh të kuptueshme nga njeriu. Rezultatet mund t’i ndihmojnë njerëzit të kuptojnë më mirë sigurinë dhe qëndrueshmërinë e modeleve të AI.
Edhe me shumë përparim në kërkim dhe zhvillim, modelet e mëdha të AI janë ende “kuti të zeza” – ato funksionojnë, por ne ende nuk e dimë saktësisht se si.
OpenAI tani demonstron një metodë për gjetjen e “veçorive” në modelet e mëdha të AI – modele të aktivitetit në rrjetet nervore që njerëzit mund t’i kuptojnë në mënyrë ideale.
Kompania përdor “autoencoders të rrallë” për këtë. Një kodues automatik është një rrjet nervor që mëson të rindërtojë hyrjen e tij sa më saktë që të jetë e mundur, dhe OpenAI përdori aktivizimet e brendshme të rrjetave nervore të GPT-4 si hyrje për koduesin automatik.
Më pas, autoenkoderi duhet të mësojë të zbërthejë modelet komplekse të aktivizimit në veçori më kompakte dhe të interpretueshme. Një paraqitje “e rrallë”, në të cilën shumica e veçorive janë joaktive dhe vetëm disa janë aktive, përdoret për të thjeshtuar interpretimin. Për ta arritur këtë, koduesi automatik duhet të filtrojë vetëm veçoritë më të rëndësishme.
Çdo veçori që mëson koduesi automatik përputhet në mënyrë ideale me një koncept që GPT-4 përdor brenda dhe që njerëzit mund ta kuptojnë, si rregulla të caktuara gramatikore, fakte botërore ose arsyetim logjik. Duke parë veçoritë e mësuara, atëherë mund të kuptojmë se si “mendon” GPT-4, thotë teoria.
Sfida e madhe është se GPT-4 ka të ngjarë të përdorë miliona apo edhe miliarda nga këto koncepte. Autoenkoderët e vjetër ishin shumë të vegjël për të trajtuar këtë numër të madh funksionesh.
OpenAI ka gjetur tani një mënyrë për t’i bërë këta kodues automatikë të trajtojnë miliona veçori dhe ka trajnuar një kodues automatik prej 16 milionë veçorish për GPT-4 për ta testuar atë.
Kompania gjeti veçori specifike në GPT-4, të tilla si për të metat njerëzore, rritjet e çmimeve, regjistrat e trajnimit ML ose unazat algjebrike. Megjithatë, shumë nga këto veçori ishin të vështira për t’u kuptuar ose shfaqnin aktivitet që nuk kishte lidhje me konceptin që ata përfaqësonin.