Meta modeli i ri AI parashikon si reagon truri juaj ndaj imazheve, tingujve dhe të folurit
Një model i ri i inteligjencës artificiale nga Meta parashikon se si reagon truri i njeriut ndaj imazheve, tingujve dhe të folurit. Në teste, ai shpesh përputhej me përgjigjen tipike të trurit më mirë sesa skanimi i çdo personi të vetëm.
Hulumtimi i trurit kërkon regjistrime të reja për çdo eksperiment të ri, duke i bërë studimet e neuroshkencës të ngadalta dhe të kushtueshme. Studiuesit e inteligjencës artificiale në laboratorin FAIR të Metës duan ta anashkalojnë plotësisht këtë pengesë me një model të inteligjencës artificiale që parashikon aktivitetin e trurit në vend që ta mat atë.
Modeli quhet TRIBE v2 dhe është trajnuar në më shumë se 1,000 orë të dhënash fMRI nga 720 subjekte, sipas punimit shoqërues. Imazheria me rezonancë magnetike funksionale (fMRI) mat aktivitetin e trurit në mënyrë indirekte duke ndjekur ndryshimet në rrjedhën e gjakut dhe nivelet e oksigjenit. Duke përdorur këto të dhëna, TRIBE v2 synon të parashikojë se si një tru i përgjigjet çdo stimuli vizual, dëgjimor ose të bazuar në gjuhë.
TRIBE v2 merr tre lloje të dhënash hyrëse: video, audio dhe tekst. Çdo kanal kalon fillimisht përmes një modeli të para-trajnuar Meta AI: Llama 3.2 për tekst, Wav2Vec-Bert-2.0 për audio dhe Video-JEPA-2 për video. Këto modele i shndërrojnë të dhënat e papërpunuara në ngulitje që kapin atë që është e dukshme në një imazh, e dëgjueshme në një tingull ose e lexueshme në një fjali.
Një transformator më pas i përpunon të tre përfaqësimet së bashku, duke kapur modele që i përkasin stimujve, detyrave dhe njerëzve të ndryshëm. Një shtresë përfundimtare specifike për personin e përkthen rezultatin në një hartë të trurit me 70,000 voksele, pikselët 3D që përbëjnë një skanim fMRI.

Imazhet individuale fMRI janë në thelb të zhurmshme. Rrahjet e zemrës, lëvizja e kokës dhe artefaktet e pajisjes e shtrembërojnë sinjalin. Për të kuptuar se si një tru reagon zakonisht ndaj një stimuli të caktuar, studiuesit duhet të mesatarizojnë shumë skanime së bashku.
TRIBE v2 e anashkalon këtë duke parashikuar drejtpërdrejt një përgjigje mesatare të rregulluar. Gjatë testimit, ky parashikim korreloi më fort me mesataren aktuale të grupit sesa shumica e skanimeve të subjekteve individuale. Efekti ishte më i fortë në të dhënat e Projektit Human Connectome, i cili u kap me një skaner 7 Tesla, duke ofruar cilësi sinjali shumë më të lartë sesa makinat standarde 3 Tesla. Në këtë të dhënë, TRIBE v2 arriti një korrelacion me përgjigjen e grupit dy herë më të lartë se mesatarja e subjektit individual.

Krahasuar me modelet lineare të optimizuara – metoda e mëparshme e përdorur për këtë lloj parashikimi – TRIBE v2 tregoi përmirësime të konsiderueshme në çdo grup të dhënash, sipas punimit. Versioni i mëparshëm, TRIBE v1, u trajnua vetëm në katër subjekte dhe parashikoi vetëm 1,000 voksele në vend të 70,000, megjithatë ai fitoi konkursin Algonauts 2025, duke mposhtur 263 ekipe të tjera.
Saktësia e parashikimit të TRIBE v2 rritet vazhdimisht me sasinë e të dhënave të trajnimit dhe ende nuk ka arritur një nivel të qëndrueshëm. Kjo sugjeron që modeli do të vazhdojë të përmirësohet ndërsa bazat e të dhënave fMRI rriten, një model që pasqyron ligjet e shkallëzimit të modeleve të mëdha gjuhësore, ku më shumë të dhëna çojnë në mënyrë të besueshme në një performancë më të mirë.

Studiuesit testuan TRIBE v2 me stimuj të përditshëm si filma dhe podkaste, ku shumë sinjale shqisore godasin trurin menjëherë, si dhe me stimuj të izoluar tipikë të neuroshkencës klasike. Në ato konfigurime të kontrolluara, një imazh i vetëm mund të ndizet në ekran për një sekondë për të matur përgjigjen e një rajoni specifik të trurit. Ekipi përdori protokollet e testimit nga të dhënat Individual Brain Charting, një koleksion eksperimentesh të mirë-vendosura të neuroshkencës, dhe e vunë modelin të parashikonte se cilat zona të trurit duhet të ndriçoheshin.

Në eksperimentet vizuale me imazhe fytyrash, vendesh, trupash dhe personazhesh, TRIBE v2 përcaktoi me saktësi rajonet e specializuara të trurit të njohura çdo herë. Në eksperimentet gjuhësore, ai lokalizoi rrjetin gjuhësor, bëri dallimin midis përpunimit emocional dhe fizik të dhimbjes dhe tregoi aktivizimin më të fortë të pritur të hemisferës së majtë për fjalitë e plota krahasuar me listat e fjalëve.
Këto rezultate përputhen me gjetjet nga dekada të tëra kërkimesh empirike mbi subjekte reale. Për neuroshkencën, implikimi duket i qartë: eksperimentet e ardhshme mund të përpunohen në kompjuter përpara se dikush të rezervojë kohë të kushtueshme laboratorike.

Duke i fikur në mënyrë selektive kanalet individuale të hyrjes, TRIBE v2 zbulon se sa shumë secila shqisë nxit aktivitetin në rajone specifike të trurit. Rezultatet përputhen me neuroshkencën ekzistuese: audioja parashikon më së miri aktivitetin pranë korteksit dëgjimor, videoja hartëzohet me korteksin vizual dhe teksti ndriçon zonat gjuhësore dhe pjesë të lobit frontal.
Në rajonet ku truri kombinon të dhënat nga shqisa të shumëfishta, ushqyerja e të tre kanaleve jep përfitimet më të mëdha. Në kryqëzimin e lobeve temporale, parietale dhe okupitale, saktësia e parashikimit rritet deri në 50 përqind krahasuar me çdo kanal të vetëm.
Një analizë statistikore e shtresës së fundit të modelit zbuloi gjithashtu pesë modele që lidhen me rrjetet funksionale të njohura të trurit: korteksi parësor dëgjimor, rrjeti gjuhësor, njohja e lëvizjes, rrjeti i modalitetit të parazgjedhur dhe sistemi vizual. Rrjeti i modalitetit të parazgjedhur aktivizohet gjatë ëndërrimit me sy hapur dhe vetëreflektimit, ndër të tjera.
Kufizimet e TRIBE v2 janë ende të konsiderueshme. fMRI mat aktivitetin e trurit vetëm në mënyrë indirekte përmes rrjedhjes së gjakut, me një vonesë prej disa sekondash. Dinamika e shpejtë e sinjaleve nervore në intervalin e milisekondave mbetet e fshehur. Modeli gjithashtu mbulon vetëm tre kanale shqisore – mungojnë të gjitha nuhatja, prekja dhe ekuilibri.
Më thelbësisht, TRIBE v2 e trajton trurin si një marrës pasiv të të dhënave shqisore. Ai nuk modelon se si truri merr vendime ose drejton veprimet në mënyrë aktive. Gjithashtu, nuk mund të kapë ndryshimet zhvillimore ose kushtet klinike, të cilat studiuesit thonë se mbeten një përparësi për versionet e ardhshme.
Meta sheh tre raste përdorimi për modelin: planifikimin e eksperimenteve të neuroshkencës, ndërtimin e më shumë arkitekturave të IA-së të ngjashme me trurin dhe përfundimisht diagnostikimin e sëmundjeve të trurit. Kodi , peshat e modelit dhe një demo interaktive janë të gjitha të disponueshme publikisht.
FAIR, laboratori kërkimor i inteligjencës artificiale i Metës, ka punuar në kryqëzimin e trurit dhe inteligjencës artificiale për vite me radhë. Vitin e kaluar, ekipi tregoi se një model i inteligjencës artificiale mund të rindërtonte fjali të shtypura vetëm nga skanimet jo-invazive të trurit me saktësi deri në 80 përqind.
