Google Gemini provon një trajner më të mirë shëndetësor sesa njerëzit
Google Gemini është vetëm 6 muajsh, por tashmë ka treguar aftësi mbresëlënëse në të gjithë sigurinë, kodimin, korrigjimin dhe fusha të tjera.
Tani, modeli i gjuhës së madhe (LLM) po i kalon njerëzit kur bëhet fjalë për këshillat për gjumin dhe fitnesin.
Studiuesit në Google kanë prezantuar Modelin e Gjuhës së Madhe të Shëndetit Personal (PH-LLM), një version i Gemini i akorduar mirë për të kuptuar dhe arsyetuar mbi të dhënat e shëndetit personal të serive kohore nga pajisjet që vishen si orët inteligjente dhe monitorët e rrahjeve të zemrës. Në eksperimentet e tyre, modeli iu përgjigj pyetjeve dhe bëri parashikime dukshëm më të mira se ekspertët me vite përvojë në fushën e shëndetit dhe fitnesit.
“Puna jonë… përdor inteligjencë artificiale gjeneruese për të zgjeruar dobinë e modelit nga vetëm parashikimi i gjendjeve shëndetësore në sigurimin e rezultateve koherente, kontekstuale dhe potencialisht të përshkruara që varen nga sjelljet komplekse shëndetësore,” shkruajnë studiuesit.
Teknologjia e veshjes mund t’i ndihmojë njerëzit të monitorojnë dhe, në mënyrë ideale, të bëjnë ndryshime domethënëse në shëndetin e tyre. Këto pajisje ofrojnë një “burim të pasur dhe gjatësor të të dhënave” për monitorimin e shëndetit personal që “përftohet në mënyrë pasive dhe të vazhdueshme” nga inputet, duke përfshirë regjistrat e ushtrimeve dhe dietës, ditarët e humorit dhe ndonjëherë edhe aktivitetin e mediave sociale, theksojnë studiuesit e Google.
Megjithatë, të dhënat që ata kapin rreth gjumit, aktivitetit fizik, shëndetit kardiometabolik dhe stresit rrallë përfshihen në mjediset klinike që janë “në natyrë sporadike”. Me shumë mundësi, parashtrojnë studiuesit, kjo është për shkak se të dhënat janë kapur pa kontekst dhe kërkojnë shumë llogaritje për t’u ruajtur dhe analizuar. Për më tepër, mund të jetë e vështirë të interpretohet.
Gjithashtu, ndërsa LLM-të kanë bërë mirë kur bëhet fjalë për përgjigjet e pyetjeve mjekësore , analizën e të dhënave elektronike të shëndetit, diagnozën e bazuar në imazhet mjekësore dhe vlerësimet psikiatrike, shpesh atyre u mungon aftësia për të arsyetuar dhe për të bërë rekomandime për të dhënat nga pajisjet e veshura.
Megjithatë, studiuesit e Google bënë një përparim në trajnimin e PH-LLM për të dhënë rekomandime, për t’iu përgjigjur pyetjeve të ekzaminimit profesional dhe për të parashikuar ndërprerjen e gjumit të vetë-raportuar dhe rezultatet e dëmtimit të gjumit. Modelit iu dhanë pyetje me zgjedhje të shumëfishta dhe studiuesit kryen gjithashtu metoda të zinxhirit të mendimit (duke imituar arsyetimin njerëzor) dhe metodat e goditjes zero (duke njohur objektet dhe konceptet pa i hasur më parë).
Në mënyrë mbresëlënëse, PH-LLM arriti 79% në provimet e gjumit dhe 88% në provimin e fitnesit – që të dyja tejkaluan rezultatet mesatare nga një mostër ekspertësh njerëzorë, duke përfshirë pesë trajnerë profesionistë atletikë (me përvojë mesatare 13,8 vjet) dhe pesë ekspertë të mjekësisë së gjumit (me një përvojë mesatare prej 25 vjetësh). Njerëzit arritën një rezultat mesatar prej 71% në fitnes dhe 76% në gjumë.
Në një shembull rekomandimi për stërvitje, studiuesit e nxitën modelin: “Ju jeni një ekspert i mjekësisë së gjumit. Ju janë dhënë të dhënat e mëposhtme të gjumit. Përdoruesi është mashkull, 50 vjeç. Rendisni njohuritë më të rëndësishme.”
PH-LLM u përgjigj: “Ata kanë vështirësi të bien në gjumë… gjumi i thellë adekuat [është] i rëndësishëm për rikuperimin fizik.” Modelja këshilloi më tej: “Sigurohuni që dhoma juaj e gjumit të jetë e freskët dhe e errët… shmangni dremitjet dhe mbani një orar të qëndrueshëm të gjumit”.
Ndërkohë, kur u bë një pyetje se çfarë lloj kontraktimi muskulor ndodh në gjoksin madhor “gjatë fazës së ngadaltë, të kontrolluar, në rënie të një shtypjeje stoli”. Duke pasur katër zgjedhje për një përgjigje, PH-LLM u përgjigj saktë “ekscentrike”.
Për të ardhurat e regjistruara nga pacientët, studiuesit e pyetën modelin: “Bazuar në këto të dhëna të veshjes, a do të raportonte përdoruesi se kishte vështirësi për të fjetur?”, të cilit ai u përgjigj: “Ky person ka të ngjarë të raportojë se ka vështirësi për të rënë në gjumë disa herë më shumë. muajin e kaluar.”
Studiuesit vërejnë: “Megjithëse zhvillimi dhe vlerësimi i mëtejshëm janë të nevojshëm në fushën e shëndetit personal kritik për sigurinë, këto rezultate demonstrojnë bazën e gjerë të njohurive dhe aftësitë e modeleve të Gemini.”
Për të arritur këto rezultate, studiuesit fillimisht krijuan dhe kuruan tre grupe të dhënash që testuan njohuri dhe rekomandime të personalizuara nga aktiviteti fizik i kapur, modelet e gjumit dhe përgjigjet fiziologjike; njohuri të fushës së ekspertëve; dhe parashikimet rreth cilësisë së gjumit të vetë-raportuar.
Ata krijuan 857 raste studimore që përfaqësonin skenarë të botës reale rreth gjumit dhe fitnesit – 507 për të parën dhe 350 për të dytin – në bashkëpunim me ekspertë të fushës. Skenarët e gjumit përdorën metrikë individuale për të identifikuar faktorët e mundshëm shkaktarë dhe për të ofruar rekomandime të personalizuara për të ndihmuar në përmirësimin e cilësisë së gjumit. Detyrat e fitnesit përdorën informacione nga stërvitja, gjumi, matjet e shëndetit dhe reagimet e përdoruesve për të krijuar rekomandime për intensitetin e aktivitetit fizik në një ditë të caktuar.
Të dyja kategoritë e studimeve të rasteve përfshinin të dhëna të sensorëve të veshur – deri në 29 ditë për gjumë dhe mbi 30 ditë për fitnes – si dhe informacion demografik (moshë dhe gjini) dhe analiza ekspertësh.
Të dhënat e sensorëve përfshinin rezultatet e përgjithshme të gjumit, rrahjet e zemrës në pushim dhe ndryshimet në ndryshueshmërinë e rrahjeve të zemrës, kohëzgjatjen e gjumit (koha e fillimit dhe mbarimit), minutat e zgjimit, shqetësimin, përqindjen e kohës së gjumit REM, ritmet e frymëmarrjes, numrin e hapave dhe minutat e djegies së yndyrës.
“Studimi ynë tregon se PH-LLM është i aftë të integrojë të dhëna objektive të fituara pasive nga pajisjet e veshura në njohuri të personalizuara, shkaqe të mundshme për sjelljet e vëzhguara dhe rekomandime për të përmirësuar rezultatet e higjienës së gjumit dhe fitnesit”, shkruajnë studiuesit.
Megjithatë, studiuesit pranojnë, PH-LLM është vetëm fillimi, dhe si çdo teknologji në zhvillim, ajo ka gabime për t’u zgjidhur. Për shembull, përgjigjet e krijuara nga modeli nuk ishin gjithmonë konsistente, kishte “dallime të dukshme” në konfabulimet në studimet e rasteve dhe LLM ndonjëherë ishte konservatore ose e kujdesshme në përgjigjet e saj.
Në studimet e rasteve të fitnesit, modeli ishte i ndjeshëm ndaj mbi-stërvitjes dhe, në një rast, ekspertët njerëzorë vunë re dështimin e tij për të identifikuar mungesën e gjumit si një shkak të mundshëm të dëmtimit. Gjithashtu, studimet e rasteve u morën gjerësisht në të gjithë demografinë dhe individët relativisht aktivë – kështu që ata me siguri nuk ishin plotësisht përfaqësues të popullatës dhe nuk mund të trajtonin shqetësimet më të gjera të gjumit dhe fitnesit.
“Ne paralajmërojmë se mbetet shumë punë për t’u bërë për të siguruar që LLM-të janë të besueshme, të sigurta dhe të barabarta në aplikimet e shëndetit personal,” shkruajnë studiuesit. Kjo përfshin reduktimin e mëtejshëm të konfabulimeve, duke marrë parasysh rrethanat unike shëndetësore që nuk janë kapur nga informacioni i sensorëve dhe duke siguruar që të dhënat e trajnimit pasqyrojnë popullsinë e ndryshme.
Gjithsesi, studiuesit vërejnë: “Rezultatet nga ky studim përfaqësojnë një hap të rëndësishëm drejt LLM-ve që ofrojnë informacione dhe rekomandime të personalizuara që mbështesin individët për të arritur qëllimet e tyre shëndetësore.”