Në një studim të Harvard-it, AI ofroi diagnoza më të sakta në urgjencë sesa dy mjekë njerëzorë
Një studim i ri shqyrton se si funksionojnë modelet e mëdha gjuhësore në një sërë kontekstesh mjekësore, duke përfshirë raste reale në dhomat e urgjencës ku të paktën një model duket se është më i saktë se mjekët njerëzorë.

Studimi u botua këtë javë në Science dhe vjen nga një ekip kërkimor i udhëhequr nga mjekë dhe shkencëtarë kompjuterash në Shkollën Mjekësore të Harvardit dhe Qendrën Mjekësore Beth Israel Deaconess. Studiuesit thanë se kryen një sërë eksperimentesh për të matur se si modelet e OpenAI krahasoheshin me mjekët njerëzorë.

Në një eksperiment, studiuesit u përqendruan te 76 pacientë që erdhën në dhomën e urgjencës në Beth Israel, duke krahasuar diagnozat e ofruara nga dy mjekë të brendshëm me ato të gjeneruara nga modelet o1 dhe 4o të OpenAI. Këto diagnoza u vlerësuan nga dy mjekë të tjerë, të cilët nuk dinin se cilat vinin nga njerëzit dhe cilat vinin nga inteligjenca artificiale.
“Në secilën pikë kontakti diagnostikues, 01 ose performoi nominalisht më mirë ose në të njëjtin nivel me dy mjekët që ndiqnin testet dhe 40”, tha studimi, duke shtuar se ndryshimet “ishin veçanërisht të theksuara në pikën e parë të kontaktit diagnostikues (triazh fillestar në urgjencë), ku ka më pak informacion të disponueshëm rreth pacientit dhe urgjenca më e madhe për të marrë vendimin e saktë”.
Në njoftimin për shtyp të Shkollës Mjekësore të Harvardit në lidhje me studimin, studiuesit theksuan se ata nuk i “përpunuan fare të dhënat paraprakisht” – modeleve të inteligjencës artificiale iu paraqit i njëjti informacion që ishte i disponueshëm në të dhënat mjekësore elektronike në kohën e çdo diagnoze.
Me këtë informacion, modeli o1 arriti të ofrojë “diagnozën e saktë ose shumë të afërt” në 67% të rasteve të triazhit, krahasuar me një mjek që kishte diagnozën e saktë ose të afërt 55% të kohës, dhe me tjetrin që e arriti objektivin 50% të kohës.
“Ne e testuam modelin e inteligjencës artificiale kundrejt pothuajse çdo pike referimi dhe ai i tejkaloi si modelet e mëparshme ashtu edhe ato bazë të mjekëve tanë”, tha në njoftimin për shtyp Arjun Manrai, i cili drejton një laborator të inteligjencës artificiale në Shkollën Mjekësore të Harvardit dhe është një nga autorët kryesorë të studimit.
Për të qenë të qartë, studimi nuk pretendoi se inteligjenca artificiale është e gatshme të marrë vendime të vërteta për jetë a vdekje në dhomën e urgjencës. Në vend të kësaj, tha se gjetjet tregojnë një “nevojë urgjente për prova prospektive për të vlerësuar këto teknologji në mjediset e kujdesit për pacientët në botën reale”.
Studiuesit vunë re gjithashtu se ata studiuan vetëm se si modelet performuan kur u ofroheshin informacione të bazuara në tekst dhe se “studimet ekzistuese sugjerojnë që modelet aktuale themelore janë më të kufizuara në arsyetim sesa në të dhënat jo-tekstuale”.
Adam Rodman, një mjek në Beth Israel, i cili është gjithashtu një nga autorët kryesorë të studimit, paralajmëroi The Guardian se “nuk ka asnjë kornizë formale tani për tani për llogaridhënie” rreth diagnozave të inteligjencës artificiale dhe se pacientët ende “duan që njerëzit t’i udhëheqin përmes vendimeve për jetë a vdekje [dhe] t’i udhëheqin përmes vendimeve sfiduese të trajtimit”.
Në një postim rreth studimit, Kristen Panthagani, një mjeke urgjence, tha se ky është një “një studim interesant mbi inteligjencën artificiale që ka çuar në disa tituj shumë të ekzagjeruar”, veçanërisht pasi po krahasonte diagnozat e inteligjencës artificiale me ato të mjekëve të mjekësisë së brendshme, jo të mjekëve të urgjencës.
“Nëse do të krahasojmë mjetet e inteligjencës artificiale me aftësinë klinike të mjekëve, duhet të fillojmë duke i krahasuar me mjekët që e ushtrojnë atë specialitet”, tha Panthagani. “Nuk do të habitem nëse një LLM mund të mposhtë një dermatolog në një provim të bordit të neurokirurgjisë, [por] kjo nuk është një gjë veçanërisht e dobishme për t’u ditur.”
Ajo gjithashtu argumentoi: “Si mjeke e urgjencës që po vizitoj një pacient për herë të parë, qëllimi im kryesor nuk është të hamendësoj diagnozën tuaj përfundimtare. Qëllimi im kryesor është të përcaktoj nëse keni një sëmundje që mund t’ju vrasë.”
