GPT-4 performoi afër nivelit të mjekëve ekspertë në vlerësimet e syrit

foto

Ndërsa modelet e të mësuarit të gjuhës (LLM) vazhdojnë të përparojnë, po ashtu bëni pyetjet se si ato mund të përfitojnë shoqërinë në fusha të tilla si fusha mjekësore. Një studim i kohëve të fundit nga Shkolla e Mjekësisë Klinike e Universitetit të Kembrixhit zbuloi se GPT-4 i OpenAI performoi pothuajse po aq mirë në një vlerësim oftalmologjik si ekspertë në këtë fushë, raportoi fillimisht Financial Times.

foto

Në studimin e publikuar në PLOS Digital Health, studiuesit testuan LLM, paraardhësin e tij GPT-3.5, PalM 2 të Google dhe LLaMA të Metës me 87 pyetje me zgjedhje të shumëfishta. Pesë oftalmologë ekspertë, tre okulistë praktikantë dhe dy mjekë të rinj të paspecializuar morën të njëjtin provim simulues. Pyetjet erdhën nga një libër shkollor për testimin e të trajnuarve për gjithçka, nga ndjeshmëria ndaj dritës deri te lezionet. Përmbajtja nuk është e disponueshme publikisht, kështu që studiuesit besojnë se LLM-të nuk mund të ishin trajnuar më parë për to. ChatGPT, i pajisur me GPT-4 ose GPT-3.5, iu dhanë tre mundësi për t’u përgjigjur përfundimisht ose përgjigja e tij u shënua si e pavlefshme.

foto

GPT-4 shënoi rezultate më të larta se kursantët dhe mjekët e rinj, duke marrë 60 nga 87 pyetjet e duhura. Ndërsa kjo ishte dukshëm më e lartë se mesatarja e mjekëve të rinj prej 37 përgjigjesh të sakta, ajo thjesht mundi mesataren e tre të trajnuarve prej 59.7. Ndërsa një okulist ekspert iu përgjigj me saktësi vetëm 56 pyetjeve, të pestë kishin një rezultat mesatar prej 66.4 përgjigjesh të sakta, duke mposhtur makinën. PalM 2 shënoi 49 dhe GPT-3.5 shënoi 42. LLaMa shënoi pikën më të ulët në 28, duke rënë poshtë mjekëve të rinj. Veçanërisht, këto prova ndodhën në mesin e vitit 2023.

Ndërsa këto rezultate kanë përfitime të mundshme, ka edhe mjaft rreziqe dhe shqetësime. Studiuesit vunë re se studimi ofroi një numër të kufizuar pyetjesh, veçanërisht në kategori të caktuara, që do të thotë se rezultatet aktuale mund të ndryshojnë. LLM-të gjithashtu kanë një tendencë për të ” halucinuar ” ose për të shpikur gjërat. Kjo është një gjë nëse është një fakt i parëndësishëm, por të pretendosh se ka një katarakt ose kancer është një histori tjetër. Siç ndodh në shumë raste të përdorimit të LLM, sistemeve gjithashtu u mungojnë nuancat, duke krijuar mundësi të mëtejshme për pasaktësi.