GPT-4 performoi afër nivelit të mjekëve ekspertë në vlerësimet e syrit

Ndërsa modelet e të mësuarit të gjuhës (LLM) vazhdojnë të përparojnë, po ashtu bëni pyetjet se si ato mund të përfitojnë shoqërinë në fusha të tilla si fusha mjekësore. Një studim i kohëve të fundit nga Shkolla e Mjekësisë Klinike e Universitetit të Kembrixhit zbuloi se GPT-4 i OpenAI performoi pothuajse po aq mirë në një vlerësim oftalmologjik si ekspertë në këtë fushë, raportoi fillimisht Financial Times.

Në studimin e publikuar në PLOS Digital Health, studiuesit testuan LLM, paraardhësin e tij GPT-3.5, PalM 2 të Google dhe LLaMA të Metës me 87 pyetje me zgjedhje të shumëfishta. Pesë oftalmologë ekspertë, tre okulistë praktikantë dhe dy mjekë të rinj të paspecializuar morën të njëjtin provim simulues. Pyetjet erdhën nga një libër shkollor për testimin e të trajnuarve për gjithçka, nga ndjeshmëria ndaj dritës deri te lezionet. Përmbajtja nuk është e disponueshme publikisht, kështu që studiuesit besojnë se LLM-të nuk mund të ishin trajnuar më parë për to. ChatGPT, i pajisur me GPT-4 ose GPT-3.5, iu dhanë tre mundësi për t’u përgjigjur përfundimisht ose përgjigja e tij u shënua si e pavlefshme.

GPT-4 shënoi rezultate më të larta se kursantët dhe mjekët e rinj, duke marrë 60 nga 87 pyetjet e duhura. Ndërsa kjo ishte dukshëm më e lartë se mesatarja e mjekëve të rinj prej 37 përgjigjesh të sakta, ajo thjesht mundi mesataren e tre të trajnuarve prej 59.7. Ndërsa një okulist ekspert iu përgjigj me saktësi vetëm 56 pyetjeve, të pestë kishin një rezultat mesatar prej 66.4 përgjigjesh të sakta, duke mposhtur makinën. PalM 2 shënoi 49 dhe GPT-3.5 shënoi 42. LLaMa shënoi pikën më të ulët në 28, duke rënë poshtë mjekëve të rinj. Veçanërisht, këto prova ndodhën në mesin e vitit 2023.

Ndërsa këto rezultate kanë përfitime të mundshme, ka edhe mjaft rreziqe dhe shqetësime. Studiuesit vunë re se studimi ofroi një numër të kufizuar pyetjesh, veçanërisht në kategori të caktuara, që do të thotë se rezultatet aktuale mund të ndryshojnë. LLM-të gjithashtu kanë një tendencë për të ” halucinuar ” ose për të shpikur gjërat. Kjo është një gjë nëse është një fakt i parëndësishëm, por të pretendosh se ka një katarakt ose kancer është një histori tjetër. Siç ndodh në shumë raste të përdorimit të LLM, sistemeve gjithashtu u mungojnë nuancat, duke krijuar mundësi të mëtejshme për pasaktësi.

Tags: AI, Artificial Intelligjence, GPT-4, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, Llama, LLM, OpenAI, PLOS Digital Health, School of Clinical Medicine, University of Cambridge

GPT-4 performoi afër nivelit të mjekëve ekspertë në vlerësimet e syrit

Pothuajse 90% e zhvilluesve të videolojërave përdorin agjentë të inteligjencës artificiale

Syzet inteligjente ‘Hypernova’ të Meta-s raportohet se marrin një ulje të madhe çmimi në 800 dollarë para lançimit

Ndërfaqja tru-kompjuter e Stanford-it shndërron të folurën e brendshme në fjalë të shqiptuara

Pas testeve të fundit, Kina duket se ka gjasa ta mposhtë Shtetet e Bashkuara në rikthimin në Hënë

Nvidia thuhet se po zhvillon një çip të ri dhe më të fuqishëm të inteligjencës artificiale për shitje në Kinë

Mozilla paralajmëron se Gjermania së shpejti mund t’i shpallë bllokuesit e reklamave të paligjshëm

OpenAI lançojnë një plan ChatGPT nën 5 dollarë në Indi

Tesla fillon të marrë porosi nga Kina për Model Y L të përmirësuar

Apple fiton betejën pasi Mbretëria e Bashkuar heq dorë nga mandati për akses të detyruar në iCloud

You may have missed