Studiuesit identifikojnë një boshllëk arsyetimi në modelet e mëdha të AI

A janë modelet e mëdha gjuhësore të afta për të arsyetuar, apo thjesht mbajnë mend rezultatet nga të dhënat e tyre të trajnimit?

Një ekip kërkimor i udhëhequr nga Saurabh Srivastava në Consequent AI, i specializuar në arsyetimin e AI, e eksploron këtë pyetje në një punim të ri.

Ekipi sfidon praktikën e zakonshme të krahasimit të AI, e cila zakonisht bazohet në çifte statike pyetje-përgjigje që një AI mund të ketë parë tashmë gjatë trajnimit të saj të gjerë mbi të dhënat e internetit.

Studiuesit teorizojnë se kjo metodë tradicionale e krahasimit mund të mbivlerësojë gabimisht inteligjencën e dukshme të një makinerie duke ngatërruar memorizimin me arsyetimin e vërtetë.

Për ta kundërshtuar këtë, ata prezantojnë konceptin e “varianteve funksionale” për krahasim. Kjo përfshin marrjen e standardeve të vendosura, të tilla si standardi MATH, dhe përkthimin e proceseve themelore të mendimit në kod.

Ky kod, në këtë rast i quajtur MATH(), mund të gjenerojë më pas “snapshots” të ndryshëm, të cilat janë pyetje unike që kërkojnë të njëjtin arsyetim për t’u zgjidhur, por nuk janë identike me pyetjet origjinale.

Në këtë mënyrë, standardet tradicionale të tilla si standardi MATH bëhen formate të koduara që mund të modifikohen në një numër të pafund mënyrash duke testuar ende të njëjtën logjikë themelore. Kjo procedurë testimi është krijuar për të siguruar që modelet gjuhësore të demonstrojnë në të vërtetë aftësinë për zgjidhjen e problemeve, jo vetëm përsëritjen e pyetjeve të memorizuara.

Në vlerësimin e disa modeleve gjuhësore, duke përfshirë GPT-3 .5 dhe GPT-4 të OpenAI , studiuesit identifikuan atë që ata e quajnë “boshllëk arsyetimi” – një mospërputhje midis performancës së një modeli në problemet e njohura në krahasim me problemet e reja që duhet të zgjidhë në fluturim.

Boshllëqet e matura varionin nga 58.35 për qind në 80.31 për qind, duke treguar se modelet kishin vështirësi me format e funksionalizuara të problemeve. Kjo nga ana tjetër mund të merret si një tregues se modelet nuk i kuptojnë ato, por më tepër i nxjerrin përgjigjet nga të dhënat e tyre të gjera të trajnimit.

foto

Studiuesit gjithashtu analizuan llojet e problemeve që modelet ishin në gjendje të zgjidhnin me sukses. Ata zbuluan se modelet performuan më mirë në problemet e nivelit më të ulët dhe në problemet para-algjebër dhe algjebër.

foto

Autorët citojnë disa faktorë si kufizime të mundshme të gjetjeve të tyre, si ndikimi i mundshëm i nxitjeve më komplekse ose përdorimi i mjeteve llogaritëse gjatë procesit të konkluzionit që mund të zvogëlojë hendekun e arsyetimit për problemet matematikore të testuara.

Ekipi konsekuent i AI ka funksionalizuar tashmë 41.2 për qind të standardit MATH dhe ka publikuar kërkimin, kodin dhe tre fotografi të standardit funksional MATH().

Deri më tani, ata kanë vlerësuar nëntë modele me burim të hapur dhe katër modele me burim të mbyllur. Gazeta dhe depoja e GitHub ofrojnë informacion të detajuar në lidhje me qasjen dhe rezultatet e tyre.

Në të ardhmen, ekipi hulumtues planifikon të lëshojë versione të funksionalizuara të standardeve shtesë me qëllimin e mbulimit 100% të MATH, GSM8K dhe HumanEval. Përveç kësaj, studiuesit planifikojnë të testojnë ndikimin e strategjive nxitëse në hendekun e arsyetimit.

Një mënyrë tjetër për të parë rezultatet e hulumtimit mund të jetë se hendeku i arsyetimit nuk ishte 100 përqind – dmth, se aftësia për të nxjerrë përfundime logjike është e natyrshme në modelet, një pyetje që ende debatohet përgjithësisht.

GPT-4 ishte në gjendje të zgjidhte saktë rreth dhjetë përqind të problemeve dinamike (541 nga 5000). Megjithatë, ky rezultat e vendos atë vetëm pak përpara modeleve më të vogla dhe më efikase.

foto

Studiuesi i AI François Chollet ofron një perspektivë. Ai përshkruan katër nivele të aftësisë së përgjithësimit, me shumicën e LLM-ve që aktualisht veprojnë në nivelin 1: ata kanë memorizuar përgjigjet për një grup detyrash statike dhe mund të ndërfuten midis tyre.

Në nivelin 2, modelet do të ekzekutonin programe të përgjithësueshme për të zgjidhur detyrat në mënyrë të fuqishme brenda një grupi statik detyrash. “LLM-të mund ta bëjnë një pjesë të kësaj, por siç tregohet më poshtë (p.sh. në studim) , ata e thithin atë dhe përshtatja e programeve nëpërmjet zbritjes së gradientit është qesharake joefikase për të dhënat,” shkruan Chollet.

Niveli 0 do të ishte një bazë të dhënash e thjeshtë pa aftësi për të arsyetuar, dhe niveli 3 do të ishte aftësia për të gjeneruar programe të reja në fluturim për të zgjidhur probleme të reja, të cilat do të ishin inteligjencë e përgjithshme.

“Gjenerali” në “inteligjencën e përgjithshme” i referohet aftësisë për të trajtuar çdo detyrë, përfshirë ato që nuk i keni parë më parë,” shkruan Chollet.