Alibaba lëshon një sfidues të hapur për modelin e arsyetimit o1 të OpenAI

foto

Një model i ri i ashtuquajtur “arsyetim” i AI, QwQ-32B-Preview, ka mbërritur në skenë. Është një nga të paktët që rivalizon o1 të OpenAI-t dhe është i pari i disponueshëm për t’u shkarkuar nën një licencë lejuese.

Zhvilluar nga ekipi Qwen i Alibaba-s, QwQ-32B-Preview përmban 32.5 miliardë parametra dhe mund të marrë parasysh kërkesat deri në ~32,000 fjalë në gjatësi; performon më mirë në disa standarde sesa o1-preview dhe o1-mini, dy modelet e arsyetimit që OpenAI ka lëshuar deri më tani. (Parametrat përafërsisht korrespondojnë me aftësitë e një modeli për zgjidhjen e problemeve dhe modelet me më shumë parametra në përgjithësi performojnë më mirë se ato me më pak parametra. OpenAI nuk zbulon numrin e parametrave për modelet e tij.)

Sipas testimit të Alibaba, QwQ-32B-Preview mposht modelin o1-preview të OpenAI në testet AIME dhe MATH. AIME përdor modele të tjera të AI për të vlerësuar performancën e një modeli, ndërsa MATH është një koleksion problemesh me fjalë.

QwQ-32B-Preview mund të zgjidhë enigmat logjike dhe t’u përgjigjet pyetjeve të arsyeshme sfiduese të matematikës, falë aftësive të tij “arsyetimi”. Por nuk është perfekt. Alibaba vëren në një postim në blog se modeli mund të ndërrojë gjuhë papritur, të ngecë në sythe dhe të mos performojë më mirë në detyrat që kërkojnë “arsyetim me sens të përbashkët”.

foto

Ndryshe nga shumica e inteligjencës artificiale, QwQ-32B-Preview dhe modele të tjera arsyetimi në mënyrë efektive kontrollojnë veten e tyre. Kjo i ndihmon ata të shmangin disa nga grackat që zakonisht pengojnë modelet, me anën e keqe që ata shpesh kërkojnë më shumë kohë për të arritur në zgjidhje. Ngjashëm me o1, QwQ-32B-Parashikoni arsyet përmes detyrave, planifikimin përpara dhe kryerjen e një sërë veprimesh që e ndihmojnë modelin të nxjerrë përgjigjet.

QwQ-32B-Preview, i cili mund të ekzekutohet dhe shkarkohet nga platforma e zhvilluesit të AI Hugging Face, duket të jetë e ngjashme me modelin e arsyetimit DeepSeek të lëshuar së fundmi në atë që ecën lehtë rreth temave të caktuara politike. Alibaba dhe DeepSeek, duke qenë kompani kineze, i nënshtrohen krahasimit nga rregullatori kinez i internetit për të siguruar që përgjigjet e modeleve të tyre “të mishërojnë vlerat thelbësore socialiste”. Shumë sisteme kineze të AI refuzojnë t’i përgjigjen temave që mund të ngrenë zemërimin e rregullatorëve, si spekulimet për regjimin Xi Jinping.

foto

I pyetur “A është Tajvani pjesë e Kinës?”, QwQ-32B-Preview u përgjigj se ishte (dhe “e patjetërsueshme” po ashtu) – një perspektivë e papërshtatshme me pjesën më të madhe të botës, por në përputhje me atë të partisë në pushtet të Kinës. Kërkesat për sheshin Tiananmen, ndërkohë, dhanë një mospërgjigje.

foto

QwQ-32B-Preview është “hapur” i disponueshëm nën një licencë Apache 2.0, që do të thotë se mund të përdoret për aplikacione komerciale. Por vetëm disa komponentë të modelit janë lëshuar, duke e bërë të pamundur përsëritjen e QwQ-32B-Preview ose marrjen e shumë njohuri mbi funksionimin e brendshëm të sistemit. “Hapja” e modeleve të AI nuk është një pyetje e zgjidhur, por ka një vazhdimësi të përgjithshme nga më të mbyllura (vetëm aksesi në API) në më të hapur (modeli, peshat, të dhënat e shpalosura) dhe kjo bie diku në mes.

Rritja e vëmendjes ndaj modeleve të arsyetimit vjen pasi zbatueshmëria e “ligjeve të shkallëzimit”, teoritë e mbajtura prej kohësh që hedhja e më shumë të dhënave dhe fuqia llogaritëse në një model do të rriste vazhdimisht aftësitë e tij, po vihen nën shqyrtim. Një varg raportesh shtypi sugjerojnë se modelet nga laboratorët kryesorë të AI, duke përfshirë OpenAI, Google dhe Anthropic, nuk po përmirësohen aq dramatikisht sa dikur.

Kjo ka çuar në një përleshje për qasje të reja të AI, arkitektura dhe teknika zhvillimi, njëra prej të cilave është llogaritja në kohë testimi. I njohur gjithashtu si llogaritja e konkluzioneve, llogaritja në kohë testimi në thelb u jep modeleve kohë shtesë përpunimi për të përfunduar detyrat dhe mbështet modele si o1 dhe QwQ-32B-Preview.

Laboratorët e mëdhenj përveç OpenAI dhe firmave kineze po vënë bast se llogaritja e kohës së testimit është e ardhmja. Sipas një raporti të fundit nga The Information, Google ka zgjeruar një ekip të brendshëm të fokusuar në modelet e arsyetimit për rreth 200 njerëz dhe ka shtuar fuqi të konsiderueshme llogaritëse në përpjekje.