Studiuesit krijuan një rival me burim të hapur ndaj modelit të ‘arsyetimit’ të OpenAI-t për nën 50 dollarë

foto

Studiuesit e inteligjencës artificiale në Stanford dhe Universiteti i Uashingtonit ishin në gjendje të trajnonin një model “arsyetimi” të AI për nën 50 dollarë në kredite kompjuterike në cloud, sipas një studimi të ri kërkimor të publikuar të premten e kaluar.

foto

Modeli, i njohur si s1, funksionon në mënyrë të ngjashme me modelet më të fundit të arsyetimit, si o1 i OpenAI dhe R1 i DeepSeek, në testet që matin aftësitë matematikore dhe koduese. Modeli s1 është i disponueshëm në GitHub, së bashku me të dhënat dhe kodin e përdorur për ta trajnuar atë.

foto

Ekipi që qëndron pas s1 tha se ata filluan me një model bazë jashtë raftit, më pas e rregulluan atë përmes distilimit, një proces për të nxjerrë aftësitë “arsyetimi” nga një model tjetër i AI duke u trajnuar mbi përgjigjet e tij.

Studiuesit thanë se s1 është distiluar nga një prej modeleve të arsyetimit të Google, Gemini 2.0 Flash Thinking Experimental. Distilimi është e njëjta qasje që studiuesit e Berkeley përdorën për të krijuar një model arsyetimi të AI për rreth 450 dollarë muajin e kaluar.

Për disa, ideja që disa studiues pa miliona dollarë pas tyre mund të rinovojnë ende në hapësirën e AI është emocionuese. Por s1 ngre pyetje reale në lidhje me komoditizimin e modeleve të AI.

Ku është hendek nëse dikush mund të përsërisë nga afër një model shumë milionë dollarësh me ndryshim relativ të xhepit?

Çuditërisht, laboratorët e mëdhenj të AI nuk janë të lumtur. OpenAI ka akuzuar DeepSeek për mbledhjen e gabuar të të dhënave nga API-ja e tij për qëllime të distilimit të modeleve.

Studiuesit pas s1 po kërkonin të gjenin qasjen më të thjeshtë për të arritur performancë të fortë të arsyetimit dhe “shkallëzim në kohë testimi”, ose lejimin e një modeli të AI të mendojë më shumë përpara se t’i përgjigjet një pyetjeje. Këto ishin disa nga përparimet në o1 të OpenAI, të cilat DeepSeek dhe laboratorët e tjerë të AI janë përpjekur t’i kopjojnë përmes teknikave të ndryshme.

Dokumenti s1 sugjeron që modelet e arsyetimit mund të distilohen me një grup të dhënash relativisht të vogël duke përdorur një proces të quajtur rregullim i mirë i mbikëqyrur (SFT), në të cilin një model i AI udhëzohet në mënyrë eksplicite të imitojë sjellje të caktuara në një grup të dhënash.

SFT ka tendencë të jetë më e lirë se metoda e të mësuarit përforcues në shkallë të gjerë që DeepSeek përdori për të trajnuar konkurrentin e saj për modelin o1 të OpenAI, R1.

Google ofron qasje falas në Gemini 2.0 Flash Thinking Experimental, megjithëse me kufij ditor të tarifave, përmes platformës së saj Google AI Studio.

Kushtet e Google ndalojnë inxhinierinë e kundërt të modeleve të saj për të zhvilluar shërbime që konkurrojnë me ofertat e AI të vetë kompanisë. Ne kemi kontaktuar me Google për koment.

S1 bazohet në një model të vogël të inteligjencës artificiale të disponueshme nga laboratori kinez i AI Qwen në pronësi të Alibaba, i cili mund të shkarkohet falas. Për të trajnuar s1, studiuesit krijuan një grup të dhënash prej vetëm 1000 pyetjesh të kuruara me kujdes, të shoqëruara me përgjigjet e atyre pyetjeve, si dhe procesin e “të menduarit” pas çdo përgjigjeje nga Gemini 2.0 Flash Thinking Experimental i Google.

Pas trajnimit s1, i cili zgjati më pak se 30 minuta duke përdorur 16 GPU Nvidia H100, s1 arriti performancë të fortë në standarde të caktuara të AI, sipas studiuesve. Niklas Muennighoff, një studiues i Stanfordit i cili ka punuar në projekt, i tha TechCrunch se ai mund të marrë me qira llogaritjen e nevojshme sot për rreth 20 dollarë.

Studiuesit përdorën një truk të mrekullueshëm për ta bërë s1 të kontrollonte dy herë punën e tij dhe të zgjaste kohën e tij të “të menduarit”: Ata i thanë të priste. Shtimi i fjalës “prit” gjatë arsyetimit të s1 e ndihmoi modelin të arrinte në përgjigje pak më të sakta, sipas gazetës.

Në vitin 2025, Meta, Google dhe Microsoft planifikojnë të investojnë qindra miliarda dollarë në infrastrukturën e AI, e cila pjesërisht do të shkojë drejt trajnimit të modeleve të gjeneratës së ardhshme të AI.

Ky nivel investimi mund të jetë ende i nevojshëm për të shtyrë zarfin e inovacionit të AI. Distilimi ka treguar të jetë një metodë e mirë për rikrijimin e lirë të aftësive të një modeli të AI, por nuk krijon modele të reja të AI shumë më të mirë se sa është në dispozicion sot.