OpenAI lançon dy modele të “hapura” të arsyetimit me inteligjencë artificiale

foto

OpenAI njoftoi të martën lançimin e dy modeleve të arsyetimit të inteligjencës artificiale me peshë të hapur me aftësi të ngjashme me serinë e saj O. Të dyja janë të disponueshme falas për t’u shkarkuar nga platforma online e zhvilluesve Hugging Face, tha kompania, duke i përshkruar modelet si “gjendjen e artit” kur maten në disa standarde për krahasimin e modeleve të hapura.

Modelet vijnë në dy madhësi: një model më i madh dhe më i aftë gpt-oss-120b që mund të funksionojë në një GPU të vetme Nvidia, dhe një model më i lehtë gpt-oss-20b që mund të funksionojë në një laptop konsumatori me 16 GB memorie.

Lansimi shënon modelin e parë të gjuhës ‘të hapur’ të OpenAI që nga GPT-2, i cili u publikua më shumë se pesë vjet më parë.

Në një njoftim informues, OpenAI tha se modelet e saj të hapura do të jenë të afta të dërgojnë pyetje komplekse te modelet e IA-së në cloud, siç raportoi më parë TechCrunch. Kjo do të thotë që nëse modeli i hapur i OpenAI nuk është i aftë për një detyrë të caktuar, siç është përpunimi i një imazhi, zhvilluesit mund ta lidhin modelin e hapur me një nga modelet e mbyllura më të afta të kompanisë.

Ndërsa modelet e inteligjencës artificiale të OpenAI në fillimet e saj, kompania në përgjithësi ka favorizuar një qasje të zhvillimit me burim të mbyllur dhe pronësor. Strategjia e fundit e ka ndihmuar OpenAI të ndërtojë një biznes të madh duke shitur akses në modelet e saj të inteligjencës artificiale nëpërmjet një API-je për ndërmarrjet dhe zhvilluesit.

Megjithatë, CEO Sam Altman tha në janar se beson që OpenAI ka qenë “në anën e gabuar të historisë” kur bëhet fjalë për ofrimin e teknologjive të saj me burim të hapur. Kompania sot përballet me presion në rritje nga laboratorët kinezë të IA-së – duke përfshirë DeepSeek, Qwen të Alibaba-s dhe Moonshot AI – të cilët kanë zhvilluar disa nga modelet e hapura më të afta dhe më të njohura në botë. (Ndërsa Meta më parë dominonte hapësirën e IA-së së hapur, modelet e IA-së Llama të kompanisë kanë mbetur prapa vitin e kaluar.)

Në korrik, administrata Trump u kërkoi gjithashtu zhvilluesve të inteligjencës artificiale në SHBA që të përdorin më shumë teknologji me burim të hapur për të promovuar miratimin global të inteligjencës artificiale në përputhje me vlerat amerikane.

Me publikimin e gpt-oss, OpenAI shpreson të fitojë favorin e zhvilluesve dhe të administratës Trump njësoj, të cilët kanë parë që laboratorët kinezë të inteligjencës artificiale të ngrihen në spikamë në hapësirën e burimit të hapur.

“Duke u kthyer që nga koha kur filluam në vitin 2015, misioni i OpenAI është të sigurojë që IAG të jetë në dobi të të gjithë njerëzimit”, tha Altman në një deklaratë të ndarë me TechCrunch. “Për këtë qëllim, ne jemi të emocionuar që bota po ndërton mbi një grumbull të hapur të IA-së të krijuar në Shtetet e Bashkuara, bazuar në vlera demokratike, të disponueshme falas për të gjithë dhe për përfitim të gjerë.”

foto

OpenAI synonte ta bënte modelin e saj të hapur një lider midis modeleve të tjera të IA-së me peshë të hapur, dhe kompania pretendon se e ka bërë pikërisht këtë.

Në Codeforces (me mjete), një test konkurrues kodimi, gpt-oss-120b dhe gpt-oss-20b shënojnë përkatësisht 2622 dhe 2516 pikë, duke tejkaluar R1 të DeepSeek, ndërsa duke performuar nën o3 dhe o4-mini.

foto

Në Provimin e Fundit të Njerëzimit (HLE), një test sfidues me pyetje të mbledhura nga publiku në një sërë lëndësh (me mjete), gpt-oss-120b dhe gpt-oss-20b marrin rezultate përkatësisht 19% dhe 17.3%. Në mënyrë të ngjashme, kjo performon më dobët se o3, por tejkalon modelet kryesore të hapura nga DeepSeek dhe Qwen.

foto

Veçanërisht, modelet e hapura të OpenAI halucinojnë dukshëm më shumë sesa modelet e saj të fundit të arsyetimit me inteligjencë artificiale, o3 dhe o4-mini.

Halucinacionet janë bërë më të rënda në modelet më të fundit të arsyetimit të IA-së të OpenAI-t, dhe kompania më parë tha se nuk e kupton plotësisht pse. Në një dokument të publikuar, OpenAI thotë se kjo është “e pritshme, pasi modelet më të vogla kanë më pak njohuri për botën sesa modelet më të mëdha kufitare dhe kanë tendencë të halucinojnë më shumë”.

OpenAI zbuloi se gpt-oss-120b dhe gpt-oss-20b kishin halucinacione në përgjigje të përkatësisht 49% dhe 53% të pyetjeve në PersonQA, standardi i brendshëm i kompanisë për matjen e saktësisë së njohurive të një modeli rreth njerëzve. Kjo është më shumë se trefishi i shkallës së halucinacioneve të modelit o1 të OpenAI, i cili shënoi 16%, dhe më e lartë se modeli i saj o4-mini, i cili shënoi 36%.

OpenAI thotë se modelet e saj të hapura janë trajnuar me procese të ngjashme me modelet e saj pronësore. Kompania thotë se çdo model i hapur shfrytëzon përzierjen e ekspertëve (MoE) për të përdorur më pak parametra për çdo pyetje të caktuar, duke e bërë atë të funksionojë më me efikasitet. Për gpt-oss-120b, i cili ka 117 miliardë parametra gjithsej, OpenAI thotë se modeli aktivizon vetëm 5.1 miliardë parametra për token.

Kompania thotë gjithashtu se modeli i saj i hapur është trajnuar duke përdorur të mësuarit me përforcime me llogaritje të lartë (RL) – një proces pas trajnimit për të mësuar modelet e IA-së të bëjnë dallimin midis të drejtës dhe të gabuarës në mjedise të simuluara duke përdorur grupe të mëdha GPU-sh Nvidia. Kjo u përdor gjithashtu për të trajnuar serinë o të modeleve të OpenAI, dhe modelet e hapura kanë një proces të ngjashëm zinxhir mendimi në të cilin ato marrin kohë shtesë dhe burime llogaritëse për të përpunuar përgjigjet e tyre.

Si rezultat i procesit pas trajnimit, OpenAI thotë se modelet e saj të hapura të IA-së shkëlqejnë në fuqizimin e agjentëve të IA-së dhe janë të afta të thërrasin mjete të tilla si kërkimi në internet ose ekzekutimi i kodit Python si pjesë e procesit të saj të zinxhirit të mendimit. Megjithatë, OpenAI thotë se modelet e saj të hapura janë vetëm tekst, që do të thotë se ato nuk do të jenë në gjendje të përpunojnë ose gjenerojnë imazhe dhe audio si modelet e tjera të kompanisë.

OpenAI po publikon gpt-oss-120b dhe gpt-oss-20b sipas licencës Apache 2.0, e cila në përgjithësi konsiderohet si një nga më tolerantet. Kjo licencë do t’u lejojë ndërmarrjeve të fitojnë para nga modelet e hapura të OpenAI pa pasur nevojë të paguajnë ose të marrin leje nga kompania.

Megjithatë, ndryshe nga ofertat plotësisht me burim të hapur nga laboratorët e IA-së si AI2, OpenAI thotë se nuk do të publikojë të dhënat e trajnimit të përdorura për të krijuar modelet e saj të hapura. Ky vendim nuk është për t’u habitur duke pasur parasysh se disa padi aktive kundër ofruesve të modeleve të IA-së, përfshirë OpenAI, kanë pretenduar se këto kompani i kanë trajnuar në mënyrë të papërshtatshme modelet e tyre të IA-së në vepra të mbrojtura me të drejta autori.

OpenAI e shtyu disa herë publikimin e modeleve të saj të hapura gjatë muajve të fundit, pjesërisht për të adresuar shqetësimet e sigurisë. Përtej politikave tipike të sigurisë së kompanisë, OpenAI thotë në një dokument të publikuar se ka hetuar gjithashtu nëse aktorët e këqij mund t’i përmirësonin modelet e saj gpt-oss për të qenë më të dobishëm në sulmet kibernetike ose në krijimin e armëve biologjike ose kimike.

Pas testimeve nga OpenAI dhe vlerësues të palëve të treta, kompania thotë se gpt-oss mund të rrisë pak aftësitë biologjike. Megjithatë, nuk gjeti prova se këto modele të hapura mund të arrinin pragun e “aftësive të larta” për rrezik në këto fusha, edhe pas rregullimeve të hollësishme.

Ndërsa modeli i OpenAI duket të jetë më i fundit midis modeleve të hapura, zhvilluesit mezi presin publikimin e DeepSeek R2, modelit të tij të ardhshëm të arsyetimit me anë të inteligjencës artificiale, si dhe një model të ri të hapur nga Laboratori i Superinteligjencës i Meta-s.