OpenAI prezanton modele të reja o3

foto

OpenAI ruajti njoftimin e tij më të madh për ditën e fundit të ngjarjes së saj 12-ditore “shipmas” .

foto

Të premten, kompania zbuloi o3, pasardhësin e modelit të “arsyetimit” o1 që lëshoi ​​në fillim të vitit. o3 është një familje model, për të qenë më të saktë – siç ishte rasti me o1. Ka o3 dhe o3-mini, një model më i vogël, i distiluar i rregulluar mirë për detyra të veçanta.

foto

OpenAI bën pretendimin e jashtëzakonshëm se o3, të paktën në kushte të caktuara, i afrohet AGI – me paralajmërime të rëndësishme. Më shumë për këtë më poshtë.

Pse ta quajmë modelin e ri o3, jo o2? Epo, markat tregtare mund të jenë fajtore. Sipas The Information, OpenAI anashkaloi o2 për të shmangur një konflikt të mundshëm me ofruesin britanik të telekomit O2. CEO Sam Altman e konfirmoi disi këtë gjatë një transmetimi të drejtpërdrejtë këtë mëngjes. Botë e çuditshme në të cilën jetojmë, apo jo?

As o3 dhe as o3-mini nuk janë ende gjerësisht të disponueshme, por studiuesit e sigurisë mund të regjistrohen për një pamje paraprake për o3-mini duke filluar që sot. Një pamje paraprake o3 do të arrijë diku pas; OpenAI nuk specifikoi se kur. Altman tha se plani është që të nisë o3-mini në fund të janarit dhe të vijojë me o3.

Kjo bie pak në kundërshtim me deklaratat e tij të fundit. Në një intervistë këtë javë, Altman tha se, përpara se OpenAI të lëshojë modele të reja arsyetimi, ai do të preferonte një kornizë federale testimi për të udhëhequr monitorimin dhe zbutjen e rreziqeve të modeleve të tilla.

Dhe ka rreziqe. Testuesit e sigurisë së inteligjencës artificiale kanë zbuluar se aftësitë e arsyetimit të o1 e bëjnë atë të përpiqet të mashtrojë përdoruesit njerëzorë në një shkallë më të lartë se modelet konvencionale, “jo arsyetuese” – ose, për këtë çështje, modelet kryesore të AI nga Meta, Anthropic dhe Google. Është e mundur që o3 të përpiqet të mashtrojë me një shkallë edhe më të lartë se paraardhësi i tij; do ta zbulojmë sapo partnerët e ekipit të kuq të OpenAI të publikojnë rezultatet e tyre të testimit.

Për atë që ia vlen, OpenAI thotë se po përdor një teknikë të re, “radhitje deliberative”, për të lidhur modele si o3 me parimet e saj të sigurisë. (o1 u rreshtua në të njëjtën mënyrë.) Kompania ka detajuar punën e saj në një studim të ri.

Ndryshe nga shumica e inteligjencës artificiale, modelet e arsyetimit të tilla si o3 kontrollojnë në mënyrë efektive veten e tyre, gjë që i ndihmon ata të shmangin disa nga grackat që zakonisht pengojnë modelet.

Ky proces i kontrollit të fakteve shkakton njëfarë vonese. o3, si o1 më parë, kërkon pak më shumë – zakonisht sekonda deri në minuta më shumë – për të arritur në zgjidhje në krahasim me një model tipik jo-arsyetimi. Përmbysja? Ai tenton të jetë më i besueshëm në fusha të tilla si fizika, shkenca dhe matematika.

o3 u trajnua nëpërmjet të mësuarit përforcues për të “menduar” përpara se të përgjigjej nëpërmjet asaj që OpenAI e përshkruan si një “zinxhir privat mendimi”. Modeli mund të arsyetojë përmes një detyre dhe të planifikojë përpara, duke kryer një sërë veprimesh për një periudhë të zgjatur që e ndihmojnë atë të gjejë një zgjidhje.

Në praktikë, kur jepet një nxitje, o3 ndalon përpara se të përgjigjet, duke marrë parasysh një sërë kërkesash të lidhura dhe duke “shpjeguar” arsyetimin e tij gjatë rrugës. Pas një kohe, modeli përmbledh atë që e konsideron si përgjigjen më të saktë.

E re me o3 kundrejt o1 është aftësia për të “rregulluar” kohën e arsyetimit. Modelet mund të vendosen në llogaritje të ulët, të mesme ose të lartë (dmth. koha e të menduarit). Sa më i lartë të jetë llogaritja, aq më mirë performon o3 në një detyrë.

Pavarësisht se sa shumë llogaritje kanë në dispozicion, modelet e arsyetimit si o3 nuk janë të përsosura. Ndërsa komponenti i arsyetimit mund të reduktojë halucinacionet dhe gabimet, ai nuk i eliminon ato. O1 shkon në lojëra tik-tac-toe, për shembull.

Një pyetje e madhe që çoi sot ishte nëse OpenAI mund të pretendonte se modelet e tij më të reja po i afrohen AGI.

AGI, shkurtim i “inteligjencës së përgjithshme artificiale”, i referohet gjerësisht AI që mund të kryejë çdo detyrë që mundet një njeri. OpenAI ka përkufizimin e vet: “sisteme shumë autonome që i tejkalojnë njerëzit në punën më të vlefshme ekonomikisht”.

Arritja e AGI do të ishte një deklaratë e guximshme. Dhe ka peshë kontraktuale për OpenAI gjithashtu. Sipas kushteve të marrëveshjes me partnerin dhe investitorin e ngushtë Microsoft, sapo OpenAI të arrijë AGI, nuk është më i detyruar t’i japë Microsoft-it akses në teknologjitë e tij më të avancuara (ato që plotësojnë përkufizimin AGI të OpenAI-t, domethënë).

Duke shkuar me një pikë referimi, OpenAI po afrohet ngadalë me AGI. Në ARC-AGI, një test i krijuar për të vlerësuar nëse një sistem AI mund të përvetësojë me efikasitet aftësi të reja jashtë të dhënave mbi të cilat është trajnuar, o3 arriti një rezultat 87.5% në cilësimin e lartë të llogaritjes. Në rastin më të keq (në cilësimin e llogaritjes së ulët), modeli trefishoi performancën e o1.

Kuptohet, cilësimi i lartë i llogaritjes ishte jashtëzakonisht i shtrenjtë – në rendin e mijëra dollarëve për sfidë, sipas bashkëkrijuesit të ARC-AGI François Chollet.

Chollet gjithashtu vuri në dukje se o3 dështon në “detyrat shumë të lehta” në ARC-AGI, duke treguar – sipas mendimit të tij – se modeli shfaq “ndryshime themelore” nga inteligjenca njerëzore. Ai ka vënë në dukje më parë kufizimet e vlerësimit dhe ka tërhequr vërejtjen kundër përdorimit të tij si një masë e superinteligjencës së AI.

“[E]pikat e hershme të të dhënave sugjerojnë që [pasardhësi i standardit ARC-AGI] i ardhshëm do të përbëjë ende një sfidë të rëndësishme për o3, duke ulur potencialisht rezultatin e tij në nën 30% edhe në llogaritje të larta (ndërsa një njeri i zgjuar do të ishte ende në gjendje për të shënuar mbi 95% pa asnjë stërvitje),” vazhdoi Chollet në një deklaratë. “Do ta dini se AGI është këtu kur ushtrimi i krijimit të detyrave që janë të lehta për njerëzit e rregullt, por të vështira për AI, bëhet thjesht i pamundur.”

Rastësisht, OpenAI thotë se do të bashkëpunojë me fondacionin pas ARC-AGI për ta ndihmuar atë të ndërtojë gjeneratën e ardhshme të standardit të tij të AI, ARC-AGI 2.

Në teste të tjera, o3 e largon konkurrencën.

Modeli e tejkalon o1 me 22,8 pikë përqindje në SWE-Bench Verified, një pikë referimi e fokusuar në detyrat e programimit dhe arrin një vlerësim të Codeforces – një masë tjetër e aftësive të kodimit – prej 2727. (Një vlerësim prej 2400 e vendos një inxhinier në përqindjen e 99,2-të. ) o3 shënon 96,7% në Matematikën e Ftesave Amerikane 2024 Provimi, i mungon vetëm një pyetje dhe arrin 87,7% në GPQA Diamond, një grup pyetjesh të nivelit të diplomuar në biologji, fizikë dhe kimi. Së fundi, o3 vendos një rekord të ri në standardin e EpochAI-t Frontier Math, duke zgjidhur 25.2% të problemeve; asnjë model tjetër nuk kalon 2%.

Këto pretendime duhet të merren me pak kripë, sigurisht. Ato janë nga vlerësimet e brendshme të OpenAI. Ne do të duhet të presim për të parë se si modeli do të përballet me standardet nga klientët dhe organizatat e jashtme në të ardhmen.

Në vazhdën e publikimit të serisë së parë të modeleve të arsyetimit të OpenAI, ka pasur një shpërthim modelesh arsyetimi nga kompanitë rivale të AI – përfshirë Google. Në fillim të nëntorit, DeepSeek, një firmë kërkimore e AI e financuar nga tregtarët sasiorë, lançoi një pamje paraprake të modelit të saj të parë të arsyetimit, DeepSeek-R1 . Në të njëjtin muaj, ekipi Qwen i Alibaba zbuloi atë që pretendonte se ishte sfiduesi i parë “i hapur” për o1 (në kuptimin që ai mund të shkarkohej, rregullohej dhe ekzekutohej në nivel lokal).

Çfarë hapi portat e modelit të arsyetimit? Epo, për një, kërkimi për qasje të reja për të rafinuar AI gjeneruese. Siç raportoi kohët e fundit TechCrunch , teknikat e “forcës brutale” për të rritur modelet nuk po japin më përmirësimet që bënin dikur.

Jo të gjithë janë të bindur se modelet e arsyetimit janë rruga më e mirë përpara. Ato priren të jenë të shtrenjta, për një, falë sasisë së madhe të fuqisë kompjuterike të nevojshme për t’i ekzekutuar ato. Dhe ndërsa ato kanë performuar mirë në standardet deri më tani, nuk është e qartë nëse modelet e arsyetimit mund të ruajnë këtë shkallë përparimi.

Interesante, lëshimi i o3 vjen pasi një nga shkencëtarët më të arrirë të OpenAI largohet. Alec Radford, autori kryesor i punimit akademik që filloi “serinë GPT” të OpenAI të modeleve gjeneruese të AI (d.m.th., GPT-3, GPT-4, e kështu me radhë), njoftoi këtë javë se ai do të largohet për të ndjekur kërkime të pavarura.