Alibaba prezanton Qwen3, një familje modelesh ‘hibride’ të arsyetimit me inteligjencë artificiale

foto

Kompania kineze e teknologjisë Alibaba të hënën lançoi Qwen3, një familje modelesh të inteligjencës artificiale që kompania pretendon se mund të krahasohen dhe, në disa raste, të kenë performancë më të mirë se modelet më të mira të disponueshme nga Google dhe OpenAI.

foto

Shumica e modeleve janë ose së shpejti do të jenë të disponueshme për shkarkim sipas një licence “të hapur” në platformën e zhvillimit të inteligjencës artificiale Hugging Face dhe GitHub. Ato variojnë në madhësi nga 0.6 miliardë parametra deri në 235 miliardë parametra. (Parametrat korrespondojnë përafërsisht me aftësitë e zgjidhjes së problemeve të një modeli, dhe modelet me më shumë parametra në përgjithësi performojnë më mirë se ato me më pak parametra.)

Rritja e serive të modeleve me origjinë nga Kina, si Qwen, ka rritur presionin mbi laboratorët amerikanë, siç është OpenAI, për të ofruar teknologji më të afta të inteligjencës artificiale. Ato gjithashtu i kanë shtyrë politikëbërësit të zbatojnë kufizime që synojnë kufizimin e aftësisë së kompanive kineze të inteligjencës artificiale për të siguruar çipat e nevojshëm për të trajnuar modelet.

Sipas Alibaba-s, modelet Qwen3 janë modele “hibride” – ato mund të marrin kohë për të “arsyetuar” përmes problemeve komplekse ose për t’iu përgjigjur shpejt kërkesave më të thjeshta. Arsyetimi i mundëson modeleve të verifikojnë në mënyrë efektive faktet e tyre, ngjashëm me modele si o3 i OpenAI, por me koston e një latence më të lartë.

“Ne kemi integruar pa probleme mënyrat e të menduarit dhe të mos menduarit, duke u ofruar përdoruesve fleksibilitetin për të kontrolluar buxhetin e të menduarit”, shkroi ekipi i Qwen në një postim në blog. “Ky dizajn u mundëson përdoruesve të konfigurojnë buxhetet specifike për detyrat me më shumë lehtësi.”

Disa nga modelet gjithashtu përdorin një përzierje të arkitekturës së ekspertëve (MoE), e cila mund të jetë më efikase në aspektin llogaritës për t’iu përgjigjur pyetjeve. MoE i ndan detyrat në nëndegë dhe i delegon ato te modele “ekspertësh” më të vegjël dhe të specializuar.

Modelet Qwen3 mbështesin 119 gjuhë, tha Alibaba, dhe u trajnuan në një grup të dhënash prej mbi 36 trilionë tokenësh. (Tokenët janë pjesët e papërpunuara të të dhënave që një model përpunon; 1 milion token është ekuivalent me rreth 750,000 fjalë.) Kompania tha se Qwen3 u trajnua në një kombinim të teksteve shkollore, “çifteve pyetje-përgjigje”, fragmenteve të kodit, të dhënave të gjeneruara nga inteligjenca artificiale dhe më shumë.

Këto përmirësime, së bashku me të tjera, i rritën shumë aftësitë e Qwen3 krahasuar me paraardhësin e tij, Qwen2, tha Alibaba. Asnjë nga modelet e Qwen3 nuk duket se është kokë e këmbë mbi modelet më të mira të kohëve të fundit si o3 dhe o4-mini i OpenAI, por megjithatë ato kanë performancë të lartë.

Në Codeforces, një platformë për konkurse programimi, modeli më i madh Qwen3 — Qwen-3-235B-A22B — mezi e tejkalon o3-mini të OpenAI dhe Gemini 2.5 Pro të Google. Qwen-3-235B-A22B gjithashtu e tejkalon o3-mini në versionin më të fundit të AIME, një pikë referimi sfiduese matematikore, dhe BFCL, një test për vlerësimin e aftësisë së një modeli për të “arsyetuar” rreth problemeve.

Por Qwen-3-235B-A22B nuk është i disponueshëm publikisht — të paktën jo ende.

foto

Modeli më i madh publik Qwen3, Qwen3-32B, është ende konkurrues me një numër modelesh të hapura dhe pronësore të IA-së, duke përfshirë R1 të laboratorit kinez të IA-së DeepSeek. Qwen3-32B e tejkalon modelin o1 të OpenAI në disa teste, duke përfshirë edhe testin standard të kodimit LiveCodeBench.

Alibaba tha se Qwen3 “shkëlqen” në aftësitë e thirrjes së mjeteve, si dhe në ndjekjen e udhëzimeve dhe kopjimin e formateve specifike të të dhënave. Përveç modeleve për shkarkim, Qwen3 është i disponueshëm nga ofruesit e shërbimeve cloud, duke përfshirë Fireworks AI dhe Hyperbolic.

Tuhin Srivastava, bashkëthemelues dhe drejtor ekzekutiv i ofruesit të shërbimeve cloud të inteligjencës artificiale, Baseten, tha se Qwen3 është një tjetër pikë në linjën e trendit të modeleve të hapura që ecin në ritëm me sistemet me burim të mbyllur, siç janë OpenAI.

“SHBA-të po dyfishojnë kufizimin e shitjeve të çipave në Kinë dhe blerjeve nga Kina, por modele si Qwen 3 që janë të teknologjisë së fundit dhe të hapura […] padyshim që do të përdoren brenda vendit”, tha ai për TechCrunch. “Kjo pasqyron realitetin se bizneset po ndërtojnë mjetet e tyre [si dhe] po blejnë produkte të gatshme nëpërmjet kompanive me model të mbyllur si Anthropic dhe OpenAI.”