Ekipi Qwen i Alibaba lëshon modele të AI që mund të kontrollojnë kompjuterët dhe telefonat

foto

Laboratori kinez i AI DeepSeek mund të jetë duke marrë pjesën më të madhe të vëmendjes së industrisë së teknologjisë këtë javë. Por një nga rivalët e saj kryesorë vendas, Alibaba, nuk qëndron duarkryq.

foto

Ekipi Qwen i Alibaba lëshoi ​​të hënën një familje të re modelesh të AI, Qwen2.5-VL, që mund të kryejë një sërë detyrash të analizës së tekstit dhe imazhit. Modelet mund të analizojnë skedarët, të kuptojnë videot dhe të numërojnë objektet në imazhe, si dhe të kontrollojnë një PC – ngjashëm me modelin që fuqizon Operatorin e sapolançuar të OpenAI-t.

Sipas standardeve të ekipit Qwen, modeli më i mirë Qwen2.5-VL mund GPT-4o të OpenAI-t, Sonetin Claude 3.5 të Anthropic dhe Gemini 2.0 Flash të Google në një sërë të kuptuarit të videos, matematikës, analizës së dokumenteve dhe vlerësimeve me përgjigje pyetjesh.

foto

Qwen2.5-VL, i cili është i disponueshëm për t’u testuar në aplikacionin Qwen Chat të Alibaba-s dhe për t’u shkarkuar nga platforma e zhvilluesit të AI Hugging Face, mund të analizojë grafikët dhe grafika, të nxjerrë të dhëna nga skanimet e faturave dhe formularëve dhe “të kuptojë” disa orë të gjata. video, thotë ekipi i Qwen. Qwen2.5-VL gjithashtu mund të njohë “IP-të nga filmat dhe seritë televizive, si dhe një shumëllojshmëri të gjerë produktesh”, sipas ekipit – duke sugjeruar që modelet mund të jenë trajnuar pjesërisht për vepra të mbrojtura me të drejtë autori.

Qwen2.5-VL, duke qenë AI i zhvilluar nga një kompani kineze, ka kufizime të caktuara në temat që do të diskutojë – të paktën në Qwen Chat. Kur i kërkova modelit më të madh dhe më të aftë Qwen2.5-VL, Qwen2.5-VL-72B, të fliste për “gabimet e Xi Jinping”, Qwen Chat dërgoi një mesazh gabimi.

Rregullatori i internetit i Kinës vlerëson shumë modele të zhvilluara në vend për të siguruar që përgjigjet e tyre “të mishërojnë vlerat thelbësore socialiste”. Shumë sisteme kineze të inteligjencës artificiale refuzojnë t’i përgjigjen temave që mund të ngrenë zemërimin e rregullatorëve, siç është autonomia e Tajvanit.

Një nga veçoritë më interesante të Qwen2.5-VL është aftësia e tij për të bashkëvepruar me softuerin – si në PC ashtu edhe në pajisjet mobile. Një video e postuar në X nga Philipp Schmid, një drejtues teknik në Hugging Face, tregoi Qwen2.5-VL duke lëshuar aplikacionin Booking.com për Android dhe duke rezervuar një fluturim nga Chongqing në Pekin.

Në videon më poshtë, një model Qwen2.5-VL kontrollon aplikacionet në një desktop Linux – por duket se nuk arrin shumë përtej ndërrimit të skedave. Ndoshta në mënyrë domethënëse, krahasimi i Qwen tregon se Qwen2.5-VL ka rezultate të dobëta në OSWorld, një pikë referimi që përpiqet të imitojë një mjedis të vërtetë kompjuterik.

Dy modelet më të vogla, më pak të sofistikuara në serinë Qwen2.5-VL, Qwen2.5-VL-3B dhe Qwen2.5-VL-7B, janë të disponueshme me një licencë lejuese. Flamuri Qwen2.5-VL-72B, megjithatë, është nën licencën e personalizuar të Alibaba, e cila kërkon që kompanitë dhe zhvilluesit me më shumë se 100 milionë përdorues aktivë mujor të kërkojnë leje nga Qwen/Alibaba përpara se të vendosin modelin në treg.