Anthropic konfirmon problemet me Claude Code dhe premton kontrolle më të rrepta të cilësisë
Përdoruesit u ankuan për rënien e cilësisë në Claude Code. Anthropic identifikoi dhe rregulloi tre burime të veçanta gabimi. Kompania premton kontrolle më të rrepta të cilësisë në të ardhmen.

Gjatë muajit të kaluar, një numër gjithnjë e në rritje përdoruesish raportuan se mjeti i kodimit Claude Code i Anthropic po jepte rezultate dukshëm më të këqija. Anthropic tani ka paraqitur shkaqet në një analizë të detajuar pasuese: tre ndryshime të pavarura në Claude Code, SDK-në e Agjentit Claude dhe Claude Cowork u kombinuan për të krijuar një rënie të ndjeshme të cilësisë. Vetë API nuk u prek, sipas Anthropic. Të tre problemet janë rregulluar që nga 20 prilli me versionin 2.1.116.

Problemi i parë daton që nga 4 marsi. Anthropic uli përpjekjen e parazgjedhur të arsyetimit nga “i lartë” në “mesatar” sepse disa përdorues po përjetonin vonesë ekstreme në modalitetin e lartë. Testimi i brendshëm kishte treguar se modaliteti i mesëm jepte vetëm rezultate pak më të këqija në shumicën e detyrave, duke ulur ndjeshëm vonesën. Kompromisi nuk ia doli: përdoruesit raportuan shpejt se Claude Code ndihej më pak inteligjent. Më 7 prill, Anthropic e anuloi përgjithmonë ndryshimin.
Problemi i dytë ishte një gabim në një optimizim të ruajtjes në memorje të dërguar më 26 mars. Plani ishte që seksionet e vjetra të arsyetimit të fshiheshin një herë pas një ore pasiviteti për të zvogëluar vonesën gjatë rifillimit të një seance. Një gabim kodimi bëri që historiku i arsyetimit të fshihej në çdo kthesë pasuese.
Claude humbi gradualisht kontekstin në lidhje me vendimet e veta. Përdoruesit vunë re harresë, përsëritje dhe zgjedhje të çuditshme mjetesh. Për më tepër, gabimet në memorien e përkohshme që rezultuan i kaluan kufijtë e përdorimit më shpejt se sa pritej. Sipas Anthropic, gabimi kaloi nëpër rishikime pa u zbuluar dhe nuk u rregullua deri më 10 prill.
Një problem i tretë u shfaq më 16 prill: një udhëzim i shpejtë i sistemit që synonte të frenonte shumëkuptimësinë e njohur të Opus 4.7. Rreshti shkruante: “Kufijtë e gjatësisë: mbajeni tekstin midis thirrjeve të mjeteve në ≤25 fjalë. Mbajini përgjigjet përfundimtare në ≤100 fjalë, përveç nëse detyra kërkon më shumë detaje.” Testimet e mëvonshme me një suitë më të gjerë vlerësimi zbuluan një rënie të cilësisë prej 3 përqind. Anthropic e anuloi ndryshimin më 20 prill.
Meqenëse çdo ndryshim preku grupe të ndryshme përdoruesish në kohë të ndryshme, efekti i kombinuar u ndie si një rënie e paqartë dhe graduale që fillimisht ishte e vështirë të dallohej nga ndryshimi normal.
Duke shkuar përpara, Anthropic thotë se më shumë punonjës do të përdorin versionin e saktë publik të Claude Code në vend të versioneve të testimit të brendshëm. Çdo ndryshim i sistemit tani do të duhet të kalojë një suitë vlerësimi të gjerë, specifike për modelin.
Për ndryshimet që mund të ndikojnë në inteligjencën, Anthropic planifikon të prezantojë periudha të azhurnimit dhe shpërndarje graduale. Si kompensim, kompania ka rivendosur kufijtë e përdorimit për të gjithë abonentët.
Anthropic krijoi gjithashtu llogarinë X @ClaudeDevs për të komunikuar vendimet e produkteve në mënyrë më transparente.
Kjo nuk është hera e parë që përdoruesit ankohen për rënien e cilësisë së inteligjencës artificiale. Në gjysmën e dytë të vitit 2023, përdoruesit akuzuan OpenAI se e kishte bërë GPT-4 “më të dobët” me kalimin e kohës. OpenAI mohoi të kishte bërë ndryshime të rëndësishme në modelet e saj pas publikimit.
Claude është përballur me ankesa të ngjashme më parë , me gabime në infrastrukturë si fajtore. Rasti aktual përforcon një model: ajo që përdoruesit e perceptojnë si regresione të modelit shpesh rezulton të jetë ndryshime në shtresën e mjeteve ose infrastrukturën dhe jo në vetë modelet. Në përdorimin në botën reale, përdoruesit përfitojnë nga skelat si Claude Code sepse drejton aftësitë e modelit dhe ofron kontekstin e duhur. Kur kjo skela prishet, ndodh e kundërta. Shtoni ndryshime nga ana e shitësit si rregullimi i thellësisë së arsyetimit të Anthropic dhe efekti përkeqësohet.
Motivimi pas ndryshimeve të tilla lidhet gjithnjë e më shumë me një krizë të përgjithshme të informatikës në industri. Disponueshmëria e API-t të Anthropic kohët e fundit ishte vetëm 98.95 përqind – shumë më poshtë standardit të industrisë së cloud prej 99.99 përqind. Çmimet orare të GPU-ve në tregun spot u rritën me 48 përqind sipas Indeksit të Çmimeve të Ornn Compute, dhe analistët e Bank of America presin që kërkesa të tejkalojë furnizimin deri të paktën në vitin 2029. OpenAI po mbyll aplikacionin e saj të gjenerimit të videove Sora për të liruar informatikën për kodimin dhe produktet e ndërmarrjeve. GitHub gjithashtu ndaloi regjistrimet e reja për disa nivele të Copilot.
Ky presion po i trondit gjithashtu modelet e çmimeve. Kreu i rritjes në Anthropic pranoi së fundmi se planet ekzistuese Pro dhe Max nuk ishin ndërtuar për ngarkesat aktuale të punës së agjentëve, pasi ato u krijuan përpara se të ekzistonin mjetet që kërkojnë shumë punë kompjuterike si Claude Code. Kompania madje testoi shkurtimisht heqjen e aksesit në Claude Code për abonentët e rinj Pro, por e ndryshoi kursin pas reagimeve negative.
Ndërkohë, OpenAI dyfishoi çmimet e API-ve me GPT-5.5 krahasuar me paraardhësin e tij, duke ngarkuar 5 dollarë për milion tokena hyrëse dhe 30 dollarë për milion tokena dalëse. Epoka e tarifave të sheshta të lira për mjetet më të fuqishme të inteligjencës artificiale duket se po i vjen fundi.
