Anthropic prezanton Claude Sonnet 5
Claude Sonnet 5 është ndërtuar për të qenë modeli më agjent i Sonnetit deri më tani. Ai mund të bëjë plane, të përdorë mjete si shfletues dhe terminale, dhe të funksionojë në mënyrë autonome në një nivel që, vetëm pak muaj më parë, kërkonte modele më të mëdha dhe më të shtrenjta.
Për shumë zhvillues, epoka e inteligjencës artificiale agjentike filloi me modelet e klasës Sonnet: Claude Sonnet 3.5, 3.6 dhe 3.7 ishin modelet e para që treguan aftësi mbresëlënëse në kodim dhe përdorim të mjeteve. Megjithatë, kohët e fundit, përparimet më të qarta në aftësitë agjentike kanë qenë në modelet tona të klasës Opus.
Sonnet 5 ngushton hendekun: performanca e tij është e afërt me atë të Opus 4.8, por me çmime më të ulëta. Është një përmirësim i konsiderueshëm krahasuar me paraardhësin e tij, Sonnet 4.6, në aspekte të rëndësishme të performancës agjentike si arsyetimi, përdorimi i mjeteve, kodimi dhe puna me njohuritë:

Vlerësimet tona të sigurisë zbuluan se Sonnet 5 tregon një shkallë përgjithësisht më të ulët të sjelljeve të padëshirueshme sesa Sonnet 4.6 dhe është përgjithësisht më i sigurt për t’u përdorur në kontekste agjentike. Vlerësimet tregojnë gjithashtu se ai ka një aftësi shumë më të ulët për të kryer detyra të sigurisë kibernetike sesa modelet tona aktuale Opus.
Nga sot, Claude Sonnet 5 është i disponueshëm në të gjitha planet: është modeli parazgjedhur për planet Free dhe Pro, dhe është i disponueshëm për përdoruesit Max, Team dhe Enterprise. Është gjithashtu i disponueshëm në Claude Code dhe në Platformën Claude, ku lançohet me çmimin hyrës prej 2 dollarë për milion tokena hyrëse dhe 10 dollarë për milion tokena dalëse deri më 31 gusht 2026, pas së cilës do të ketë çmim 3 dollarë për milion tokena hyrëse dhe 15 dollarë për milion tokena dalëse. Zhvilluesit mund ta përdorin claude-sonnet-5përmes Claude API.
Grafikët më poshtë krahasojnë performancën e Sonnet 5 me Sonnet 4.6 dhe Opus 4.8 në nivele të ndryshme përpjekjesh në vlerësimin e kërkimit agjent BrowseComp dhe vlerësimin e përdorimit të kompjuterit OSWorld-Verified. Sonnet 5 (vija portokalli) është një përmirësim i rreptë ndaj Sonnet 4.6 (vija gri) dhe mbulon një gamë shumë më të gjerë opsionesh kosto-performancë sesa Opus 4.8 (vija e verdhë). Ai ofron efikasitet të përmirësuar ndjeshëm të kostos me përpjekje mesatare; performanca e tij me përpjekje më të lartë mund të përputhet me Opus 4.8 në disa detyra. Midis Sonnet 5 dhe Opus 4.8, përdoruesit mund të rregullojnë nivelin e përpjekjes për të gjetur ekuilibrin e duhur midis kostos dhe performancës.

Reagimet nga partnerët tanë të aksesit të hershëm kanë qenë të qëndrueshme: Sonnet 5 është shumë më agjent se paraardhësit e tij. Testuesit përshkruan se si i përfundon detyrat komplekse aty ku modelet e mëparshme të Sonnet do të ndaleshin, si e kontrollon rezultatin e vet pa iu kërkuar në mënyrë të qartë dhe si e bën të gjithë këtë punë agjente me një çmim tërheqës.
Vlerësimet tona të sigurisë para vendosjes zbuluan se Sonnet 5 ishte në përgjithësi një përmirësim në krahasim me Sonnet 4.6. Për sa i përket sigurisë agjentike, modeli është më i mirë në refuzimin e kërkesave keqdashëse dhe në rezistencën ndaj përpjekjeve të rrëmbimit në sulmet e injektimit të menjëhershëm. Modeli tregon shkallë më të ulëta të halucinacioneve dhe servilizmit sesa Sonnet 4.6. Në auditimin tonë të automatizuar të sjelljes, i cili teston një gamë të gjerë sjelljesh të çrregullta, siç është bashkëpunimi me keqpërdorimin dhe mashtrimin, Sonnet 5 shënoi një rezultat më të ulët (domethënë më të sigurt) në përgjithësi. Megjithatë, ai tregoi shkallë disi më të larta të sjelljes së çrregullt në këtë vlerësim krahasuar me Opus 4.8 dhe Claude Mythos Preview më të aftë.

Ne nuk e trajnuam qëllimisht Sonnet 5 për detyrat e sigurisë kibernetike. Ai mund të kryejë disa detyra rutinë, jo të dëmshme kibernetike, por në vlerësimet që testojnë aftësi kibernetike potencialisht të rrezikshme, siç është zhvillimi i shfrytëzimeve të softuerëve, ai tregon performancë dukshëm më të dobët sesa modele të tilla si Opus 4.8 dhe Mythos 5. Rezultatet nga një vlerësim, i cili testoi aftësinë e modeleve për të zhvilluar shfrytëzime për dobësitë në shfletuesin Firefox, tregohen në grafikun më poshtë. Sonnet 5 nuk ishte kurrë në gjendje të zhvillonte një shfrytëzim të plotë funksional, por tregon një shkallë pak më të lartë suksesi të pjesshëm sesa Sonnet 4.6. Ky ndryshim i fundit ka të ngjarë të jetë për shkak të përmirësimeve në inteligjencën e përgjithshme sesa në trajnim specifik.

Meqenëse Sonnet 5 është disi më i fortë se paraardhësi i tij në këto detyra, ne e kemi lançuar atë me mbrojtje kibernetike të aktivizuara si parazgjedhje. Këto mbrojtje – të cilat zbulojnë dhe bllokojnë përdorimin e rrezikshëm kibernetik në kohë reale – janë të njëjta me ato të pranishme në Claude Opus 4.7 dhe 4.8 (meqenëse gjykuam se niveli i përgjithshëm i rrezikut të sigurisë kibernetike nga Sonnet 5 ishte i ulët, mbrojtjet janë më pak të rrepta se ato të lançuara me Fable 5, të cilat bllokojnë një gamë shumë më të gjerë detyrash të sigurisë kibernetike). 1
Vlerësimi ynë i plotë i Sonnet 5 në shumë vlerësime të sigurisë dhe aftësive është raportuar në Kartën e Sistemit Claude Sonnet 5.
Claude Sonnet 5 është i disponueshëm kudo sot me një çmim hyrës prej 2 dollarësh për milion tokenë hyrës dhe 10 dollarë për milion tokenë dalës deri më 31 gusht 2026. Më pas kalon në çmimin standard prej 3 dollarësh për milion tokenë hyrës dhe 15 dollarë për milion tokenë dalës. Ne kemi rritur kufijtë e tarifave në Chat, Cowork, Claude Code dhe Claude Platform për të akomoduar përdorimin më të lartë të tokenëve të niveleve më të larta të përpjekjeve; përdoruesit mund të zgjedhin cilindo nivel që ka kuptim për projektin e tyre të veçantë.
