Anthropic zbulon Claude Opus 4.7

foto

Modeli ynë më i fundit, Claude Opus 4.7, tani është i disponueshëm gjerësisht.

Opus 4.7 është një përmirësim i dukshëm në krahasim me Opus 4.6 në inxhinierinë e avancuar të softuerëve, me përfitime të veçanta në detyrat më të vështira. Përdoruesit raportojnë se janë në gjendje t’ia kalojnë punën e tyre më të vështirë të kodimit – llojin që më parë kërkonte mbikëqyrje të ngushtë – Opus 4.7 me besim. Opus 4.7 trajton detyra komplekse dhe afatgjata me rigorozitet dhe qëndrueshmëri, i kushton vëmendje të saktë udhëzimeve dhe harton mënyra për të verifikuar rezultatet e veta para se të raportojë.

Modeli gjithashtu ka një shikim dukshëm më të mirë: mund të shohë imazhe me rezolucion më të madh. Është më i shijshëm dhe kreativ kur kryen detyra profesionale, duke prodhuar ndërfaqe, diapozitiva dhe dokumente me cilësi më të lartë. Dhe – megjithëse është më pak i aftë të përdoret gjerësisht sesa modeli ynë më i fuqishëm, Claude Mythos Preview – ai tregon rezultate më të mira se Opus 4.6 në një gamë të gjerë testesh:

foto

Javën e kaluar njoftuam Projektin Glasswing, duke theksuar rreziqet – dhe përfitimet – e modeleve të IA-së për sigurinë kibernetike. Ne deklaruam se do ta mbanim të kufizuar publikimin e Claude Mythos Preview dhe do të testonim fillimisht mbrojtjet e reja kibernetike në modele më pak të afta. Opus 4.7 është modeli i parë i tillë: aftësitë e tij kibernetike nuk janë aq të përparuara sa ato të Mythos Preview (në fakt, gjatë trajnimit të tij ne eksperimentuam me përpjekjet për të zvogëluar në mënyrë të ndryshme këto aftësi). Ne po publikojmë Opus 4.7 me mbrojtje që zbulojnë dhe bllokojnë automatikisht kërkesat që tregojnë përdorime të ndaluara ose me rrezik të lartë të sigurisë kibernetike. Ajo që mësojmë nga vendosja në botën reale e këtyre mbrojtjeve do të na ndihmojë të punojmë drejt qëllimit tonë përfundimtar për një publikim të gjerë të modeleve të klasës Mythos.

Profesionistët e sigurisë që dëshirojnë të përdorin Opus 4.7 për qëllime legjitime të sigurisë kibernetike (siç janë hulumtimi i dobësive, testimi i depërtimit dhe red-teaming) janë të ftuar të bashkohen me Programin tonë të ri të Verifikimit Kibernetik.

Opus 4.7 është i disponueshëm sot në të gjitha produktet Claude dhe API-në tonë, Amazon Bedrock, Vertex AI të Google Cloud dhe Microsoft Foundry. Çmimi mbetet i njëjtë me Opus 4.6: 5 dollarë për milion tokena hyrëse dhe 25 dollarë për milion tokena dalëse. Zhvilluesit mund ta përdorin claude-opus-4-7 nëpërmjet Claude API.

Claude Opus 4.7 ka marrë reagime të forta nga testuesit tanë të aksesit të hershëm.

Më poshtë janë disa nga pikat kryesore dhe shënimet nga testimet tona të hershme të Opus 4.7:

Ndjekja e udhëzimeve. Opus 4.7 është dukshëm më i mirë në ndjekjen e udhëzimeve. Është interesante se kjo do të thotë që udhëzimet e shkruara për modelet e mëparshme ndonjëherë mund të prodhojnë rezultate të papritura: ndërsa modelet e mëparshme i interpretonin udhëzimet lirshëm ose anashkalonin pjesë tërësisht, Opus 4.7 i merr udhëzimet fjalë për fjalë. Përdoruesit duhet t’i riakordojnë udhëzimet dhe t’i përdorin ato në përputhje me rrethanat.

Mbështetje e përmirësuar multimodale . Opus 4.7 ka shikim më të mirë për imazhe me rezolucion të lartë: mund të pranojë imazhe deri në 2,576 piksel në skajin e gjatë (~3.75 megapiksel), më shumë se tre herë më shumë se modelet e mëparshme Claude. Kjo hap një mori përdorimesh multimodale që varen nga detajet e imëta vizuale: agjentë të përdorimit të kompjuterit që lexojnë pamje të dendura të ekranit, nxjerrje të dhënash nga diagrame komplekse dhe punë që kërkon referenca perfekte në piksel.

Punë në botën reale. Përveç rezultatit të tij më të fundit në vlerësimin e Agjentit Financiar (shih tabelën më sipër), testimi ynë i brendshëm tregoi se Opus 4.7 është një analist financiar më efektiv sesa Opus 4.6, duke prodhuar analiza dhe modele rigoroze, prezantime më profesionale dhe integrim më të ngushtë midis detyrave. Opus 4.7 është gjithashtu më i fundit në GDPval-AA, një vlerësim i palës së tretë i punës me njohuri të vlefshme ekonomikisht në të gjitha fushat e financës, ligjit dhe fusha të tjera.

Kujtesa. Opus 4.7 është më i mirë në përdorimin e kujtesës së bazuar në sistemin e skedarëve. Ai mban mend shënime të rëndësishme gjatë punës së gjatë me shumë seanca dhe i përdor ato për të kaluar në detyra të reja që, si rezultat, kërkojnë më pak kontekst të përditësuar.

Grafikët më poshtë shfaqin më shumë rezultate vlerësimi nga testimet tona para publikimit, në një gamë të gjerë fushash të ndryshme:

foto

Në përgjithësi, Opus 4.7 tregon një profil sigurie të ngjashëm me Opus 4.6: vlerësimet tona tregojnë shkallë të ulëta të sjelljes shqetësuese si mashtrimi, servilizmi dhe bashkëpunimi me keqpërdorimin. Në disa masa, të tilla si ndershmëria dhe rezistenca ndaj sulmeve dashakeqe të “injektimit të shpejtë”, Opus 4.7 është një përmirësim në krahasim me Opus 4.6; në të tjera (siç është tendenca e tij për të dhënë këshilla tepër të detajuara për reduktimin e dëmit mbi substancat e kontrolluara), Opus 4.7 është pak më i dobët. Vlerësimi ynë i përputhshmërisë arriti në përfundimin se modeli është “kryesisht i përputhur mirë dhe i besueshëm, megjithëse jo plotësisht ideal në sjelljen e tij”. Vini re se Mythos Preview mbetet modeli më i përputhur që kemi trajnuar sipas vlerësimeve tona. Vlerësimet tona të sigurisë diskutohen plotësisht në Kartën e Sistemit Claude Opus 4.7.

foto

Përveç vetë Claude Opus 4.7, po lançojmë përditësimet e mëposhtme:

Më shumë kontroll përpjekjeje: Opus 4.7 prezanton një nivel të ri përpjekjeje (“jashtëzakonisht të lartë”) midis dhe, duke u dhënë përdoruesve kontroll më të imët mbi kompromisin midis arsyetimit dhe latencës në problemet e vështira. Në Claude Code, ne e kemi ngritur nivelin e parazgjedhur të përpjekjes në për të gjitha planet. Kur testoni Opus 4.7 për raste kodimi dhe përdorimi agjentësh, ne rekomandojmë të filloni me ose përpjekje.

Në Platformën Claude (API): përveç mbështetjes për imazhe me rezolucion më të lartë, po lançojmë edhe buxhetet e detyrave në beta publike, duke u dhënë zhvilluesve një mënyrë për të udhëhequr shpenzimet e Claude për token-et në mënyrë që të mund të përparësojnë punën në periudha më të gjata.

Në Claude Code: Komanda e re slash prodhon një seancë të dedikuar shqyrtimi që lexon ndryshimet dhe sinjalizon gabimet dhe problemet e dizajnit që një shqyrtues i kujdesshëm do t’i kapte. Po u japim përdoruesve të Pro dhe Max Claude Code tre ultrashqyrtime falas për ta provuar. Përveç kësaj, e kemi zgjeruar modalitetin automatik për përdoruesit Max. Modaliteti automatik është një opsion i ri lejesh ku Claude merr vendime në emrin tuaj, që do të thotë se ju mund të kryeni detyra më të gjata me më pak ndërprerje – dhe me më pak rrezik sesa nëse do të kishit zgjedhur të anashkalonit të gjitha lejet.

Opus 4.7 është një përmirësim i drejtpërdrejtë i Opus 4.6, por ia vlen të planifikohen dy ndryshime sepse ato ndikojnë në përdorimin e tokenëve. Së pari, Opus 4.7 përdor një tokenizues të përditësuar që përmirëson mënyrën se si modeli përpunon tekstin. Kompromisi është se e njëjta hyrje mund të lidhet me më shumë tokena – afërsisht 1.0–1.35× në varësi të llojit të përmbajtjes. Së dyti, Opus 4.7 mendon më shumë në nivele më të larta përpjekjesh, veçanërisht në kthesat e mëvonshme në mjediset agjentike. Kjo përmirëson besueshmërinë e tij në problemet e vështira, por do të thotë se prodhon më shumë tokena dalës.

Përdoruesit mund të kontrollojnë përdorimin e tokenëve në mënyra të ndryshme: duke përdorur parametrin e përpjekjes, duke rregulluar buxhetet e detyrave të tyre ose duke e nxitur modelin të jetë më konciz. Në testimin tonë, efekti neto është i favorshëm – përdorimi i tokenëve në të gjitha nivelet e përpjekjes është përmirësuar në një vlerësim të kodimit të brendshëm, siç tregohet më poshtë – por ne rekomandojmë matjen e ndryshimit në trafikun real. Ne kemi shkruar një udhëzues migrimi që ofron këshilla të mëtejshme për përmirësimin nga Opus 4.6 në Opus 4.7.

foto