Modeli i ri i AI i Anthropic mund të kontrollojë kompjuterin tuaj

foto

Në një fjalim drejtuar investitorëve pranverën e kaluar, Anthropic tha se synonte të ndërtonte AI për të fuqizuar asistentë virtualë që mund të kryejnë kërkime, t’u përgjigjen emaileve dhe të trajtojnë vetë punët e tjera në zyrën e pasme. Kompania iu referua këtij si një “algoritëm i gjeneratës tjetër për vetë-mësimin e AI” një që besonte se, nëse gjithçka shkon sipas planit, një ditë mund të automatizojë pjesë të mëdha të ekonomisë.

U desh pak kohë, por AI po fillon të arrijë.

Anthropic lëshoi ​​të martën një version të përmirësuar të modelit të tij Claude 3.5 Sonnet që mund të kuptojë dhe ndërveprojë me çdo aplikacion desktopi. Nëpërmjet një API-je të re “Përdorimi i kompjuterit”, tani në beta të hapur, modeli mund të imitojë goditjet e tasteve, klikimet e butonave dhe gjestet e miut, duke imituar në thelb një person të ulur në një PC.

“Ne e trajnuam Claude-n të shihte se çfarë po ndodh në një ekran dhe më pas të përdorim mjetet softuerike të disponueshme për të kryer detyrat,” shkroi Anthropic në një postim në blog të ndarë me TechCrunch. “Kur një zhvillues e ngarkon Claude-in duke përdorur një pjesë të softuerit kompjuterik dhe i jep aksesin e nevojshëm, Claude shikon pamjet e ekranit të asaj që është e dukshme për përdoruesin dhe më pas numëron sa pikselë vertikalisht ose horizontalisht i nevojiten për të lëvizur kursorin për të klikuar në vendi i duhur.”

Zhvilluesit mund të provojnë përdorimin e kompjuterit përmes API-së së Anthropic, Amazon Bedrock dhe platformës Vertex AI të Google Cloud. Soneti i ri 3.5 pa përdorim kompjuteri po shpërndahet në aplikacionet Claude dhe sjell përmirësime të ndryshme të performancës në krahasim me modelin 3.5 Sonnet në dalje.

Një mjet që mund të automatizojë detyrat në një PC nuk është një ide e re. Kompani të panumërta ofrojnë mjete të tilla, nga shitësit e vjetër të RPA-së deri te kompanitë më të reja si Relay , Induced AI dhe Automat.

Në garën për të zhvilluar të ashtuquajturit “agjentë të AI”, fusha është bërë më e mbushur me njerëz. Agjentët e AI mbetet një term i keqpërcaktuar, por në përgjithësi i referohet AI që mund të automatizojë softuerin.

Disa analistë thonë se agjentët e AI mund t’u ofrojnë kompanive një rrugë më të lehtë për të fituar para nga miliarda dollarët që ata po derdhin në AI. Kompanitë duket se janë dakord: Sipas një sondazhi të fundit të Capgemini, 10% e organizatave përdorin tashmë agjentë të AI dhe 82% do t’i integrojnë ata brenda tre viteve të ardhshme.

Salesforce bëri njoftime të zhurmshme në lidhje me teknologjinë e agjentëve të AI këtë verë, ndërsa Microsoft promovoi mjete të reja për ndërtimin e agjentëve të AI dje. OpenAI, i cili po planifikon markën e vet të agjentëve të AI , e sheh teknologjinë si një hap drejt AI super-inteligjente.

Anthropic e quan konceptin e agjentit të AI një “shtresë veprimi-ekzekutimi” që lejon Sonetin e ri 3.5 të kryejë komanda të nivelit të desktopit. Falë aftësisë së tij për të shfletuar ueb (jo i pari për modelet e AI, por i pari për Anthropic), 3.5 Sonnet mund të përdorë çdo faqe interneti dhe çdo aplikacion.

foto

“Njerëzit mbeten në kontroll duke ofruar kërkesa specifike që drejtojnë veprimet e Claude, si ‘përdor të dhëna nga kompjuteri im dhe në internet për të plotësuar këtë formular’,” tha një zëdhënës i Anthropic për TechCrunch. “Njerëzit mundësojnë aksesin dhe kufizojnë aksesin sipas nevojës. Claude zbërthen kërkesat e përdoruesit në komanda kompjuterike (p.sh. lëvizja e kursorit, klikimi, shtypja) për të përmbushur atë detyrë specifike.”

Platforma e zhvillimit të softuerit Replit ka përdorur një version të hershëm të modelit të ri 3.5 Sonnet për të krijuar një “verifikues autonom” që mund të vlerësojë aplikacionet ndërsa ato janë duke u ndërtuar. Ndërkohë, Canva thotë se është duke eksploruar mënyra në të cilat modeli i ri mund të jetë në gjendje të mbështesë procesin e projektimit dhe redaktimit.

Por si është kjo ndryshe nga agjentët e tjerë të AI atje? Është një pyetje e arsyeshme. Fillimi i pajisjeve të konsumatorit Rabbit po ndërton një agjent ueb që mund të bëjë gjëra të tilla si blerja e biletave të filmit në internet; Adept , i cili u punësua së fundi nga Amazon, trajnon modelet për të shfletuar faqet e internetit dhe për të naviguar softuerët; dhe Twin Labs po përdor modele jashtë raftit, duke përfshirë GPT-4o të OpenAI, për të automatizuar proceset në desktop.

Anthropic pretendon se Soneti i ri 3.5 është thjesht një model më i fortë, më i fortë që mund të bëjë më mirë detyrat e kodimit sesa o1 flamuri i OpenAI-t, sipas standardit SWE-bench Verified. Pavarësisht se nuk është trajnuar në mënyrë eksplicite për ta bërë këtë, Soneti i azhurnuar 3.5 korrigjon dhe riprovon detyrat kur has në pengesa dhe mund të punojë drejt objektivave që kërkojnë dhjetëra ose qindra hapa.

foto

Por mos e pushoni ende sekretaren.

Në një vlerësim të krijuar për të testuar aftësinë e një agjenti të AI për të ndihmuar me detyrat e rezervimit të linjave ajrore, si modifikimi i një rezervimi fluturimi, Soneti i ri 3.5 arriti të përfundojë me sukses më pak se gjysmën e detyrave. Në një test të veçantë që përfshin detyra si fillimi i një kthimi, 3.5 Sonnet dështoi afërsisht një të tretën e kohës.

Anthropic pranon se Soneti i përmirësuar 3.5 ka probleme me veprimet bazë si lëvizja dhe zmadhimi, dhe se mund të humbasë veprimet dhe njoftimet “jetëshkurtra” për shkak të mënyrës se si merr pamjet e ekranit dhe i bashkon ato.

“Përdorimi i kompjuterit i Claude mbetet i ngadalshëm dhe shpesh i prirur ndaj gabimeve,” shkruan Anthropic në postimin e tij. “Ne inkurajojmë zhvilluesit të fillojnë eksplorimin me detyra me rrezik të ulët.”

Por a është Soneti i ri 3.5 mjaftueshëm i aftë për të qenë i rrezikshëm? Mundësisht.

Një studim i kohëve të fundit zbuloi se modelet pa aftësinë për të përdorur aplikacione desktop, si GPT-4o i OpenAI, ishin të gatshëm të përfshiheshin në “sjellje agjentësh me shumë hapa” të dëmshëm, të tillë si porositja e një pasaporte false nga dikush në rrjetin e errët, kur “sulmoheshin”. ” duke përdorur teknika jailbreaking . Jailbreaks çuan në nivele të larta suksesi në kryerjen e detyrave të dëmshme edhe për modelet e mbrojtura nga filtra dhe masa mbrojtëse, sipas studiuesve.

Dikush mund të imagjinojë se si një model me akses në desktop mund të bëjë më shumë kërdi – të themi, duke shfrytëzuar dobësitë e aplikacionit për të komprometuar informacionin personal (ose duke ruajtur bisedat në tekst të thjeshtë ). Përveç levave të softuerit që disponon, lidhjet në internet dhe aplikacionet e modelit mund të hapin rrugë për jailbreakers me qëllim të keq.

Anthropic nuk e mohon se ka rrezik në nxjerrjen e Sonetit të ri 3.5. Por kompania argumenton se përfitimet e vëzhgimit se si përdoret modeli në natyrë, përfundimisht e tejkalojnë këtë rrezik.

“Ne mendojmë se është shumë më mirë t’u jepet akses në kompjuter modeleve të sotme më të kufizuara, relativisht më të sigurta,” shkroi kompania. “Kjo do të thotë që ne mund të fillojmë të vëzhgojmë dhe të mësojmë nga çdo problem i mundshëm që lind në këtë nivel më të ulët, duke ndërtuar gradualisht dhe njëkohësisht masa për përdorimin e kompjuterit dhe sigurinë.”

foto

Anthropic thotë gjithashtu se ka ndërmarrë hapa për të penguar keqpërdorimin, si mostrajnimi i Sonetit të ri 3.5 mbi pamjet e ekranit dhe kërkesat e përdoruesve dhe parandalimi i modelit që të hyjë në ueb gjatë trajnimit. Kompania thotë se ka zhvilluar klasifikues për të “shtyrë” Sonetin 3.5 larg veprimeve të perceptuara si me rrezik të lartë, të tilla si postimi në mediat sociale, krijimi i llogarive dhe ndërveprimi me faqet e internetit të qeverisë.

Me afrimin e zgjedhjeve të përgjithshme në SHBA, Anthropic thotë se është fokusuar në zbutjen e abuzimit të modeleve të saj lidhur me zgjedhjet. Instituti Amerikan i Sigurisë së AI dhe Instituti i Sigurisë në Mbretërinë e Bashkuar, dy agjenci qeveritare të veçanta, por aleate, të dedikuara për vlerësimin e rrezikut të modelit të AI, testuan Sonetin e ri 3.5 përpara vendosjes së tij.

Anthropic i tha TechCrunch se ka aftësinë të kufizojë aksesin në faqet e internetit dhe veçoritë shtesë “nëse është e nevojshme”, për t’u mbrojtur nga spam, mashtrimi dhe dezinformata, për shembull. Si një masë paraprake sigurie, kompania ruan çdo pamje ekrani të kapur nga Përdorimi i Kompjuterit për të paktën 30 ditë – një periudhë ruajtjeje që mund të alarmojë disa zhvillues.

Ne pyetëm Anthropic në cilat rrethana, nëse ka, do t’i dorëzonte pamjet e ekranit një pale të tretë (p.sh. zbatimi i ligjit) nëse kërkohet. Një zëdhënës tha se kompania do të “përputhet me kërkesat për të dhëna në përgjigje të procesit të vlefshëm ligjor”.

“Nuk ka metoda të pagabueshme, dhe ne do të vlerësojmë dhe përsërisim vazhdimisht masat tona të sigurisë për të balancuar aftësitë e Claude me përdorimin e përgjegjshëm,” tha Anthropic. “Ata që përdorin versionin e përdorimit të kompjuterit të Claude duhet të marrin masat paraprake përkatëse për të minimizuar këto lloj rreziqesh, duke përfshirë izolimin e Claude nga të dhënat veçanërisht të ndjeshme në kompjuterin e tyre.”

Shpresojmë, kjo do të jetë e mjaftueshme për të parandaluar që të ndodhë më e keqja.

Titulli i sotëm mund të ketë qenë modeli i përmirësuar 3.5 Sonnet, por Anthropic tha gjithashtu se një version i përditësuar i Haiku, modeli më i lirë dhe më efikas në serinë e tij Claude, është në rrugë e sipër.

Claude 3.5 Haiku, që pritet në javët e ardhshme, do të përputhet me performancën e Claude 3 Opus, dikur modeli më i avancuar i Anthropic, në standarde të caktuara me të njëjtën kosto dhe “shpejtësi të përafërt” të Claude 3 Haiku.

“Me vonesë të ulët, udhëzime të përmirësuara në vijim dhe përdorim më të saktë të veglave, Claude 3.5 Haiku është i përshtatshëm për produktet që përballen me përdoruesit, detyrat e specializuara të nën-agjentëve dhe gjenerimin e përvojave të personalizuara nga vëllime të mëdha të dhënash – si historia e blerjeve, çmimet ose të dhënat e inventarit, “shkroi Anthropic në një postim në blog.

3.5 Haiku fillimisht do të jetë i disponueshëm si model vetëm me tekst dhe më vonë si pjesë e një pakete multimodale që mund të analizojë tekstin dhe imazhet.

Pra, sapo të jetë i disponueshëm Haiku 3.5, a do të ketë shumë arsye për të përdorur 3 Opus? Po 3.5 Opus, pasardhësi i 3 Opus, të cilin Anthropic e ngacmoi në qershor?

“Të gjitha modelet në familjen e modeleve Claude 3 kanë përdorimet e tyre individuale për klientët,” tha zëdhënësi i Anthropic. “Claude 3.5 Opus është në udhërrëfyesin tonë dhe ne do të jemi të sigurt që të ndajmë më shumë sa më shpejt që të mundemi.”