OpenAI lëshon Operatorin, një agjent AI që mund të operojë kompjuterin tuaj

foto

Të enjten, OpenAI publikoi një vrojtim kërkimor të ” Operatorit “, një mjet automatizimi në internet që përdor një model të ri të AI të quajtur Agjenti i Përdorimit të Kompjuterit (CUA) për të kontrolluar kompjuterët përmes një ndërfaqe vizuale. Sistemi kryen detyra duke parë dhe ndërvepruar me elementë në ekran si butonat dhe fushat e tekstit të ngjashme me atë që do të bënte një njeri.

foto

Operatori është i disponueshëm sot për abonentët e planit ChatGPT Pro 200 dollarë në muaj në operator.chatgpt.com. Kompania planifikon të zgjerohet te përdoruesit e Plus, Team dhe Enterprise më vonë. OpenAI synon t’i integrojë këto aftësi drejtpërdrejt në ChatGPT dhe më vonë të lëshojë CUA përmes API-së së tij për zhvilluesit.

foto

Operatori shikon përmbajtjen në ekran ndërsa ju përdorni kompjuterin tuaj dhe ekzekuton detyrat përmes hyrjeve të simuluara të tastierës dhe miut. Agjenti që përdor kompjuterin përpunon pamjet e ekranit për të kuptuar gjendjen e kompjuterit dhe më pas merr vendime për klikimin, shtypjen dhe lëvizjen bazuar në vëzhgimet e tij.

Lëshimi i OpenAI ndjek kompanitë e tjera të teknologjisë ndërsa ato shtyjnë drejt atyre që shpesh quhen sisteme “agjentike” të AI, të cilat mund të ndërmarrin veprime në emër të një përdoruesi. Google njoftoi Project Mariner në dhjetor 2024, i cili kryen detyra të automatizuara përmes shfletuesit Chrome, dhe dy muaj më parë, në tetor 2024, Anthropic lançoi një mjet automatizimi në internet të quajtur “Përdorimi i kompjuterit” i fokusuar te zhvilluesit që mund të kontrollojnë kursorin e miut të një përdoruesi dhe të ndërmarrin veprime në një kompjuter.

“Ndërfaqja e operatorit duket shumë e ngjashme me demonstrimin e Claude Computer Use të Anthropic nga tetori,” shkroi studiuesi i AI Simon Willison në blogun e tij, “madje deri në ndërfaqen me një panel chat në të majtë dhe një ndërfaqe të dukshme me të cilën ndërveprohet në të djathtë. “

Për të përdorur kompjuterin tuaj si do të bënit, Agjenti i Përdorimit të Kompjuterit funksionon në disa hapa. Së pari, ai kap pamjet e ekranit për të monitoruar ekranin tuaj, më pas analizon ato imazhe (duke përdorur aftësitë e shikimit të GPT-4o me mësim shtesë përforcues) për të përpunuar të dhënat e papërpunuara të pikselit. Më pas, përcakton se çfarë veprimesh duhet të ndërmerren dhe më pas kryen hyrjet virtuale për të kontrolluar kompjuterin. Ky dizajn i përsëritur i qarkut thuhet se lejon sistemin të rikuperohet nga gabimet dhe të trajtojë detyra komplekse nëpër aplikacione të ndryshme.

Ndërsa është duke punuar, Operatori tregon një dritare miniaturë të shfletuesit të veprimeve të tij.

Megjithatë, teknologjia pas Operatorit është ende relativisht e re dhe larg nga perfektja. Modeli thuhet se performon më së miri në detyrat e përsëritura në internet, si krijimi i listave të blerjeve ose listave të luajtjes. Ai lufton më shumë me ndërfaqet e panjohura si tabelat dhe kalendarët, dhe nuk bën mirë me redaktimin kompleks të tekstit (me një shkallë suksesi prej 40 përqind), sipas të dhënave të testimit të brendshëm të OpenAI.

OpenAI raportoi se sistemi arriti një shkallë suksesi prej 87 për qind në standardin WebVoyager, i cili teston faqe të drejtpërdrejta si Amazon dhe Google Maps. Në WebArena , e cila përdor faqet e testimit offline për trajnimin e agjentëve autonomë, shkalla e suksesit të Operatorit ra në 58.1 përqind. Për detyrat e sistemit operativ kompjuterik, CUA vendosi një rekord të dukshëm prej 38.1 përqind suksesi në standardin OSWorld, duke tejkaluar modelet e mëparshme, por ende nuk ka performancë njerëzore në 72.4 përqind.

Me këtë vrojtim të papërsosur të kërkimit, OpenAI shpreson të mbledhë reagimet e përdoruesve dhe të përmirësojë aftësitë e sistemit. Kompania pranon se CUA nuk do të funksionojë në mënyrë të besueshme në të gjithë skenarët, por planifikon të përmirësojë besueshmërinë e saj në një gamë më të gjerë detyrash përmes testimit të përdoruesit.

Për çdo model të AI që mund të shohë se si e përdorni kompjuterin tuaj dhe madje kontrollon disa aspekte të tij, privatësia dhe siguria janë shumë të rëndësishme. OpenAI thotë se ka ndërtuar kontrolle të shumta sigurie në Operator, duke kërkuar konfirmimin e përdoruesit përpara se të kryejë veprime të ndjeshme si dërgimi i emaileve ose kryerja e blerjeve. Operatori gjithashtu ka kufizime në atë që mund të shfletojë, të vendosura nga OpenAI. Nuk mund të hyjë në disa kategori uebsajtesh, duke përfshirë lojërat e fatit dhe përmbajtjen për të rritur.

Tradicionalisht, modelet e inteligjencës artificiale të bazuara në teknologjinë e transformatorit të stilit të modelit të gjuhës së madhe si Operatori kanë qenë relativisht të lehta për t’u mashtruar me jailbreaks dhe injeksione të menjëhershme.

Për të kapur përpjekjet për të përmbysur Operatorin, i cili hipotetikisht mund të futet në faqet e internetit që shfleton modeli i AI, OpenAI thotë se ka zbatuar sisteme moderimi dhe zbulimi në kohë reale. OpenAI raporton se sistemi njohu të gjitha, përveç një rasti të përpjekjeve të menjëhershme të injektimit gjatë një seance të hershme të brendshme të ekipit të kuq.

Sidoqoftë, Willison, i cili shpesh mbulon çështjet e sigurisë së AI, nuk është i bindur se Operatori mund të qëndrojë i sigurt, veçanërisht kur shfaqen kërcënime të reja. “Më ngjyro skeptik”, ka shkruar ai në postimin e tij në blog. “Unë imagjinoj se do të shohim të gjitha llojet e sulmeve të reja të suksesshme të stilit të injektimit kundër këtij modeli sapo pjesa tjetër e botës të fillojë ta eksplorojë atë.”

Siç thekson Willison, OpenAI i pranon këto rreziqe në dokumentacionin e tij të Kartës së Sistemit: “Megjithë përpjekjet proaktive të testimit dhe zbutjes, disa sfida dhe rreziqe mbeten për shkak të vështirësisë së modelimit të kompleksitetit të skenarëve të botës reale dhe natyrës dinamike të kërcënimeve kundërshtare”.

Po në lidhje me privatësinë? Meqenëse i gjithë informacioni që Operatori sheh për atë që është në ekranin tuaj dërgohet nëpërmjet internetit te serverët cloud të OpenAI-t përmes pamjeve periodike të ekranit, ju po i besoni shumë OpenAI-t.

OpenAI thotë se ka zbatuar disa kontrolle të privatësisë: Përdoruesit mund të zgjedhin të mos përdorin të dhënat e tyre për trajnimin e modeleve përmes cilësimeve të ChatGPT, të fshijnë të gjitha të dhënat e shfletimit me një klikim te cilësimet e operatorit dhe të dalin nga të gjitha sajtet njëkohësisht. Kur përdoruesit duhet të fusin informacione të ndjeshme si fjalëkalimet ose detajet e pagesës, aktivizohet një “modalitet i marrjes” ku Operatori ndalon mbledhjen e pamjeve të ekranit.

Edhe me këto masa paraprake, Willison dha këshillat e tij për privatësinë e Operatorit në blogun e tij: “Filloni një seancë të re për çdo detyrë që i jepni Operatorit për t’u siguruar që ai nuk ka akses në kredencialet tuaja për çdo sajt që keni përdorur nëpërmjet mjetit në e kaluara nëse e keni të shpenzuar para në emrin tuaj, lëreni të shkojë në arkë, më pas jepini detajet e pagesës dhe fshijeni seancën menjëherë më pas.”