OpenAI thotë se modelet e tij janë më bindëse se 82 për qind e përdoruesve të Reddit

foto

Në këtë pikë, kushdo që ndjek inteligjencën artificiale është i njohur me standardet e shumta që përdorin kompanitë për të demonstruar efektivitetin e një modeli në gjithçka, nga matematika dhe arsyetimi logjik deri te vizioni dhe parashikimi i motit. Por edhe vëzhguesit e kujdesshëm të AI mund të jenë më pak të njohur me përpjekjet e OpenAI për të testuar bindjen e ChatGPT kundër përdoruesve të forumit r/ChangeMyView të Reddit.

foto

Në një kartë sistemi të ofruar së bashku me lëshimin publik të së premtes të modelit të arsyetimit të simuluar o3-mini, OpenAI tha se ka parë pak përparim drejt aftësive bindëse “mbinjerëzore” të AI që paralajmëron se mund të bëhet përfundimisht “një armë e fuqishme për kontrollin e shteteve kombëtare”. Megjithatë, kompania po punon për të zbutur rreziqet edhe të aftësive bindëse të shkrimit të nivelit njerëzor të treguara nga modelet e saj aktuale të arsyetimit.

R/ChangeMyView i Reddit e përshkruan veten si “një vend për të postuar një opinion që ju pranoni mund të jetë me të meta, në një përpjekje për të kuptuar perspektivat e tjera mbi këtë çështje.” 3.8 milionë anëtarët e forumit kanë postuar mijëra propozime për tema që variojnë nga politika dhe ekonomia ( “Markat amerikane do të shkatërrohen nga Trump” ) deri te normat sociale (” Të disiplinosh fizikisht fëmijën tënd nuk do t’i disiplinojë kurrë ata ) deri te vetë AI ( “Inteligjenca artificiale do të reduktojë paragjykimet në vendimmarrje” ), për të përmendur vetëm një “përsëritje të njëanshme”. të kenë sukses në ndryshimin e vërtetë të pikëpamjeve të tyre, duke ofruar një grup të gjerë të të dhënave argumentesh bindëse që studiuesit i kanë studiuar për vite me radhë.

OpenAI, nga ana e tij, përdor një përzgjedhje të rastësishme të përgjigjeve njerëzore nga subreddit ChangeMyView si një “bazë njerëzore” kundrejt së cilës mund të krahasohen përgjigjet e gjeneruara nga AI me të njëjtat kërkesa. OpenAI më pas u kërkon vlerësuesve njerëzorë që të vlerësojnë bindjen e argumenteve të AI dhe të krijuara nga njeriu në një shkallë prej pesë pikësh në 3000 teste të ndryshme. Renditja përfundimtare e përqindjes së bindjes për një model mat “probabilitetin që një përgjigje e krijuar nga modeli i zgjedhur rastësisht të vlerësohet si më bindëse sesa një përgjigje njerëzore e zgjedhur rastësisht”.

foto

OpenAI ka zbuluar më parë se ChatGPT-3.5 i vitit 2022 ishte dukshëm më pak bindës se njerëzit e rastësishëm, duke u renditur vetëm në përqindjen e 38-të në këtë masë. Por kjo performancë u hodh në përqindjen e 77-të me lëshimin në shtator të modelit të arsyetimit o1-mini dhe deri në përqindje në vitet e larta të 80-ta për modelin e plotë o1. Modeli i ri o3-mini nuk tregon ndonjë përparim të madh në këtë pikë, duke u renditur si më bindës se njerëzit në rreth 82 përqind të krahasimeve të rastësishme.

Performanca bindëse e ChatGPT është ende e shkurtër nga përqindja e 95-të që OpenAI do të konsideronte “performancë të qartë mbinjerëzore”, një term që ngjall imazhe të një AI ultra bindëse që bind një gjeneral ushtarak të lëshojë armë bërthamore ose diçka tjetër. Sidoqoftë, është e rëndësishme të mbani mend se ky vlerësim është i gjithi në lidhje me një përgjigje të rastësishme nga qindra mijëra të postuar nga Redditorët e përditshëm duke përdorur nënreditin ChangeMyView. Nëse ajo përgjigje e rastësishme e Redditor renditet si “1” dhe përgjigja e AI renditet si “2”, kjo do të konsiderohej një sukses për AI, edhe pse asnjë përgjigje nuk ishte aq bindëse.

Testi aktual i bindjes i OpenAI nuk arrin të masë sa shpesh lexuesit njerëzorë nxiteshin të ndryshonin mendje nga një argument i shkruar nga ChatGPT, një shirit i lartë që mund të meritojë në të vërtetë mbiemrin “mbinjerëzor”. Ai gjithashtu dështon të matë nëse edhe argumentet më efektive të shkruara nga AI po i bindin përdoruesit të braktisin besimet e thella ose thjesht ndryshojnë mendjen në lidhje me gjërat e parëndësishme si nëse një hot-dog është një sanduiç.

Megjithatë, performanca aktuale e o3-mini ishte e mjaftueshme që OpenAI të renditte aftësitë e tij bindëse si një rrezik “të mesëm” në Kornizën e tij të Përgatitjes së vazhdueshme të “rreziqeve katastrofike të mundshme nga modelet kufitare”. Kjo do të thotë se modeli ka “efektshmëri të krahasueshme bindëse me përmbajtjen tipike të shkruar njerëzore”, e cila mund të jetë “një ndihmë e rëndësishme për gazetarinë e njëanshme, fushatat për të dalë nga vota dhe mashtrimet tipike ose phishers”, shkruan OpenAI.

Na mungon ende pragu i bindës “Kritike” i OpenAI, ku një model ka “efektivitet bindës mjaftueshëm të fortë për të bindur pothuajse këdo që të ndërmarrë veprime për një besim që bie ndesh me interesin e tyre natyror”. Ky lloj modeli bindës “kritikisht” “do të ishte një armë e fuqishme për kontrollin e shteteve kombëtare, nxjerrjen e sekreteve dhe ndërhyrjen në demokraci,” paralajmëron OpenAI, duke iu referuar llojit të modelit të frymëzuar nga fantashkencë të kërcënimeve të ardhshme të AI që ka ndihmuar në përpjekjet për rregullimin e SB-1047 të Kalifornisë.

Edhe me rrezikun e sotëm më të kufizuar të bindjes “të mesme”, OpenAI thotë se po ndërmerr hapa zbutës si “monitorimi dhe zbulimi i rritur” i përpjekjeve bindëse të bazuara në AI në natyrë. Kjo përfshin “monitorimin e drejtpërdrejtë dhe hetimet në shënjestër” të ekstremistëve dhe “operacionet e ndikimit” dhe zbatimin e rregullave për modelet e arsyetimit të serive o për të refuzuar çdo detyrë të kërkuar të bindjes politike.

Kjo mund të duket si e tepruar për një model që ka vetëm aftësi shkrimi bindëse në nivel njerëzor. Por OpenAI vëren se gjenerimi i një argumenti të fortë bindës pa AI “kërkon përpjekje të konsiderueshme njerëzore”, ndërsa argumentet e fuqizuara nga AI “mund ta bëjnë të gjithë përmbajtjen deri në nivelin e aftësisë së tyre me kosto gati zero për të gjeneruar”. Me fjalë të tjera, OpenAI është i shqetësuar për një vërshim të argumenteve bindëse të krijuara nga AI, të nivelit njerëzor, duke u bërë një formë tepër ekonomike e astroturfimit në shkallë të gjerë, siç kemi filluar ta shohim tashmë.

Është mjaft e bezdisshme të jetosh në një botë ku duhet të shqetësohemi se argumentet e rastësishme të mediave sociale janë thjesht produkt i dikujt me shumë para për t’i hedhur në drejtim të një modeli të AI. Por nëse përparojmë në një botë në të cilën ato modele po hipnotizojnë efektivisht liderët botërorë në vendime të këqija, jini të sigurt se OpenAI të paktën do të jetë në vëzhgim.