Më pak faqe në internet po bllokojnë zvarritësin e internetit të OpenAI

foto

Është shumë herët për të thënë se si do të lëkundet vargu i marrëveshjeve midis kompanive të AI dhe botuesve. Megjithatë, OpenAI ka shënuar tashmë një fitore të qartë: zvarritësit e saj të internetit nuk po bllokohen nga mediat kryesore të lajmeve me shpejtësinë që ishin dikur.

foto

Lulëzimi gjenerues i AI nxiti një nxitim të artë për të dhëna dhe një nxitim të mëvonshëm për mbrojtjen e të dhënave në të cilin botuesit kërkuan të bllokonin zvarritësit e AI dhe të parandalonin që puna e tyre të shndërrohej në të dhëna trajnimi pa pëlqim. Kur Apple debutoi një agjent të ri të AI këtë verë, për shembull, një mori mediash kryesore u larguan me shpejtësi nga skrapimi i ueb-it të Apple duke përdorur Protokollin e Përjashtimit të Robots, ose robots.txt, skedari që lejon webmasterët të kontrollojnë robotët. Ka kaq shumë robotë të rinj të inteligjencës artificiale në skenë saqë mund të ndihet sikur të luani një nishan për të vazhduar.

foto

GPTBot i OpenAI ka njohjen më të madhe të emrit dhe gjithashtu bllokohet më shpesh sesa konkurrentët si Google AI. Numri i faqeve të internetit të mediave të rangut të lartë që përdorin robots.txt për të “pamundësuar” GPTBot të OpenAI u rrit në mënyrë dramatike nga fillimi i tij në gusht 2023 deri në atë vjeshtë, më pas në mënyrë të qëndrueshme (por më gradualisht) u rrit nga nëntori 2023 në prill 2024, sipas një analize prej 1000 media të njohura të lajmeve nga startupi i zbulimit të AI me bazë në Ontario, Originality AI. Në kulmin e saj, niveli i lartë ishte pak më shumë se një e treta e faqeve të internetit; tani ajo ka rënë më afër një të katërtën. Brenda një grupi më të vogël të mediave më të spikatura të lajmeve, përqindja e bllokimit është ende mbi 50 përqind, por është në rënie nga lartësitë në fillim të këtij viti prej gati 90 përqind.

Por majin e kaluar, pasi Dotdash Meredith njoftoi një marrëveshje licencimi me OpenAI, ky numër u ul ndjeshëm. Më pas u zhyt përsëri në fund të majit kur Vox njoftoi marrëveshjen e vet – dhe përsëri këtë gusht kur kompania mëmë e WIRED, Condé Nast, arriti një marrëveshje. Tendenca drejt rritjes së bllokimit duket se ka përfunduar, të paktën tani për tani.

Këto ulje kanë kuptim të qartë. Kur kompanitë hyjnë në partneritete dhe japin leje që të dhënat e tyre të përdoren, ato nuk janë më të nxitura t’i barrikadojnë ato, kështu që do të vinte që ata të përditësonin skedarët e tyre robots.txt për të lejuar zvarritjen; bëni marrëveshje të mjaftueshme dhe përqindja e përgjithshme e faqeve që bllokojnë zvarritësit pothuajse me siguri do të ulet. Disa dyqane zhbllokuan zvarritësit e OpenAI në të njëjtën ditë kur ata njoftuan një marrëveshje, si The Atlantic. Të tjerëve iu deshën disa ditë deri në disa javë, si Vox, i cili njoftoi partneritetin e tij në fund të majit, por që zhbllokoi GPTBot në pronat e tij në fund të qershorit.

Robots.txt nuk është ligjërisht i detyrueshëm, por ka funksionuar prej kohësh si standardi që rregullon sjelljen e zvarritësit të uebit. Për pjesën më të madhe të ekzistencës së internetit, njerëzit që drejtonin uebfaqe prisnin që njëri-tjetri t’i përmbaheshin skedarit. Kur një hetim WIRED në fillim të kësaj vere zbuloi se startup-i i AI Perplexity kishte të ngjarë të zgjidhte të injoronte komandat robots.txt, divizioni cloud i Amazon nisi një hetim nëse Perplexity kishte shkelur rregullat e tij. Nuk është një pamje e mirë të injorosh robots.txt, gjë që ka të ngjarë të shpjegojë pse kaq shumë kompani të shquara të AI-përfshirë OpenAI- shprehimisht shprehimisht se e përdorin atë për të përcaktuar se çfarë të zvarritet. CEO i Origjinalitetit AI Jon Gillham beson se kjo shton urgjencë shtesë në shtytjen e OpenAI për të bërë marrëveshje. “Është e qartë se OpenAI e shikon bllokimin si një kërcënim për ambiciet e tyre të ardhshme,” thotë Gillham.

Deri më tani, OpenAI ka arritur marrëveshje me 12 botues dhe ndërsa shumica kanë përditësuar skedarët e tyre robots.txt, ka disa përjashtime. Revista Time, për shembull, vazhdon të bllokojë GPTBot. (Koha nuk iu përgjigj kërkesës së WIRED për koment se pse e kishte ende të bllokuar GPTBot.) Megjithatë, pasi të bëhen marrëveshjet, është e parëndësishme, sipas zëdhënëses së OpenAI Kayla Wood, pasi OpenAI nuk i qaset më të dhënave në të njëjtën mënyrë që i afrohet. zvarritja e asaj që i quan të dhëna “të disponueshme publikisht”. “Ne përdorim burime direkte”, thotë ajo.

Ndërkohë, ka disa media të dukshme që kanë zhbllokuar zvarritësin e uebit të OpenAI, pavarësisht se nuk kanë bërë asnjë lloj njoftimi për partneritet, siç theksoi gazetari i të dhënave Ben Welsh për WIRED. (Ai gjurmon se si organet e lajmeve bllokojnë robotët kryesorë të AI duke përdorur metrika paksa të ndryshme dhe së pari vuri re një rënie të lehtë në normat e bllokimit disa javë më parë.) Qendra e teorisë së konspiracionit të Alex Jones Infowars dhe komedia e sapo rigjallëruar The Onion e kapën atë. vëmendje.

A do të thotë kjo që këto sajte kanë marrëveshje të paparalajmëruara me OpenAI, apo po përpiqen të negociojnë me kompaninë? “Dreq jo,” thotë CEO i Onion, Ben Collins, i cili thotë se zhbllokimi ka të ngjarë të lidhej me prizën që migroi uebsajtin e saj në një shërbim të ri pritës dhe sistem të menaxhimit të përmbajtjes muajin e kaluar. “Natyrisht që ne nuk po bëjmë asnjë biznes me Makinën e Plagjiaturës.”

Infowars nuk iu përgjigj kërkesave për koment. Por OpenAI, nga ana e saj, ka konfirmuar se nuk ka asnjë partneritet me Infowars.

Ndërsa nxitimi i parë për të bllokuar bot-et e OpenAI duket se ka përfunduar, është e paqartë nëse kjo qetësi do të zgjasë. Gillham dyshon se mund të ketë rritje shtesë në bllokim në të ardhmen, nëse botuesit fillojnë ta shohin atë si një taktikë pazaresh. “A është hapi i parë në një negociatë me OpenAI për t’i bllokuar ato? A i sjell kjo në tavolinë?” thotë ai. Çfarëdo që të ndodhë, ky është një moment zbulues: Ndërsa botuesit fillimisht iu përgjigjën rritjes së robotëve të gërmimit të AI me një impuls të përbashkët për t’i bllokuar ato, ndjekja aktive e OpenAI për partneritete e ka ftohur atë shtysë në të gjithë industrinë.