Cloudflare debuton bërthamën me një klikim të AI-së për gërvishtjen e uebit
Cloudflare të mërkurën u ofroi klientëve të mbajtjes së uebit një mënyrë për të bllokuar robotët e AI nga gërvishtja e përmbajtjes së faqes në internet dhe përdorimi i të dhënave pa leje për të trajnuar modelet e mësimit të makinerive.
Ai e bëri këtë bazuar në urrejtjen e klientëve për robotët e AI dhe, “për të ndihmuar në ruajtjen e një interneti të sigurt për krijuesit e përmbajtjes”, tha në një deklaratë.
“Ne dëgjojmë qartë se klientët nuk duan që robotët e AI të vizitojnë faqet e tyre të internetit, dhe veçanërisht ata që e bëjnë këtë në mënyrë të pandershme. Për të ndihmuar, ne kemi shtuar një klikim krejt të ri për të bllokuar të gjithë robotët e AI.”
Ekziston tashmë një metodë disi efektive për të bllokuar robotët që është gjerësisht e disponueshme për pronarët e faqeve të internetit, skedari robots.txt. Kur vendosen në direktorinë rrënjë të një faqe interneti, zvarritësit e automatizuar të uebit pritet të vërejnë dhe të respektojnë direktivat në skedar që u thonë atyre të qëndrojnë jashtë.
Duke pasur parasysh besimin e përhapur se inteligjenca artificiale gjeneruese bazohet në vjedhje dhe paditë e shumta që tentojnë të mbajnë përgjegjësi kompanitë e AI, firmat që trafikojnë përmbajtje të pastruar kanë lejuar me mirësjellje botuesit e internetit të tërhiqen nga grabitja.
Gushtin e kaluar, OpenAI publikoi udhëzime se si të bllokojë zvarritësin e tij GPTbot duke përdorur një direktivë robots.txt, me sa duket i vetëdijshëm për shqetësimin rreth fshirjes dhe përdorimit të përmbajtjes për trajnime të AI pa pëlqim. Google ndërmori hapa të ngjashëm muajin në vijim. Gjithashtu në shtator të vitit të kaluar Cloudflare filloi të ofrojë një mënyrë për të bllokuar robotët e AI që respektojnë rregullat dhe 85 përqind e klientëve – pretendohet – e aktivizuan këtë bllok.
Tani biz i shërbimeve të rrjetit synon të sigurojë një pengesë më të fortë për hyrjen në bot. Interneti është “tani i përmbytur me këto robotë të AI”, tha ai, të cilët vizitojnë rreth 39 për qind të një milion pronave më të mira të uebit të shërbyera nga Cloudflare.
Problemi është se robots.txt, si titulli “Mos Gjurmo” i zbatuar në shfletues pesëmbëdhjetë vjet më parë për të deklaruar një preferencë për privatësinë, mund të shpërfillet, përgjithësisht pa pasoja.
Dhe raportet e fundit sugjerojnë se robotët e AI bëjnë pikërisht këtë. Amazon javën e kaluar tha se po kërkonte prova që robotët që punonin në emër të pajisjes së kërkimit të AI, Perplexity, një klient AWS, kishin zvarritur faqet e internetit, duke përfshirë faqet e lajmeve, dhe kishin riprodhuar përmbajtjen e tyre pa kredi ose leje të përshtatshme.
Klientët e cloud të Amazon supozohet t’i binden robots.txt dhe Perplexity u akuzua se nuk e bëri këtë. Aravind Srinivas, CEO i fillimit të inteligjencës artificiale, mohoi që biznesi i tij po injoronte në mënyrë të fshehtë skedarin, megjithëse robotët e pranuar të palëve të treta të përdorura nga Perplexity ishin ata që vëzhguan duke gërvishtur faqe kundër dëshirave të webmasterëve.
“Mjerisht, ne kemi vërejtur që operatorët bot përpiqen të duken sikur janë një shfletues i vërtetë duke përdorur një agjent përdoruesi të falsifikuar,” tha Cloudflare. “Ne e kemi monitoruar këtë aktivitet me kalimin e kohës dhe jemi krenarë të themi se modeli ynë global i mësimit të makinerive e ka njohur gjithmonë këtë aktivitet si një bot, edhe kur operatorët gënjejnë për agjentin e tyre të përdoruesit.”
Cloudflare tha se sistemi i tij i pikëve për mësimin e makinerive e vlerësoi robotin e maskuar të Perplexity nën 30 vazhdimisht gjatë një periudhe nga 14 qershori deri më 27 qershor, duke treguar se ai ” ka të ngjarë të jetë i automatizuar “.
Kjo qasje e zbulimit të robotëve mbështetet në gjurmët dixhitale të gishtërinjve, një teknikë që përdoret zakonisht për të gjurmuar njerëzit në internet dhe për të mohuar privatësinë. Zvarritësit, si përdoruesit individualë të internetit, shpesh dallohen nga turma bazuar në detaje teknike që mund të lexohen përmes ndërveprimeve në rrjet.
Këta bot priren të përdorin të njëjtat mjete dhe korniza për automatizimin e vizitave në uebfaqe. Dhe me një rrjet që sheh mesatarisht 57 milionë kërkesa në sekondë, Cloudflare ka të dhëna të mjaftueshme për të përcaktuar se cilës prej këtyre gjurmëve të gishtave mund t’i besohet.
Pra, kjo është ajo për të cilën është arritur: modele të mësimit të makinerive që mbrohen kundër robotëve që kërkojnë ushqim për të ushqyer modelet e AI, të disponueshme edhe për klientët e nivelit të lirë. Gjithçka që duhet të bëjnë klientët është të klikojnë butonin e ndërrimit të Blloko AI Scrapers and Crawlers në menunë Security -> Bots për një faqe interneti të caktuar.
“Ne kemi frikë se disa kompani të AI që synojnë të anashkalojnë rregullat për të hyrë në përmbajtje do të përshtaten vazhdimisht për të shmangur zbulimin e robotëve,” tha Cloudflare. “Ne do të vazhdojmë të shikojmë dhe të shtojmë më shumë blloqe bot në rregullin tonë të AI Scrapers and Crawlers dhe të evoluojmë modelet tona të mësimit të makinerive për të ndihmuar në mbajtjen e internetit një vend ku krijuesit e përmbajtjes mund të lulëzojnë dhe të mbajnë kontrollin e plotë se cilat modele përdoret përmbajtja e tyre për të trajnuar. ose drejtoni konkluzionet.”