Google pranon se anashkalon kontrollet e tërheqjes së botuesve për trajnimin e AI-së

Google mund të përdorë përmbajtjen e uebit për të trajnuar veçoritë e saj kryesore të kërkimit, duke përfshirë Përmbledhjet e IA-së që gjenerojnë përmbledhje mbi rezultate, edhe kur botuesit kanë përdorur posaçërisht mjetet e vetë Google për ta përjashtuar atë përmbajtje nga trajnimi i IA-së, pranoi një ekzekutiv i kompanisë në gjykatën federale.

Kjo dëshmi, e dhënë të premten, konfirmon një hendek midis qëllimit të botuesit dhe praktikave të të dhënave të Google për aplikacionet e saj më të shquara të inteligjencës artificiale, duke zbuluar kufizime në mekanizmat e kontrollit të ofruara pronarëve të faqeve të internetit.

Dallimi doli në pah gjatë fazës së zgjidhjeve të çështjes së profilit të lartë të antitrustit SHBA kundër Google në Uashington DC. Eli Collins, një Zëvendëspresident i Produkteve në Google DeepMind, sqaroi nën pyetje se mekanizmi kryesor që Google u ofron botuesve për të bllokuar trajnimin për IA – një direktivë e quajtur “Google-Extended” e prezantuar në shtator 2023 dhe që synon të shtohet në skedarin robots.txt të një faqeje interneti (një standard i përdorur nga webmasterët për të udhëzuar shfletuesit e uebit) – kufizon vetëm përdorimin e të dhënave nga divizioni i kërkimit Google DeepMind për modele si Gemini. Collins konfirmoi se kjo nuk e pengon organizatën e veçantë të Kërkimit Google të përdorë të njëjtën përmbajtje të çregjistruar për të rafinuar veçoritë e veta të drejtuara nga IA.
Avokatja e Departamentit të Drejtësisë, Diana Aguilar, e theksoi këtë pikë: “Pasi të marrësh modelin e inteligjencës artificiale Gemini dhe ta vendosësh brenda organizatës së kërkimit, organizata e kërkimit ka aftësinë të trajnohet mbi të dhënat që botuesit kishin zgjedhur të mos i merrnin në trajnim, apo jo?”
Collins pohoi, “Saktë – për përdorim në kërkim.”
Ndërsa dëshmia e Collins e solli çështjen në qendër të vëmendjes së antitrustit, Google e kishte treguar më parë këtë ndarje. Menjëherë pas prezantimit të Google-Extended, kompania sqaroi në tetor 2023 se ky kontroll specifik i trajnimit të IA-së nuk zbatohej për Përvojën e saj Gjeneruese të Kërkimit (SGE) – veçoria eksperimentale që evoluoi në Përmbledhje të IA-së (përmbledhje të gjeneruara nga IA që shfaqen direkt në faqet e rezultateve të kërkimit).
Në atë kohë, Google deklaroi se SGE, duke qenë një veçori e Kërkimit, rregullohej nga kontrollet standarde të webmaster-ave që ndikonin në dukshmërinë e kërkimit, si meta-tag-et noindex
ose rregullat tradicionale disallow
të robots.txt.
Një zëdhënës i Google i këshilloi administratorët e faqeve të internetit: “Për Kërkimin, administratorët e faqeve të internetit duhet të vazhdojnë të përdorin agjentin e përdoruesit Googlebot përmes robots.txt dhe meta-tagut NOINDEX për të menaxhuar përmbajtjen e tyre në rezultatet e kërkimit, duke përfshirë eksperimente si Përvoja Gjeneruese e Kërkimit” , siç raportohet nga Search Engine Roundtable.
Ky konfigurim krijon një situatë komplekse për botuesit. Ata mund të përdorin Google-Extended duke shpresuar të parandalojnë që përmbajtja e tyre të stërvitë inteligjencën artificiale të përgjithshme të Google si Gemini, vetëm për të zbuluar se ajo potencialisht nxit përmbledhjet e inteligjencës artificiale brenda Kërkimit, të cilat shumë veta kanë frikë se do të zvogëlojnë trafikun direkt në faqet e tyre.
Disa botues kanë eksploruar metoda të tjera, si përdorimi i “kontrolleve paraprake” (nosnippet
, max-snippet
), të cilat Google sugjeron se mund të kufizojnë sasinë e përmbajtjes që shfaqet në Përmbledhjet e IA-së, megjithëse kjo nuk adreson përdorimin themelor të të dhënave për trajnim.
Krijimi i kontrollit të zgjeruar të Google-it pasoi presionin, veçanërisht nga organe si Autoriteti Francez i Konkurrencës, i cili shqyrtoi praktikat e të dhënave të inteligjencës artificiale të Google-it dhe mungesën e një opsioni efektiv për t’u çregjistruar që nuk dëmtonte njëkohësisht dukshmërinë e një faqeje në rezultatet e rregullta të kërkimit.
Praktikat e Google ekzistojnë brenda një konteksti më të gjerë tensioni midis zhvilluesve të inteligjencës artificiale dhe krijuesve të përmbajtjes. Shumë botues dhe grupe mediatike kanë shprehur alarm ose kanë ndërmarrë veprime, të tilla si bllokimi proaktiv i zvarritësve të uebit të inteligjencës artificiale, për përdorimin e pakompensuar të materialit të tyre për të ndërtuar modele të vlefshme të inteligjencës artificiale . Në mars, Cloudflare lançoi AI Labyrinth , një sistem që mashtron botët e paautorizuar të zvarritjes së inteligjencës artificiale duke i bllokuar ata në labirinte përmbajtjeje të gjeneruara automatikisht për t’u ofruar botuesve një mundësi shtesë.
Ndërkohë, paditë janë duke vazhduar, me botuesin Ziff Davis që padit OpenAI për dyshimin e marrjes së përmbajtjes nga faqe si PCMag dhe IGN duke injoruar sinjalet e çregjistrimit, dhe The New York Times që ndjek një çështje të profilit të lartë kundër OpenAI dhe Microsoft për shkelje të supozuar të të drejtave të autorit në shkallë të gjerë.
Ndërsa disa kompani të inteligjencës artificiale si OpenAI po ndjekin marrëveshje licencimi përmbajtjeje me botuesit , Google historikisht është mbështetur shumë në aftësinë e saj për të indeksuar uebin publik, një praktikë e formalizuar në një përditësim të politikës së privatësisë në korrik 2023 ku thuhet: “Për shembull, ne përdorim informacion të disponueshëm publikisht për të ndihmuar në trajnimin e modeleve të inteligjencës artificiale të Google dhe për të ndërtuar produkte dhe veçori si Google Translate, Bard dhe aftësitë e inteligjencës artificiale në cloud.” Google gjithashtu siguroi një marrëveshje vjetore prej 60 milionë dollarësh me Reddit në shkurt 2024.
Shkalla e të dhënave të përfshira është e jashtëzakonshme. Një dokument i brendshëm i Google i referuar gjatë dëshmisë së Collins tregoi se zbatimi i opsioneve të çregjistrimit nga botuesit (nëpërmjet Google-Extended) filtroi 80 miliardë “token” përmbajtjeje (pjesë të të dhënave tekstuale të përdorura për trajnim) nga një grup të dhënash prej 160 miliardë tokenësh të destinuar për trajnimin DeepMind – duke hequr në thelb gjysmën e të dhënave të mbledhura bazuar në preferencat e botuesit për atë rast specifik përdorimi.
Dëshmia përmendi gjithashtu diskutimet e brendshme që përfshinin Drejtorin Ekzekutiv të Google DeepMind, Demis Hassabis, rreth vlerës së mundshme të përdorimit të të dhënave të gjera të kërkimit të Google, duke përfshirë sinjalet e renditjes, për të përmirësuar më tej performancën e modelit të IA-së, siç raportohet nga Bloomberg.
Ky vështrim i detajuar mbi praktikat e të dhënave të Google është thelbësor për gjyqin e vazhdueshëm të mjeteve juridike antitrust. Gjykatësi Amit Mehta, pasi ka gjetur tashmë se Google e ka ruajtur në mënyrë të paligjshme monopolin e kërkimit , tani duhet të vendosë për zgjidhjet e propozuara nga Departamenti i Drejtësisë. Këto përfshijnë potencialisht detyrimin e një shitjeje të shfletuesit Chrome dhe ndalimin e llojeve të marrëveshjeve ekskluzive të vendosjes së parazgjedhur (duke përfshirë edhe për IA si Gemini) që ndihmuan në forcimin e dominimit të Google.
Departamenti i Drejtësisë pretendon se Google po shfrytëzon padrejtësisht fuqinë e saj të kërkimit dhe aksesin në të dhëna në sferën e inteligjencës artificiale, duke treguar se pagesat e mëdha ndaj Samsung për para-instalimin e Gemini pasqyrojnë sjellje antikonkurruese të së kaluarës.
Google kundërshton duke thënë se suksesi i saj rrjedh nga produktet superiore dhe se konkurrenca në inteligjencën artificiale është e fortë, me prodhuesit e chatbot-eve që shpesh bëjnë marrëveshje të drejtpërdrejta me ofruesit e përmbajtjes për nevoja specifike të të dhënave, duke anashkaluar mbështetjen në indekset e uebit. Drejtori ekzekutiv Sundar Pichai argumentoi fuqimisht kundër masave të marra nga Departamenti i Drejtësisë, duke i quajtur kërkesat për ndarjen e të dhënave një “shpërndarje de facto të kërkimit” që do të dëmtonte aftësinë e kompanisë për të financuar kërkimin dhe zhvillimin.
Ndërkohë që Google më parë kishte prezantuar kompensimin për të drejtat e autorit për prodhimin e disa mjeteve të inteligjencës artificiale të ndërmarrjeve, dëshmia e Collins nxjerr në pah konfliktin e pazgjidhur në lidhje me kontrollin e botuesit mbi të dhënat hyrëse që fuqizojnë përvojën kryesore të kërkimit të Google. Një vendim nga gjyqtari Mehta mbi mjetet juridike antitrust pritet më vonë këtë vit.