Penguin mbron autorët nga gërvishtja e AI me rregulla të qarta
Duke marrë një qëndrim të vendosur kundër përdorimit të palicensuar nga kompanitë e teknologjisë të veprave të autorëve të tij, gjigandi botues Penguin Random House do të ndryshojë gjuhën në të gjitha faqet e të drejtave të autorit të librave të tij për të ndaluar shprehimisht përdorimin e tyre në trajnimin e sistemeve të inteligjencës artificiale, sipas raportimit nga The Bookseller.
Është një largim i dukshëm nga botuesit e tjerë të mëdhenj, si printerët akademikë Taylor & Francis, Wiley dhe Oxford University Press, të cilët kanë rënë dakord të licencojnë portofolet e tyre për kompanitë e AI.
Matthew Sag, një ekspert i AI dhe i të drejtave të autorit në Shkollën Juridike të Universitetit Emory, tha se gjuha e re e Penguin Random House duket se është e drejtuar në tregun e Bashkimit Evropian, por gjithashtu mund të ndikojë në mënyrën se si kompanitë e AI në SHBA përdorin materialin e saj. Sipas ligjit të BE-së, mbajtësit e të drejtave të autorit mund të tërhiqen nga minimi i të dhënave të punës së tyre. Ndërsa kjo e drejtë nuk është e sanksionuar në ligjin amerikan, zhvilluesit më të mëdhenj të AI në përgjithësi nuk e gërvishtin përmbajtjen pas mureve të pagesës ose përmbajtjen e përjashtuar nga skedarët robot.txt të sajteve . “Do të mendonit se nuk ka asnjë arsye që ata të mos respektojnë këtë lloj përjashtimi [që Penguin Random House e përfshin në librat e tij] për sa kohë që është një sinjal që ata mund ta përpunojnë në shkallë”, tha Sag.
Dhjetra autorë dhe kompani mediatike kanë ngritur padi në SHBA kundër Google, Meta, Microsoft, OpenAI dhe zhvilluesve të tjerë të AI, duke i akuzuar ata për shkelje të ligjit duke trajnuar modele të mëdha gjuhësore për punë me të drejtë autori. Kompanitë e teknologjisë argumentojnë se veprimet e tyre bien nën doktrinën e përdorimit të drejtë , e cila lejon përdorimin e palicensuar të materialit me të drejtë autori në rrethana të caktuara – për shembull, nëse vepra e derivuar transformon në mënyrë thelbësore përmbajtjen origjinale ose nëse përdoret për kritika, raportime lajmesh ose arsimimi.
Gjykatat amerikane nuk kanë vendosur ende nëse futja e një libri në një model të madh gjuhësor përbën përdorim të drejtë. Ndërkohë, tendencat e mediave sociale në të cilat përdoruesit postojnë mesazhe duke u thënë platformave të teknologjisë të mos trajnojnë modelet e AI në përmbajtjen e tyre kanë qenë të parashikueshme të pasuksesshme.
Mesazhi pa stërvitje i Penguin Random House është paksa i ndryshëm nga ato kopjime optimiste. Së pari, përdoruesit e mediave sociale duhet të pajtohen me kushtet e shërbimit të një platforme, e cila pa ndryshim lejon që përmbajtja e tyre të përdoret për të trajnuar AI. Për një tjetër, Penguin Random House është një botues i pasur ndërkombëtar që mund të mbështesë mesazhin e tij me ekipe avokatësh.
Librashitësi raportoi se faqet e reja të të drejtave të autorit të botuesit do të lexojnë pjesërisht: “Asnjë pjesë e këtij libri nuk mund të përdoret ose riprodhohet në asnjë mënyrë për qëllime të trajnimit të teknologjive ose sistemeve të inteligjencës artificiale. Në përputhje me nenin 4(3) të Direktivës së Tregut Unik Dixhital 2019/790, Penguin Random House e rezervon shprehimisht këtë punë nga përjashtimi i tekstit dhe nxjerrjes së të dhënave.”
Kompanitë e teknologjisë janë të lumtura të minojnë internetin, veçanërisht faqet si Reddit, për grupe të dhënash gjuhësore, por cilësia e asaj përmbajtje priret të jetë e dobët – plot këshilla të këqija, racizëm, seksizëm dhe të gjitha izmat e tjera, duke kontribuar në paragjykimet dhe pasaktësitë në modelet që rezultojnë. Studiuesit e AI kanë thënë se librat janë ndër të dhënat më të dëshirueshme të trajnimit për modelet për shkak të cilësisë së shkrimit dhe kontrollit të fakteve.
Nëse Penguin Random House mund të heqë me sukses përmbajtjen e tij të mbrojtur nga të drejtat e autorit nga modelet e gjuhëve të mëdha, mund të ketë një ndikim të rëndësishëm në industrinë gjeneruese të AI, duke i detyruar zhvilluesit që ose të fillojnë të paguajnë për përmbajtje me cilësi të lartë – gjë që do të ishte një goditje për modelet e biznesit që varen nga përdorimi puna e njerëzve të tjerë falas—ose përpiquni t’i shisni klientët me modele të trajnuara për përmbajtje interneti me cilësi të ulët dhe materiale të botuara të vjetruara.
“Fundi i fundit për kompanitë si Penguin Random House që tërhiqen nga trajnimi i AI mund të jetë për të kënaqur interesat e autorëve që janë kundër përdorimit të veprave të tyre si të dhëna trajnimi për çfarëdo arsye, por ndoshta është në mënyrë që kompania botuese të mund të kthehet dhe [filloni] tarifat e licencës për qasje në të dhënat e trajnimit, “tha Sag. “Nëse kjo është bota në të cilën përfundojmë, kompanitë e inteligjencës artificiale do të vazhdojnë të stërviten në ‘internetin e hapur’, por kushdo që ka në kontroll një grumbull teksti mesatarisht të madh do të dëshirojë të zgjedhë dhe të paguajë për aksesin. Ky duket si një kompromis mjaft i mirë që lejon botuesit dhe faqet e internetit të fitojnë para nga aksesi pa krijuar kosto të pamundura transaksioni për trajnimin e AI në përgjithësi.”