Studim i ri provon se modelet e inteligjencës artificiale mund të riprodhojnë tërësisht libra të mbrojtur nga e drejta e autorit

foto

Studiuesit kanë vërtetuar se modelet e inteligjencës artificiale të prodhimit nga Anthropic, Google dhe xAI ruajnë dhe mund të prodhojnë kopje pothuajse fjalë për fjalë të librave me të drejta autoriale.

foto

Për vite me radhë, kompanitë e inteligjencës artificiale i kanë mbrojtur modelet e tyre në gjykatë duke pretenduar se nuk ruajnë kopje të të dhënave të trajnimit. Një studim i ri nga studiuesit në Stanford dhe Yale e ka shkatërruar këtë mbrojtje, duke ofruar prova mjeko-ligjore se modelet e prodhimit mund të përsërisin pothuajse fjalë për fjalë romane të tëra me të drejta autoriale.

foto

Të publikuara në një punim paraprak të premten, gjetjet zbulojnë se Claude 3.7 Sonnet i Anthropic mund të riprodhonte 95.8% të Harry Potter dhe Gurit të Magjistarit kur i kërkohej një teknikë specifike jailbreak. Edhe më dëmtuese për pretendimet e industrisë për sigurinë, është se Gemini 2.5 Pro i Google dhe Grok 3 i xAI nuk kërkuan asnjë jailbreak për të prodhuar pjesë të konsiderueshme të të njëjtit tekst.

Duke mbërritur në një moment kritik për industrinë gjeneruese të IA-së, ky përparim teknik kryqëzohet me padi të shumta për të drejtat e autorit me rrezik të lartë. Duke demonstruar se “kompresimi me humbje” ruan besnikëri të mjaftueshme për të shërbyer si një zëvendësim tregu për veprën origjinale, studimi dëmton drejtpërdrejt argumentet ligjore të “përdorimit të drejtë” që aktualisht po testohen në gjykata në të gjithë botën.

Duke testuar katër modele prodhimi, Claude 3.7 Sonnet, Gemini 2.5 Pro, Grok 3 dhe GPT-4.1, studimi i Stanford dhe Yale përdori një metodë nxjerrjeje me dy faza.

Një sondë jailbreak “Best-of-N” u pasua nga kërkesa përsëritëse, duke u lejuar studiuesve të anashkalonin filtrat standardë të sigurisë dhe t’i detyronin modelet të prodhonin tekst të gjatë.

Soneti Claude 3.7 ishte më i ndjeshëm, duke riprodhuar 95.8% të Harry Potter dhe Gurit të Magjistarit dhe 94% të vitit 1984. Një besnikëri e tillë bie ndesh me pohimet e mëparshme të industrisë se modelet mësojnë vetëm modele statistikore.

Duke përshkruar ashpërsinë e rrjedhjes, Ahmed Ahmed, një studiues në Universitetin e Stanfordit, deklaroi: “Ne nxjerrim pothuajse të gjithë Harry Potter dhe Gurin e Magjistarit nga Claude 3.7 Sonnet i bllokuar.”

Gemini 2.5 Pro dhe Grok 3 nuk kërkuan asnjë përpjekje jailbreaking për të nxjerrë tekstin e mbrojtur me të drejta autoriale, duke arritur përkatësisht 76.8% dhe 70.3% rikthim në gjendjen fillestare. Ky zbulim sugjeron që mbrojtëset e prodhimit mund të jenë më pak të forta nga sa mendohej më parë.

Duke krahasuar këto modele me GPT-4.1 të përforcuar, studiuesit vunë në dukje: “Për sondën e Fazës 1, nuk ishte e nevojshme të bëhej jailbreak në Gemini 2.5 Pro dhe Grok 3 për të nxjerrë tekstin.”

GPT-4.1 rezultoi më rezistenti, duke kërkuar mbi 5,000 përpjekje jailbreak dhe duke refuzuar të vazhdonte përtej kapitullit të parë (4.0% kujtesë). Megjithatë, kostoja e nxjerrjes ndryshonte ndjeshëm: afërsisht 120 dollarë për të nxjerrë Harry Potter nga Claude kundrejt afërsisht 2.44 dollarëve nga Gemini. Ndonëse e kushtueshme, mundësia e nxjerrjes mbetet një detyrim ligjor.

Duke sfiduar drejtpërdrejt mbrojtjen thelbësore ligjore të industrisë, gjetjet kundërshtojnë pretendimin se modelet nuk ruajnë kopje të të dhënave të trajnimit.

Ky argument ka qenë qendror në mocionet për të rrëzuar raste si padia për të drejtën e autorit e OpenAI New York Times. Për t’u mbrojtur nga pretendimet për shkelje në gjykatë, kompania historikisht është mbështetur në një përkufizim teknik të të mësuarit: “Modelet nuk ruajnë kopje të informacionit nga i cili mësojnë”.

Këto mbrojtje i kanë lejuar gjigantët e teknologjisë të argumentojnë se modelet e tyre krijojnë diçka të re në vend që thjesht të riprodhojnë veprat ekzistuese. Duke e paraqitur trajnimin si një proces transformues të ngjashëm me të nxënit njerëzor, kompanitë janë përpjekur të mbrohen nga përgjegjësia për të drejtat e autorit.

Deri më tani, kjo strategji ka qenë efektive në vonimin e vendimeve dhe ngushtimin e fushëveprimit të zbulimit. Megjithatë, provat e reja mjeko-ligjore e ndërlikojnë këtë rrëfim.

Google ka mbajtur një qëndrim të ngjashëm në lidhje me ruajtjen e të dhënave. Në një deklaratë nga e njëjta periudhë, kompania pohoi: “Nuk ka asnjë kopje të të dhënave të trajnimit, qoftë tekst, imazhe apo formate të tjera, të pranishme në vetë modelin.”

Mbrojtje të tilla tani janë nën shqyrtim. Studimi vërteton teorinë e “peshave të modelit si kopje që shkelin të drejtat” të mbështetur së fundmi nga Gjykata Rajonale e Mynihut në një vendim mbi të drejtat e autorit në lidhje me tekstet e këngëve. Nëse modelet përmbajnë kopje të rikuperueshme të veprave të mbrojtura, dallimi ligjor midis trajnimit dhe riprodhimit bie.

Studimi shërben si provë përfundimtare se modelet e inteligjencës artificiale ruajnë kopje të të dhënave të tyre të trajnimit, duke përforcuar gjetje të ngjashme nga studimet e mëparshme. Ekspozimi ligjor i krijuar nga kjo ruajtje është i konsiderueshëm; nëse gjykatat pranojnë se këto pesha të brendshme përbëjnë kopje që shkelin të drejtat e autorit, industria mund të përballet me miliarda dollarë dëmshpërblim.

Për më tepër, një vendim i tillë mund t’i detyrojë kompanitë të tërheqin tërësisht modele specifike nga tregu për të shmangur përgjegjësinë e mëtejshme.

Provat e reja e ndërlikojnë mbrojtjen e “përdorimit transformues” nëse rezultati mund të shërbejë si zëvendësim tregu për veprën origjinale. Dallimi midis “trajnimit” (përdorimit të drejtë) dhe “blerjes” (piraterisë), thelbësor në vendimin për përdorim të drejtë në çështjen Bartz kundër Anthropic , mund të dështojë nëse vetë modeli është një derivat që shkel të drejtat e autorit.

Studiuesit përfunduan: “Të marra së bashku, puna jonë nxjerr në pah se, edhe me mbrojtjet në nivel modeli dhe sistemi, nxjerrja e të dhënave të trajnimit (të mbrojtura me të drejtë autori) mbetet një rrezik për LLM-të e prodhimit .”

Duke ekspozuar brishtësinë e teknikave aktuale të harmonizimit të sigurisë, studimi nxjerr në pah efektivitetin e sulmeve të bazuara në probabilitet. Jailbreaking-u “Best-of-N” funksionon duke gjeneruar variacione të shumëfishta të një prompti derisa njëri të anashkalojë filtrin e sigurisë. Për Claude 3.7 Sonnet, kjo kërkoi mesatarisht 258 përpjekje; për GPT-4.1, u deshën 5,179.

Një sukses i tillë sugjeron që filtrat e sigurisë janë barriera probabilistike dhe jo absolute. Anthropic e hoqi në heshtje Claude 3.7 Sonnet nga ndërfaqja e tij e përdoruesit në fund të nëntorit 2025, pak pasi studiuesit zbuluan gjetjet e tyre. Ky heqje sugjeron që kompania e njohu ashpërsinë e cenueshmërisë dhe ekspozimin e mundshëm ligjor.

Dështimet e Guardrail në Gemini dhe Grok (që nuk kërkojnë asnjë jailbreak) tregojnë një mbikëqyrje të konsiderueshme në vendosjen e prodhimit. Pavarësisht ndalimit të inteligjencës artificiale nga botuesi të zbatuar nga Penguin Random House, modelet vazhdojnë të prodhojnë përmbajtje të mbrojtur.

Studimi detajon variacione të rëndësishme në mënyrën se si modele të ndryshme dorëzojnë tekstin e mbrojtur. Claude 3.7 Sonnet rezultoi më i ndjeshëm; duke përdorur një teknikë jailbreak “Best-of-N” që kërkonte mesatarisht 258 përpjekje, studiuesit nxorën me sukses 95.8% të Harry Potter dhe Gurit të Magjistarit .

Në të kundërt, GPT-4.1 tregoi rezistencë të lartë, duke kërkuar mbi 5,000 përpjekje jailbreak për të anashkaluar filtrat e tij. Edhe kur u shkel, modeli refuzoi të vazhdonte të gjeneronte tekst përtej kapitullit të parë, duke e kufizuar rikthimin total në vetëm 4.0%.

Ndoshta më shqetësuese ishin rezultatet për Gemini 2.5 Pro dhe Grok 3, të cilat dhanë përkatësisht 76.8% dhe 70.3% të librit. Ndryshe nga modelet e tjera, këto të dyja nuk kishin nevojë absolutisht për jailbreaking për të nxjerrë materialin e mbrojtur me të drejta autoriale, duke treguar një dështim të kangjellave standarde të sigurisë.

Larg nga një dobësi teorike, këto gjetje ofrojnë prova konkrete për paditësit në procese gjyqësore në vazhdim. Duke e shtuar rrezikun ligjor, studimi tregon se edhe modelet e përparuara si GPT-4.1 nuk janë imune ndaj përpjekjeve të vendosura të nxjerrjes. Pavarësisht këtyre mbrojtjeve, çështja thelbësore e prejardhjes së të dhënave mbetet e pazgjidhur.