GitHub prezanton kopilotin, një asistent kodimi që funksionon me AI
Vetëm disa ditë pasi GitHub njoftoi mjetin e saj të ri Copilot, i cili gjeneron kod plotësues për projektet e programuesve, programuesi Kyle Peacock shkroi në Twitter një çudi që ai kishte vërejtur.
“Më pëlqen të mësoj gjëra të reja dhe të ndërtoj gjëra”, shkroi algoritmi, kur u pyet për të gjeneruar një faqe “Rreth Meje”.
"Unë kam një llogari në <a href=https://github.com/davidcelis"> Github </a>."
Ndërsa faqja Rreth Meje u krijua gjoja për një person të rremë, ajo lidhje shkon te profili i GitHub i David Celis që nuk është një rrjedhojë e imagjinatës së Copilot. Celis është një kodues dhe përdorues i GitHub me depo të njohura, dhe madje më parë ka punuar në kompani.
“Unë nuk jam i befasuar që depot e mia publike janë një pjesë e të dhënave të trajnimit për Copilot,” tha Celis duke shtuar se ai ishte i kënaqur nga algoritmi kishte cituar emrin e tij. Por ndërsa ai nuk e ka problem që emri i tij të përmendet nga një algoritëm, Celis shqetësohet për implikimet e të drejtës së autorit të GitHub duke mbledhur çdo kod që mund të gjejë për të përmirësuar AI-të e tij.
Kur GitHub njoftoi Copilot më 29 qershor, kompania tha që algoritmi ishte trajnuar në kodin e disponueshëm publikisht të postuar në GitHub. Nat Friedman, CEO i GitHub, ka shkruar në forume si Hacker News dhe Twitter se kompania është ligjërisht e qartë. “Trajnimi i modeleve të të mësuarit të makinës për të dhëna të disponueshme nga publiku konsiderohet përdorim i drejtë në të gjithë komunitetin e AI”, thotë faqja Copilot.
Algoritmet e inteligjencës artificiale funksionojnë vetëm për shkak të sasive masive të të dhënave që analizojnë, dhe shumica e këtyre të dhënave vijnë nga interneti i hapur. Një shembull i lehtë do të ishte ImageNet, mbase databaza e trajnimit më inteligjent të AI, e cila përbëhet tërësisht nga imazhe të disponueshme për publikun që krijuesit e ImageNet nuk i zotërojnë. Nëse një gjykatë do të thoshte se përdorimi i këtyre të dhënave lehtësisht të arritshme nuk është i ligjshëm, kjo mund të bëjë që sistemet e trajnimit të AI të jenë shumë më të kushtueshme dhe më pak transparente.
Pavarësisht pohimit të GitHub, nuk ka asnjë precedent të drejtpërdrejtë ligjor në SH.B.A. që mbështet të dhënat e trainimit në dispozicion të publikut si përdorim të drejtë, sipas Mark Lemley dhe Bryan Casey të Shkollës së Drejtësisë në Stanford, të cilët botuan një letër vitin e kaluar në lidhje me bazat e të dhënave të AI dhe përdorimin e drejtë.
Kjo nuk do të thotë se ata janë kundër tij: Lemley dhe Kejsi shkruajnë se të dhënat e disponueshme për publikun duhet të konsiderohen përdorim i drejtë, për përmirësimin e algoritmeve dhe për t’iu përshtatur normave të komunitetit të makinave që ecin vetë.
Dhe ka raste të kaluara për të mbështetur atë mendim, thonë ata. Ata e konsiderojnë rastin e Google Books, në të cilin Google shkarkoi dhe indeksoi më shumë se 20 milion libra për të krijuar një bazë të të dhënave letrare të kërkimit, si të ngjashme me trajnimin e një algoritmi. Gjykata e Lartë mbështeti pretendimin e Google për përdorimin e drejtë, me arsyetimin se mjeti i ri ishte transformues i veprës origjinale dhe gjerësisht i dobishëm për lexuesit dhe autorët.
“Nuk ka polemikë rreth aftësisë për të vendosur të gjithë atë material të mbrojtur nga e drejta e kopjimit në një bazë të dhënash për një makinë për ta lexuar atë,” thotë Kejsi për çështjen Google Books. “Ajo që një makinë pastaj nxjerr është ende e paqartë dhe do të kuptohet.”
Kjo do të thotë që detajet ndryshojnë kur algoritmi gjeneron media më vete. Lemley dhe Kejsi argumentojnë në punimin e tyre se nëse një algoritëm fillon të gjenerojë këngë në stilin e Ariana Grande, ose direkt të gjejë zgjidhjen e re të një koduesi për një problem, e drejta e autorit nuk mund të jetë po njësoj.
Meqenëse kjo nuk është testuar drejtpërdrejt në një gjykatë, një gjyqtar nuk është detyruar të vendosë se sa ndikuese është me të vërtetë teknologjia: Nëse një algoritëm AI e kthen veprën me të drejtë autori në një teknologji fitimprurëse, atëherë nuk do të ishte jashtë sfera e mundësisë që një gjyqtar të vendosë që krijuesi i tij duhet të paguajë ose përndryshe do të dënohet.
Por nga ana tjetër, nëse një gjyqtar do të vendoste që stili i trajnimit të GitHub për kodin në dispozicion të publikut ishte përdorim i drejtë, kjo do të zgjidhte nevojën që GitHub dhe OpenAI të citonin licencat e koduesve që shkruanin të dhënat e tij të trajnimit. Për shembull, Celis, profili i të cilit GitHub u gjenerua nga Copilot, thotë se ai përdor “Creative Commons Attribution 3.0 Unported License”, e cila kërkon atribim për veprat derivative.
“Dhe unë bie në kampin që beson se kodi i gjeneruar i Pilotit është absolutisht punë derivative”, tha ai.
Derisa të vendoset kjo në një gjykatë, megjithatë, nuk ka ndonjë vendim të qartë nëse kjo praktikë është e ligjshme.
“Shpresa ime është që njerëzit do të ishin të lumtur që kodi i tyre përdoret për trajnim,” thotë Lemley. “Jo që ajo të shfaqet fjalë për fjalë në punën e dikujt tjetër domosdoshmërisht, por të gjithë jemi më mirë nëse kemi një AI të trajnuar më mirë për të lehtësuar punën e koduesve.”