Nvidia thotë se grumbullimi i videove 80-vjeçare çdo ditë për të trajnuar modelet e saj të AI është në frymën e ligjit të së drejtës së autorit

foto

Sipas bisedave të brendshme të Slack, email-eve, spreadsheets dhe disa burimeve të tjera të marra nga 404 Media, Nvidia u kërkoi punonjësve të shkarkonin video nga platforma të ndryshme në internet për të përpiluar të dhëna për të trajnuar Omniverse-in e saj, automjetet autonome dhe produktet dixhitale njerëzore.

foto

Me emrin e koduar Cosmos, projekti përfshinte përdorimin e 20 deri në 30 makinave virtuale në Shërbimet e Uebit të Amazon për të shkarkuar ekuivalentin e 80 viteve të videove çdo ditë. Nvidia po shkarkonte aq shumë sa arriti të grumbullonte mbi 30 milionë URL brenda një muaji.

Përveç Netflix dhe YouTube, punonjësve të Nvidia-s iu tha të trajnonin modelet e AI në bazën e të dhënave të trailerave të filmave MovieNet, bibliotekat e brendshme të pamjeve të lojërave video dhe grupet e të dhënave të videove Github WebVid, të cilat që atëherë janë hequr. Ai përdori gjithashtu InternVid-10M, një grup të dhënash që përmban 10 milionë ID të videove në YouTube.

foto

Çështjet e të drejtave të autorit janë gjithmonë në ballë të diskutimeve kur bëhet fjalë për kompanitë që grumbullojnë të dhëna nga uebi. Kjo thuhet se u diskutua nga punonjësit e Nvidia, të cilët përdorën disa metoda për të anashkaluar çdo pengesë të mundshme ligjore, duke përfshirë përdorimin e të dhënave të shënuara vetëm si për qëllime akademike ose jokomerciale.

HD-VG-130M ishte një nga grupet e të dhënave të përdorura nga Nvidia. Kjo bibliotekë prej 130 milionë videosh në YouTube thotë në licencën e saj se është vetëm për përdorim akademik, diçka që Nvidia duket se e ka injoruar. Punonjësit përdorën gjithashtu shërbimin cloud të Google për të shkarkuar grupin e të dhënave YouTube-8M, pasi shkarkimi i drejtpërdrejtë i videove nuk lejohet sipas kushteve të shërbimit.

“Ne e pastruam shkarkimin me Google/YouTube përpara kohe dhe u varëm si një karotë që do ta bënim duke përdorur Google Cloud,” shkroi një person në një kanal Slack. “Në fund të fundit, zakonisht, për 8 milionë video, ata do të merrnin shumë përshtypje reklamash, të ardhura që humbasin kur shkarkojnë për trajnime, kështu që ata duhet të marrin disa para nga kjo.”

Nvidia raportohet gjithashtu se përdori VM me adresa IP rrotulluese në disa raste për të shmangur që YouTube të zbulonte se çfarë po bënte dhe të ndalonte përdoruesit.

Në prill, u raportua se për të aksesuar tekstin më me reputacion të bazuar në gjuhën angleze në internet në vitin 2021, studiuesit e OpenAI krijuan një mjet për njohjen e të folurit të quajtur Whisper. Ai u krijua për të transkriptuar audion nga videot e YouTube, duke i dhënë kompanisë një grumbull të dhënash për të trajnuar LLM-të e saj. Pse Google nuk kundërshtoi? Ndoshta sepse ajo gjithashtu transkriptoi videot e YouTube për modelet e saj të AI, duke shkelur potencialisht materialin me të drejtë autori të krijuesve.

YouTube tha më parë se grumbullimi i të dhënave për të trajnuar modelet e AI ishte një “shkelje e qartë” e kushteve të tij. Nvidia i tha 404 Media se veprimet e saj ishin “në përputhje të plotë me shkronjën dhe frymën e ligjit të së drejtës së autorit”.

Nëse po pyesni veten nëse Nvidia përdori pamjet e lojës nga shërbimi i saj GeForce Now për të trajnuar inteligjencën artificiale të saj – jo, nuk e bëri, megjithëse duket se një gjë e tillë mund të ndodhë në një moment. “Ne nuk kemi ende statistika apo skedarë video, sepse infras nuk është krijuar ende për të kapur shumë video dhe veprime të drejtpërdrejta të lojërave,” u tha punonjësve të tjerë një shkencëtar i lartë kërkimor Nvidia. “Ka pengesa inxhinierike dhe rregullatore për të kaluar.”

Shumë firma të AI që angazhohen në praktikat e grumbullimit të të dhënave mbrojnë veprimet e tyre duke pretenduar se është përdorimi i drejtë sipas ligjit të së drejtës së autorit. Fillesat e inteligjencës artificiale, Udio dhe Suno, që gjenerojnë muzikë, po përdorin këtë justifikim në paditë e tyre për të drejtat e autorit të ngritura nga kompanitë e mëdha diskografike.