Apple përdori ilegalisht videot e YouTube për të trajnuar modelet e AI

foto

Më shumë se 170,000 video në YouTube janë pjesë e një grupi të dhënash masive që u përdor për të trajnuar sistemet e AI për disa nga kompanitë më të mëdha të teknologjisë, sipas një investigimi nga Proof News dhe bashkëpublikuar me Wired. Apple, Anthropic, Nvidia dhe Salesforce janë ndër firmat e teknologjisë që përdorën të dhënat “YouTube Subtitles” që u hoqën nga platforma e videove pa leje. Të dhënat e trajnimit janë një koleksion titash të marra nga videot e YouTube që u përkasin më shumë se 48,000 kanaleve — nuk përfshin imazhe nga videot.

foto

Videot nga krijuesit e njohur si MrBeast dhe Marques Brownlee shfaqen në grupin e të dhënave, si dhe klipet nga mediat si ABC News, BBC dhe The New York Times. Më shumë se 100 video nga Shkence.info shfaqen në grupin e të dhënave, së bashku me shumë video të tjera nga Vox.

foto

“Apple ka marrë të dhëna për inteligjencën artificiale të tyre nga disa kompani,” shkroi Brownlee, i njohur nga MKBHD, në një postim në X. “Njëri prej tyre gërvishti mijëra të dhëna/transkripta nga videot e YouTube, duke përfshirë edhe timen.” Ai shtoi: “Ky do të jetë një problem në zhvillim për një kohë të gjatë.”

YouTube nuk iu përgjigj menjëherë kërkesës së Shkence.info për koment.

Si pjesë e hetimit të tij, Proof News lëshoi ​​gjithashtu një mjet interaktiv kërkimi . Mund të përdorni veçorinë e tij të kërkimit për të parë nëse përmbajtja juaj — ose e YouTuber-it tuaj të preferuar — shfaqet në grupin e të dhënave.

Të dhënat e titrave janë pjesë e një koleksioni më të madh të materialit nga EleutherAI jofitimprurëse i quajtur The Pile, një koleksion me burim të hapur që përmban gjithashtu grupe të dhënash librash, artikuj të Wikipedia-s dhe më shumë. Vitin e kaluar, një analizë e një grupi të dhënash të quajtur Books3 zbuloi se cilat vepra të autorëve ishin përdorur për të trajnuar sistemet e AI dhe grupi i të dhënave është cituar në padi nga autorët kundër kompanive që e përdorën atë për të trajnuar AI.

Kompanitë e inteligjencës artificiale rrallëherë janë transparente për të dhënat që shkojnë në sistemet e tyre të AI; se si po përdoret konkretisht përmbajtja e YouTube ka qenë një pyetje kyçe muajt e fundit. Në mars, kur OpenAI zbuloi mjetin e tij të fuqishëm të gjenerimit të videove, Sora , CTO Mira Murati në mënyrë të përsëritur shmangu pyetjet nëse sistemi ishte trajnuar në videot në YouTube.

“Unë nuk do të hyj në detajet e të dhënave që u përdorën, por ato ishin të disponueshme publikisht ose të dhëna të licencuara,” i tha ajo Wall Street Journal në atë kohë . Kur u shtyp nga Journal në lidhje me përmbajtjen në YouTube, Murati tha se “nuk ishte e sigurt për këtë”.

Në intervistat e mëparshme , CEO i YouTube, Neal Mohan, ka thënë se përdorimi i përmbajtjes video për të trajnuar AI – duke përfshirë transkriptet – do të shkelte kushtet e platformës. Dhe në maj në një episod të Dekoderit , CEO i Google, Sundar Pichai ra dakord me vlerësimin e Mohanit se nëse OpenAI do ta kishte trajnuar vërtet Sorën për përmbajtjen e YouTube, do të kishte shkelur kushtet e YouTube.

“Ne kemi terma dhe kushte dhe do të prisnim që njerëzit t’u përmbahen atyre termave dhe kushteve kur ju ndërtoni një produkt, kështu që unë u ndjeva për të,” tha Pichai.