Apple përdori ilegalisht videot e YouTube për të trajnuar modelet e AI

Më shumë se 170,000 video në YouTube janë pjesë e një grupi të dhënash masive që u përdor për të trajnuar sistemet e AI për disa nga kompanitë më të mëdha të teknologjisë, sipas një investigimi nga Proof News dhe bashkëpublikuar me Wired. Apple, Anthropic, Nvidia dhe Salesforce janë ndër firmat e teknologjisë që përdorën të dhënat “YouTube Subtitles” që u hoqën nga platforma e videove pa leje. Të dhënat e trajnimit janë një koleksion titash të marra nga videot e YouTube që u përkasin më shumë se 48,000 kanaleve — nuk përfshin imazhe nga videot.

Videot nga krijuesit e njohur si MrBeast dhe Marques Brownlee shfaqen në grupin e të dhënave, si dhe klipet nga mediat si ABC News, BBC dhe The New York Times. Më shumë se 100 video nga Shkence.info shfaqen në grupin e të dhënave, së bashku me shumë video të tjera nga Vox.

“Apple ka marrë të dhëna për inteligjencën artificiale të tyre nga disa kompani,” shkroi Brownlee, i njohur nga MKBHD, në një postim në X. “Njëri prej tyre gërvishti mijëra të dhëna/transkripta nga videot e YouTube, duke përfshirë edhe timen.” Ai shtoi: “Ky do të jetë një problem në zhvillim për një kohë të gjatë.”

Apple has sourced data for their AI from several companies

One of them scraped tons of data/transcripts from YouTube videos, including mine

Apple technically avoids "fault" here because they're not the ones scraping

But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) July 16, 2024

YouTube nuk iu përgjigj menjëherë kërkesës së Shkence.info për koment.

Si pjesë e hetimit të tij, Proof News lëshoi gjithashtu një mjet interaktiv kërkimi . Mund të përdorni veçorinë e tij të kërkimit për të parë nëse përmbajtja juaj — ose e YouTuber-it tuaj të preferuar — shfaqet në grupin e të dhënave.

Të dhënat e titrave janë pjesë e një koleksioni më të madh të materialit nga EleutherAI jofitimprurëse i quajtur The Pile, një koleksion me burim të hapur që përmban gjithashtu grupe të dhënash librash, artikuj të Wikipedia-s dhe më shumë. Vitin e kaluar, një analizë e një grupi të dhënash të quajtur Books3 zbuloi se cilat vepra të autorëve ishin përdorur për të trajnuar sistemet e AI dhe grupi i të dhënave është cituar në padi nga autorët kundër kompanive që e përdorën atë për të trajnuar AI.

Kompanitë e inteligjencës artificiale rrallëherë janë transparente për të dhënat që shkojnë në sistemet e tyre të AI; se si po përdoret konkretisht përmbajtja e YouTube ka qenë një pyetje kyçe muajt e fundit. Në mars, kur OpenAI zbuloi mjetin e tij të fuqishëm të gjenerimit të videove, Sora , CTO Mira Murati në mënyrë të përsëritur shmangu pyetjet nëse sistemi ishte trajnuar në videot në YouTube.

“Unë nuk do të hyj në detajet e të dhënave që u përdorën, por ato ishin të disponueshme publikisht ose të dhëna të licencuara,” i tha ajo Wall Street Journal në atë kohë . Kur u shtyp nga Journal në lidhje me përmbajtjen në YouTube, Murati tha se “nuk ishte e sigurt për këtë”.

Në intervistat e mëparshme , CEO i YouTube, Neal Mohan, ka thënë se përdorimi i përmbajtjes video për të trajnuar AI – duke përfshirë transkriptet – do të shkelte kushtet e platformës. Dhe në maj në një episod të Dekoderit , CEO i Google, Sundar Pichai ra dakord me vlerësimin e Mohanit se nëse OpenAI do ta kishte trajnuar vërtet Sorën për përmbajtjen e YouTube, do të kishte shkelur kushtet e YouTube.

“Ne kemi terma dhe kushte dhe do të prisnim që njerëzit t’u përmbahen atyre termave dhe kushteve kur ju ndërtoni një produkt, kështu që unë u ndjeva për të,” tha Pichai.

Tags: AI, apple, Apps, Artificial Intelligence, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, mobile, Nvidia, Saleforce, WIRED, Yotube, Yotube Subtitles

Apple përdori ilegalisht videot e YouTube për të trajnuar modelet e AI

Përdoruesit e rrjeteve sociale në Mbretërinë e Bashkuar janë më pak aktivë në platformat teknologjike për shkak të rritjes së aplikacioneve të videove

Cloudflare lançon EmDash “pasardhësin shpirtëror” që synon të sfidojë WordPress

Google do të lançojë një byzylyk Fitbit pa ekran, të ngjashëm me Whoop

Anthropic hoqi mijëra depo në GitHub që po përpiqeshin të tërhiqnin kodin e saj burimor të rrjedhur një veprim që kompania thotë se ishte një aksident

Alibaba publikon modelin e tretë AI me burim të mbyllur brenda tre ditësh, duke sinjalizuar një strategji “fitimi në radhë të parë”

Përdoruesit e rrjeteve sociale në Mbretërinë e Bashkuar janë më pak aktivë në platformat teknologjike për shkak të rritjes së aplikacioneve të videove

Amazon po shqyrton një blerje të re për të konkurruar me SpaceX

Cloudflare lançon EmDash “pasardhësin shpirtëror” që synon të sfidojë WordPress

Microsoft lançon 3 modele të reja AI në një goditje të drejtpërdrejtë ndaj OpenAI dhe Google

You may have missed

Anthropic hoqi mijëra depo në GitHub që po përpiqeshin të tërhiqnin kodin e saj burimor të rrjedhur një veprim që kompania thotë se ishte një aksident

Alibaba publikon modelin e tretë AI me burim të mbyllur brenda tre ditësh, duke sinjalizuar një strategji “fitimi në radhë të parë”

Përdoruesit e rrjeteve sociale në Mbretërinë e Bashkuar janë më pak aktivë në platformat teknologjike për shkak të rritjes së aplikacioneve të videove

Amazon po shqyrton një blerje të re për të konkurruar me SpaceX

Cloudflare lançon EmDash “pasardhësin shpirtëror” që synon të sfidojë WordPress

More Stories

You may have missed