Harvardi vë në dispozicion 1 milion libra për të trajnuar modele të AI

foto

Të dhënat janë nafta e re, siç thonë ata, dhe ndoshta kjo e bën Universitetin e Harvardit Exxon-in e ri. Shkolla njoftoi të enjten nisjen e një grupi të dhënash që përmban gati një milion libra të domenit publik që mund të përdoren për trajnimin e modeleve të AI. Nën Iniciativën e sapoformuar të të Dhënave Institucionale, projekti ka marrë financim si nga Microsoft ashtu edhe nga OpenAI, dhe përmban libra të skanuar nga Google Books që janë mjaft të vjetër saqë mbrojtja e tyre e të drejtës së autorit ka skaduar.

foto

E shkruar në një pjesë të projektit të ri thotë se grupi i të dhënave përfshin një shumëllojshmëri të gjerë librash me “klasikë nga Shekspiri, Charles Dickens dhe Dante të përfshira së bashku me tekste të panjohura të matematikës çeke dhe fjalorë xhepi të Uellsit”. Si rregull i përgjithshëm, mbrojtja e të drejtës së autorit zgjat gjatë gjithë jetës së autorit plus 70 vjet të tjera.

foto

Modelet themelore të gjuhës, si ChatGPT, që sillen si një vërtetësi e një njeriu të vërtetë, kërkojnë një sasi të madhe teksti me cilësi të lartë për trajnimin e tyre – në përgjithësi, sa më shumë informacion që ata thithin, aq më mirë performojnë modelet në imitimin e njerëzve dhe shërbimin e njohurive. Por kjo etje për të dhëna ka shkaktuar probleme pasi OpenAI kanë goditur muret se sa informacione të reja mund të gjejnë – të paktën pa e vjedhur atë.

Botuesit duke përfshirë Wall Street Journal dhe New York Times kanë paditur OpenAI dhe konkurrentin Perplexity për marrjen e të dhënave të tyre pa leje. Përkrahësit e kompanive të AI kanë paraqitur argumente të ndryshme për të mbrojtur aktivitetet e tyre. Ata ndonjëherë do të thonë se vetë njerëzit prodhojnë vepra të reja bazuar në studimin dhe sintetizimin e materialit nga burime të tjera, dhe AI ​​nuk është ndryshe. Të gjithë shkojnë në shkollë, lexojnë libra dhe më pas prodhojnë vepra të reja duke përdorur njohuritë që kanë marrë. Përzierja konsiderohet ligjërisht përdorim i drejtë nëse krijimi i ri është materialisht i ndryshëm. Por kjo dështon të marrë parasysh që njerëzit nuk mund të gëlltisin miliarda pjesë teksti me shpejtësinë që një kompjuter mund, kështu që nuk është saktësisht një krahasim i drejtë. Wall Street Journal në padinë e saj kundër Perplexity ka thënë se startup-i “kopjon në një shkallë masive”.

Lojtarët në hapësirë ​​kanë paraqitur gjithashtu argumentin se çdo përmbajtje e vënë në dispozicion në ueb të hapur është në thelb lojë e drejtë dhe se përdoruesi i një chatbot është ai që hyn në përmbajtjen e mbrojtur nga të drejtat e autorit duke e kërkuar atë përmes një urdhri. Në thelb, një chatbot si Perplexity është i ngjashëm me një shfletues në internet. Do të kalojë pak kohë para se këto argumente të dalin në gjykatë.

OpenAI ka arritur marrëveshje me disa ofrues të përmbajtjes në përgjigje të kritikave dhe Perplexity ka krijuar një program partnerësh të mbështetur nga reklamat me botuesit. Por është e qartë se ata e kanë bërë këtë me mëshirë.

Në të njëjtën kohë kur kompanive të AI po u mbarojnë përmbajtjet e reja për t’u përdorur, burimet e zakonshme të internetit që janë përfshirë tashmë në grupet e trajnimit kanë filluar shpejt të kufizojnë aksesin . Kompanitë duke përfshirë Reddit dhe X kanë qenë agresive në lidhje me kufizimin e përdorimit të të dhënave të tyre pasi e kanë njohur vlerën e tyre të jashtëzakonshme, veçanërisht duke pasur të dhëna në kohë reale për të shtuar modelet themelore me informacione më të përditësuara mbi botën.

Reddit fiton qindra miliona dollarë duke licencuar korpusin e saj të subreddit dhe komenteve në Google për trajnimin e modeleve të saj. Elon Musk’s X ka një marrëveshje ekskluzive me kompaninë e tij tjetër, xAI, për t’u dhënë modeleve të saj akses në përmbajtjen e rrjetit social për trajnimin dhe marrjen e informacionit aktual. Është disi ironike të mendosh se këto kompani ruajnë nga afër të dhënat e tyre, por në thelb mendojnë se përmbajtja nga botuesit e mediave nuk ka vlerë dhe duhet të jetë falas.

Një milion libra nuk do të mjaftojnë për të plotësuar nevojat e trajnimit të ndonjë kompanie të AI, veçanërisht duke pasur parasysh që këta libra janë të vjetër dhe nuk përmbajnë informacione moderne, si zhargoni që përdorin fëmijët e Gen Z. Në mënyrë që të diferencohen nga konkurrentët, kompanitë e AI do të duan të vazhdojnë të kenë akses në të dhëna të tjera – veçanërisht ato ekskluzive – kështu që ata nuk po krijojnë të gjitha modele që janë të njëjta. Të dhënat e Iniciativës së të Dhënave Institucionale mund të paktën të ofrojnë ndihmë për kompanitë e AI që përpiqen të trajnojnë modelet e tyre fillestare themelore pa u futur në ndonjë problem ligjor.