Harvardi vë në dispozicion 1 milion libra për të trajnuar modele të AI

Të dhënat janë nafta e re, siç thonë ata, dhe ndoshta kjo e bën Universitetin e Harvardit Exxon-in e ri. Shkolla njoftoi të enjten nisjen e një grupi të dhënash që përmban gati një milion libra të domenit publik që mund të përdoren për trajnimin e modeleve të AI. Nën Iniciativën e sapoformuar të të Dhënave Institucionale, projekti ka marrë financim si nga Microsoft ashtu edhe nga OpenAI, dhe përmban libra të skanuar nga Google Books që janë mjaft të vjetër saqë mbrojtja e tyre e të drejtës së autorit ka skaduar.

E shkruar në një pjesë të projektit të ri thotë se grupi i të dhënave përfshin një shumëllojshmëri të gjerë librash me “klasikë nga Shekspiri, Charles Dickens dhe Dante të përfshira së bashku me tekste të panjohura të matematikës çeke dhe fjalorë xhepi të Uellsit”. Si rregull i përgjithshëm, mbrojtja e të drejtës së autorit zgjat gjatë gjithë jetës së autorit plus 70 vjet të tjera.

Modelet themelore të gjuhës, si ChatGPT, që sillen si një vërtetësi e një njeriu të vërtetë, kërkojnë një sasi të madhe teksti me cilësi të lartë për trajnimin e tyre – në përgjithësi, sa më shumë informacion që ata thithin, aq më mirë performojnë modelet në imitimin e njerëzve dhe shërbimin e njohurive. Por kjo etje për të dhëna ka shkaktuar probleme pasi OpenAI kanë goditur muret se sa informacione të reja mund të gjejnë – të paktën pa e vjedhur atë.

Botuesit duke përfshirë Wall Street Journal dhe New York Times kanë paditur OpenAI dhe konkurrentin Perplexity për marrjen e të dhënave të tyre pa leje. Përkrahësit e kompanive të AI kanë paraqitur argumente të ndryshme për të mbrojtur aktivitetet e tyre. Ata ndonjëherë do të thonë se vetë njerëzit prodhojnë vepra të reja bazuar në studimin dhe sintetizimin e materialit nga burime të tjera, dhe AI nuk është ndryshe. Të gjithë shkojnë në shkollë, lexojnë libra dhe më pas prodhojnë vepra të reja duke përdorur njohuritë që kanë marrë. Përzierja konsiderohet ligjërisht përdorim i drejtë nëse krijimi i ri është materialisht i ndryshëm. Por kjo dështon të marrë parasysh që njerëzit nuk mund të gëlltisin miliarda pjesë teksti me shpejtësinë që një kompjuter mund, kështu që nuk është saktësisht një krahasim i drejtë. Wall Street Journal në padinë e saj kundër Perplexity ka thënë se startup-i “kopjon në një shkallë masive”.

Lojtarët në hapësirë kanë paraqitur gjithashtu argumentin se çdo përmbajtje e vënë në dispozicion në ueb të hapur është në thelb lojë e drejtë dhe se përdoruesi i një chatbot është ai që hyn në përmbajtjen e mbrojtur nga të drejtat e autorit duke e kërkuar atë përmes një urdhri. Në thelb, një chatbot si Perplexity është i ngjashëm me një shfletues në internet. Do të kalojë pak kohë para se këto argumente të dalin në gjykatë.

OpenAI ka arritur marrëveshje me disa ofrues të përmbajtjes në përgjigje të kritikave dhe Perplexity ka krijuar një program partnerësh të mbështetur nga reklamat me botuesit. Por është e qartë se ata e kanë bërë këtë me mëshirë.

Në të njëjtën kohë kur kompanive të AI po u mbarojnë përmbajtjet e reja për t’u përdorur, burimet e zakonshme të internetit që janë përfshirë tashmë në grupet e trajnimit kanë filluar shpejt të kufizojnë aksesin . Kompanitë duke përfshirë Reddit dhe X kanë qenë agresive në lidhje me kufizimin e përdorimit të të dhënave të tyre pasi e kanë njohur vlerën e tyre të jashtëzakonshme, veçanërisht duke pasur të dhëna në kohë reale për të shtuar modelet themelore me informacione më të përditësuara mbi botën.

Reddit fiton qindra miliona dollarë duke licencuar korpusin e saj të subreddit dhe komenteve në Google për trajnimin e modeleve të saj. Elon Musk’s X ka një marrëveshje ekskluzive me kompaninë e tij tjetër, xAI, për t’u dhënë modeleve të saj akses në përmbajtjen e rrjetit social për trajnimin dhe marrjen e informacionit aktual. Është disi ironike të mendosh se këto kompani ruajnë nga afër të dhënat e tyre, por në thelb mendojnë se përmbajtja nga botuesit e mediave nuk ka vlerë dhe duhet të jetë falas.

Një milion libra nuk do të mjaftojnë për të plotësuar nevojat e trajnimit të ndonjë kompanie të AI, veçanërisht duke pasur parasysh që këta libra janë të vjetër dhe nuk përmbajnë informacione moderne, si zhargoni që përdorin fëmijët e Gen Z. Në mënyrë që të diferencohen nga konkurrentët, kompanitë e AI do të duan të vazhdojnë të kenë akses në të dhëna të tjera – veçanërisht ato ekskluzive – kështu që ata nuk po krijojnë të gjitha modele që janë të njëjta. Të dhënat e Iniciativës së të Dhënave Institucionale mund të paktën të ofrojnë ndihmë për kompanitë e AI që përpiqen të trajnojnë modelet e tyre fillestare themelore pa u futur në ndonjë problem ligjor.

Tags: AI, Artificial Intelligence, Charles Dickens, ChatGPT, Dante, Google Books, Harvard, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, microsoft, OpenAI

Harvardi vë në dispozicion 1 milion libra për të trajnuar modele të AI

Si e ndihmoi Inteligjenca Artificiale një burrë (dhe vëllanë e tij) të ndërtonte një kompani me vlerë 1.8 miliardë dollarë

OpenAI blen TBPN, emisionin popullor të diskutimeve mbi biznesin të drejtuar nga themeluesit

Anthropic hoqi mijëra depo në GitHub që po përpiqeshin të tërhiqnin kodin e saj burimor të rrjedhur një veprim që kompania thotë se ishte një aksident

Reddit po largohet nga r/all

SpaceX përpiqet të bindë FCC-në se Amazon ka vendosur satelitët në një lartësi të gabuar

Amazon godet shitësit me një “tarifë karburanti” ndërsa lufta në Iran trazon tregjet globale të energjisë

Si e ndihmoi Inteligjenca Artificiale një burrë (dhe vëllanë e tij) të ndërtonte një kompani me vlerë 1.8 miliardë dollarë

Google rishqyrton garën e modeleve të inteligjencës artificiale me Gemma 4

NASA lançon Artemis II, misionin e saj të parë me ekuipazh drejt Hënës pas dekadash

You may have missed

Reddit po largohet nga r/all

SpaceX përpiqet të bindë FCC-në se Amazon ka vendosur satelitët në një lartësi të gabuar

Amazon godet shitësit me një “tarifë karburanti” ndërsa lufta në Iran trazon tregjet globale të energjisë

Si e ndihmoi Inteligjenca Artificiale një burrë (dhe vëllanë e tij) të ndërtonte një kompani me vlerë 1.8 miliardë dollarë

Google rishqyrton garën e modeleve të inteligjencës artificiale me Gemma 4

More Stories

You may have missed