Elon Musk thotë se të gjitha të dhënat njerëzore për trajnimin e AI janë ‘shteruar’
Elon Musk pajtohet me ekspertë të tjerë të AI se ka pak të dhëna të botës reale për të trajnuar modelet e AI.
“Ne kemi ezauruar në thelb shumën kumulative të njohurive njerëzore … në trajnimin e AI,” tha Musk gjatë një bisede të drejtpërdrejtë me kryetarin e Stagwell, Mark Penn, të mërkurën vonë. “Kjo ndodhi në thelb vitin e kaluar.”
Musk, i cili zotëron kompaninë e inteligjencës artificiale xAI, u bëri jehonë temave që preku ish shefi i shkencëtarit OpenAI, Ilya Sutskever në NeurIPS, konferencën e mësimit të makinerive, gjatë një fjalimi në dhjetor. Sutskever, i cili tha se industria e AI kishte arritur atë që ai e quajti “të dhënat kulmore”, parashikoi se mungesa e të dhënave të trajnimit do të detyronte një zhvendosje nga mënyra se si zhvillohen modelet sot.
Në të vërtetë, Musk sugjeroi që të dhënat sintetike – të dhënat e gjeneruara nga vetë modelet e AI – janë rruga përpara. “E vetmja mënyrë për të plotësuar [të dhënat e botës reale] është me të dhëna sintetike, ku AI krijon [të dhënat e trajnimit],” tha ai. “Me të dhëna sintetike… [AI] do të vlerësohet vetë dhe do të kalojë këtë proces të vetë-mësimit.”
Kompani të tjera, duke përfshirë gjigantët e teknologjisë si Microsoft, Meta, OpenAI dhe Anthropic, tashmë po përdorin të dhëna sintetike për të trajnuar modelet kryesore të AI. Gartner vlerëson se 60% e të dhënave të përdorura për projektet e AI dhe analitike në 2024 u krijuan në mënyrë sintetike.
Phi-4 i Microsoft-it , i cili ishte me burim të hapur herët të mërkurën, u trajnua mbi të dhënat sintetike krahas të dhënave të botës reale. Kështu ishin modelet Gemma të Google. Anthropic përdori disa të dhëna sintetike për të zhvilluar një nga sistemet e saj më performuese, Claude 3.5 Sonnet. Dhe Meta rregulloi mirë serinë e saj më të fundit të modeleve Llama duke përdorur të dhëna të krijuara nga AI.
Trajnimi mbi të dhënat sintetike ka avantazhe të tjera, si kursimi i kostos. Fillimi i AI Writer pretendon se modeli i tij Palmyra X 004, i cili u zhvillua duke përdorur burime pothuajse tërësisht sintetike, kushtoi vetëm 700,000 dollarë për t’u zhvilluar – krahasuar me vlerësimet prej 4.6 milion dollarë për një model OpenAI me madhësi të krahasueshme.
Por ka edhe disavantazhe. Disa kërkime sugjerojnë se të dhënat sintetike mund të çojnë në kolaps të modelit, ku një model bëhet më pak “kreativ” – dhe më i njëanshëm – në rezultatet e tij, duke kompromentuar përfundimisht seriozisht funksionalitetin e tij. Për shkak se modelet krijojnë të dhëna sintetike, nëse të dhënat e përdorura për të trajnuar këto modele kanë paragjykime dhe kufizime, rezultatet e tyre do të njollosen në mënyrë të ngjashme.