DeepSeek zbulon se modeli i tij i njohur AI R1 kushtoi vetëm 294,000 dollarë për t’u trajnuar, duke sfiduar gjigantët amerikanë të AI-së për çmimin dhe çipet

foto

Startapi kinez i inteligjencës artificiale, DeepSeek, është rishfaqur me një shifër që mund të rizgjojë një nga debatet më të nxehta të industrisë: kostot e trajnimit. Kompania thotë se modeli i saj R1 i fokusuar në arsyetim kushtoi vetëm 294,000 dollarë për trajnim një shifër që i tejkalon rivalët amerikanë me një diferencë marramendëse dhe sfidon supozimet rreth asaj që duhet për të ndërtuar sisteme të përparuara të inteligjencës artificiale.

foto

Zbulimi u bë në një punim të rishikuar nga kolegët të botuar të mërkurën në Nature, duke shënuar herën e parë që kompania me seli në Hangzhou ka ndarë një vlerësim të detajuar të shpenzimeve të zhvillimit të modelit të saj.

foto

Është një pamje e rrallë pas perdes për DeepSeek, i cili ka mbajtur një profil të ulët që nga janari, kur modeli i tij V3 tronditi tregjet pasi tejkaloi GPT-4o të OpenAI, Llama 3.1 të Meta dhe Qwen 2.5 të Alibaba në testet referuese – të gjitha duke ofruar një çmim më të ulët. Ky njoftim shkaktoi një shitje në aksionet globale të teknologjisë, ndërsa investitorët peshuan nëse lojtarët në zhvillim të Kinës mund të përmbysnin dominimin e Nvidia, OpenAI dhe të tjerëve.

Artikulli i Nature, i bashkautorizuar nga themeluesi Liang Wenfeng, pohon se trajnimi i R1 kërkonte 512 çipa Nvidia H800 dhe zgjati 80 orë. Vlerësimi i kostos bie ndesh ashpër me komentet e drejtorit ekzekutiv të OpenAI, Sam Altman, i cili tha në vitin 2023 se “trajnimi i modelit themelor” i kishte kushtuar kompanisë së tij “shumë më tepër” se 100 milionë dollarë, sipas një raporti nga Reuters. Ndërkohë, OpenAI nuk ka publikuar kurrë shifra të detajuara, duke e lënë të hapur për spekulime hendekun midis strukturave të kostos në SHBA dhe Kinë.

Megjithatë, skepticizmi vazhdon. Zyrtarët amerikanë kanë vënë në pikëpyetje pretendimet e DeepSeek, veçanërisht në lidhje me aksesin e saj në çipat e nivelit të lartë të kufizuar nga kontrollet e eksportit. Kompania pohon se trajnimi R1 mbështetej në H800, harduerin specifik të Nvidia-s për Kinën, por pranoi për herë të parë në materialin plotësues se zotëron edhe çipa A100, të cilët u përdorën në fazat e hershme përgatitore të zhvillimit. Ky pranim i shton peshë raporteve të mëparshme që sugjerojnë se DeepSeek është një nga firmat e pakta kineze që drejtojnë një klaster superkompjuterësh A100 – një tërheqje e madhe për talentet më të mira të IA-së në Kinë.

Ky shqyrtim vjen në një kohë kur efikasiteti i kostos është bërë po aq kritik sa performanca e papërpunuar në garën e inteligjencës artificiale. Me harduerin e Nvidia-s në qendër të përshkallëzimit të tensioneve teknologjike SHBA-Kinë, pretendimet e DeepSeek nuk kanë të bëjnë vetëm me inxhinierinë – ato kanë të bëjnë me gjeopolitikën, tregjet e kapitalit dhe nëse narrativa e vendosur rreth asaj se kush kontrollon të ardhmen e inteligjencës artificiale po fillon të ndryshojë.

Për momentin, pretendimi i DeepSeek për 294,000 dollarë qëndron si një deklaratë e guximshme dhe një sfidë e hapur: se trajnimi i modeleve të arsyetimit të teknologjisë së fundit mund të jetë i arritshëm për shumë më pak se shumat nëntëshifrore që citohen shpesh në Silicon Valley. Nëse rivalët – apo rregullatorët – e pranojnë këtë shifër është një çështje tjetër.

Në fund të janarit, DeepSeek e tejkaloi ChatGPT në App Store, teksa startup-i kinez i inteligjencës artificiale shkaktoi tronditje në aksionet e teknologjisë. Suksesi i DeepSeek nxjerr në pah konkurrencën në rritje të sektorit të inteligjencës artificiale në Kinë.

E themeluar në Hangzhou në vitin 2023, DeepSeek u shfaq në mes të një valë inovacioni në rajon, duke iu bashkuar një vale kompanish që garonin për të zhvilluar modele të inteligjencës artificiale. Ndërsa shumë prej tyre kanë publikuar mjetet e tyre, DeepSeek shquhet si i pari që fitoi njohje nga industria amerikane e teknologjisë për krahasimin ose tejkalimin e performancës së modeleve kryesore amerikane.