DeepSeek po punon në modele AI që vetëpërmirësohen

Pas tronditjes së Silicon Valley me modelet e AI në fillim të këtij viti, startupi kinez DeepSeek po punon për një risi tjetër për të ndihmuar në uljen e kostove operacionale. Kompania, e udhëhequr nga Liang Wenfeng, ka punuar me studiues në Universitetin Tsinghua për të zhvilluar një qasje të re të quajtur modelimi i shpërblimit gjenerues (GRM), i cili shpërblen modelin e AI për ndjekjen e preferencave njerëzore.

Qasja e re, e zbuluar për herë të parë në një artikull të para-printimit (nëpërmjet Bloomberg), diskuton përdorimin e një teknike të quajtur akordim i vetë-parimeve të kritikës (SPCT) për t’i bërë modelet e AI më të zgjuar dhe më efikas në një mënyrë vetë-përmirësuese.

Startup-i kinez po i quan këto modele të reja DeepSeek-GRM dhe planifikon t’i lëshojë ato në bazë të burimit të hapur, ashtu si modelet e mëparshme. DeepSeek thotë se modelet e tij të reja të inteligjencës artificiale mundën Gemini 1.5 Pro të Google, Llama 3.1 të Meta dhe GPT-4o të OpenAI në rezultatet e standardeve.

DeepSeek është një startup kinez i AI që operon një chatbot që mban të njëjtin emër me dy modele themelore, DeepSeek V3 (modeli kufitar si GPT-4o dhe Gemini 2.0) dhe DeepSeek R1 (modeli i arsyetimit OpenAI o1).

Modelet e AI të DeepSeek u bënë publike në janar kur chatbot e kaloi ChatGPT si aplikacioni më i popullarizuar në Apple dhe App Store të Google. Ndërsa kërkesa për chatbot-in e DeepSeek u rrit, ideja se kompanitë perëndimore ishin përpara Kinës në garën e AI u rrëzua shpejt, duke fshirë rreth 1 trilion dollarë vlerë nga aksionet e teknologjisë si Nvidia dhe Microsoft.

Modelet e AI të DeepSeek, të ndërtuara me një buxhet të kufizuar, kundërshtuan gjithashtu nocionin se ndërtimi i modeleve të AI do të kërkonte miliarda dollarë investime.

DeepSeek kishte përdorur një teknikë të mësimit të makinerive të quajtur Mixture of Experts (MoE) për t’i bërë modelet e saj më efikase. E njëjta teknikë u përdor nga Meta kur publikoi modelet e saj Llama 4 Maverick dhe Llama 4 Scout të shtunën.

Ndërsa DeepSeek nuk ka thënë se kur do të nxjerrë modelet e tij të reja të AI, disa raporte sugjerojnë se modeli DeepSeek R2 mund të dalë në fillim të majit, pasi lëshimet e AI nga kompanitë perëndimore bëhen më të shpeshta.

Tags: AI, Artificial Intelligence, Bloomberg, DeepSeek, Google, GPT-4o, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, Liang Wenfeng, Llama 3.1, Meta, Silicon Valley

DeepSeek po punon në modele AI që vetëpërmirësohen

Musk njofton lançimin e Grok 4.5, duke thënë se është po aq i mirë, në mos më i mirë, se Claude Opus i Anthropic

Shtëpia e Bardhë i lejon Anthropic të rikthejë Mythos 5

OpenAI lançon një version paraprak të kufizuar të GPT-5.6 për një grup të vogël partnerësh të besuar

Rocket Lab blen kompaninë e satelitëve Iridium për të rivalizuar Starlink dhe Amazon Leo

Çipat e AI-së të prodhuar në Kinë dominojnë tregun vendas

SHBA zgjeron ndalimin e importeve të pajisjeve kineze të telekomunikacionit

Musk njofton lançimin e Grok 4.5, duke thënë se është po aq i mirë, në mos më i mirë, se Claude Opus i Anthropic

Koreja e Jugut prezanton një plan investimi prej 880 miliardë dollarësh për industrinë e çipave dhe inteligjencën artificiale

Google po kufizon aksesin e Meta-s në Gemini, sepse nuk ka kapacitet të mjaftueshëm kompjuterik

You may have missed

Rocket Lab blen kompaninë e satelitëve Iridium për të rivalizuar Starlink dhe Amazon Leo

Çipat e AI-së të prodhuar në Kinë dominojnë tregun vendas

SHBA zgjeron ndalimin e importeve të pajisjeve kineze të telekomunikacionit

Musk njofton lançimin e Grok 4.5, duke thënë se është po aq i mirë, në mos më i mirë, se Claude Opus i Anthropic

Koreja e Jugut prezanton një plan investimi prej 880 miliardë dollarësh për industrinë e çipave dhe inteligjencën artificiale

More Stories

You may have missed