DeepSeek lançon modelin V4

foto

Një vit pasi tronditi Silicon Valley me teknologjinë e saj, DeepSeek i Kinës nxori versionet paraprake të një modeli të ri të inteligjencës artificiale kryesore, duke e quajtur atë platformën më të fuqishme me burim të hapur në një sfidë ndaj rivalëve nga OpenAI deri te Anthropic PBC.

foto

Startupi kinez prezantoi seritë V4 Flash dhe V4 Pro, duke reklamuar performancë të nivelit të lartë në testet e kodimit dhe përparime të mëdha në arsyetim dhe detyra agjentike. Ato vijnë me përmirësime të arkitekturës dhe optimizim, tha startupi në Hugging Face. DeepSeek veçoi një teknikë që e quajti Arkitekturë Hibride e Vëmendjes, e cila tha se përmirëson aftësinë e një platforme të IA-së për të mbajtur mend pyetjet gjatë bisedave të gjata. Gjithashtu, ai shtyu përpara dritaren e kontekstit prej 1 milion tokenësh – një hap që lejon që bazat e tëra të kodit ose dokumentet e gjata të dërgohen si një kërkesë e vetme.

foto

V4 vjen më shumë se një vit pasi startup-i me seli në Hangzhou shkaktoi një shitje prej trilion dollarësh në bursë me lançimin e R1, një model me burim të hapur që imiton procesin e arsyetimit njerëzor. R1 rivalizoi performancën e sistemeve të inteligjencës artificiale të përparuara nga kompani si OpenAI, por thuhet se u ndërtua për një kosto shumë më të ulët.

Prodhuesit kinezë të çipave u rritën të premten, ndërsa investitorët vënë bast se modeli i ri do të mbështesë kërkesën për çipa vendas. Në një postim në WeChat, DeepSeek tha se kapaciteti i shërbimit për serinë V4 Pro është jashtëzakonisht i kufizuar, për shkak të një krize kompjuterike. Megjithatë, startup-i pret që çmimet për modelin të bien ndjeshëm pas lançimit të grupeve kompjuterike të mundësuara nga çipat Ascend 950 të Huawei Technologies Co. në gjysmën e dytë të këtij viti. DeepSeek është aktualisht në bisedime me Tencent Holdings Ltd. dhe Alibaba Group Holding Ltd. për mbledhjen e parë të fondeve nga investitorë të jashtëm.

Aksionet e Semiconductor Manufacturing International Corp, prodhuesit kryesor të çipave të Huawei, fituan 10% në Hong Kong, ndërsa Hua Hong Semiconductor Ltd. u rritën me 15%. Rivalë të tillë si Knowledge Atlas Technology JSC Ltd. ose Zhipu ranë me 9%.

Seria e re është një hap i madh përpara në shkallën dhe efikasitetin që ka përcaktuar ngritjen e DeepSeek dhe ka ushtruar presion të madh konkurrues mbi rivalët. Pas R1, firmat e teknologjisë dhe investitorët filluan të rimendojnë mençurinë e investimit të miliarda dollarëve në zhvillimin e inteligjencës artificiale. Këto shpenzime janë rikthyer që atëherë, pasi gjigantët amerikanë të teknologjisë parashikohet të investojnë rreth 650 miliardë dollarë në vitin 2026 në infrastrukturën e inteligjencës artificiale dhe qendrat e të dhënave.

Sistemi me trilion parametra i DeepSeek përdor teknikën e Përzierjes së Ekspertëve, duke aktivizuar në mënyrë selektive vetëm një nëngrup të vogël ekspertësh dhe duke aktivizuar vetëm deri në 37 miliardë parametra për detyrë për të mbajtur kostot e nxjerrjes së përfundimeve shumë më të ulëta sesa për modelet e ngjashme kufitare.

Kostot e përdorimit të DeepSeek-V4 Pro janë vetëm një pjesë e vogël e kostos së laboratorëve kryesorë amerikanë. Për shembull, tokenët hyrës (“kërkesa” ose teksti që një përdorues i dërgon modelit) kushtojnë 1.74 dollarë për 1 milion token, ndërsa tokenët dalës (përgjigja e gjeneruar nga modeli) kushtojnë 3.48 dollarë për milion, tha startup-i. Tokenët hyrës Claude Sonnet 4 të Anthropic, modeli kryesor, kushtojnë 3 dollarë për një milion token hyrës dhe 15 dollarë për një milion dalje.

Arkitektura dhe teknikat e pozicionojnë DeepSeek drejtpërdrejt kundër konkurrentëve të Silicon Valley, OpenAI, Google dhe modeleve më të fundit të Anthropic. Të premten, startup-i premtoi performancë superiore ndaj modeleve si GPT-5.2 i OpenAI në testet standarde, por pranoi se V4 është rreth 3 deri në 6 muaj prapa modeleve më të përparuara.

Megjithatë, DeepSeek theksoi se nuk po nxit vetëm kapacitetin e papërpunuar, por po ul edhe kostot në mënyrë thelbësore. V4 është projektuar për t’u vendosur në infrastrukturë më të lirë. Kjo mund të paraqesë një sfidë për kompanitë vendase të IA-së, përfshirë MiniMax Group Inc.

“Minimax dhe Zhipu, si ofrues të pavarur të modeleve, do të jenë gjithmonë të prekshëm nga konkurrenca, veçanërisht nga platformat e internetit ose ofruesit e shërbimeve cloud, të cilët kanë shtrirje dhe shpërndarje më të mirë”, tha Vey-Sern Ling, drejtor menaxhues në Union Bancaire Privee. “Përfundimisht, hendeku në performancën e modelit do të jetë i padukshëm për shumicën e përdoruesve.”

Zbulimi i madh i DeepSeek vitin e kaluar shkaktoi një furi në Kinë, pasi liderët e teknologjisë nga Alibaba te Baidu Inc. e përmbytën tregun me shërbime të inteligjencës artificiale me kosto të ulët. Rivalët nga ByteDance Ltd. te Zhipu dhe Minimax nxituan për të përditësuar modelet e tyre në javët para prillit, duke shpresuar të merrnin një avantazh ndaj DeepSeek.

SHBA-të kërkojnë të ndalojnë ‘shfrytëzimin’ e modelit amerikan të inteligjencës artificiale nga rivalët kinezë

Me famën erdhi edhe shqyrtimi. Udhëheqësit amerikanë të teknologjisë dhe zyrtarët qeveritarë e kanë akuzuar DeepSeek për përdorimin e teknikave dhe pajisjeve të paligjshme për të zhvilluar modelet e saj.

Si OpenAI ashtu edhe Anthropic e kanë akuzuar DeepSeek për atë që quhet distilim, ose përdorimin e rezultateve të modeleve të tyre të inteligjencës artificiale për të trajnuar teknologjinë e tyre me aftësi të ngjashme. Kompanitë amerikane thonë se kanë zbuluar sulme të tilla nga kompania kineze e re, një shqetësim që OpenAI filloi ta ngrinte privatisht menjëherë pas publikimit të modelit R1.

Shqetësimi tjetër është se DeepSeek mund të ketë qasje në çipet e ndaluara të inteligjencës artificiale të Nvidia Corp, një mundësi që zyrtarët amerikanë filluan ta hetojnë vitin e kaluar.

Qeveria amerikane beson se startup-i kinez përdori procesorë Nvidia Blackwell, të cilët janë praktikisht të ndaluar të shiten në Kinë, në një qendër të dhënash në Mongolinë e Brendshme, sipas njerëzve të njohur me çështjen.