Nvidia zbulon Blackwell B200 GPU, çipi më i fuqishëm në botë për AI

Çipi i domosdoshëm i Nvidia-s H100 AI e bëri atë një kompani multitrilion dollarëshe, një kompani që mund të vlejë më shumë se Alphabet dhe Amazon, dhe konkurrentët kanë luftuar për të kapur. Por ndoshta Nvidia është gati të zgjerojë epërsinë e saj – me GPU-në e re Blackwell B200 dhe “superçipin” GB200.

foto

Nvidia thotë se GPU-ja e re B200 ofron deri në 20 petaflops të FP4 kuajfuqi nga 208 miliardë transistorët e saj. Gjithashtu, thotë ai, një GB200 që kombinon dy nga ato GPU me një CPU të vetme Grace mund të ofrojë 30 herë performancën për ngarkesat e punës së konkluzionit LLM, ndërkohë që gjithashtu mund të jetë dukshëm më efikas. Ai “ul koston dhe konsumin e energjisë deri në 25x” mbi një H100, thotë Nvidia, megjithëse ka një pikëpyetje rreth kostos – CEO i Nvidia ka sugjeruar se çdo GPU mund të kushtojë midis 30,000 dhe 40,000 dollarë.

Trajnimi i një modeli prej 1.8 trilion parametrash do të kishte marrë më parë 8,000 GPU Hopper dhe 15 megavat energji, pretendon Nvidia. Sot, CEO i Nvidia thotë se 2000 GPU Blackwell mund ta bëjnë këtë duke konsumuar vetëm katër megavat.

Në një standard GPT-3 LLM me 175 miliardë parametra, Nvidia thotë se GB200 ka një performancë disi më modeste shtatë herë më të madhe se një H100, dhe Nvidia thotë se ofron katër herë më shumë shpejtësi trajnimi.

foto

Nvidia u tha gazetarëve se një nga përmirësimet kryesore është një motor transformator i gjeneratës së dytë që dyfishon llogaritjen, gjerësinë e brezit dhe madhësinë e modelit duke përdorur katër bit për çdo neuron në vend të tetë (pra, 20 petaflops të FP4 që përmenda më parë). Një ndryshim i dytë kryesor vjen vetëm kur lidhni një numër të madh të këtyre GPU-ve: një ndërrues NVLink i gjeneratës tjetër që lejon 576 GPU të flasin me njëri-tjetrin, me 1,8 terabajt për sekondë gjerësi brezi dydrejtimësh.

Kjo kërkonte që Nvidia të ndërtonte një çip të tërë të ri të ndërrimit të rrjetit, një me 50 miliardë transistorë dhe disa nga llogaritjet e veta në bord: 3.6 teraflops të FP8, thotë Nvidia.

foto

Më parë, thotë Nvidia, një grup prej vetëm 16 GPU do të kalonte 60 për qind të kohës së tyre duke komunikuar me njëri-tjetrin dhe vetëm 40 për qind duke llogaritur.

Natyrisht, Nvidia po mbështet në kompanitë për të blerë sasi të mëdha të këtyre GPU-ve dhe po i paketon ato në dizajne më të mëdha, si GB200 NVL72, i cili lidh 36 CPU dhe 72 GPU në një raft të vetëm të ftohur me lëng për një total prej 720 petaflops. Performanca e trajnimit të AI ose 1,440 petaflops (aka 1.4 ekzaflops ) konkluzion. Ajo ka rreth dy milje kabllo brenda, me 5000 kabllo individuale.

foto

Çdo tabaka në raft përmban ose dy çipa GB200 ose dy çelësa NVLink, me 18 nga të parët dhe nëntë nga të dytat për raft. Në total, Nvidia thotë se një prej këtyre rafteve mund të mbështesë një model parametrash prej 27 trilionësh. GPT-4 thuhet se është rreth një model me parametra 1.7 trilionë.

Kompania thotë se Amazon, Google, Microsoft dhe Oracle tashmë po planifikojnë të ofrojnë raftet NVL72 në ofertat e tyre të shërbimit cloud, megjithëse nuk është e qartë se sa po blejnë.

Dhe sigurisht, Nvidia është e lumtur t’u ofrojë kompanive edhe pjesën tjetër të zgjidhjes. Këtu është DGX Superpod për DGX GB200, i cili kombinon tetë sisteme në një për një total prej 288 CPU, 576 GPU, 240 TB memorie dhe 11,5 ekzaflops të llogaritjes FP4.

foto

Nvidia thotë se sistemet e saj mund të shkallëzohen në dhjetëra mijëra superçipa GB200, të lidhur së bashku me rrjetin 800 Gbps me Quantum-X800 InfiniBand të ri (për deri në 144 lidhje) ose Spectrum-X800 ethernet (deri në 64 lidhje).

Ne nuk presim të dëgjojmë asgjë rreth GPU-ve të reja të lojërave sot, pasi ky lajm po del nga Konferenca e Teknologjisë GPU e Nvidia, e cila zakonisht është pothuajse tërësisht e përqendruar në kompjuterin GPU dhe AI, jo lojërat. Por arkitektura GPU Blackwell ka të ngjarë të fuqizojë gjithashtu një linjë të ardhshme të kartave grafike të serive RTX 50.