Google ndan TPU 8 në çipa për trajnim dhe inferencë për të ndjekur Nvidia-n

Google zbuloi njësinë e saj të përpunimit tensor të gjeneratës së tetë në dy variante të dallueshme të mërkurën në Cloud Next 2026, duke ndarë punën e trajnimit dhe të inferencës në silikon të veçantë për herë të parë në historinë dhjetëvjeçare të programit TPU. TPU 8t i fokusuar në trajnim ofron çmim/performancë 2.8 herë më të mirë se çipi Ironwood i vitit të kaluar me 121 exaflops për pod, ndërsa TPU 8i i akorduar për inferencë pretendon performancë 80% më të mirë për dollar dhe çiftëzon 288 GB memorie me gjerësi të lartë bande me 384 MB SRAM në çip për të mbajtur grupet e punës së agjentëve në vetë çipin. Drejtori ekzekutiv i Google Cloud, Thomas Kurian, e quajti ndarjen “një evolucion natyror”, duke e pozicionuar arkitekturën me dy çipa kundër qasjes së unifikuar të GPU-së të Nvidia dhe linjës Trainium dhe Inferentia të AWS, ndërsa ndërmarrjet kalojnë nga eksperimentet e modelit në drejtimin e agjentëve të vazhdueshëm të IA-së gjatë gjithë kohës.

Një superpod TPU 8t arrin në 9,600 çipa të ftohur me lëng, të lidhur së bashku me 2 petabajt memorie të përbashkët me gjerësi të lartë bande, duke dyfishuar gjerësinë e bandës midis çipave në krahasim me Ironwood. Amin Vahdat, zv.president i lartë dhe teknolog kryesor për infrastrukturën e IA-së në Google, u tha gazetarëve se arkitektura e ndarë kishte qenë në zhvillim për dy vjet, përpara se agjentët të bëheshin pjesë e rrjetit, bazuar në bisedat me DeepMind rreth asaj se ku do të pengohej më pas llogaritja. Ngarkesat e punës së trajnimit ende ndjekin rendimentin. Agjentët ndjekin vonesën.

Kjo është arsyeja pse TPU 8i përdor një topologji të re rrjeti që Google e quan Boardfly. Ai zëvendëson paraqitjen 3D torus që përdorin pod-et e trajnimit dhe zvogëlon latencën në çip deri në 5 herë përmes një Motori të ri të Përshpejtimit Collectives. Google dyfishoi hostet fizike të CPU-së për server në procesorët e saj Axion Arm dhe rriti bandwidth-in e ndërlidhjes në 19.2 Tb/s për modelet me përzierje ekspertësh. Rezultati, sipas shifrave të vetë Google: klientët mund të shërbejnë pothuajse dyfishin e vëllimit të përdoruesve me të njëjtën kosto.

Raportet e medias raportojnë se Broadcom ka projektuar çipin e trajnimit TPU 8t, me emrin e koduar Sunfish. MediaTek raportohet se do të merret me çipin e inferencës TPU 8i, me emrin e koduar Zebrafish, me dizajnet e tij të hyrjes/daljes dhe periferike në Ironwood-in e mëparshëm që funksionojnë 20 deri në 30% më lirë se alternativat. Marvell është në bisedime me Google për një njësi përpunimi memorieje dhe një TPU të dytë inference. Intel nënshkroi më 9 prill për të furnizuar CPU-të Xeon dhe njësitë e përpunimit të infrastrukturës së personalizuar për shtresën përreth të qendrës së të dhënave. TSMC i prodhon të gjitha, duke synuar 2nm për fundin e vitit 2027.

Aksionet e MediaTek arritën limitin e tyre ditor pas lajmeve të v8i, duke u mbyllur në një rekord prej 2,090 TWD me një kapitalizim tregu mbi 3.3 trilion TWD. Anthropic tashmë e kishte përmbushur kërkesën. Më herët këtë muaj, ajo nënshkroi një marrëveshje të veçantë Broadcom-Google për deri në një milion TPU. Angazhimi mbulon afërsisht 3.5 gigavat kapacitet duke filluar nga viti 2027.

Çipat janë gjysma e fjalimit kryesor. Gjysma tjetër është Inteligjenca e Hapësirës së Punës. Mendojeni si një shtresë konteksti që ndodhet poshtë të gjithë paketës së hapësirës së punës, nga kutia hyrëse që shfletoni në mëngjes deri te skeda e spreadsheet-it që hapët këtë mëngjes. Google thotë se shtresa mëson zërin tuaj. Mëson se cilat shabllone përdor kompania juaj. Prezanton paketa dhe email-e që tingëllojnë autentikisht si ju, ose të paktën kjo është prezantimi i shitjeve. Ask Gemini inside Chat tani mund të gjenerojë një paketë të plotë diapozitivash në një kërkesë të vetme, të hartojë rishikime të faturave duke përputhur faturat e reja me kutinë tuaj hyrëse ose të shfaqë orare takimesh që i përshtaten kalendarit të të gjithëve. Një server i ri MCP i hapësirës së punës lejon që aplikacionet e palëve të treta të përdorin të njëjtin sistem hidraulik.

Të ardhurat e divizionit të cloud-it në tremujorin e katërt u rritën me 48% në 17.7 miliardë dollarë, sipas shifrave të kompanisë. Numri i prapambetur është më i lartë. Ai arriti në 240 miliardë dollarë deri në fund të vitit 2025, afërsisht dyfishi i nivelit ku qëndronte dymbëdhjetë muaj më parë. Google caktoi 750 milionë dollarë të rinj për partnerët për të shitur agjentë të mundësuar nga Gemini në llogaritë e ndërmarrjeve. Kompania dëshiron shtresën e orkestrimit dhe qeverisjes ku jetojnë agjentët. Modeli poshtë tij bëhet një mall.

Historia e Nvidia-s në Cloud Next është më e çuditshme nga ç’duket. Thinking Machines Lab e Mira Muratit nënshkroi një marrëveshje shumëmiliardëshe me Google Cloud të mërkurën, që thuhet se është në miliarda njëshifrorë, për akses në sistemet e ndërtuara në çipat e rinj GB300 të Nvidia-s . Google po shet harduer Nvidia brenda cloud-it të vet, ndërsa po ndërton silikon të ndërtuar posaçërisht për të konkurruar me të. Parashikimet e raportuara i çojnë dërgesat e TPU-ve të Google në 4.3 milionë këtë vit dhe në më shumë se 35 milionë deri në vitin 2028.

Formulimi i Kurianit e ndryshon thelbin e çështjes. “Njerëzit duan sisteme që janë më të optimizuara për trajnim dhe, veçmas, sisteme që janë më të optimizuara për nxjerrjen e përfundimeve.” Implicator.ai mbuloi çështjen Ironwood prillin e kaluar, kur Google pozicionoi për herë të parë një TPU posaçërisht për nxjerrjen e përfundimeve. Dymbëdhjetë muaj më vonë, vija është ndarë.

Gara e trajnimit ka të bëjë me atë se kush ndërton modelin më të madh. Gara e nxjerrjes së përfundimeve ka të bëjë me atë se kush paguan koston më të ulët për pyetje në shkallë të gjerë. Google sapo e tha pjesën e qetë me zë të lartë. Ato janë dy çipa të ndryshëm. Partnerë të ndryshëm i ndërtojnë, materiale të ndryshme i lidhin, klientë të ndryshëm i blejnë. Nvidia ende i dërgon në të njëjtat rafte.

Tags: Apps, AWS, DeepMind, Google, Google Cloud, gpu, kuriozitete, lajme, lajme shqip, lajmet e dites, lajmet e fundit, Nvidia, Technology, Thomas Kurian, TPU 8

Google ndan TPU 8 në çipa për trajnim dhe inferencë për të ndjekur Nvidia-n

Meta do të fillojë të regjistrojë lëvizjet e mausit dhe shtypjet e tastierës së punonjësve për të dhëna trajnimi për AI

GitHub pezullon regjistrimet e reja për Copilot mes përdorimit në rritje dhe kostove në rritje

Google krijon një ekip elitar për të mbyllur hendekun në programim me Anthropic

Microsoft heq Call of Duty nga Game Pass dhe ul çmimin e abonimit

New York padit Coinbase dhe Gemini Titan në një luftë trepalëshe për kontrollin e bumit të tregut të parashikimeve në SHBA

OpenAI prezanton ChatGPT Images 2.0