Google ndan TPU 8 në çipa për trajnim dhe inferencë për të ndjekur Nvidia-n
Google zbuloi njësinë e saj të përpunimit tensor të gjeneratës së tetë në dy variante të dallueshme të mërkurën në Cloud Next 2026, duke ndarë punën e trajnimit dhe të inferencës në silikon të veçantë për herë të parë në historinë dhjetëvjeçare të programit TPU. TPU 8t i fokusuar në trajnim ofron çmim/performancë 2.8 herë më të mirë se çipi Ironwood i vitit të kaluar me 121 exaflops për pod, ndërsa TPU 8i i akorduar për inferencë pretendon performancë 80% më të mirë për dollar dhe çiftëzon 288 GB memorie me gjerësi të lartë bande me 384 MB SRAM në çip për të mbajtur grupet e punës së agjentëve në vetë çipin. Drejtori ekzekutiv i Google Cloud, Thomas Kurian, e quajti ndarjen “një evolucion natyror”, duke e pozicionuar arkitekturën me dy çipa kundër qasjes së unifikuar të GPU-së të Nvidia dhe linjës Trainium dhe Inferentia të AWS, ndërsa ndërmarrjet kalojnë nga eksperimentet e modelit në drejtimin e agjentëve të vazhdueshëm të IA-së gjatë gjithë kohës.

Një superpod TPU 8t arrin në 9,600 çipa të ftohur me lëng, të lidhur së bashku me 2 petabajt memorie të përbashkët me gjerësi të lartë bande, duke dyfishuar gjerësinë e bandës midis çipave në krahasim me Ironwood. Amin Vahdat, zv.president i lartë dhe teknolog kryesor për infrastrukturën e IA-së në Google, u tha gazetarëve se arkitektura e ndarë kishte qenë në zhvillim për dy vjet, përpara se agjentët të bëheshin pjesë e rrjetit, bazuar në bisedat me DeepMind rreth asaj se ku do të pengohej më pas llogaritja. Ngarkesat e punës së trajnimit ende ndjekin rendimentin. Agjentët ndjekin vonesën.

Kjo është arsyeja pse TPU 8i përdor një topologji të re rrjeti që Google e quan Boardfly. Ai zëvendëson paraqitjen 3D torus që përdorin pod-et e trajnimit dhe zvogëlon latencën në çip deri në 5 herë përmes një Motori të ri të Përshpejtimit Collectives. Google dyfishoi hostet fizike të CPU-së për server në procesorët e saj Axion Arm dhe rriti bandwidth-in e ndërlidhjes në 19.2 Tb/s për modelet me përzierje ekspertësh. Rezultati, sipas shifrave të vetë Google: klientët mund të shërbejnë pothuajse dyfishin e vëllimit të përdoruesve me të njëjtën kosto.
Raportet e medias raportojnë se Broadcom ka projektuar çipin e trajnimit TPU 8t, me emrin e koduar Sunfish. MediaTek raportohet se do të merret me çipin e inferencës TPU 8i, me emrin e koduar Zebrafish, me dizajnet e tij të hyrjes/daljes dhe periferike në Ironwood-in e mëparshëm që funksionojnë 20 deri në 30% më lirë se alternativat. Marvell është në bisedime me Google për një njësi përpunimi memorieje dhe një TPU të dytë inference. Intel nënshkroi më 9 prill për të furnizuar CPU-të Xeon dhe njësitë e përpunimit të infrastrukturës së personalizuar për shtresën përreth të qendrës së të dhënave. TSMC i prodhon të gjitha, duke synuar 2nm për fundin e vitit 2027.
Aksionet e MediaTek arritën limitin e tyre ditor pas lajmeve të v8i, duke u mbyllur në një rekord prej 2,090 TWD me një kapitalizim tregu mbi 3.3 trilion TWD. Anthropic tashmë e kishte përmbushur kërkesën. Më herët këtë muaj, ajo nënshkroi një marrëveshje të veçantë Broadcom-Google për deri në një milion TPU. Angazhimi mbulon afërsisht 3.5 gigavat kapacitet duke filluar nga viti 2027.
Çipat janë gjysma e fjalimit kryesor. Gjysma tjetër është Inteligjenca e Hapësirës së Punës. Mendojeni si një shtresë konteksti që ndodhet poshtë të gjithë paketës së hapësirës së punës, nga kutia hyrëse që shfletoni në mëngjes deri te skeda e spreadsheet-it që hapët këtë mëngjes. Google thotë se shtresa mëson zërin tuaj. Mëson se cilat shabllone përdor kompania juaj. Prezanton paketa dhe email-e që tingëllojnë autentikisht si ju, ose të paktën kjo është prezantimi i shitjeve. Ask Gemini inside Chat tani mund të gjenerojë një paketë të plotë diapozitivash në një kërkesë të vetme, të hartojë rishikime të faturave duke përputhur faturat e reja me kutinë tuaj hyrëse ose të shfaqë orare takimesh që i përshtaten kalendarit të të gjithëve. Një server i ri MCP i hapësirës së punës lejon që aplikacionet e palëve të treta të përdorin të njëjtin sistem hidraulik.
Të ardhurat e divizionit të cloud-it në tremujorin e katërt u rritën me 48% në 17.7 miliardë dollarë, sipas shifrave të kompanisë. Numri i prapambetur është më i lartë. Ai arriti në 240 miliardë dollarë deri në fund të vitit 2025, afërsisht dyfishi i nivelit ku qëndronte dymbëdhjetë muaj më parë. Google caktoi 750 milionë dollarë të rinj për partnerët për të shitur agjentë të mundësuar nga Gemini në llogaritë e ndërmarrjeve. Kompania dëshiron shtresën e orkestrimit dhe qeverisjes ku jetojnë agjentët. Modeli poshtë tij bëhet një mall.
Historia e Nvidia-s në Cloud Next është më e çuditshme nga ç’duket. Thinking Machines Lab e Mira Muratit nënshkroi një marrëveshje shumëmiliardëshe me Google Cloud të mërkurën, që thuhet se është në miliarda njëshifrorë, për akses në sistemet e ndërtuara në çipat e rinj GB300 të Nvidia-s . Google po shet harduer Nvidia brenda cloud-it të vet, ndërsa po ndërton silikon të ndërtuar posaçërisht për të konkurruar me të. Parashikimet e raportuara i çojnë dërgesat e TPU-ve të Google në 4.3 milionë këtë vit dhe në më shumë se 35 milionë deri në vitin 2028.
Formulimi i Kurianit e ndryshon thelbin e çështjes. “Njerëzit duan sisteme që janë më të optimizuara për trajnim dhe, veçmas, sisteme që janë më të optimizuara për nxjerrjen e përfundimeve.” Implicator.ai mbuloi çështjen Ironwood prillin e kaluar, kur Google pozicionoi për herë të parë një TPU posaçërisht për nxjerrjen e përfundimeve. Dymbëdhjetë muaj më vonë, vija është ndarë.
Gara e trajnimit ka të bëjë me atë se kush ndërton modelin më të madh. Gara e nxjerrjes së përfundimeve ka të bëjë me atë se kush paguan koston më të ulët për pyetje në shkallë të gjerë. Google sapo e tha pjesën e qetë me zë të lartë. Ato janë dy çipa të ndryshëm. Partnerë të ndryshëm i ndërtojnë, materiale të ndryshme i lidhin, klientë të ndryshëm i blejnë. Nvidia ende i dërgon në të njëjtat rafte.
