Google DeepMind punëson ish-CTO-n e Boston Dynamics për të udhëhequr nismën e harduerit ‘Android për Robotë’
Duke synuar të përsërisë dominimin e saj në telefonat inteligjentë në botën fizike, Google DeepMind ka rekrutuar ish-drejtorin teknologjik të Boston Dynamics, Aaron Saunders, për të udhëhequr një divizion të ri të inxhinierisë së pajisjeve.

Punësimi shënon një ndryshim vendimtar drejt një strategjie “Android për Robotët”, ku inteligjenca artificiale multimodale e Gemini do të shërbejë si një sistem operativ universal për makinat e palëve të treta.

Duke sjellë arkitektin që qëndron pas robotëve Atlas dhe Spot, DeepMind kërkon të zgjidhë pengesën kritike të “sim-to-real” që aktualisht kufizon IA-në e mishëruar, duke sfiduar rivalët e integruar vertikalisht si Tesla dhe Figure AI.
Drejtori Ekzekutiv i DeepMind, Demis Hassabis, e ka përkufizuar në mënyrë të qartë strategjinë e robotikës së kompanisë si një lojë ekosistemi, duke pasqyruar modelin që e bëri Android-in sistemin operativ celular dominues në botë. Në vend që të ndërtohen robotë të pronarit për përdoruesit fundorë, qëllimi është të krijohet një “bazë Gemini” – një shtresë themelore e IA-së e aftë të kontrollojë konfigurime të ndryshme hardueri “të gatshme për përdorim”.
Në një intervistë me WIRED më herët këtë javë, Hassabis e përshkroi iniciativën si “pak a shumë si një lojë Android… Ne duam të ndërtojmë një sistem IA, një bazë Gemini, që mund të funksionojë pothuajse menjëherë, në çdo konfigurim trupi”. Kjo qasje shfrytëzon aftësitë multimodale të modeleve Gemini, të cilat përpunojnë vizionin, gjuhën dhe veprimin (VLA) njëkohësisht në vend që të jenë të izoluara.
Siç vuri në dukje Carolina Parada, Drejtoresha e Robotikës, gjatë publikimit të SDK-së së Robotikës Gemini në qershor, modeli përfaqëson një hap të rëndësishëm sepse “bazohet në kuptimin e botës multimodale të Gemini-t… Ju gjithashtu mund të shkruani kod dhe gjithashtu mund të gjeneroni imazhe. Ai gjithashtu mund të gjenerojë veprime të robotëve”.
Fokusi strategjik tani mbështetet në një të ardhme ku pajisjet kompjuterike bëhen të komoditizuara dhe të këmbyeshme, ndërsa vlera i shtohet shtresës së inteligjencës – “trurit”.
Duke i dhënë përparësi marzheve të softuerit mbi kompleksitetet e prodhimit, Hassabis theksoi: “Jam më i interesuar për pjesën e trurit [të inteligjencës artificiale].” Publikimi i fundit nga DeepMind i Gemini Robotics SDK dhe modelit “Robotics-ER” (i fokusuar në arsyetimin e mishëruar) shërben si mjeti i zhvilluesit për këtë ekosistem.
Duke shkëputur inteligjencën nga shasia, Google synon të shmangë grackat që kërkojnë shumë kapital në prodhimin e pajisjeve, duke siguruar që modelet e saj të inteligjencës artificiale të bëhen standardi i industrisë. Kjo pasqyron qasjen e saj me Android, ku Google ofron bazën e softuerit për Samsung, Xiaomi dhe të tjerë, duke e ngarkuar në mënyrë efektive të gjithë ekosistemin pa ndërtuar çdo pajisje.
Pavarësisht narrativës së “Android”-it të përqendruar te softuerët, rekrutimi i Aaron Saunders – një veteran me 23 vjet përvojë në Boston Dynamics – sinjalizon një nuancë kritike në qasjen e Google.
Saunders, i cili shërbeu si Drejtor Teknologjik gjatë komercializimit të Spot dhe zhvillimit të robotit akrobatik Atlas, sjell ekspertizë të thellë në realitetet mekanike që modelet e pastra të softuerit shpesh i injorojnë.
I emëruar si Zëvendëspresident i Inxhinierisë së Pajisjeve, roli i tij sugjeron që Google po miraton një “strategji Pixel”: ndërtimin e pajisjeve referuese për të validuar dhe shtyrë kufijtë e softuerit të vet.
Rekrutimi i një ndërtuesi adreson hendekun e vazhdueshëm të “simulimit në realitet”, ku agjentët e inteligjencës artificiale të trajnuar në simulime dixhitale perfekte – si ato të detajuara në mbulimin tonë të prezantuar të Gemini Robotics – dështojnë kur hasin fërkime, zhurmë sensorësh dhe paparashikueshmëri fizike.
Hassabis parashikon se “robotika e mundësuar nga inteligjenca artificiale do të ketë momentin e saj të përparimit në dy vitet e ardhshme, nëse do të parashikoja”, një afat kohor që kërkon zgjidhje të menjëhershme të këtyre problemeve të tokëzimit fizik.
Përvoja e Saunders me aktivizimin hidraulik dhe elektrik ofron një kundërpeshë ndaj kulturës së DeepMind, e cila është e fokusuar në kërkime, duke përshpejtuar potencialisht zbatimin e arsyetimit “Deep Think” në agjentët fizikë.
Suksesi mbështetet në supozimin se modelet e softuerëve nuk mund të zhvillohen vërtet pa një lak reagimi nga hardueri i përparuar. Ashtu siç telefoni Pixel demonstron aftësitë e plota të Android, një robot referimi i projektuar nga DeepMind mund të shfaqë arsyetimin në kohë reale të Gemini 3 Pro në skenarë të botës reale.
Integrimi i sensorëve dhe sythet e kontrollit të aktuatorëve ka të ngjarë të formojnë fokusin kryesor të divizionit, duke i lejuar Gemini-t të “ndjejë” botën, jo vetëm ta shohë atë. Ky bazë fizike është thelbësore për aftësitë “Deep Thinking” që Google zbuloi së fundmi, të cilat kërkojnë që një agjent të planifikojë veprime me shumë hapa dhe të përshtatet me reagimet mjedisore në kohë reale.
Saunders bashkohet ndërsa tregu i pajisjeve robotike po kalon një ndryshim të dhunshëm drejt komoditizimit, të udhëhequr nga prodhuesit kinezë. Unitree është shfaqur si furnizuesi më i madh i sistemeve me katër këmbë , duke ofruar afërsisht 10 herë më shumë njësi me katër këmbë në periudhën 2023-2024 duke ulur në mënyrë agresive çmimet.
Duke e mbushur sektorin me shasi të përballueshme, ky vëllim vërteton bastin e Google-it që softueri është i pari: ndërsa trupat e robotëve bëhen të lirë dhe të shumtë, dalluesi bëhet inteligjenca që i drejton ato. Megjithatë, Google përballet me konkurrencë të fortë nga rivalët e integruar vertikalisht si Tesla (Optimus) dhe Figure AI, të cilët kontrollojnë si trurin ashtu edhe trupin për të optimizuar performancën.
Ndërsa konkurrentë si Tesla ndjekin një ekosistem të mbyllur, Meta po konteston edhe shtresën horizontale. Kompania këtë verë publikoi V-JEPA 2, një “model bote” me burim të hapur, i projektuar për t’u mësuar robotëve logjikën fizike përmes vëzhgimit me video.
Inxhinierët po garojnë për të zgjidhur problemin e të dhënave; siç vëren studiuesi i NVIDIA-s, Jim Fan, simulimi është thelbësor sepse “një orë kohë llogaritëse i jep një roboti 10 vjet përvojë stërvitjeje. Kështu Neo arriti të mësonte artet marciale në një çast në Matrix Dojo”.
Betejat e rekrutimit janë zhvendosur nga punësimi i studiuesve të pastër të ML-së në vjedhjen e liderëve që mund të dërgojnë produkte të mishëruara, gjë që dëshmohet nga lufta e talenteve në fillim të këtij viti.
Në thelb, strategjia e DeepMind mbështetet në besimin se “truri” në fund të fundit do të jetë komponenti më i vlefshëm i robotit. Duke siguruar një udhëheqës që e kupton “trupin” më mirë se pothuajse kushdo tjetër, Google po mbron bastet e veta, duke u siguruar që softueri i tij nuk është i kufizuar nga hardueri që nuk e kupton.
