Physical Intelligence, një startup i njohur i robotikës, thotë se truri i ri i robotit të saj mund të kuptojë detyra që nuk i janë mësuar kurrë
Physical Intelligence, startup-i dy-vjeçar i robotikës me seli në San Francisko, i cili është bërë në heshtje një nga kompanitë e inteligjencës artificiale më të vëzhguara nga afër në Bay Area, publikoi të enjten një studim të ri që tregon se modeli i saj më i fundit mund t’i drejtojë robotët të kryejnë detyra për të cilat nuk janë trajnuar kurrë në mënyrë të qartë – një aftësi që studiuesit e vetë kompanisë thonë se i kapi në befasi.

Modeli i ri, i quajtur π0.7, përfaqëson atë që kompania e përshkruan si një hap të hershëm, por domethënës drejt qëllimit të kërkuar prej kohësh, të një truri robotik me qëllim të përgjithshëm: një tru që mund të drejtohet drejt një detyre të panjohur, të trajnohet përmes saj në gjuhë të thjeshtë dhe në të vërtetë ta kryejë atë. Nëse gjetjet i qëndrojnë shqyrtimit të hollësishëm, ato sugjerojnë që IA robotike mund të jetë duke iu afruar një pike kthese të ngjashme me atë që pa fusha me modelet e mëdha gjuhësore – ku aftësitë fillojnë të shtohen në mënyra që tejkalojnë atë që të dhënat themelore duket se parashikojnë.

Por së pari: Pretendimi kryesor në punim është përgjithësimi kompozicional – aftësia për të kombinuar aftësitë e mësuara në kontekste të ndryshme për të zgjidhur probleme që modeli nuk i ka hasur kurrë. Deri më tani, qasja standarde ndaj trajnimit të robotëve ka qenë në thelb memorizimi – mbledhja e të dhënave mbi një detyrë specifike, trajnimi i një modeli specialist mbi ato të dhëna, pastaj përsëritja për çdo detyrë të re. π0.7, thotë Inteligjenca Fizike, e thyen këtë model.
“Sapo të kalojë atë prag ku kalon nga bërja vetëm e pikërisht gjërave për të cilat mbledh të dhënat në ripërzierjen e gjërave në mënyra të reja”, thotë Sergey Levine, një bashkëthemelues i Inteligjencës Fizike dhe një profesor i UC Berkeley i fokusuar në IA për robotikën, “aftësitë po rriten më shumë se linearisht me sasinë e të dhënave. Kjo veti shumë më e favorshme e shkallëzimit është diçka që e kemi parë në fusha të tjera, si gjuha dhe vizioni.”
Demonstrimi më mbresëlënës i punimit përfshin një skuqëse ajri që modeli në thelb nuk e kishte parë kurrë në trajnim. Kur ekipi i kërkimit hetoi, ata gjetën vetëm dy episode relevante në të gjithë të dhënat e trajnimit: një ku një robot tjetër thjesht e shtyu skuqësen e ajrit të mbyllur dhe një nga një të dhënë me burim të hapur ku një robot tjetër vendosi një shishe plastike brenda saj sipas udhëzimeve të dikujt. Modeli i kishte sintetizuar disi ato fragmente, plus të dhëna më të gjera paraprake të bazuara në internet, në një kuptim funksional të mënyrës se si funksionon pajisja.
“Është shumë e vështirë të gjesh se nga vjen njohuria, ose ku do të ketë sukses ose dështim”, thotë Lucy Shi, një studiuese e Inteligjencës Fizike dhe studente e doktoraturës në shkencat kompjuterike në Stanford. Megjithatë, pa asnjë trajnim, modeli bëri një përpjekje të pranueshme për të përdorur pajisjen për të gatuar një patate të ëmbël. Me udhëzime verbale hap pas hapi – në thelb, një njeri që e çon robotin përmes detyrës në të njëjtën mënyrë siç mund t’i shpjegosh diçka një punonjësi të ri – ajo performoi me sukses.
Kjo aftësi trajnimi ka rëndësi sepse sugjeron që robotët mund të vendosen në mjedise të reja dhe të përmirësohen në kohë reale pa mbledhje shtesë të të dhënave ose ritrajnim të modelit.
Pra, çfarë do të thotë e gjithë kjo? Studiuesit nuk janë të turpshëm për kufizimet e modelit dhe janë të kujdesshëm që të mos ecin përpara kohe. Në të paktën një rast, ata e drejtojnë gishtin drejtpërdrejt nga ekipi i tyre.
Ndonjëherë mënyra e dështimit nuk është te roboti ose te modeli, thotë Shi. Është faji ynë. Nuk jemi të mirë në inxhinierinë e shpejtë. Ajo përshkruan një eksperiment të hershëm me skuqëse ajri që dha një shkallë suksesi prej 5%. Pasi kaloi rreth gjysmë ore duke rafinuar mënyrën se si iu shpjegua detyra modelit, ajo u rrit në 95%, thotë ajo.

Modeli gjithashtu nuk është ende i aftë të ekzekutojë detyra komplekse me shumë hapa në mënyrë autonome nga një komandë e vetme e nivelit të lartë. “Nuk mund t’i thuash, ‘Hej, shko më bëj pak bukë të thekur’,” thotë Levine. “Por nëse e tregon me kujdes — ‘për tostin, hap këtë pjesë, shtyp atë buton, bëj këtë’ — atëherë në fakt tenton të funksionojë mjaft mirë.”
Ekipi pranoi gjithashtu se standardet standarde për robotikën nuk ekzistojnë realisht, gjë që e bën të vështirë vërtetimin e jashtëm të pretendimeve të tyre. Në vend të kësaj, kompania mati π0.7 kundrejt modeleve të saj të mëparshme të specializuara – sisteme të ndërtuara posaçërisht të trajnuara për detyra individuale – dhe zbuloi se modeli gjeneralist përputhej me performancën e tyre në një gamë punimesh komplekse, duke përfshirë përgatitjen e kafesë, palosjen e rrobave të lara dhe montimin e kutive.
Ajo që mund të jetë më e dukshme në lidhje me hulumtimin — nëse i besoni fjalën e studiuesve — nuk është ndonjë demo e vetme, por shkalla në të cilën rezultatet i kanë habitur ata, njerëz, puna e të cilëve është të dinë saktësisht se çfarë përmbajnë të dhënat e trajnimit dhe për këtë arsye çfarë duhet dhe nuk duhet të jetë në gjendje të bëjë modeli.
“Përvoja ime ka qenë gjithmonë se kur e di thellësisht se çfarë përmbajnë të dhënat, mund të hamendësoj se çfarë do të jetë në gjendje të bëjë modeli”, thotë Ashwin Balakrishna, një shkencëtar kërkimor në Physical Intelligence. “Rrallë jam i befasuar. Por muajt e fundit kanë qenë hera e parë që jam vërtet i befasuar. Sapo bleva një set ingranazhesh rastësisht dhe e pyeta robotin: ‘Hej, a mund ta rrotullosh këtë ingranazh?’ Dhe funksionoi.”
Levine kujtoi momentin kur studiuesit hasën për herë të parë GPT-2 duke gjeneruar një histori për njëbrirëshët në Ande. “Nga dreqin mësoi për njëbrirëshët në Peru?” thotë ai. “Ky është një kombinim kaq i çuditshëm. Dhe mendoj se të shohësh këtë në robotikë është vërtet e veçantë.”
Natyrisht, kritikët do të tregojnë një asimetri të pakëndshme këtu: Modelet gjuhësore kishin të gjithë internetin për të mësuar. Robotët jo, dhe asnjë sasi nxitjeje e zgjuar nuk e mbyll plotësisht këtë boshllëk. Por kur u pyet se ku e pret skepticizmin, Levine tregon diku tjetër krejtësisht.
“Kritika që mund t’i bëhet gjithmonë çdo demoje të përgjithësimit robotik është se detyrat janë disi të mërzitshme”, thotë ai. “Roboti nuk po bën asnjë kthesë prapa.” Ai e kundërshton këtë konkluzion, duke argumentuar se dallimi midis një demoje mbresëlënëse robotike dhe një sistemi robotik që në të vërtetë përgjithëson është pikërisht çështja. Ai sugjeron se përgjithësimi do të duket gjithmonë më pak dramatik sesa një akt i koreografuar me kujdes – por është shumë më i dobishëm.
Vetë dokumenti përdor një gjuhë të kujdesshme mbrojtëse gjatë gjithë kohës, duke e përshkruar π0.7 si tregues të “shenjave të hershme” të përgjithësimit dhe “demonstrimeve fillestare” të aftësive të reja. Këto janë rezultate kërkimore, jo një produkt i vendosur në përdorim.
Kur u pyet drejtpërdrejt se kur një sistem i bazuar në këto gjetje mund të jetë gati për vendosje në botën reale, Levine nuk pranon të spekulojë. “Mendoj se ka arsye të mira për të qenë optimist dhe sigurisht që po përparon më shpejt nga sa prisja disa vite më parë”, thotë ai. “Por është shumë e vështirë për mua t’i përgjigjem kësaj pyetjeje.”
Physical Intelligence ka mbledhur mbi 1 miliard dollarë deri më sot dhe së fundmi është vlerësuar në 5.6 miliardë dollarë. Një pjesë e konsiderueshme e entuziazmit të investitorëve rreth kompanisë i përket Lachy Groom, një bashkëthemelues i cili kaloi vite si një nga investitorët engjëj më të vlerësuar të Silicon Valley – duke mbështetur Figma, Notion dhe Ramp, ndër të tjera – përpara se të vendoste që Physical Intelligence ishte kompania që ai kërkonte. Kjo prejardhje e ka ndihmuar startup-in të tërheqë fonde serioze institucionale edhe pse ka refuzuar t’u ofrojë investitorëve një afat kohor komercializimi.
Kompania thuhet se është në diskutime për një raund të ri investimi që pothuajse do ta dyfishonte atë shifër vlerësimi në 11 miliardë dollarë. Ekipi nuk pranoi të komentonte.
