TRI po zhvillon një metodë të re për të mësuar robotët brenda natës

foto

Instituti i Kërkimeve Toyota diskuton punën që po bën për të trajnuar robotët duke përdorur modele të mëdha të sjelljes.

Të mësuarit mund të jetë kufiri më emocionues në të gjithë robotikën. Vetë fusha daton prej dekadash. Vitet 80, për shembull, sollën përparime emocionuese në të mësuarit me anë të demonstrimit, por një mori projektesh kërkimore nga shkolla si CMU, MIT dhe UC Berkeley tregojnë për një të ardhme në të cilën robotët mësojnë shumë si homologët e tyre njerëzorë.

Sot në TechCrunch Disrupt’s Hardware Stage, Instituti i Kërkimeve Toyota (TRI) po shfaq përparimet në kërkime që mund t’i mësojnë një roboti një aftësi të re fjalë për fjalë brenda natës.

“Është e jashtëzakonshme se sa shpejt funksionon,” thotë CEO dhe shkencëtar kryesor i TRI, Gill Pratt. “Në mësimin e makinerive, deri vonë ka pasur një kompromis, ku funksionon, por ju duhen miliona raste trajnimi. Kur jeni duke bërë gjëra fizike, nuk keni kohë për kaq shumë, dhe makina do të prishet para se të arrini në 10,000. Tani duket se na duhen dhjetëra. Arsyeja për dhjetëra është se ne duhet të kemi një diversitet në rastet e trajnimit. Por në disa raste është më pak.”

Sistemi i demonstruar nga TRI përdor disa teknika më tradicionale të të mësuarit të robotëve, së bashku me modelet e difuzionit – të ngjashme me proceset që fuqizojnë modelet gjeneruese të AI si Difuzioni i qëndrueshëm. Krahu kërkimor i prodhuesit të automjeteve thotë se ka trajnuar robotë në 60 aftësi dhe numërim duke përdorur këtë metodë. Por modelet ekzistuese nuk do ta zgjidhin vetë problemin.

“Ne kemi parë një përparim të madh me ardhjen e [modeleve të mëdha gjuhësore], duke i përdorur ato për të transmetuar këtë nivel të lartë të inteligjencës njohëse te robotët,” thotë shkencëtari i lartë i kërkimit në TRI, Benjamin Burchfiel. “Nëse keni një robot që merr një send, tani në vend që të specifikoni një objekt, mund t’i thoni të marrë kanaçen e Coca-Cola. Ose mund t’i thoni të marrë objektin me shkëlqim, ose mund të bëni të njëjtën gjë dhe ta bëni në frëngjisht. Kjo është me të vërtetë e mrekullueshme, por nëse dëshironi që një robot të futë një pajisje USB ose të marrë një fasule, ato modele thjesht nuk funksionojnë. Ato janë vërtet të dobishme, por nuk e zgjidhin atë pjesë të problemit. Ne jemi të fokusuar në plotësimin e asaj pjese që mungon, dhe gjëja për të cilën jemi vërtet të emocionuar tani është se ne në fakt kemi një sistem dhe se bazat janë të sakta.”

Ndër avantazhet e metodës është aftësia për të programuar aftësi që janë të afta të funksionojnë në mjedise të ndryshme. Ky është një aspekt i rëndësishëm, pasi robotët kanë vështirësi të funksionojnë në mjedise më pak ose të pastrukturuara. Kjo është një pjesë e madhe e arsyes pse është më e lehtë për një robot që, të themi, të funksionojë në një magazinë kundrejt një rruge apo edhe një shtëpie. Magazinat janë ndërtuar përgjithësisht për t’u strukturuar, me pak ndryshime, përveç lundrimit në objekte lëvizëse si njerëzit ose pirunët.

Në mënyrë ideale, ju dëshironi një robot që mund të rrotullohet me grushta. Merrni shtëpinë. Një nga fokuset kryesore të TRI ka qenë zhvillimi i sistemeve që mund të ndihmojnë të moshuarit të vazhdojnë të jetojnë të pavarur. Ky është një shqetësim gjithnjë e më i madh në vendet me një popullsi të plakur, si Japonia vendase e Toyota-s. Një nga qëllimet është krijimi i një sistemi që mund të funksionojë në mjedise të ndryshme dhe të lundrojë ndryshimet brenda tyre.

Njerëzit lëvizin mobiljet, lënë rrëmujë dhe jo gjithmonë i kthejnë gjërat aty ku i takojnë. Tradicionalisht, robotistët duhet të marrin një lloj përqasjeje me forcë brutale ndaj këtyre gjërave, duke parashikuar çdo rast/devijim të skajit dhe duke programuar robotin për t’i menaxhuar ato paraprakisht.

Kjo është diçka e rëndësishme nëse robotët do të funksionojnë siç reklamohen në botën reale. Po aq e rëndësishme është ajo që robotistët i konsiderojnë sistemet e “qëllimit të përgjithshëm”. Ata janë robotë që mund të mësojnë dhe të përshtaten me detyrat e reja. Është një zhvendosje radikale nga sistemet më tradicionale me një qëllim të vetëm që janë trajnuar për të bërë një gjë mirë pa pushim. Sidoqoftë, ia vlen të kujtojmë se ne jemi ende shumë larg nga çdo gjë që mund të konsiderohet në mënyrë të besueshme “qëllim i përgjithshëm”.

foto

Roboticistët në TRI fillojnë duke i mësuar sistemet përmes teleoperacionit, një mjet i zakonshëm në mësimin e robotëve. Këtu, ai proces mund të zgjasë disa orë monotone, ku sistemi është bërë të përsërisë të njëjtën detyrë pa pushim.

“Ju mund ta mendoni atë si drejtimin e një roboti nga distanca përmes demonstratave,” thotë Burchfiel. “Aktualisht ky numër është zakonisht disa dhjetëra. Zakonisht ju merr rreth një orë për të mësuar një sjellje bazë. Sistemit nuk i intereson vërtet sesi kontrolloni një robot. Ajo që ne kemi përdorur së fundmi, e cila ka mundësuar shumë më tepër nga këto sjellje më të shkathëta, është një pajisje teleop që në fakt transmeton forcë midis robotit dhe personit. Kjo do të thotë që personi mund të ndiejë se çfarë po bën roboti ndërsa po ndërvepron me botën. Kjo të lejon të bësh gjëra të tjera që nuk mund t’i koordinosh ndryshe.”

Sistemi përdor të gjitha të dhënat e paraqitura në të, duke përfshirë reagimin e shikimit dhe forcës, për të krijuar një pamje më të plotë të detyrës. Për sa kohë që ka disa mbivendosje midis të dhënave të mbledhura (të themi, shoqërimi i shikimit me prekjen), ai është në gjendje ta përsërisë atë aktivitet duke përdorur sensorët e tij të integruar. Reagimi i detyruar është çelësi për të kuptuar se, të themi, po e mbani saktë një mjet.

TRI thotë se eksperimentet e saj fillestare me prekshmërinë “kanë qenë jashtëzakonisht premtuese”. Rrotullimi i petullave, për shembull, pati një shkallë suksesi prej 90%, me 27 nga 30 rrokullisje – një përmirësim i lehtë në krahasim me provat jo-prekëse, të cilat shënuan 83%. Nga ana tjetër, numri është shumë i zymtë me rrotullimin e brumit (96%) dhe shërbimin e ushqimit (90%). Pa sensorin e prekshëm, këto numra bien në 0 dhe 10%, respektivisht.

Pasi të përfundojë ky aspekt i trajnimit, sistemet mbeten vetëm, pasi rrjetet e tyre nervore fillojnë të stërviten brenda natës. Nëse gjërat shkojnë siç është planifikuar, aftësia do të jetë mësuar plotësisht në kohën kur studiuesit të kthehen në laborator të nesërmen në mëngjes.

foto

Sistemi mbështetet në politikën e difuzionit, që është, “një mënyrë e re e gjenerimit të sjelljes së robotëve duke përfaqësuar politikën vizuomotore të një roboti si një proces difuzioni denoising të kushtëzuar”, sipas studiuesve pas tij. Me fjalë më të thjeshta, ajo që bën është të gjejë kuptimin në imazhet e rastësishme duke hequr “zhurmën” nga procesi. Përsëri, është e ngjashme me shumë nga ato që kemi parë në botën gjeneruese të AI, por ky hulumtim po përdor procese për të krijuar sjellje në robot.

Kohët e fundit e kuptova se po mendoja për mësimin robotik. Më parë kisha konsideruar metoda të ndryshme të mësimdhënies së robotëve si në konflikt me njëra-tjetrën – që në fund të fundit një metodë superiore do të mbaronte pjesën tjetër. Është e qartë për mua se rruga përpara do të jetë një kombinim i metodave të ndryshme, në të njëjtën mënyrë që mësojnë njerëzit. Një aspekt tjetër i rëndësishëm në të gjithë këtë është të mësuarit e flotës – në mënyrë efektive një sistem i bazuar në renë kompjuterike i aksesueshëm nga qendra, të cilin robotët mund ta përdorin për të mësuar dhe mësuar nga përvojat e njëri-tjetrit.

Një nga hapat kyç të ardhshëm është krijimi i Modeleve të Mëdha të Sjelljes për të ndihmuar robotët të mësojnë. “Ne po përpiqemi të shkallëzojmë,” thotë Zëvendës Presidenti i Kërkimeve Robotike Russ Tedrake. “Ne kemi trajnuar 60 aftësi tashmë, 100 shkallë deri në fund të vitit, mijëra shkallë deri në fund të vitit të ardhshëm. Ne nuk i dimë ende ligjet e shkallëzimit. Sa aftësi do të kemi për të trajnuar ku diçka krejtësisht e re del nga ana tjetër? Ne po studiojmë atë. Ne jemi në regjimin tani ku mund të fillojmë të bëjmë këto pyetje mjaft themelore dhe të fillojmë të kërkojmë ligjet për të ditur se në çfarë lloj afati kohor jemi.”

foto

Më tej, ekipi shpreson se gjetje të tilla do të çojnë në robotë më të aftë, të cilët mund të përdorin objekte të reja në mjedise të reja, ndërsa krijojnë veprime në fluturim bazuar në sjellje të trajnuara. Në shumë raste, detyrat përbëhen nga sjellje më të vogla që mund të lidhen së bashku dhe të ekzekutohen. Të gjitha në kohën e duhur, natyrisht.

Ndërkohë, Pratt do t’i bashkohet Drejtorit Ekzekutiv të Institutit Boston Dynamics AI Marc Raibert të enjten si pjesë e Fazës Hardware të Disrupt. Dyshja do të diskutojnë këto përparime dhe më shumë.