Figura 01 e mundësuar nga OpenAI është një robot që mund të bisedojë, të shohë, të planifikojë dhe të kryejë detyra
Në bashkëpunim me OpenAI, kompania robotike Figure ka zhvilluar një robot që mund të mbajë biseda të plota dhe të planifikojë dhe ekzekutojë veprimet e tij.
Kjo arrihet duke lidhur robotin me një model multimodal të trajnuar nga OpenAI që kupton imazhet dhe tekstin.
Duke u lidhur me modelin, roboti i Figure, i quajtur “Figura 01”, është në gjendje të përshkruajë mjedisin e tij, të interpretojë situatat e përditshme dhe të kryejë veprime bazuar në kërkesa shumë të paqarta, të varura nga konteksti.
Të gjitha veprimet në video mësohen, nuk kontrollohen me telekomandë dhe kryhen me shpejtësi normale.
Corey Lynch, inxhinier robotik dhe AI në Figure, është i ngazëllyer për përparimin: “Edhe vetëm pak vite më parë, do të kisha menduar të kisha një bisedë të plotë me një robot humanoid ndërsa ai planifikon dhe kryen sjelljet e tij plotësisht të mësuara do të ishte diçka. Duhet të presim dekada për të parë. Natyrisht, shumëçka ka ndryshuar.”
Hulumtime të ngjashme robotike janë demonstruar tashmë nga Google me modelet e tij RT, të cilat lejojnë një robot të lundrojë në një mjedis të përditshëm dhe të planifikojë dhe ekzekutojë veprime komplekse bazuar në hyrjen dhe daljen e modeleve të gjuhës dhe imazhit. Por robotët demo të Google nuk ishin aq llafazan.
Lynch përshkruan në detaje aftësitë e robotit. Këto përfshijnë përshkrimin e përvojave të tij vizuale, planifikimin e veprimeve të ardhshme, reflektimin mbi kujtimet e tij dhe shpjegimin verbal të përfundimeve të tij që çojnë në veprime.
Për të arritur këtë, modeli multimodal i OpenAI përpunon të gjithë historinë e bisedave, duke përfshirë imazhet e kaluara, për të gjeneruar përgjigje të folura të cilave njeriu mund t’u përgjigjet. I njëjti model vendos gjithashtu se cilën sjellje të mësuar duhet të kryejë roboti për të ekzekutuar një komandë të caktuar.
Për shembull, roboti mund t’i përgjigjet saktë pyetjes “A mund ta vendosni atje?” duke iu referuar pjesëve të mëparshme të bisedës për të përcaktuar se çfarë nënkuptohet me “ajo” dhe “vëre atë atje”. Në një shembull, kupton se pjatat e shtrira rreth e rrotull ndoshta duhet të futen në raftin e enëve, diçka që nuk mund ta kuptoja deri sa isha mbi 40 vjeç.