Modeli i ri gjenerativ i AI-së nga Nvidia ndihmon robotët të mendojnë si njerëzit

foto

Modeli i gjuhës së vizionit të kompanisë, Cosmos Reason, është projektuar për të ndihmuar robotët të marrin vendime më të mira duke vlerësuar mjedisin përreth tyre.

foto

Nvidia ka zhvilluar një model të inteligjencës artificiale gjeneruese (genAI) për të ndihmuar robotët të marrin vendime të ngjashme me ato të njerëzve duke analizuar skenat përreth.

Modeli Cosmos Reason te robotët mund të marrë informacion nga videot dhe të dhënat grafike, të analizojë të dhënat dhe të përdorë kuptimin e tyre për të marrë vendime.

Cosmos Reason, i njoftuar të hënën, i ndihmon robotët “të mendojnë si njerëzit” dhe të marrin vendime “vetëm me logjikë të shëndoshë”, tha Rev Lebaredian, nënkryetar i Omniverse dhe teknologjive të simulimit.

Modeli është i lehtë me 7 miliardë parametra dhe mund të përdoret në një sërë pajisjesh fizike, siç janë kamerat e instaluara, sinjalet e trafikut dhe instrumentet në fabrika.

“Çdo pajisje inteligjente IoT që mund të shohë, nga kamerat te semaforët, çdo robot shtëpiak apo industrial, do të ketë arsyetim”, tha Lebaredian.

Kompanitë mund të zhvillojnë agjentë video të inteligjencës artificiale, të cilët do të veprojnë mbi sasi të mëdha të të dhënave të mbledhura dhe të analizuara nga të dhënat video të regjistruara dhe transmetimet e drejtpërdrejta. “Këta agjentë video së shpejti do të jenë kudo, duke automatizuar monitorimin e trafikut, duke përmirësuar sigurinë dhe duke përmirësuar inspektimin me video në gjithçka, nga objektet industriale deri te qytete të tëra”, tha Lebaredian.

Cosmos Reason është ajo që Nvidia e quan “model i gjuhës së vizionit” (VLM). Kjo është e ndryshme nga modelet tipike të bazuara në tekst, të cilat mund të gjenerojnë imazhe, video ose tekst.

foto

OpenAI dhe kompani të tjera kanë publikuar VLM-të, por Cosmos Reason mund të bëjë arsyetim më të thellë mbi një varg të gjatë skenarësh të paparë, tha ai. Modelet mund të krijojnë një kuptim paraprak të skenarëve dhe të marrin në konsideratë ndërveprimet fizike dhe më pas të nxjerrin përfundime për ndërveprime ose motivime komplekse të objekteve dhe aktorëve në skenë. Gjithashtu mund të kuptojë përvoja të reja dhe të paparë.

Për shembull, robotët do të jenë në gjendje të lidhin pikat e përgatitjes së bukës së thekur, duke kuptuar se buka e thekur kërkon gjalpë dhe një toster – dhe një pjatë mbi të cilën do të serviret ushqimi.

Modelet e sotme të robotëve me inteligjencë artificiale kanë dy lloje teknologjish që mbështesin aktivitetin e tyre. VLM interpreton udhëzimet dhe planifikon veprimet, ndërsa “gjuha e veprimit vizual” lejon veprime të shpejta dhe kujtesë muskulore.

Cosmos Reason është me burim të hapur dhe tani është i disponueshëm për shkarkim, tha kompania, por do të funksionojë vetëm në harduerin e Nvidia-s.

Kompania shet kompjuterin Jetson Thor DGX për robotë dhe tha se GPU-të e saj të reja RTX Pro 6000 do të jenë në servera të nivelit të lartë. Kompania njoftoi gjithashtu GPU-të e reja RTX Pro 4000 dhe 2000 për desktopë të nivelit të lartë. GPU-të e reja bazohen në arkitekturën Blackwell.

Nvidia po i grupon produktet e saj të ndërtimit të botëve dhe simulimit nën linjën e produkteve Omniverse. Cosmos Reason është një nga shumë modelet e zhvilluara nga kompania për të përmirësuar produktivitetin në fabrika, depo, robotë, automjete dhe vende të tjera fizike.

Produktet Omniverse përfshijnë krijimin e një përfaqësimi dixhital të produkteve fizike në botën reale. Informacioni në botën virtuale përdoret për të krijuar të dhëna sintetike për të trajnuar modelet e gjuhës së vizionit.