AI-ja e re për ndërtimin me Lego krijon modele që qëndrojnë realisht në jetën reale

foto

Të enjten, studiuesit në Universitetin Carnegie Mellon zbuluan LegoGPT, një model të inteligjencës artificiale që krijon struktura Lego fizikisht të qëndrueshme nga udhëzimet me tekst. Sistemi i ri jo vetëm që harton modele Lego që përputhen me përshkrimet me tekst (udhëzimet), por gjithashtu siguron që ato të mund të ndërtohen tullë pas tulle në botën reale, qoftë me dorë ose me ndihmë robotike.

“Për ta arritur këtë, ne ndërtojmë një grup të dhënash në shkallë të gjerë, fizikisht të qëndrueshëm të dizenjove LEGO, së bashku me mbishkrimet e tyre përkatëse”, shkruan studiuesit në punimin e tyre, i cili u postua në arXiv, “dhe trajnojmë një model të gjuhës së madhe autoregresive për të parashikuar tullën tjetër që do të shtohet nëpërmjet parashikimit të shenjës tjetër”.

Ky model i trajnuar gjeneron dizajne Lego që përputhen me kërkesa tekstuale si “një anije e efektshme dhe e zgjatur” ose “një makinë në stil klasik me një grilë të përparme të spikatur”. Dizajnet që rezultojnë janë të thjeshta, duke përdorur vetëm disa lloje tullash për të krijuar forma primitive – por ato qëndrojnë. Siç bëri shaka një punonjës i Ars Technica këtë mëngjes pasi pa hulumtimin, “Ndërton Lego sikur të ishte viti 1974 “.

Në punimin e titulluar “Gjenerimi i Dizajneve Lego Fizikisht të Qëndrueshme dhe të Ndërtueshme nga Teksti”, ekipi i kërkimit i udhëhequr nga Ava Pun shpjegoi se shumë modele ekzistuese të gjenerimit 3D përqendrohen në krijimin e objekteve të ndryshme me gjeometri të detajuar, por këto dizajne dixhitale shpesh nuk mund të bëhen fizikisht. “Pa mbështetje të duhur, pjesë të dizajnit mund të shemben, të notojnë ose të mbeten të shkëputura”, shkruan ata.

Ndryshe nga përpjekjet e mëparshme për modelimin autonom Lego, thuhet se LegoGPT prodhon udhëzime hap pas hapi për ndërtimin e krijimeve Lego që nuk shkatërrohen. Mund të shihni demo të sistemit në veprim në faqen e internetit të projektit.

Për të ndërtuar LegoGPT, ekipi i Carnegie Mellon e ripërdori teknologjinë që fshihet pas modeleve të mëdha gjuhësore (LLM), të ngjashme me llojin që ekzekuton ChatGPT, për “parashikimin e fjalës tjetër” në vend të parashikimit të fjalës tjetër. Për ta bërë këtë, ekipi e përsosi LLaMA-3.2-1B-Instruct, një model gjuhe nga Meta që ndjek udhëzimet.

Ekipi më pas e shtoi modelin e parashikimit të tullave me një mjet të veçantë softuerik që mund të verifikojë stabilitetin fizik duke përdorur modele matematikore që simulojnë gravitetin dhe forcat strukturore.

Për të trajnuar modelin, ekipi mblodhi një grup të dhënash të ri të quajtur “StableText2Lego”, i cili përmbante mbi 47,000 struktura të qëndrueshme Lego të shoqëruara me mbishkrime përshkruese të gjeneruara nga një model i veçantë i inteligjencës artificiale, GPT-4o i OpenAI. Çdo strukturë iu nënshtrua analizës fizike për t’u siguruar që mund të ndërtohej në botën reale.

foto

LegoGPT funksionon duke gjeneruar fillimisht një sekuencë me tulla Lego të vendosura saktësisht. Për çdo tullë të re në sekuencë, sistemi sigurohet që ajo të mos përplaset me tullat ekzistuese dhe që të përshtatet brenda hapësirës së ndërtesës. Pas përfundimit të një dizajni, ai përdor modelet matematikore të lartpërmendura për të verifikuar që modeli mund të qëndrojë drejt pa u copëtuar.

Nëse pjesët do të shembeshin në jetën reale, sistemi identifikon tullën e parë të paqëndrueshme dhe kthehet prapa, duke e hequr atë dhe të gjitha tullat pasuese përpara se të provojë një qasje tjetër. Kjo metodë e “rikthimit prapa të ndërgjegjshëm për fizikën” rezultoi thelbësore për qasjen e ekipit. Pa të, vetëm 24 përqind e dizenjove mbetën në këmbë, krahasuar me 98.8 përqind me sistemin e plotë.

foto

Studiuesit zgjeruan gjithashtu aftësitë e sistemit duke shtuar opsione teksture dhe ngjyrash. Për shembull, duke përdorur një njoftim për pamjen si “Kitara elektrike në vjollcë metalike”, LegoGPT mund të gjenerojë një model kitare, me tulla të cilave u është caktuar një ngjyrë vjollcë.

Për të vërtetuar se dizajnet e tyre funksiononin në jetën reale, studiuesit përdorën robotë për të montuar modelet Lego të krijuara nga inteligjenca artificiale. Ata përdorën një sistem me krahë të dyfishtë robotikë me sensorë force për të mbledhur dhe vendosur tullat sipas udhëzimeve të gjeneruara nga inteligjenca artificiale.

Testuesit njerëzorë gjithashtu ndërtuan disa nga dizajnet me dorë, duke treguar se IA krijon modele vërtet të ndërtueshme. “Eksperimentet tona tregojnë se LegoGPT prodhon dizajne Lego të qëndrueshme, të larmishme dhe estetikisht të këndshme që përputhen ngushtë me kërkesat e tekstit të futur”, vuri në dukje ekipi në punimin e tij.

Kur u testua kundrejt sistemeve të tjera të IA-së për krijimin 3D, LegoGPT dallohet për shkak të fokusit të tij në integritetin strukturor. Ekipi testoi kundrejt disa alternativave, duke përfshirë LLaMA-Mesh dhe modele të tjera të gjenerimit 3D, dhe zbuloi se qasja e saj prodhoi përqindjen më të lartë të strukturave të qëndrueshme.

Megjithatë, ka disa kufizime. Versioni aktual i LegoGPT funksionon vetëm brenda një hapësire ndërtimi 20×20×20 dhe përdor vetëm tetë lloje standarde tullash. “Metoda jonë aktualisht mbështet një grup të caktuar tullash Lego të përdorura zakonisht,” pranoi ekipi. “Në punën e ardhshme, ne planifikojmë të zgjerojmë bibliotekën e tullave për të përfshirë një gamë më të gjerë dimensionesh dhe llojesh tullash, siç janë shpatet dhe pllakat.”

Studiuesit shpresojnë gjithashtu të zgjerojnë të dhënat e tyre të trajnimit për të përfshirë më shumë objekte sesa 21 kategoritë që janë aktualisht në dispozicion. Ndërkohë, të tjerët mund të ndërtojnë fjalë për fjalë mbi punën e tyre – studiuesit publikuan të dhënat, kodin dhe modelet e tyre në faqen e internetit të projektit të tyre dhe në GitHub.