Ndërtova kështjella marshmallow-sh në gjeneratorin e ri të botëve me inteligjencë artificiale të Google-it
Google DeepMind po hap akses në Project Genie, mjetin e saj të inteligjencës artificiale për krijimin e botëve interaktive të lojërave nga udhëzime tekstuale ose imazhe.

Duke filluar nga e enjtja, abonentët e Google AI Ultra në SHBA mund të eksperimentojnë me prototipin e kërkimit eksperimental, i cili fuqizohet nga një kombinim i modelit më të fundit botëror të Google, Genie 3, modelit të tij të gjenerimit të imazheve Nano Banana Pro dhe Gemini.
Pesë muaj pas prezantimit paraprak të kërkimit të Genie 3, ky veprim është pjesë e një shtytjeje më të gjerë për të mbledhur reagime nga përdoruesit dhe të dhëna trajnimi, ndërsa DeepMind nxiton të zhvillojë modele botërore më të afta.
Modelet botërore janë sisteme të IA-së që gjenerojnë një përfaqësim të brendshëm të një mjedisi dhe mund të përdoren për të parashikuar rezultatet e ardhshme dhe për të planifikuar veprime. Shumë udhëheqës të IA-së, përfshirë ata në DeepMind, besojnë se modelet botërore janë një hap vendimtar për arritjen e inteligjencës së përgjithshme artificiale (IAG). Por në një afat më të afërt, laboratorë si DeepMind parashikojnë një plan për të dalë në treg që fillon me videolojëra dhe forma të tjera argëtimi dhe degëzohet në trajnimin e agjentëve të mishëruar (të njohur edhe si robotë) në simulim.
Publikimi i Projektit Genie nga DeepMind vjen në një kohë kur gara e modeleve botërore po fillon të nxehet. World Labs e Fei-Fei Li në fund të vitit të kaluar publikoi produktin e saj të parë komercial të quajtur Marble. Runway, startup-i i gjenerimit të videove me inteligjencë artificiale, ka lançuar gjithashtu një model botëror kohët e fundit. Dhe startup-i AMI Labs i ish-shkencëtarit kryesor të Meta-s, Yann LeCun, do të përqendrohet gjithashtu në zhvillimin e modeleve botërore.
“Mendoj se është emocionuese të jesh në një vend ku mund të kemi më shumë njerëz që e aksesojnë dhe të na japin reagime”, tha për TechCrunch nëpërmjet një interviste video Shlomi Fruchter, një drejtoreshë kërkimore në DeepMind, duke buzëqeshur vesh më vesh me entuziazëm të qartë për publikimin e Project Genie.
Studiuesit e DeepMind me të cilët foli TechCrunch ishin të hapur në lidhje me natyrën eksperimentale të mjetit. Mund të jetë i paqëndrueshëm, ndonjëherë duke gjeneruar botë të luajtshme në mënyrë mbresëlënëse, herë të tjera duke prodhuar rezultate të çuditshme që nuk janë të sakta. Ja se si funksionon.
Filloni me një “skicë të botës” duke ofruar udhëzime me tekst si për mjedisin ashtu edhe për një personazh kryesor, të cilin më vonë do të jeni në gjendje ta manovroni nëpër botë në pamje të parë ose të tretë. Nano Banana Pro krijon një imazh bazuar në udhëzime që, në teori, mund ta modifikoni përpara se Genie ta përdorë imazhin si pikënisje për një botë interaktive. Modifikimet funksionuan kryesisht, por modeli herë pas here pengohej dhe ju jepte flokë të purpurt kur kërkonit ngjyrë jeshile.
Gjithashtu mund të përdorni foto nga jeta reale si bazë për modelin për të ndërtuar një botë mbi të cilën, përsëri, ose u realizua, ose dështoi. (Më shumë për këtë më vonë.)
Pasi të jeni të kënaqur me imazhin, Project Genie-t i duhen disa sekonda për të krijuar një botë të eksplorueshme. Gjithashtu mund të ripërzieni botët ekzistuese në interpretime të reja duke ndërtuar mbi sugjerimet e tyre, ose të eksploroni botë të kuruara në galeri ose nëpërmjet mjetit të rastësishëm për frymëzim. Pastaj mund të shkarkoni video të botës që sapo eksploruat.
DeepMind po jep vetëm 60 sekonda për gjenerimin dhe navigimin e botës për momentin, pjesërisht për shkak të kufizimeve të buxhetit dhe llogaritjes. Meqenëse Genie 3 është një model auto-regresiv, kërkon shumë llogaritje të dedikuar – gjë që vendos një kufi të ngushtë për sasinë që DeepMind është në gjendje t’u ofrojë përdoruesve.
“Arsyeja pse e kufizojmë në 60 sekonda është sepse donim ta sillnim për më shumë përdorues”, tha Fruchter. “Në thelb, kur e përdorni, diku ka një çip që është vetëm i juaji dhe i dedikohet seancës suaj.”
Ai shtoi se zgjatja e tij përtej 60 sekondave do të zvogëlonte vlerën shtesë të testimit.
“Mjediset janë interesante, por në një moment të caktuar, për shkak të nivelit të ndërveprimit të tyre, dinamizmi i mjedisit është disi i kufizuar. Megjithatë, ne e shohim këtë si një kufizim që shpresojmë ta përmirësojmë.”

Kur përdora modelin, kangjellat mbrojtëse ishin tashmë në funksion. Nuk mund të gjeneroja asgjë që i ngjante lakuriqësisë, as nuk mund të gjeneroja botë që as nuk nuhasnin Disney-n ose materiale të tjera të mbrojtura me të drejta autoriale. (Në dhjetor, Disney i dha Google-it një urdhër ndalimi, duke akuzuar modelet e inteligjencës artificiale të firmës për shkelje të të drejtave të autorit duke u trajnuar mbi personazhet dhe të drejtat e pronësisë intelektuale të Disney-t dhe duke gjeneruar përmbajtje të paautorizuar, ndër të tjera.) Nuk munda as ta bëja Xhindin të gjeneronte botë sirenash që eksploronin toka fantazie nënujore ose mbretëresha akulli në kështjellat e tyre dimërore.
Megjithatë, demoja ishte thellësisht mbresëlënëse. Bota e parë që ndërtova ishte një përpjekje për të jetuar një fantazi të vogël fëmijërie, në të cilën mund të eksploroja një kështjellë në re të përbërë nga marshmallows me një lumë salce çokollate dhe pemë të bëra nga karamele. (Po, isha një fëmijë i shëndoshë.) I kërkova modelit ta bënte në stilin e argjilës, dhe më dha një botë të çuditshme që unë, si fëmijë, do ta kisha ngrënë; majat dhe kullat me ngjyra pastel dhe të bardha të kështjellës dukeshin të fryra dhe mjaftueshëm të shijshme për të shkëputur një copë dhe për t’u zhytur në hendekun e çokollatës. (Videoja më sipër.)
Megjithatë, Projekti Genie ka ende disa vështirësi për të zgjidhur.
Modelet shkëlqyen në krijimin e botëve bazuar në motive artistike, si përdorimi i bojërave me ujë, stilit anime ose estetikës klasike të vizatimeve vizatimore. Por kjo prirej të dështonte kur bëhej fjalë për botë fotorealiste ose kinematografike, shpesh duke dalë si një lojë video dhe jo si njerëz të vërtetë në një mjedis të vërtetë.
Gjithashtu, nuk reagonte gjithmonë mirë kur më jepeshin foto reale për të punuar. Kur i dhashë një foto të zyrës sime dhe i kërkova të krijonte një botë bazuar në foto pikërisht ashtu siç ishte, më dha një botë që kishte disa nga të njëjtat orendi të zyrës sime – një tavolinë druri, bimë, një divan gri – të shtruara ndryshe. Dhe dukej sterile, dixhitale, jo si reale.
Kur i dhashë një foto të tavolinës sime me një lodër prej pelushi, Project Genie e animoi lodrën duke lundruar në hapësirë dhe madje bëri që objekte të tjera të reagonin herë pas here ndërsa ajo kalonte pranë tyre.
Ky ndërveprim është diçka që DeepMind po punon për ta përmirësuar. Pati disa raste kur personazhet e mi ecën përmes mureve ose objekteve të tjera të ngurta.
Kur DeepMind publikoi fillimisht Genie 3, studiuesit theksuan se si arkitektura auto-regresive e modelit nënkuptonte që ai mund të mbante mend atë që kishte gjeneruar, kështu që doja ta testoja këtë duke u kthyer në pjesë të mjedisit që kishte gjeneruar tashmë për të parë nëse do të ishte i njëjtë. Për pjesën më të madhe, modeli pati sukses. Në një rast, gjenerova një mace që eksploronte një tavolinë tjetër, dhe vetëm një herë, kur u ktheva në anën e djathtë të tavolinës, modeli gjeneroi një filxhan të dytë.
Pjesa që e gjeta më frustruese ishte mënyra se si lundroje në hapësirë duke përdorur shigjetat për të parë përreth, tastin e hapësirës për të kërcyer ose për t’u ngjitur lart dhe tastet WASD për të lëvizur. Nuk jam lojtar, kështu që kjo nuk më erdhi natyrshëm, por tastet shpesh nuk reagonin, ose të çonin në drejtimin e gabuar. Përpjekja për të ecur nga njëra anë e dhomës në një derë në anën tjetër shpesh bëhej një ushtrim kaotik zigzag, si të përpiqesh të drejtosh një karrocë pazari me një rrotë të thyer.
Fruchter më siguroi se ekipi i tij ishte në dijeni të këtyre mangësive, duke më kujtuar përsëri se Project Genie është një prototip eksperimental. Në të ardhmen, tha ai, ekipi shpreson të rrisë realizmin dhe të përmirësojë aftësitë e ndërveprimit, duke përfshirë dhënien e përdoruesve më shumë kontroll mbi veprimet dhe mjediset.
“Ne nuk e mendojmë [Project Genie] si një produkt të plotë që njerëzit mund ta përdorin çdo ditë, por mendojmë se tashmë ka një pamje të diçkaje interesante dhe unike që nuk mund të bëhet në një mënyrë tjetër”, tha ai.
