Studiuesit e Google drejtojnë Doom në një model vetë-gjenerues të AI
Të martën, studiuesit nga Google dhe Universiteti i Tel Avivit zbuluan GameNGen, një model të ri të AI që mund të simulojë në mënyrë interaktive lojën klasike të qitësve të personit të parë Doom të vitit 1993 në kohë reale duke përdorur teknikat e gjenerimit të imazheve me AI të huazuar nga Stable Diffusion. Është një sistem rrjeti nervor që mund të funksionojë si një motor i kufizuar lojërash, duke hapur potencialisht mundësi të reja për sintezën e lojërave video në kohë reale në të ardhmen.
Për shembull, në vend që të vizatojnë korniza video grafike duke përdorur teknika tradicionale, lojërat e ardhshme mund të përdorin potencialisht një motor AI për të “imagjinuar” ose për të halucinuar grafika në kohë reale si një detyrë parashikimi.
” Potenciali këtu është absurd,” shkroi zhvilluesi i aplikacionit Nick Dobos në reagim ndaj lajmit. “Pse të shkruani rregulla komplekse për softuerin me dorë kur AI mund të mendojë çdo piksel për ju?”
GameNGen thuhet se mund të gjenerojë korniza të reja të lojës Doom me mbi 20 korniza në sekondë duke përdorur një njësi të vetme të përpunimit tensor (TPU), një lloj procesori i specializuar i ngjashëm me një GPU që është i optimizuar për detyrat e mësimit të makinerive.
Në teste, studiuesit thonë se dhjetë vlerësues njerëz ndonjëherë nuk arrinin të dallonin mes klipeve të shkurtra (1.6 sekonda dhe 3.2 sekonda) të pamjeve aktuale të lojës Doom dhe rezultateve të gjeneruara nga GameNGen, duke identifikuar pamjet e vërteta të lojës 58 për qind ose 60 për qind të kohës.
Sinteza e lojërave video në kohë reale duke përdorur atë që mund të quhet ” përkthim nervor ” nuk është një ide krejtësisht e re. CEO i Nvidia, Jensen Huang, parashikoi gjatë një interviste në mars, ndoshta disi me guxim, se shumica e grafikëve të lojërave video mund të gjenerohen nga AI në kohë reale brenda pesë deri në 10 vjet.
GameNGen bazohet gjithashtu në punën e mëparshme në këtë fushë, të cituar në gazetën GameNGen, që përfshin Modelet Botërore në 2018, GameGAN në 2020 dhe Genie të vetë Google në mars. Dhe një grup studiuesish universitarë trajnuan një model të AI (të quajtur ” DIAMOND “) për të simuluar video lojërat e vjetra Atari duke përdorur një model difuzioni në fillim të këtij viti.
Gjithashtu, kërkimet e vazhdueshme për ” modelet botërore ” ose ” imituesit botërorë “, që zakonisht lidhen me modelet e sintezës së videove të AI si Runway’s Gen-3 Alpha dhe OpenAI’s Sora, po anojnë drejt një drejtimi të ngjashëm. Për shembull, gjatë debutimit të Sora, OpenAI tregoi video demo të gjeneratorit të AI që simulonte Minecraft.
Në një punim kërkimor paraprintimit të titulluar ” Modelet e difuzionit janë motorë lojërash në kohë reale “, autorët Dani Valevski, Yaniv Leviathan, Moab Arar dhe Shlomi Fruchter shpjegojnë se si funksionon GameNGen. Sistemi i tyre përdor një version të modifikuar të Stable Diffusion 1.4, një model i difuzionit të sintezës së imazhit i lëshuar në vitin 2022 që njerëzit përdorin për të prodhuar imazhe të krijuara nga AI.
“Rezulton përgjigja “a mund të ekzekutojë DOOM ?” është po për modelet e difuzionit,” shkroi Drejtori i Kërkimeve të Stabilitetit AI Tanishq Mathew Abraham, i cili nuk ishte i përfshirë në projektin kërkimor.
Ndërsa drejtohet nga hyrja e lojtarit, modeli i difuzionit parashikon gjendjen e ardhshme të lojës nga ato të mëparshme pasi është trajnuar në pamjet e gjera të Doom në veprim.
Zhvillimi i GameNGen përfshin një proces trajnimi me dy faza. Fillimisht, studiuesit trajnuan një agjent mësimor përforcues për të luajtur Doom, me seancat e tij të lojës të regjistruara për të krijuar një grup të dhënash trajnimi të gjeneruar automatikisht – atë pamje që përmendëm. Ata më pas i përdorën ato të dhëna për të trajnuar modelin e personalizuar të Difuzionit të Qëndrueshëm.
Sidoqoftë, përdorimi i Stable Diffusion prezanton disa defekte grafike, siç vërejnë studiuesit në abstraktin e tyre: “Enkoduesi automatik i para-trajnuar i Stable Diffusion v1.4, i cili ngjesh arna 8×8 pixel në 4 kanale latente, rezulton në artefakte domethënëse kur parashikimi i kornizave të lojës, të cilat ndikojnë në detaje të vogla dhe veçanërisht në shiritin e poshtëm HUD.”
Dhe kjo nuk është sfida e vetme. Mbajtja e imazheve vizualisht të qarta dhe konsistente me kalimin e kohës (shpesh quhet “koherenca e përkohshme” në hapësirën e videos së AI) mund të jetë një sfidë. Studiuesit e GameNGen thonë se “simulimi interaktiv i botës është më shumë se thjesht gjenerim shumë i shpejtë i videos”, siç shkruajnë ata në punimin e tyre. “Kërkesa për të kushtëzuar një rrjedhë veprimesh hyrëse që është e disponueshme vetëm gjatë gjithë gjeneratës thyen disa supozime të arkitekturave ekzistuese të modelit të difuzionit”, duke përfshirë gjenerimin e përsëritur të kornizave të reja bazuar në ato të mëparshme (të quajtur “autoregresion”), të cilat mund të çojnë në paqëndrueshmëri dhe një rënie e shpejtë e cilësisë së botës së krijuar me kalimin e kohës.
Defektet vizuale mund të shfaqen me sintezën e vazhdueshme të imazhit autoregresiv, sepse gabimet e vogla në kornizat e krijuara mund të grumbullohen dhe të ndërlikohen me kalimin e kohës, duke bërë që bota virtuale të bëhet gjithnjë e më e keqe, e degraduar ose e pakuptimtë ndërsa krijohen më shumë korniza. Për të adresuar këtë çështje, studiuesit shtuan qëllimisht nivele të ndryshme të zhurmës së rastësishme në të dhënat e trajnimit dhe i mësuan modelit të korrigjonte këtë zhurmë. Kjo e ndihmon modelin të ruajë cilësinë e botës së krijuar për një kohë të gjatë.
Është e rëndësishme të theksohet se ndërsa GameNGen përfaqëson një hap të dukshëm përpara në një fushë shumë të re dhe eksperimentale, ajo vjen me kufizime të rëndësishme. Më e madhja prej tyre është se studiuesit u përqendruan në një lojë të vetme që tashmë ekziston. Ashtu si modelet e tjera të bazuara në Transformer, Stable Diffusion është më i miri në imitimin dhe krijimin e rezultateve të besueshme, duke mos gjeneruar risi të vërtetë.
Gjithashtu, GameNGen ka akses vetëm në tre sekonda të historisë, kështu që rishikimi i një niveli Doom të parë më parë nga lojtari do të përfshinte supozime probabilistike për gjendjen e mëparshme të lojës pa ndonjë njohuri për atë histori për të vazhduar – me fjalë të tjera, të dhëna konfabuluese ose halucinative. ashtu si bëjnë modelet e tjera gjeneruese të AI kur gjenerojnë rezultate.
Shkallëzimi i qasjes GameNGen në mjedise më komplekse ose zhanre të ndryshme lojërash do të paraqesë sfida të reja. Kërkesat llogaritëse për ekzekutimin e modeleve të ngjashme në kohë reale mund të jenë penguese për adoptim të gjerë në afat të shkurtër, nëse teknika do të adoptohej gjerësisht për të dhënë grafikë të lojërave video në të ardhmen (kush e di, ndoshta konzolat e lojërave të ardhshme do të kenë të dedikuar “neural rendering” patate të skuqura).
Ndërsa zbatimi aktual fokusohet në simulimin e Doom , një lojë me grafikë relativisht të thjeshtë sipas standardeve të sotme, GameNGen sugjeron që lojërat dhe simulimet më komplekse mund të jenë të arritshme për përsëritjet e ardhshme të teknologjisë. Ndërsa modelet e AI vazhdojnë të përparojnë (dhe llogaritja bëhet më e lirë), ne mund të shohim motorë lojërash nervore gjithnjë e më të sofistikuara të aftë për të gjeneruar botë të mëdha dhe të qëndrueshme ndërvepruese në kohë reale. Gjithashtu do të ndryshonte rrënjësisht mënyrën se si bëhen video lojërat.
“Sot, videolojërat programohen nga njerëzit”, shkruajnë studiuesit në punimin e tyre. “GameNGen është një provë e konceptit për një pjesë të një paradigme të re ku lojërat janë pesha e një modeli nervor, jo linja kodi.”
Studiuesit spekulojnë se me këtë teknikë, video-lojërat e reja mund të krijohen “nëpërmjet përshkrimeve tekstuale ose shembujve të imazheve” në vend të programimit dhe njerëzit mund të jenë në gjendje të konvertojnë një grup imazhesh në një nivel ose karakter të ri të luajtshëm për një lojë ekzistuese të bazuar. vetëm në shembuj dhe jo duke u mbështetur në aftësinë e kodimit.
E gjithë kjo është spekulim i pastër për momentin. Tani për tani, do të duhet të presim dhe të shohim se ku shkon hulumtimi dhe se si këto teknika të reja mund të zbatohen në lojërat interaktive në të ardhmen.