DeepMind beson se modeli i ri Genie 3 për botë virtuale përfaqëson një hap drejt AGI-së

Google DeepMind ka zbuluar Genie 3, modelin e saj më të fundit të botës themelore që mund të përdoret për të trajnuar agjentë të inteligjencës artificiale për qëllime të përgjithshme, një aftësi që laboratori i inteligjencës artificiale thotë se përbën një trampolinë të rëndësishme në rrugën drejt “inteligjencës së përgjithshme artificiale” ose inteligjencës së ngjashme me njeriun.

“Genie 3 është modeli i parë i botës interaktive në kohë reale për qëllime të përgjithshme”, tha Shlomi Fruchter, drejtor kërkimesh në DeepMind, gjatë një konference për shtyp. “Ai shkon përtej modeleve të ngushta të botës që ekzistonin më parë. Nuk është specifik për ndonjë mjedis të veçantë. Mund të gjenerojë botë fotorealiste dhe imagjinare, dhe gjithçka midis tyre.”

Ende në fazën paraprake kërkimore dhe jo në dispozicion publikisht, Genie 3 ndërtohet mbi paraardhësin e tij Genie 2 (i cili mund të gjenerojë mjedise të reja për agjentët) dhe modelin më të fundit të gjenerimit të videove të DeepMind, Veo 3 (i cili thuhet se ka një kuptim të thellë të fizikës).
Me një mesazh të thjeshtë tekstual, Genie 3 mund të gjenerojë minuta të shumta mjedisesh interaktive 3D me rezolucion 720p dhe 24 kuadro për sekondë — një kërcim i konsiderueshëm nga 10 në 20 sekondat që mund të prodhonte Genie 2. Modeli gjithashtu përmban “ngjarje botërore të mesazhueshme”, ose aftësinë për të përdorur një mesazh për të ndryshuar botën e gjeneruar.
Ndoshta më e rëndësishmja, simulimet e Genie 3 mbeten fizikisht të qëndrueshme me kalimin e kohës, sepse modeli mund të kujtojë atë që ka gjeneruar më parë – një aftësi që DeepMind thotë se studiuesit e saj nuk e kanë programuar në mënyrë të qartë në model.
Fruchter tha se ndërsa Genie 3 ka implikime për përvojat arsimore, lojërat ose prototipimin e koncepteve krijuese, zhbllokimi i tij i vërtetë do të manifestohet në trajnimin e agjentëve për detyra me qëllim të përgjithshëm, të cilat ai tha se janë thelbësore për arritjen e IAG-së.
“Ne mendojmë se modelet botërore janë çelësi në rrugën drejt IAG-së, konkretisht për agjentët e mishëruar, ku simulimi i skenarëve të botës reale është veçanërisht sfidues”, tha gjatë informimit Jack Parker-Holder, një shkencëtar kërkimor në ekipin e hapur të DeepMind.
Genie 3 supozohet se është projektuar për të zgjidhur këtë pengesë. Ashtu si Veo, nuk mbështetet në një motor fizik të koduar fort; në vend të kësaj, thotë DeepMind, modeli mëson vetë se si funksionon bota – si lëvizin, bien dhe bashkëveprojnë objektet – duke kujtuar atë që ka gjeneruar dhe duke arsyetuar në horizonte të gjata kohore.
“Modeli është auto-regresiv, që do të thotë se gjeneron një kornizë në të njëjtën kohë”, tha Fruchter për TechCrunch në një intervistë. “Duhet të shikojë prapa në atë që është gjeneruar më parë për të vendosur se çfarë do të ndodhë më pas. Kjo është një pjesë kyçe e arkitekturës.”
Kjo kujtesë, thotë kompania, i jep qëndrueshmëri botëve të simuluara të Genie 3, gjë që nga ana tjetër i lejon asaj të zhvillojë një kuptim të fizikës, ngjashëm me mënyrën se si njerëzit e kuptojnë se një gotë që lëkundet në buzë të një tavoline është gati të bjerë, ose se duhet të përkulen për të shmangur një objekt që bie.
Veçanërisht, DeepMind thotë se modeli ka gjithashtu potencialin t’i shtyjë agjentët e inteligjencës artificiale në kufijtë e tyre — duke i detyruar ata të mësojnë nga përvoja e tyre, ngjashëm me mënyrën se si njerëzit mësojnë në botën reale.
Si shembull, DeepMind ndau testin e saj të Genie 3 me një version të fundit të Scalable Instructable Multiworld Agent (SIMA) të saj gjeneralist, duke e udhëzuar atë të ndiqte një sërë qëllimesh. Në një mjedis magazine, ata i kërkuan agjentit të kryente detyra të tilla si “t’i afrohej kompresorit të mbeturinave me ngjyrë të gjelbër të ndritshme” ose “të ecë drejt pirunit të kuq të mbushur plot”.
“Në të tre rastet, agjenti SIMA është në gjendje ta arrijë qëllimin”, tha Parker-Holder. “Ai thjesht merr veprimet nga agjenti. Pra, agjenti merr qëllimin, sheh botën e simuluar përreth tij dhe pastaj ndërmerr veprimet në botë. Genie 3 simulon përpara dhe fakti që është në gjendje ta arrijë atë është për shkak se Genie 3 mbetet konsistent.”
Megjithatë, Genie 3 ka kufizimet e veta. Për shembull, ndërsa studiuesit pretendojnë se mund ta kuptojë fizikën, demoja që tregon një skiator që zbret nga një mal nuk pasqyronte se si do të lëvizte bora në lidhje me skiatorin.
Për më tepër, gama e veprimeve që një agjent mund të ndërmarrë është e kufizuar. Për shembull, ngjarjet botërore të nxitura lejojnë një gamë të gjerë ndërhyrjesh mjedisore, por ato nuk kryhen domosdoshmërisht nga vetë agjenti. Dhe është ende e vështirë të modelohen me saktësi ndërveprimet komplekse midis agjentëve të shumtë të pavarur në një mjedis të përbashkët.
Genie 3 gjithashtu mund të mbështesë vetëm disa minuta ndërveprim të vazhdueshëm, kur orë të tëra do të ishin të nevojshme për trajnim të duhur.
Megjithatë, modeli paraqet një hap bindës përpara në mësimin e agjentëve për të shkuar përtej reagimit ndaj të dhënave hyrëse, duke i lejuar ata potencialisht të planifikojnë, eksplorojnë, kërkojnë pasiguri dhe të përmirësohen përmes provës dhe gabimit – lloji i të mësuarit të vetë-motivuar dhe të mishëruar që shumë thonë se është çelësi për të ecur drejt inteligjencës së përgjithshme.
“Nuk kemi pasur ende një moment të Move 37 për agjentët e mishëruar, ku ata mund të ndërmarrin veprime të reja në botën reale”, tha Parker-Holder, duke iu referuar momentit legjendar në lojën Go të vitit 2016 midis agjentit të inteligjencës artificiale AlphaGo të DeepMind dhe kampionit të botës Lee Sedol, në të cilin Alpha Go luajti një lëvizje të pazakontë dhe brilante që u bë simbol i aftësisë së inteligjencës artificiale për të zbuluar strategji të reja përtej kuptimit njerëzor.