Google DeepMind zhvillon inteligjencën artificiale të shahut të nivelit mjeshtëror me arkitekturë modeli gjuhësor

Inteligjenca artificiale e shahut e fundit e Google DeepMind përdor një arkitekturë modeli gjuhësor, luan në një nivel të lartë dhe tregon se transformatorët mund të jenë më shumë sesa thjesht papagaj stokastikë.

foto

Studiuesit në Google DeepMind kanë zhvilluar një model të AI që luan shah në një nivel mjeshtëror pa u mbështetur në algoritmet komplekse të kërkimit ose heuristikat që kanë karakterizuar programe të fuqishme shahu si Stockfish 16, IBM’s Deep Blue ose Deepmind’s AlphaZero.

foto

Në vend të kësaj, ekipi i DeepMind trajnoi një model transformimi prej 270 milionë parametrash duke përdorur lojëra shahu. Kompjuterët tradicionalë të shahut përdorin algoritme të sofistikuara dhe strategji kërkimi për të gjetur lëvizjen më të mirë, ndërsa modeli DeepMind bazohet vetëm në parashikimin e vlerave të veprimit.

Së pari, ekipi mblodhi 10 milionë lojë shahu dhe i caktoi çdo dërrase një vlerë shtetërore që tregon probabilitetin për të fituar sipas Stockfish 16. Më pas ata llogaritën të gjitha lëvizjet ligjore për secilën lojë dhe i shënuan ato gjithashtu duke caktuar vlerat e veprimit, duke rezultuar në një grup të madh të dhënash prej 15 miliardë pikash të dhënash. Rrjeti Transformer më pas mësoi të parashikonte këto vlera të lojës duke e trajnuar atë në këtë grup të dhënash duke përdorur mësimin e mbikëqyrur. Rrjeti u optimizua në mënyrë që vlerat e parashikuara të ishin sa më afër vlerave të ofruara nga Stockfish. Në thelb, ekipi distiloi aftësitë e Stockfish në një politikë shahu për modelin Transformer.

Në teste, modeli arriti një vlerësim Elo prej 2895 në lojërat e shahut të shpejtë kundër lojtarëve njerëzorë, duke e vendosur atë në nivelin e mjeshtrit të madh dhe duke i mundësuar të zgjidhë disa probleme sfiduese shahu. Kjo do të thotë që rrjeti i Transformer-it gjithashtu e kalon AlphaZero kur përdoret pa strategjinë e kërkimit MCTS (Monte Carlo Tree Search).

Megjithatë, modeli ka gjithashtu kufizime: nuk mund të ruajë rrjedhën e lojës dhe nuk mund të planifikojë bazuar në historinë e lojës. Ai gjithashtu performon më keq kundër kompjuterëve të shahut sesa kundër njerëzve, veçanërisht në situatat kur njerëzit normalisht dorëzohen, ndërsa kompjuterët e shahut e luajnë lojën deri në fund pavarësisht se kanë pak shanse. Megjithatë, ekipi beson se këto probleme mund të zgjidhen.

Ky hulumtim nuk është vetëm i rëndësishëm për shahun, por gjithashtu ofron njohuri mbi potencialin e arkitekturës së Transformerit në fusha të tjera. Ekipi i referohet në mënyrë eksplicite narrativës së modeleve të mëdha gjuhësore si “papagaj stokastikë”: “Kështu puna jonë i shtohet një numri të madh të literaturës që po rritet me shpejtësi, që tregon se algoritme komplekse dhe të sofistikuara mund të distilohen në transformatorë të lëvizjes përpara, duke nënkuptuar një zhvendosje të paradigmës. nga shikimi i transformatorëve të mëdhenj si “thjesht” njohës të modelit statistikor deri tek shikimi i tyre si një teknikë e fuqishme për përafrimin e algoritmit të përgjithshëm.”

Projekte të tjera si OthelloGPT kanë treguar tashmë se transformatorët mund të jenë më shumë sesa thjesht njohës të modeleve statistikore.