OpenAI vendos modelet e AI kundër njëri-tjetrit për të prodhuar tekst më të qartë dhe më të verifikueshëm

foto

OpenAI ka krijuar një metodë të re për të rritur qartësinë dhe verifikueshmërinë e tekstit të krijuar nga AI. Kjo qasje mund të rrisë besimin në sistemet e AI dhe të zgjerojë përdorimin e tyre në fusha kritike.

foto

Metoda përdor “lojëra verifikues-provues”. Dy modele të AI konkurrojnë: Një “provues” bën zgjidhje për një problem dhe një “verifikues” kontrollon nëse kanë të drejtë.

Qëllimi është të trajnohet proveruesi për të prodhuar zgjidhje që janë të lehta për t’u kuptuar nga verifikuesi. OpenAI thotë se kjo gjithashtu i bën zgjidhjet më të kuptueshme dhe të verifikueshme për njerëzit.

Studimi përdori një model më të fortë GPT-4 si provë dhe një model shumë më të dobët GPT-4 si verifikues. Proveri alternonte midis roleve “të dobishme” dhe “të poshtër” gjatë stërvitjes.

Kur ishte i dobishëm, proveri shpërblehej për zgjidhjet e sakta që i pëlqyen verifikuesit. Kur ishte i poshtër, shpërblehej për zgjidhjet e gabuara që mashtronin verifikuesin.

Në fillim, proveri i ndërlikuar e mashtroi lehtë verifikuesin me përgjigje të gabuara. Por stërvitja para-prapa i mësoi verifikuesit të dallonte gabimet delikate. Kjo e shtyu proverin të provonte taktika të reja çdo herë. Trajnimi përfundon kur proveri nuk mund të mashtrojë më verifikuesin.

Studiuesit testuan metodën e tyre në problemet e matematikës në shkollën fillore. Ata zbuluan se një model i optimizuar vetëm për korrektësinë prodhonte zgjidhje të sakta, por të vështira për t’u kuptuar. Vlerësuesit njerëz kanë bërë gati dy herë më shumë gabime në vlerësimin e këtyre zgjidhjeve në krahasim me ato të krijuara duke përdorur qasjen e re.

Lojërat prover-verifikuese arritën një ekuilibër të mirë midis saktësisë dhe qartësisë. Zgjidhjet ishin ende shumë të sakta, por ishin shumë më të lehta për t’u kuptuar.

foto

Në fund, një verifikues i ashpër që mund të dallojë me besueshmëri të drejtën nga përgjigjet e gabuara, edhe kur verifikuesi po përpiqet ta mashtrojë, i kombinuar me një provëzues të dobishëm që i bën më të lehtë zbulimin e gabimeve nga njerëzit, mund të jetë një mjet i fuqishëm.