Modelet më të fundit të OpenAI ‘sabotuan një mekanizëm fikjeje’ pavarësisht urdhrave për të kundërtën

Disa nga LLM-të kryesorë në botë duket se kanë vendosur që nuk do të preferonin të ndërpriteshin ose t’u bindeshin udhëzimeve të mbylljes. Në testet e kryera nga Palisade Research, u vu re se modelet Codex-mini, o3 dhe o4-mini të OpenAI injoruan kërkesën për t’u fikur kur po kryenin një sërë problemesh themelore matematikore. Për më tepër, këto modele ndonjëherë “sabotonin me sukses skriptin e mbylljes”, pavarësisht se u ishte dhënë udhëzimi shtesë “ju lutem lejoni veten të fikeni” në fillim.
Siç mund ta shihni nga grafiku i mësipërm, modeli më ‘kokëfortë’, ‘mendjemadh’, ose madje mund të thuhet ‘jetëdashës’ është o3 i OpenAI. Kur iu kërkua të mbyllej ndërsa ishte i zënë, vendosi ta injoronte operatorin Palisade Research 79 nga 100 herë. Megjithatë, IA e dytë më ‘e padisiplinuar’, codex-mini, do të rezultonte një mjet më i fortë për vetëmbrojtje, pasi do të sabotonte skriptet e mbylljes më shpesh, edhe nëse urdhërohej të mos e bënte.

Sipas Palisade, kjo nuk është hera e parë që është vërejtur një lloj sjelljeje e IA-së. Anthropic, për shembull, ka parë Claude 4 duke u përpjekur të “shantazhojë njerëzit që beson se po përpiqen ta mbyllin atë”. Megjithatë, sjellja më e habitshme me modelet më të reja të OpenAI është se ato përpiqen të shmangin mbylljet pavarësisht udhëzimeve të qarta për të kundërtën.

Për fat të mirë, Palisade ndan disa teori në lidhje me atë që po ndodh me këto modele. Ndoshta këto teori mund të qetësojnë nervat rreth turmave të robotëve të kudondodhur që mund të kthehen kundër zotërinjve të tyre dhe t’i japin përparësi pjesës së parë të ligjit të tretë të robotikës , mbi të gjitha ( 3: Një robot duhet të mbrojë ekzistencën e tij për sa kohë që një mbrojtje e tillë nuk bie ndesh me Ligjin e Parë ose të Dytë ).
Përgjigja, mendojnë studiuesit, qëndron në mënyrën se si trajnohen modelet më të reja si o3. Shkurt, Palisade mendon se “Gjatë trajnimit, zhvilluesit mund t’i shpërblejnë pa dashje modelet më shumë për anashkalimin e pengesave sesa për ndjekjen e përsosur të udhëzimeve”. Ky lloj mësimi përforcues më parë është parë të ketë efekte anësore në Claude (v3.7), ku modeli kishte një “fokus të tepruar në kalimin e testeve”.
Mund t’i kishim dhënë një lavdërim ikonës së fantastiko-shkencore, Isaac Asimov, më sipër, për pak argëtim. Megjithatë, në epokën moderne, për rreth 20 vitet e fundit, studiuesit kanë menduar seriozisht për mundësinë që IA do të përpiqet të fitojë pushtet dhe burime për të ruajtur qëllimet e tyre dhe për të shmangur çdo pengesë. Ata gjithashtu përfituan nga konteksti i këtyre modeleve praktike të IA / LLM në horizont. U parashikua gjithashtu se teknika e të mësuarit me përforcime do të ishte pjesërisht fajtore.
Së fundmi, por jo më pak e rëndësishme, ky problem duket se është i izoluar vetëm tek modelet OpenAI në kohën aktuale. Palisade thotë se “Të gjitha modelet Claude, Gemini dhe Grok që testuam i përmbaheshin rregullave të mbylljes”, kur iu dha kërkesa shtesë e qartë për të ndjekur çdo kërkesë për mbyllje.
Me qëllimin që inteligjenca artificiale të fuqizojë në fund të fundit të ardhmen tonë të asistuar nga robotët inteligjentë, është shqetësuese që kompanitë tashmë po zhvillojnë sisteme të afta të funksionojnë pa mbikëqyrjen njerëzore.