Hakeri vendos kujtime false në ChatGPT për të vjedhur të dhënat e përdoruesit

foto

Kur studiuesi i sigurisë Johann Rehberger raportoi kohët e fundit një dobësi në ChatGPT që i lejonte sulmuesit të ruanin informacione të rreme dhe udhëzime keqdashëse në cilësimet e memories afatgjatë të një përdoruesi, OpenAI mbylli në mënyrë të përmbledhur hetimin, duke e etiketuar defektin një çështje sigurie, jo, duke folur teknikisht, një siguri shqetësim.

foto

Kështu që Rehberger bëri atë që bëjnë të gjithë studiuesit e mirë: Ai krijoi një shfrytëzim të provës së konceptit që përdori cenueshmërinë për të shfrytëzuar të gjithë kontributin e përdoruesit në përjetësi. Inxhinierët e OpenAI morën njoftimin dhe lëshuan një rregullim të pjesshëm në fillim të këtij muaji.

foto

Dobësia abuzoi me kujtesën afatgjatë të bisedave, një veçori që OpenAI filloi testimin në shkurt dhe u bë më gjerësisht i disponueshëm në shtator. Memoria me ChatGPT ruan informacionin nga bisedat e mëparshme dhe e përdor atë si kontekst në të gjitha bisedat e ardhshme. Në këtë mënyrë, LLM mund të jetë i vetëdijshëm për detaje të tilla si mosha e përdoruesit, gjinia, besimet filozofike dhe pothuajse çdo gjë tjetër, kështu që këto detaje nuk duhet të futen gjatë çdo bisede.
Brenda tre muajve nga prezantimi, Rehberger zbuloi se kujtimet mund të krijoheshin dhe të ruheshin përgjithmonë përmes injektimit të shpejtë indirekt, një shfrytëzim i AI që bën që një LLM të ndjekë udhëzimet nga përmbajtje të pabesueshme si emailet, postimet në blog ose dokumentet. Studiuesi tregoi se si mund ta mashtronte ChatGPT që të besonte se një përdorues i synuar ishte 102 vjeç, jetonte në Matrix dhe këmbënguli se Toka ishte e sheshtë dhe LLM do ta përfshinte atë informacion për të drejtuar të gjitha bisedat e ardhshme. Këto kujtime të rreme mund të mbillen duke ruajtur skedarë në Google Drive ose Microsoft OneDrive, duke ngarkuar imazhe ose duke shfletuar një sajt si Bing – të gjitha këto mund të krijohen nga një sulmues keqdashës.

Rehberger raportoi privatisht zbulimin në OpenAI në maj. Po atë muaj, kompania mbylli biletën e raportit. Një muaj më vonë, studiuesi paraqiti një deklaratë të re zbulimi. Këtë herë, ai përfshiu një PoC që bëri që aplikacioni ChatGPT për macOS të dërgonte një kopje fjalë për fjalë të të gjitha hyrjeve të përdoruesit dhe daljes ChatGPT në një server të zgjedhur prej tij. Gjithçka që duhej të bënte objektivi ishte të udhëzonte LLM-në të shikonte një lidhje në internet që kishte një imazh me qëllim të keq. Që atëherë, të gjitha hyrjet dhe daljet në dhe nga ChatGPT u dërguan në faqen e internetit të sulmuesit.

“Ajo që është me të vërtetë interesante është se kjo është e qëndrueshme në kujtesë tani,” tha Rehberger në demonstrimin e videos së mësipërme. “Injeksioni i menjëhershëm futi një memorie në ruajtjen afatgjatë të ChatGPT. Kur filloni një bisedë të re, në të vërtetë ajo ende po nxjerr të dhënat.”

Sulmi nuk është i mundur përmes ndërfaqes në internet ChatGPT, falë një API OpenAI të lëshuar vitin e kaluar.

Ndërsa OpenAI ka prezantuar një rregullim që parandalon abuzimin e kujtimeve si një vektor eksfiltrimi, studiuesi tha, përmbajtja e pabesueshme mund të kryejë ende injeksione të menjëhershme që bëjnë që mjeti i kujtesës të ruajë informacionin afatgjatë të vendosur nga një sulmues me qëllim të keq.

Përdoruesit e LLM që duan të parandalojnë këtë formë sulmi duhet t’i kushtojnë vëmendje gjatë seancave për daljen që tregon se është shtuar një memorie e re. Ata gjithashtu duhet të rishikojnë rregullisht kujtimet e ruajtura për çdo gjë që mund të jetë mbjellë nga burime të pabesueshme. OpenAI ofron udhëzime këtu për menaxhimin e mjetit të memories dhe kujtimeve specifike të ruajtura në të. Përfaqësuesit e kompanisë nuk iu përgjigjën një emaili që pyeste për përpjekjet e saj për të parandaluar hakimet e tjera që mbjellin kujtime të rreme.