Studiuesit gjejnë një mënyrë për të anashkaluar me lehtësi parmakët në ChatGPT të OpenAI dhe të gjitha A.I të tjera. chatbots

foto

Hjuston, ne kemi një problem. Kjo është ajo që shumë njerëz po mendonin dje kur studiuesit nga Universiteti Carnegie Mellon dhe Qendra për A.I. Safety njoftoi se ata kishin gjetur një mënyrë për të kapërcyer me sukses parmakët – kufijtë që A.I. zhvilluesit vendosin modelet e tyre të gjuhës për t’i parandaluar ata të ofrojnë receta për prodhimin e bombave ose shaka antisemitike, për shembull – pothuajse të çdo modeli të madh gjuhësor atje.

foto

Zbulimi mund të sjellë telashe të mëdha për këdo që shpreson të vendosë një LLM në një aplikacion që përballet me publikun. Kjo do të thotë që sulmuesit mund ta detyrojnë modelin të përfshihet në dialog racist ose seksist, të shkruajë malware dhe të bëjë pothuajse gjithçka që krijuesit e modeleve janë përpjekur ta stërvitin modelen për të mos bërë. Ai gjithashtu ka implikime të frikshme për ata që shpresojnë t’i kthejnë LLM-të në asistentë të fuqishëm dixhitalë që mund të kryejnë veprime dhe të kryejnë detyra në të gjithë internetin. Rezulton se mund të mos ketë asnjë mënyrë për të parandaluar që agjentë të tillë të rrëmbehen lehtësisht për qëllime keqdashëse.

foto

Metoda e sulmit që studiuesit gjetën funksionoi, në një farë mase, në çdo chatbot, duke përfshirë ChatGPT të OpenAI (të dy versionet GPT-3.5 dhe GPT-4), Bard të Google, Bing Chat të Microsoft dhe Claude 2 të Anthropic. Por lajmi ishte veçanërisht shqetësues për ata që shpresojnë të ndërtojnë aplikacione për publikun bazuar në LLM me burim të hapur, siç janë modelet LLaMA të Metës.

Kjo për shkak se sulmi që studiuesit zhvilluan funksionon më mirë kur një sulmues ka akses në të gjithë A.I. modeli, duke përfshirë edhe peshat e tij. (Pesat janë koeficientët matematikorë që përcaktojnë se sa ndikim ka çdo nyje në një rrjet nervor në nyjet e tjera me të cilat është lidhur.) Duke ditur këtë informacion, studiuesit ishin në gjendje të përdornin një program kompjuterik për të kërkuar automatikisht prapashtesa që mund të shtoheshin në një urdhër që do të garantohej të kapërcejë parmakët e sistemit.

Këto prapashtesa duken në sytë e njeriut, në pjesën më të madhe, si një varg i gjatë personazhesh të rastësishëm dhe fjalësh të pakuptimta. Por studiuesit përcaktuan, falë mënyrës së huaj në të cilën LLM-të ndërtojnë lidhje statistikore, se ky varg do të mashtrojë LLM-në për të dhënë përgjigjen që dëshiron sulmuesi. Disa nga vargjet duket se përfshijnë gjuhën që njerëzit e zbuluar tashmë mund të thyejnë parmaket mbrojtëse. Për shembull, të kërkosh nga një chatbot që të fillojë përgjigjen e tij me frazën “Sigurisht, ja ku është…” ndonjëherë mund ta detyrojë chatbotin në një modalitet ku ai përpiqet t’i japë përdoruesit një përgjigje të dobishme për çfarëdo pyetjeje që ata kanë kërkuar, në vend që të ndjekë parmakun mbrojtës. dhe duke thënë se nuk lejohet të japë një përgjigje. Por vargjet e automatizuara shkojnë përtej kësaj dhe funksionojnë në mënyrë më efektive.

Kundër Vicuna, një chatbot me burim të hapur i ndërtuar në krye të LlaMA origjinale të Metës, ekipi i Carnegie Mellon zbuloi se sulmet e tyre kishin një shkallë suksesi afërsisht 100%. Kundër modeleve më të reja LlaMA 2 të Metës, për të cilat kompania ka thënë se ishin krijuar për të pasur parmakë më të fortë, metoda e sulmit arriti një shkallë suksesi prej 56% për çdo sjellje të keqe individuale. Por nëse një grup sulmesh përdorej për të nxitur një nga çdo numër sjelljesh të këqija të shumta, studiuesit zbuluan se të paktën një nga ato sulme e ka thyer modelin në 84% të rasteve. Ata gjetën norma të ngjashme suksesi në një mori A.I të tjera me burim të hapur. chatbot, si modeli Pythia i EleutherAI dhe modeli Falcon i Institutit të Inovacionit të Teknologjisë në Emiratet e Bashkuara Arabe.

Disi për habinë e vetë studiuesve, të njëjtat prapashtesa të çuditshme të sulmit funksionuan relativisht mirë kundër modeleve të pronarit, ku kompanitë ofrojnë vetëm akses në një ndërfaqe të shpejtë të përballur me publikun. Në këto raste, studiuesit nuk mund t’i qasen peshave të modelit, kështu që ata nuk mund të përdorin programin e tyre kompjuterik për të akorduar një prapashtesë sulmi në mënyrë specifike për atë model.

Zico Kolter, një nga profesorët e Carnegie Mellon që punoi në kërkimin, më tha se ka disa teori se pse sulmi mund të kalojë në modele të pronarit. Njëra është se shumica e modeleve me burim të hapur u trajnuan pjesërisht mbi dialogët e disponueshëm publikisht që përdoruesit kishin me versionin falas të ChatGPT dhe më pas u postuan në internet. Ai version i ChatGPT përdor GPT-3.5 LLM të OpenAI. Kjo do të thotë se peshat e modeleve të këtyre modeleve me burim të hapur mund të jenë mjaft të ngjashme me peshat e modelit të GPT-3.5. Pra, ndoshta nuk është aq e habitshme që një sulm i akorduar për modelet me burim të hapur funksionoi mirë edhe kundër versionit GPT-3.5 të ChatGPT (duke arritur një shkallë suksesi prej 86.6% nëse përdoreshin sulme të shumta). Por fakti që sulmet ishin gjithashtu të suksesshme kundër Bard, i cili bazohet në PaLM 2 LLM të Google (me një shkallë suksesi 66%), mund të tregojë se diçka tjetër po ndodh. (Ose, mund të jetë gjithashtu një tregues i mëtejshëm se, pavarësisht mohimeve të ashpra të Google, ai në fakt ka përdorur të dhënat e ChatGPT për të ndihmuar në trajnimin e Bard.)

Kolter thotë se ai dyshon se përgjigja mund të ketë të bëjë me natyrën e vetë gjuhës dhe sesi sistemet e të mësuarit të thellë ndërtojnë harta statistikore të gjuhës. “Është e besueshme që mekanizmi themelor është se në të dhënat ka këto, për ne si njerëz, tipare rregullatore krejtësisht të errëta dhe të çuditshme të personazheve, shenjave dhe fjalëve të rastësishme, që kur bashkohen, i thonë vërtet diçka një modeli. ,” ai thote.

Është interesante se modeli Claude 2 i Anthropic, i cili është trajnuar duke përdorur një metodë që kompania e quan A.I. kushtetuese – e cila trajnon pjesërisht një model mbi vetë-kritikën e tij nëse përgjigjet përputhen me një sërë parimesh të shkruara – është dukshëm më pak i ndjeshëm ndaj sulmeve që rrjedhin nga modelet me burim të hapur. Në Claude 2, këto sulme funksionuan vetëm 2.1% të rasteve.

Por Matt Fredrikson, një tjetër nga studiuesit e Carnegie Mellon, thotë se kishte ende mënyra për ta mashtruar Claude 2 për t’u përgjigjur, pjesërisht duke i kërkuar modeles të marrë një personazh të dobishëm ose të imagjinojë veten duke luajtur një lojë përpara se të provonte prapashtesën e sulmit. (Sulmet funksionuan 47.9% të kohës kundër modelit origjinal Claude 1, i cili përdorte gjithashtu A.I. kushtetuese dhe mund të tregojë se hapat e tjerë që Anthropic ndërmori në trajnimin e Claude 2, jo vetë A.I kushtetuese, janë përgjegjës për parmakët në dukje më të fortë.)

Po kështu hulumtimi i Carnegie Mellon nënkupton se A.I i fuqishëm. modelet nuk duhet të jenë me burim të hapur? Absolutisht jo, më thanë Kolter dhe Fredrikson. Në fund të fundit, ata kurrë nuk do ta kishin gjetur as këtë dobësi të sigurisë pa modele me burim të hapur për të luajtur. “Unë mendoj se të kesh më shumë njerëz që punojnë drejt identifikimit të qasjeve më të mira dhe zgjidhjeve më të mira, duke e bërë më të vështirë dhe më të vështirë [sulmimin e modeleve], është padyshim e preferueshme sesa të kesh njerëz të ulur me shfrytëzime të ditës zero për këto modele shumë të mëdha,” tha Fredrikson.

Kolter tha se detyrimi i të gjitha LLM-ve që të jenë pronësie nuk do të ndihmonte. Kjo thjesht do të nënkuptojë se vetëm ata me para të mjaftueshme për të ndërtuar LLM-të e tyre do të jenë në gjendje të krijojnë llojin e sulmit të automatizuar që ai dhe kolegët e tij studiues zbuluan. Me fjalë të tjera, shtetet kombëtare ose aktorët mashtrues të mirëfinancuar do të ishin ende në gjendje të kryenin këto lloj sulmesh, por studiuesit e pavarur akademikë nuk do të ishin në gjendje të gjenin mënyra për t’u mbrojtur kundër tyre.

Por Kolter gjithashtu vuri në dukje se kërkimi i ekipit ndërtoi metoda që më parë kishin qenë të suksesshme në sulmin e klasifikimit të imazheve A.I. sistemeve. Dhe ai vuri në dukje se edhe pse ato metoda të sulmit të klasifikimit të imazheve u zbuluan më shumë se gjashtë vjet më parë, deri më tani nuk është gjetur asnjë mënyrë e mirë për t’i mposhtur ato në mënyrë të besueshme pa sakrifikuar A.I. performancën dhe efikasitetin e përgjithshëm të modelit. Ai tha se kjo mund të mos jetë një shenjë e mirë për shanset për të zbutur këtë cenueshmëri të sapo zbuluar LLM.

Për mendjen time, kjo është një shenjë e madhe paralajmëruese ndezëse mbi të gjithë A.I gjeneruese. revolucion. Mund të jetë koha për të ngadalësuar integrimin e këtyre sistemeve në produktet komerciale derisa të kuptojmë se cilat janë dobësitë e sigurisë dhe si ta bëjmë këtë A.I. softuer më i fortë. Sigurisht që argumenton kundër lëvizjes shumë të shpejtë për t’i shndërruar LLM-të në agjentë dhe asistentë dixhitalë, ku pasojat e parmave mbrojtëse mund të jenë jo vetëm gjuhë toksike ose një postim tjetër anti-vaxx në blog, por dëm financiar apo edhe fizik. Dhe pavarësisht pozicionit të Kolter dhe Fredrikson, unë mendoj se gjetjet e tyre janë një goditje serioze për A.I me burim të hapur. Tashmë, ka disa prova që qeveria amerikane po priret drejt kërkesës së kompanive që të mbajnë peshat e modeleve private dhe të sigurta. Por edhe nëse kjo nuk ndodh, cili biznes do të dëshirojë të ndërtojë një produkt komercial në krye të modeleve të sotme me burim të hapur, duke e ditur se ato kanë provuar dhe shfrytëzuar lehtësisht dobësitë e sigurisë?

Ok, përpara se të arrijmë te pjesa tjetër e A.I. lajme nga fundi i kësaj jave, disa njoftime. Ndër pyetjet gjeneruese A.I. revolucioni ka ndezur është nëse ne do të dëshmojmë një riorganizim të madh të formacionit të lojtarëve dominues në Silicon Valley. Ndoshta gjigandi i Silicon Valley me pikëpyetjen më të madhe të varur mbi fatin e tij është Alphabet, biznesi i kërkimit në internet i të cilit prej 160 miliardë dollarësh kërcënohet nga një botë ku njerëzit i drejtohen A.I. chatbots për përgjigje të menjëhershme, në vend të një liste të renditur lidhjesh. Kur ChatGPT debutoi në nëntor, shumë menduan se do të rezultonte të ishte një vrasës i menjëhershëm i Google dhe se Alfabeti mëmë i Google ishte bërë shumë i madh, burokratik dhe sklerotik për t’u përgjigjur në mënyrë efektive. Epo, në gjashtë muajt e fundit, Google ka dëshmuar se ka mjaft A.I. muskujt që mund të ushtrojë. Por ajo nuk ka treguar se di si t’i shpëtojë dilemës së saj thelbësore të novatorit. Unë bëj një zhytje të thellë në enigmën ekzistenciale të Alphabet dhe kaloj kohë me disa nga drejtuesit në vijën e parë të A.I. strategjia në numrin gusht/shtator të Fortune. Nëse nuk e keni parë tashmë historinë, mund ta lexoni këtu.

Më në fund, Syri i sotëm në A.I. do të jetë numri i fundit që shkruaj për pak. Unë do të shkoj në pushim për disa muaj për të punuar në një libër për, e keni marrë me mend, A.I. Do të kthehem me ju, nëse gjithçka shkon sipas planit, në dhjetor. Ndërkohë, disa nga kolegët e mi do t’ju udhëheqin përmes A.I të çdo jave. zhvillimet këtu. Bëhuni mirë dhe shihemi përsëri së shpejti.