Anthropic punon me specialistët bërthamorë të Departamentit të Energjisë së SHBA-së për të testuar nëse modelet e AI nxjerrin informacione bërthamore

foto

Anthropic është duke u bashkuar me specialistët bërthamorë të Departamentit të Energjisë të SHBA-së për të siguruar që modelet e tij të AI të mos japin pa dashje informacione të ndjeshme rreth armëve bërthamore.

foto

Ky bashkëpunim, i cili filloi në prill, u zbulua nga Anthropic për Axios dhe është një i pari i rëndësishëm në sigurinë e AI. Modeli i Anthropic, Claude 3 Sonnet, është duke u “bashkuar” nga ekspertë në Administratën Kombëtare të Sigurisë Bërthamore të DOE (NNSA), të cilët po testojnë nëse njerëzit mund ta keqpërdorin atë për qëllime të rrezikshme të lidhura me bërthamën, sipas një raporti nga Axios.

foto

Red-teaming është një proces ku ekspertët përpiqen të thyejnë ose keqpërdorin një sistem për të ekspozuar dobësitë. Në këtë rast, specialistët po vlerësojnë nëse përgjigjet e Claude mund të shfrytëzohen për zhvillimin e armëve bërthamore ose aksesin në aplikacione të tjera të dëmshme bërthamore.

Projekti do të vazhdojë deri në shkurt, dhe gjatë rrugës, NNSA do të testojë Sonetin e përmirësuar Claude 3.5, i cili debutoi në qershor. Anthropic është mbështetur gjithashtu në partneritetin e saj me Shërbimet Ueb Amazon për të përgatitur Claude për trajtimin e këtyre testeve të sigurisë të fokusuara te qeveria.

Duke pasur parasysh natyrën e kësaj pune, Anthropic nuk ka zbuluar ndonjë gjetje nga programi pilot. Kompania synon të ndajë rezultatet e saj me laboratorët shkencorë dhe organizata të tjera, duke inkurajuar testimin e pavarur për t’i mbajtur modelet të sigurta nga keqpërdorimi.

Marina Favaro, drejtuesja e politikës së sigurisë kombëtare të Anthropic, theksoi se ndërsa teknologjia amerikane udhëheq zhvillimin e AI, agjencitë federale zotërojnë ekspertizën unike të nevojshme për vlerësimin e rreziqeve të sigurisë kombëtare, duke theksuar rëndësinë e këtyre partneriteteve.

Wendin Smith i NNSA përforcoi urgjencën, duke thënë se AI është në qendër të bisedave kritike të sigurisë kombëtare. Ajo shpjegoi se agjencia është e pozicionuar mirë për të vlerësuar rreziqet e mundshme të AI, veçanërisht në lidhje me sigurinë bërthamore dhe radiologjike. Këto vlerësime janë thelbësore pasi keqpërdorimi i mundshëm i AI mund të jetë katastrofik.

Bashkëpunimi vjen pas memorandumit të fundit të sigurisë kombëtare të Presidentit Biden, i cili kërkonte vlerësime të sigurisë së AI në mjedise të klasifikuara. Lojtarët kryesorë si Anthropic dhe OpenAI ishin angazhuar tashmë për të testuar modelet e tyre me Institutin e Sigurisë së AI në gusht, duke sinjalizuar një ndërgjegjësim të gjerë të industrisë për këto shqetësime, sipas raportit të Axios.

Është interesante se ndërsa zhvilluesit e AI garojnë për kontrata qeveritare, Anthropic nuk është i vetmi në lojë. Sapo ka bashkëpunuar me Palantir dhe Amazon Web Services për t’ia ofruar Claude agjencive të inteligjencës amerikane. OpenAI, ndërkohë, ka marrëveshje me entitete si NASA dhe Departamenti i Thesarit. Scale AI po bën gjithashtu lëvizje, pasi ka zhvilluar një model të fokusuar në mbrojtje të ndërtuar mbi Llama e Metës.

Megjithatë, është e paqartë nëse këto partneritete do të qëndrojnë të qëndrueshme përmes ndryshimeve politike të afërta në Uashington. Elon Musk, tani një figurë kyçe në administratën e ardhshme, ka pikëpamje të paparashikueshme për sigurinë e AI. Megjithëse ai ka kërkuar kontrolle më të rrepta në të kaluarën, sipërmarrja e tij e re, xAI, miraton një filozofi më të orientuar drejt fjalës së lirë. Të gjithë sytë janë në atë se si këto dinamika në zhvillim mund të formësojnë të ardhmen e qeverisjes së AI dhe testimit të sigurisë.