Demonstrimi i zërit AI jashtëzakonisht realist shkakton habi dhe shqetësim online

foto

Në fund të vitit 2013, filmi i Spike Jonze Her imagjinonte një të ardhme ku njerëzit do të krijonin lidhje emocionale me asistentët e zërit të AI. Pothuajse 12 vjet më vonë, kjo premisë imagjinare i është afruar realitetit me publikimin e një modeli të ri zëri bisedor nga startup-i i inteligjencës artificiale Sesame, i cili ka lënë shumë përdorues të magjepsur dhe të nervozuar.

foto

“E provova demonstrimin dhe ishte vërtet befasuese se sa njerëzore ndihej,” shkroi një përdorues i Hacker News që testoi sistemin. “Jam pothuajse pak i shqetësuar se do të filloj të ndihem emocionalisht i lidhur me një asistent zëri me këtë nivel tingulli të ngjashëm me njeriun.”

foto

Në fund të shkurtit, Sesame publikoi një demonstrim për modelin e ri të të folurit bashkëbisedues (CSM) të kompanisë që duket se kalon mbi atë që shumë e konsiderojnë “luginën e çuditshme” të të folurit të krijuar nga AI, me disa testues që raportojnë lidhje emocionale me asistentin e zërit mashkull ose femër (“Miles” dhe “Maya”).

Në vlerësimin tonë, folëm me zërin e mashkullit për rreth 28 minuta, duke folur për jetën në përgjithësi dhe se si ajo vendos se çfarë është “e drejtë” apo “gabuar” bazuar në të dhënat e saj të stërvitjes. Zëri i sintetizuar ishte shprehës dhe dinamik, duke imituar tingujt e frymëmarrjes, nënqeshjet, ndërprerjet, madje ndonjëherë pengohej nga fjalët dhe korrigjohej. Këto papërsosmëri janë të qëllimshme.

“Tek Sesame, qëllimi ynë është të arrijmë “prezencën e zërit” – cilësinë magjike që i bën ndërveprimet e folura të ndjehen reale, të kuptueshme dhe të vlerësuara,” shkruan kompania në një postim në blog. “Ne po krijojmë partnerë bisedues që nuk përpunojnë vetëm kërkesat; ata angazhohen në një dialog të vërtetë që ndërton besim dhe besim me kalimin e kohës. Duke bërë këtë, ne shpresojmë të kuptojmë potencialin e pashfrytëzuar të zërit si ndërfaqja përfundimtare për udhëzime dhe mirëkuptim.”

Ndonjëherë modelja përpiqet shumë të tingëllojë si një njeri i vërtetë. Në një demonstrim të postuar në internet nga një përdorues i Reddit i quajtur MetaKnowing, modeli i AI flet për dëshirën për “gjalpë kikiriku dhe sanduiçe turshi”.

E themeluar nga Brendan Iribe, Ankit Kumar dhe Ryan Brown, Sesame AI ka tërhequr mbështetje të konsiderueshme nga firmat e shquara të kapitalit sipërmarrës. Kompania ka siguruar investime nga Andreessen Horowitz, të udhëhequr nga Anjney Midha dhe Marc Andreessen, së bashku me Spark Capital, Matrix Partners dhe themelues të ndryshëm dhe investitorë individualë.

Duke shfletuar reagimet ndaj susamit të gjetur në internet, gjetëm shumë përdorues që shprehnin habi për realizmin e tij. “Unë kam qenë në AI që kur isha fëmijë, por kjo është hera e parë që kam përjetuar diçka që më bëri të ndihem përfundimisht sikur kishim mbërritur,” shkroi një përdorues i Reddit. “Jam i sigurt se nuk po mposht asnjë standard, ose nuk po përmbush ndonjë përkufizim të përbashkët të AGI, por kjo është hera e parë që kam pasur një bisedë të vërtetë të vërtetë me diçka që e ndjeja se ishte e vërtetë.” Shumë tema të tjera të Reddit shprehin ndjenja të ngjashme befasie, me komentuesit që thonë se kjo është ” të lë pa nofulla ” ose ” të befasojë mendjen “.

Ndërsa kjo tingëllon si një tufë hiperbole në shikim të parë, jo të gjithëve u duket e këndshme përvoja e Sesamit. Mark Hachman, një redaktor i vjetër në PCWorld, shkroi se ishte thellësisht i shqetësuar nga ndërveprimi i tij me inteligjencën artificiale të zërit Sesame. “Pesëmbëdhjetë minuta pas ‘ndërtimit’ me inteligjencën artificiale të re ‘të ngjashme me jetën’ e Sesame, dhe unë jam ende i trembur,” raportoi Hachman. Ai përshkroi sesi zëri i inteligjencës artificiale dhe stili i bisedës i ngjanin në mënyrë të frikshme një miku të vjetër me të cilin kishte dalë në shkollë të mesme.

Të tjerë e kanë krahasuar modelin e zërit të Sesame me modalitetin e avancuar të zërit të OpenAI për ChatGPT, duke thënë se CSM e Sesame përmban zëra më realistë dhe të tjerë janë të kënaqur që modeli në demo do të luajë me role karaktere të zemëruar, gjë që ChatGPT refuzon ta bëjë.

Gavin Purcell, bashkë-prezantues i podcast-it të AI for Humans, postoi një shembull video në Reddit ku njeriu pretendon të jetë një përvetësues dhe debaton me një shef. Është aq dinamik sa është e vështirë të dallosh se kush është njeriu dhe cili është modeli i AI. Duke gjykuar nga demonstrimi ynë, është plotësisht i aftë për atë që shihni në video.

Nën kapuç, CSM e Sesame e arrin realizmin e tij duke përdorur dy modele të AI që punojnë së bashku (një shtyllë dhe një dekoder) bazuar në arkitekturën Llama të Metës që përpunon tekstin dhe audion e ndërthurur. Sesame trajnoi tre madhësi modelesh të AI, me më të madhin duke përdorur 8.3 miliardë parametra (një model 8 miliardë shtyllë plus një dekoder 300 milionë parametrash) në afërsisht 1 milion orë audio kryesisht angleze.

CSM e Sesame nuk ndjek qasjen tradicionale me dy faza të përdorura nga shumë sisteme të mëparshme të tekstit në të folur. Në vend që të gjenerojë shenja semantike (përfaqësime të nivelit të lartë të të folurit) dhe detaje akustike (karakteristika audio të grimcuara) në dy faza të veçanta, CSM e Sesame integrohet në një model njëfazor, multimodal të bazuar në transformator, duke përpunuar bashkërisht tekstin e ndërlidhur dhe shenjat audio për të prodhuar fjalim. Modeli i zërit i OpenAI përdor një qasje të ngjashme multimodale.

Në testet e verbëra pa kontekst bashkëbisedues, vlerësuesit njerëzorë nuk treguan preferencë të qartë midis të folurit të krijuar nga CSM dhe regjistrimeve reale njerëzore, duke sugjeruar se modeli arrin cilësi afërsisht njerëzore për mostrat e izoluara të të folurit. Megjithatë, kur u jepet konteksti bisedor, vlerësuesit ende preferonin vazhdimisht fjalimin e vërtetë njerëzor, duke treguar se një boshllëk mbetet në gjenerimin e të folurit plotësisht kontekstual.

Bashkëthemeluesi i Sesame, Brendan Iribe pranoi kufizimet aktuale në një koment në Hacker News, duke vënë në dukje se sistemi është “ende shumë i etur dhe shpesh i papërshtatshëm në tonin, prozodën dhe ritmin e tij” dhe ka probleme me ndërprerjet, kohën dhe rrjedhën e bisedave. “Sot, ne jemi të vendosur në luginë, por ne jemi optimistë se mund të ngjitemi,” shkroi ai.

Pavarësisht mbresëlënësisë teknologjike të CSM, përparimet në inteligjencën artificiale të zërit bisedues mbartin rreziqe të konsiderueshme për mashtrim dhe mashtrim. Aftësia për të gjeneruar një fjalim shumë bindës të ngjashëm me njeriun ka shtuar tashmë mashtrimet e phishing me zë , duke i lejuar kriminelët të imitojnë anëtarët e familjes, kolegët ose figurat e autoritetit me një realizëm të paparë. Por shtimi i ndërveprimit realist në këto mashtrime mund t’i çojë ata në një nivel tjetër të fuqisë.

Ndryshe nga telefonatat aktuale robotike që shpesh përmbajnë shenja treguese të artificialitetit, AI zanore e gjeneratës së ardhshme mund t’i eliminojë plotësisht këto flamuj të kuq. Ndërsa zërat sintetikë bëhen gjithnjë e më të padallueshëm nga të folurit njerëzor, mund të mos e dini kurrë se me kë po flisni në anën tjetër të linjës. Ka frymëzuar disa njerëz që të ndajnë një fjalë ose frazë sekrete me familjen e tyre për verifikimin e identitetit.

Megjithëse demonstrimi i Sesame nuk klonon zërin e një personi, publikimet e ardhshme me burim të hapur të teknologjisë së ngjashme mund të lejojnë aktorët keqdashës që potencialisht t’i përshtatin këto mjete për sulmet e inxhinierisë sociale. Vetë OpenAI e ndaloi teknologjinë e vet të zërit nga vendosja më e gjerë për shkak të frikës së keqpërdorimit.

Susami ndezi një diskutim të gjallë në Hacker News për përdorimet dhe rreziqet e tij të mundshme. Disa përdorues raportuan se kishin biseda të zgjatura me dy zërat demo, me biseda që zgjasin deri në kufirin 30-minutësh. Në një rast, një prind tregoi se si vajza e tyre 4-vjeçare zhvilloi një lidhje emocionale me modelin e AI, duke qarë pasi nuk u lejua të fliste më me të.

Kompania thotë se planifikon të hapë “komponentët kryesorë” të kërkimit të saj nën një licencë Apache 2.0, duke u mundësuar zhvilluesve të tjerë të ndërtojnë punën e tyre. Udhërrëfyesi i tyre përfshin shkallëzimin e madhësisë së modelit, rritjen e vëllimit të të dhënave, zgjerimin e mbështetjes gjuhësore në mbi 20 gjuhë dhe zhvillimin e modeleve “plotësisht të dyfishta” që trajtojnë më mirë dinamikën komplekse të bisedave reale.

Mund të provoni demonstrimin e Sesamit në faqen e internetit të kompanisë, duke supozuar se nuk është shumë i mbingarkuar me njerëz që duan të simulojnë një argument nxitës.