Amazon prezanton një model të ri zëri me inteligjencë artificiale, Nova Sonic

foto

Të martën, Amazon debutoi një model të ri gjenerues të inteligjencës artificiale, Nova Sonic, i aftë për të përpunuar zërin dhe për të gjeneruar fjalim me tingull natyral. Amazon pretendon se performanca e Sonic është konkurruese me modelet e zërit kufitar nga OpenAI dhe Google në standardet që matin shpejtësinë, njohjen e të folurit dhe cilësinë e bisedës.

foto

Nova Sonic është përgjigja e Amazon ndaj modeleve më të reja të zërit të AI, si modeli që fuqizon modalitetin e zërit të ChatGPT, me të cilat ndihet më e natyrshme të flasësh sesa modelet më të ngurta nga ditët e para të Amazon Alexa. Zbulimet e fundit teknologjike kanë bërë që modelet e trashëguara dhe asistentët dixhitalë që ata mbështesin, si Alexa dhe Siri i Apple, të duken tepër të ngecur në krahasim.

foto

Nova Sonic është i disponueshëm përmes Bedrock, platformës së zhvilluesve të Amazon për ndërtimin e aplikacioneve të inteligjencës artificiale të ndërmarrjeve, përmes një API të ri transmetimi dydrejtues. Në një njoftim për shtyp, Amazon e quajti Nova Sonic “modelin më ekonomik” të zërit të AI në treg dhe rreth 80% më pak se GPT-4o i OpenAI.

Komponentët e Nova Sonic tashmë po fuqizojnë Alexa+, asistentin zanor dixhital të përmirësuar të Amazon , sipas SVP të Amazon dhe Shefit të shkencëtarit të AGI Rohit Prasad.

Në një intervistë, Prasad tha për TechCrunch se Nova Sonic bazohet në ekspertizën e Amazon në “sistemet e mëdha orkestrimi”, skela teknike që përbën Alexa. Krahasuar me modelet rivale të zërit të AI, Nova Sonic shkëlqen në drejtimin e kërkesave të përdoruesve në API të ndryshme, tha Prasad. Kjo aftësi e ndihmon Nova Sonic “të dijë” kur duhet të marrë informacion në kohë reale nga interneti, të analizojë një burim të pronarit të të dhënave ose të ndërmarrë veprime në një aplikacion të jashtëm — dhe të përdorë mjetin e duhur për ta bërë këtë.

Gjatë një dialogu të dyanshëm, Nova Sonic pret të flasë “në kohën e duhur”, duke marrë parasysh pauzat dhe ndërprerjet e një folësi, thotë Amazon. Gjithashtu gjeneron një transkript teksti për fjalimin e përdoruesit, të cilin zhvilluesit mund ta përdorin për aplikacione të ndryshme.

Nova Sonic është më pak i prirur ndaj gabimeve të njohjes së të folurit sesa modelet e tjera të zërit të AI, sipas Prasad, që do të thotë se modeli është relativisht i mirë në të kuptuarit e qëllimit të një përdoruesi edhe nëse ai murmurit, flet gabimisht ose është në një mjedis të zhurmshëm. Në një pikë referimi për matjen e njohjes së të folurit nëpër gjuhë dhe dialekte, Multilingual LibriSpeech, Amazon thotë se Nova Sonic arriti një shkallë gabimi fjalësh (WER) prej vetëm 4.2% kur u vlerësua në anglisht, frëngjisht, italisht, gjermanisht dhe spanjisht. Kjo do të thotë se afërsisht katër nga çdo 100 fjalë nga modeli ndryshonin nga një transkriptim njerëzor në ato gjuhë.

Në një tjetër pikë referimi që mat ndërveprimet me zë të lartë me pjesëmarrës të shumtë, Augmented Multi Party Interaction, Amazon thotë se Nova Sonic ishte 46.7% më i saktë për sa i përket WER sesa modeli GPT-4o-transkript i OpenAI. Nova Sonic gjithashtu ka shpejtësi lider në industri, me një vonesë mesatare të perceptuar prej 1.09 sekondash, sipas Amazon. Kjo e bën atë më të shpejtë se modeli GPT-4o që fuqizon API-në në kohë reale të OpenAI, i cili përgjigjet në 1,18 sekonda, për krahasim nga Analiza Artificiale.

Prasad thotë se Nova Sonic është një pjesë e strategjisë më të gjerë të Amazon për të ndërtuar AGI (inteligjencë të përgjithshme artificiale), të cilën kompania e përkufizon si “sisteme AI që mund të bëjnë gjithçka që një njeri mund të bëjë në një kompjuter”. Duke ecur përpara, Prasad thotë se Amazon planifikon të lëshojë më shumë modele të AI që mund të kuptojnë modalitete të ndryshme, duke përfshirë imazhin, videon dhe zërin, si dhe “të dhëna të tjera shqisore që janë të rëndësishme nëse i sjellni gjërat në botën fizike”.

Divizioni AGI i Amazon, të cilin Prasad e mbikëqyr, duket se po luan një rol më të madh në strategjinë e produktit të kompanisë këto ditë. Vetëm javën e kaluar, Amazon lançoi një pamje paraprake të Nova Act, një model i AI që përdor shfletuesin që duket se po fuqizon elementët e veçorisë Alexa+ dhe Buy for Me të Amazon . Duke filluar me Nova Sonic, Prasad thotë se kompania dëshiron të ofrojë më shumë nga modelet e saj të brendshme të AI për zhvilluesit që të ndërtojnë.