RAD-TTS e Nvidia gjeneron zëra realistë dhe më ekspresivë

foto

Zërat e sintetizuar kanë bërë një rrugë të gjatë ndër vite. Kanë kaluar ditët e zërave sintetikë që tingëllojnë si një robot nga një film fantastiko -shkencor i viteve 1960. Asistentët bashkëkohorë të AI-së si Alexa dhe Siri prodhojnë një zë shumë më realist që tingëllon nga njerëzit.

Sa i përket zërave të sintetizuar dhe tekst-në-fjalim, nuk është ende i përsosur. Sidoqoftë, departamenti i kërkimit të tekstit në të folur të Nvidia ka zhvilluar disa mjete të mësimit të makinerisë për ta bërë sintezën e zërit më realiste në aplikime të ndryshme.

Nvidia ka zhvilluar një model AI të quajtur RAD-TTS. Zhvilluesit mund ta trajnojnë modelin me zërin e tyre, dhe ai do t’i shndërrojë kërkesat e tekstit në të folur natyral duke përdorur lakimet dhe tonet që ka mësuar. Gjithashtu mund të shndërrojë zërin e një folësi në atë të një tjetri.

“Një tjetër veçori e tij është konvertimi i zërit, ku fjalët e një folësi (apo edhe këndimi) jepen me zërin e një folësi tjetër”, thotë Nvidia. “Frymëzuar nga ideja e zërit njerëzor si një instrument muzikor, ndërfaqja RAD-TTS u jep përdoruesve kontroll të imët, të nivelit të kornizës mbi lartësinë, kohëzgjatjen dhe energjinë e zërit të sintetizuar.”

Ju mund të shihni shembuj të teknologjisë në përdorim në serinë video të Nvidia “I AM AI”. Prodhuesi i videove të Nvidia lexoi skenarin në këto demonstrime dhe modeli e shndërroi zërin e tij në një narrator femër. Pasi modeli të ketë një skenar bazë, zhvilluesi mund të ndryshojë tregimin për të theksuar fjalë të veçanta dhe të modifikojë ritmin për t’iu përshtatur videos.

Teknologjia ka potencial në shumë fusha, duke përfshirë shërbimin e automatizuar të klientit, përkthimin e gjuhës, ndihma për ata me aftësi të kufizuara, madje edhe lojëra. Pothuajse çdo aplikacion që kërkon një zë njerëzor me tingull natyral ka potencialin të përfitojë nga RAD-TTS.

“Disa nga modelet janë trajnuar me dhjetëra mijëra orë të dhëna audio në sistemet Nvidia DGX. Zhvilluesit mund të përshtatin çdo model për rastet e përdorimit të tyre, duke përshpejtuar trajnimin duke përdorur llogaritjet me precizion të përzier në GPU Nvidia Tensor Core,” lexon kompania postim në blog.

Mjetet janë të përshpejtuara me GPU dhe, natyrisht, janë optimizuar për përdorim në kompjuterë të pajisur me karta grafike Nvidia. Sidoqoftë, puna e tij është me burim të hapur dhe falas për t’u përdorur për çdo zhvillues të interesuar. Nividia e ka vënë atë në dispozicion në grupin e veglave Nvidia NeMo Python në qendrën e tij të kontejnerëve dhe softuerëve.