Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy

Innehållsförteckning:

Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy
Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy

Video: Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy

Video: Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy
Video: Lite fortnite och nästan har jag tappat min röst 2024, April
Anonim

Förra året delade artificiella intelligensföretaget DeepMind detaljer om sitt nya projekt WaveNet, ett djupgående lärande neuralt nätverk som används för att syntetisera realistiska mänskliga tal. Nyligen släpptes en förbättrad version av denna teknik, som kommer att användas som bas för den digitala mobilassistenten Google Assistant.

Ett rostsyntessystem (även känt som en text-till-tal-funktion, TTS) är vanligtvis byggd kring en av två grundläggande metoder. Den konkatenativa metoden (eller sammanställning) -metoden involverar konstruktion av fraser genom att samla enskilda bitar av inspelade ord och delar som tidigare spelats in med deltagande av en röstaktör. Den största nackdelen med denna metod är behovet av att ständigt ersätta ljudbiblioteket när uppdateringar eller ändringar görs.

En annan metod kallas parametrisk TTS, och dess funktion är användningen av parameteruppsättningar med vilka datorn genererar önskad fras. Nackdelen med metoden är att resultatet oftast manifesteras i form av orealistiskt eller så kallad robotljud.

WaveNet å andra sidan producerar ljudvågor från grunden med hjälp av ett invändigt neuralt nätverkssystem där ljud genereras i flera lager. Först, för att utbilda plattformen för att syntetisera "live" -tal, matas det "en enorm mängd sampel, samtidigt som det noteras vilka ljudsignaler som låter realistiska och vilka inte. Detta ger röstsyntetiseraren förmågan att reproducera naturalistisk intonation och till och med detaljer som smackande läppar. Beroende på vilka sampelsprover som körs genom systemet gör det det möjligt att utveckla en unik "accent", som på lång sikt kan användas för att skapa många olika röster.

Skarp på tungan

Den största begränsningen för WaveNet-systemet var kanske att det krävde en enorm mängd datorkraft för att köra, och även när detta villkor uppfylldes skilde det sig inte i fart. Det tog till exempel ungefär 1 sekund att generera 0,02 sekunder ljud.

Efter ett års arbete hittade DeepMind-ingenjörerna fortfarande ett sätt att förbättra och optimera systemet så att det nu kan producera ett rått ljud på en sekund på bara 50 millisekunder, vilket är 1000 gånger snabbare än dess ursprungliga kapacitet. Dessutom lyckades specialisterna öka ljudsamplingsfrekvensen från 8-bitars till 16-bitars, vilket hade en positiv effekt på testerna med lyssnare. Dessa framgångar har banat vägen för WaveNet att integreras i konsumentprodukter som Google Assistant.

Kampanjvideo:

För närvarande kan WaveNet användas för att generera engelska och japanska röster via Google Assistant och alla plattformar som använder den här digitala assistenten. Eftersom systemet kan skapa en speciell typ av röster, beroende på vilken uppsättning prover som tillhandahölls för det för utbildning, kommer Google inom en snar framtid sannolikt att införa stöd för att syntetisera realistiska tal i WaveNet på andra språk, inklusive att ta hänsyn till dem. lokala dialekter.

Talgränssnitten blir allt vanligare på en mängd olika plattformar, men deras uttalade onaturliga karaktär av ljudet stänger av många potentiella användare. DeepMinds ansträngningar för att förbättra denna teknik kommer säkert att bidra till en bredare användning av sådana röstsystem, samt förbättra användarupplevelsen från deras användning.

Exempel på syntetiserat tal på engelska och japanska med hjälp av det neurala nätverket WaveNet kan hittas genom att följa den här länken.

Nikolay Khizhnyak

Rekommenderas: