Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy

Video: Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy

Video: Lite fortnite och nästan har jag tappat min röst 2024, April

2024 Författare: Keith Bush | [email protected]. Senast ändrad: 2023-12-16 14:50

Förra året delade artificiella intelligensföretaget DeepMind detaljer om sitt nya projekt WaveNet, ett djupgående lärande neuralt nätverk som används för att syntetisera realistiska mänskliga tal. Nyligen släpptes en förbättrad version av denna teknik, som kommer att användas som bas för den digitala mobilassistenten Google Assistant.

Ett rostsyntessystem (även känt som en text-till-tal-funktion, TTS) är vanligtvis byggd kring en av två grundläggande metoder. Den konkatenativa metoden (eller sammanställning) -metoden involverar konstruktion av fraser genom att samla enskilda bitar av inspelade ord och delar som tidigare spelats in med deltagande av en röstaktör. Den största nackdelen med denna metod är behovet av att ständigt ersätta ljudbiblioteket när uppdateringar eller ändringar görs.

En annan metod kallas parametrisk TTS, och dess funktion är användningen av parameteruppsättningar med vilka datorn genererar önskad fras. Nackdelen med metoden är att resultatet oftast manifesteras i form av orealistiskt eller så kallad robotljud.

WaveNet å andra sidan producerar ljudvågor från grunden med hjälp av ett invändigt neuralt nätverkssystem där ljud genereras i flera lager. Först, för att utbilda plattformen för att syntetisera "live" -tal, matas det "en enorm mängd sampel, samtidigt som det noteras vilka ljudsignaler som låter realistiska och vilka inte. Detta ger röstsyntetiseraren förmågan att reproducera naturalistisk intonation och till och med detaljer som smackande läppar. Beroende på vilka sampelsprover som körs genom systemet gör det det möjligt att utveckla en unik "accent", som på lång sikt kan användas för att skapa många olika röster.

Skarp på tungan

Den största begränsningen för WaveNet-systemet var kanske att det krävde en enorm mängd datorkraft för att köra, och även när detta villkor uppfylldes skilde det sig inte i fart. Det tog till exempel ungefär 1 sekund att generera 0,02 sekunder ljud.

Efter ett års arbete hittade DeepMind-ingenjörerna fortfarande ett sätt att förbättra och optimera systemet så att det nu kan producera ett rått ljud på en sekund på bara 50 millisekunder, vilket är 1000 gånger snabbare än dess ursprungliga kapacitet. Dessutom lyckades specialisterna öka ljudsamplingsfrekvensen från 8-bitars till 16-bitars, vilket hade en positiv effekt på testerna med lyssnare. Dessa framgångar har banat vägen för WaveNet att integreras i konsumentprodukter som Google Assistant.

Kampanjvideo:

För närvarande kan WaveNet användas för att generera engelska och japanska röster via Google Assistant och alla plattformar som använder den här digitala assistenten. Eftersom systemet kan skapa en speciell typ av röster, beroende på vilken uppsättning prover som tillhandahölls för det för utbildning, kommer Google inom en snar framtid sannolikt att införa stöd för att syntetisera realistiska tal i WaveNet på andra språk, inklusive att ta hänsyn till dem. lokala dialekter.

Talgränssnitten blir allt vanligare på en mängd olika plattformar, men deras uttalade onaturliga karaktär av ljudet stänger av många potentiella användare. DeepMinds ansträngningar för att förbättra denna teknik kommer säkert att bidra till en bredare användning av sådana röstsystem, samt förbättra användarupplevelsen från deras användning.

Exempel på syntetiserat tal på engelska och japanska med hjälp av det neurala nätverket WaveNet kan hittas genom att följa den här länken.

Nikolay Khizhnyak

Rekommenderas:

"De Säger Till Mig:" Jag Har Lärt Min Son Att Läsa Från 2 års ålder ", - Och Jag Svarar: &Ldquo; What A Fool &Rdquo; ", - Tatiana Chernigovskaya. - Alternati

Under de senaste åren har följande trend spårats: barn börjar lära sig att skriva och läsa nästan från vaggan. Många föräldrar lär sina barn från två års ålder vad de själva lärde sig vid 5 års ålder. Men skadar det inte barnet? Hur rättfärdigad är

Ministeriet För Telekommunikation Och Masskommunikation Publicerade För Diskussion Utkastet Till Lag Om Den Digitala Profilen För Medborgare Och Juridiska Personer - Alterna

Lagförslaget om ändringar av vissa lagstiftningsakter (när det gäller att förtydliga identifierings- och autentiseringsförfaranden), som introducerar begreppet en medborgares och en juridisk enhets digitala profil, publicerades på måndag för offentlig diskussion

Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy

Innehållsförteckning:

Video: Neuralnätverket Lärdes Att Kopiera Den Mänskliga Rösten Nästan Perfekt - Alternativ Vy

Skarp på tungan

Rekommenderas:

"De Säger Till Mig:" Jag Har Lärt Min Son Att Läsa Från 2 års ålder ", - Och Jag Svarar: &Ldquo; What A Fool &Rdquo; ", - Tatiana Chernigovskaya. - Alternati

Ministeriet För Telekommunikation Och Masskommunikation Publicerade För Diskussion Utkastet Till Lag Om Den Digitala Profilen För Medborgare Och Juridiska Personer - Alterna

Varför Förstörde Slavernas Verkliga Historia? Ta Reda På Hur - Alternativ Vy

Vad Behandlas Radbandpärlor För? - Alternativ Vy

Trolldom Och Magi Kan Bli Ganska Vanliga Saker - Alternativ Vy

Kronik över De Senaste Sibiriska Anomalierna - Alternativ Vy

Dödlig Olycka: I Tre år Attackerades Turisten Av En Björn, En Haj Och En Skallerorm - Alternativ Vy

Hur En Geting Zombies Kackerlackor - Alternativ Vy

Megalitiska Statyer Har Upptäckts I Indonesien - Alternativ Vy

Assyrierna - Barn Av Landet Ashura - Alternativ Vy

Hur De Mest Populära Systemen För Att Stjäla Pengar Från Ryssland Ordnas - Alternativ Vy

Varför Kan Inte Människor Ge Upp Onödiga Saker I Sina Liv? - Alternativ Vy

Newgrange: Observatorium, Tempel Eller Grav? - Alternativ Vy

Irish Newgrange - Alternativ Vy

Om Hatets Natur Och Konsten Att Bromsa - Alternativ Vy

Newgrange - En Av De äldsta Byggnaderna På Jorden! - Alternativ Vy

Silbury Mound Mysteries - Alternativ Vy