Neuralnätverket Lärdes Att "animera" Porträtt Baserade På Bara En Statisk Bild - Alternativ Vy

Neuralnätverket Lärdes Att "animera" Porträtt Baserade På Bara En Statisk Bild - Alternativ Vy
Neuralnätverket Lärdes Att "animera" Porträtt Baserade På Bara En Statisk Bild - Alternativ Vy
Anonim

Ryska specialister från Samsung AI Center-Moskva Center for Artificial Intelligence, i samarbete med ingenjörer från Skolkovo Institute of Science and Technology, har utvecklat ett system som kan skapa realistiska animerade bilder av mänskliga ansikten baserade på bara några statiska mänskliga ramar. I detta fall krävs vanligtvis användningen av stora databaser med bilder, men i exemplet som presenterades av utvecklarna tränades systemet för att skapa en animerad bild av ett mänskligt ansikte från endast åtta statiska ramar, och i vissa fall var det tillräckligt. Mer information om utveckling finns i en artikel publicerad på ArXiv.org online-arkiv.

Image
Image

Som regel är det ganska svårt att reproducera en fotorealistisk personlig modul av ett mänskligt ansikte på grund av den höga fotometriska, geometriska och kinematiska komplexiteten för att reproducera det mänskliga huvudet. Detta förklaras inte bara av komplexiteten i att modellera ansiktet som helhet (för detta finns det ett stort antal metoder för modellering), utan också av komplexiteten i att modellera vissa funktioner: munhålan, hår, och så vidare. Den andra komplicerade faktorn är vår tendens att fånga till och med mindre brister i den färdiga modellen med mänskliga huvuden. Denna låga tolerans för modelleringsfel förklarar den nuvarande förekomsten av icke-fotorealistiska avatarer som används vid telekonferenser.

Enligt författarna kan systemet, kallad Fewshot-lärande, skapa mycket realistiska modeller av pratande huvuden och till och med porträttmålningar. Algoritmerna syntetiserar bilden på samma persons huvud med linjerna i ansiktsreferensen tagna från ett annat fragment av videon, eller med hjälp av referenspunkterna i ansiktet på en annan person. Som en källa för material för utbildning av systemet använde utvecklarna en omfattande databas med kändisvideobilder. För att få ett så exakt prathuvud som möjligt måste systemet använda mer än 32 bilder.

För att skapa mer realistiska animerade ansiktsbilder, använde utvecklarna tidigare utvecklingen inom generativ motståndskraftig modellering (GAN, där ett neuralt nätverk tänker på detaljerna i en bild, i själva verket att bli en konstnär), såväl som en maskininlärningsmetod, där varje element i systemet tränas och utformas för att lösa vissa specifik uppgift.

Meta-lärande schema
Meta-lärande schema

Meta-lärande schema.

Image
Image
Image
Image

Kampanjvideo:

Tre neurala nätverk användes för att bearbeta statiska bilder av människors huvuden och förvandla dem till animerade: Embedder (implementeringsnätverk), Generator (generationsnätverk) och Discriminator (diskriminatornätverk). De första partitionerna huvudbilderna (med ungefärliga ansiktslandmärken) i inbäddningsvektorer, som innehåller information oberoende av poseringen, det andra nätverket använder ansiktslandmärken som erhålls av inbäddningsnätverket och genererar nya data baserade på dem genom en uppsättning av omvandlande lager som ger motstånd mot förändringar i skala, förskjutningar, varv, vinkeländring och andra snedvridningar av den ursprungliga ansiktsbilden. En nätverksdiskriminator används för att bedöma kvaliteten och äktheten för de andra två nätverken. Som ett resultat förvandlar systemet landmärken i en persons ansikte till realistiska personliga foton.

Image
Image
Image
Image

Utvecklarna betonar att deras system kan initialisera parametrarna för både generatornätverket och diskriminatornätverket individuellt för varje person i bilden, så att inlärningsprocessen kan baseras på bara några få bilder, vilket ökar hastigheten trots behovet av att välja tiotals miljoner parametrar.

Nikolay Khizhnyak

Rekommenderas: