När Kommer Artificiell Intelligens Att Börja Lämna Serien - Alternativ Vy

2024 Författare: Keith Bush | [email protected]. Senast ändrad: 2023-12-16 14:50

Ryska förlag experimenterar redan med maskininspelning av ljudböcker; i framtiden kan konstgjord intelligens anförtros att översätta serier och dubbla dem med rösterna från sina favoritaktörer. Om funktionerna i sådana tekniker och hur lång tid det tar att skapa dem.

Muntligt tal blir skriftligt

På YouTube skapas automatiska undertexter för videor av röstigenkänning och tal-till-text översättningsprogramvara. Det är baserat på självlärande neurala nätverk. Det här alternativet är mer än tio år gammalt, men resultatet är fortfarande långt ifrån idealiskt. Oftare än inte kan du bara fånga den allmänna betydelsen av det som sades. Vad är svårigheten?

Låt oss säga, förklarar Andrey Filchenkov, chef för laboratoriet Machine Learning vid ITMO University, att vi bygger en algoritm för taligenkänning. Detta kräver utbildning av ett neuralt nätverk i en stor datamängd.

Det kommer att ta hundratals, tusentals timmars talinspelningar och deras korrekta jämförelse med texter, inklusive markering av början och slutet på fraser, byte av samtalare och så vidare. Detta kallas kapslingen. Ju större den är, desto bättre är utbildningen i det neurala nätverket. Riktigt stora företag har skapats för det engelska språket, så erkännandet är mycket bättre. Men för ryska eller, till exempel, spanska, finns det mycket mindre data, och för många andra språk finns det inga data alls.

"Och resultatet är lämpligt", avslutar forskaren.

”Dessutom utvärderar vi betydelsen av ett ord, en fras i en film inte bara genom ljud, skådespelarens intonation och hans ansiktsuttryck är också viktiga. Hur tolkar du detta? - lägger till Sergey Aksenov, docent vid informationstekniska avdelningen vid Tomsk polytekniska universitet.

Kampanjvideo:

”Hur hanterar man funktionerna i flytande tal? Fuzzy artikulation, skiss, interjektioner, pauser? Beroende på detta ändras betydelsen, som i "du kan inte benådas". Hur kan man lära en maskin för att avgöra var högtalaren har komma? Och i poesi? " - listar Marina Bolsunovskaya, chef för laboratoriet "Industrial streaming databehandlingssystem" vid NTI SPbPU Center.

Enligt experten är de mest framgångsrika projekten inom smala områden. Till exempel ett system för att erkänna läkarnas professionella tal som använder medicinska termer, utvecklat av RTC-gruppen, hjälper läkare att hålla en sjukhistoria.

”Här kan du tydligt beskriva ämnesområdet och markera nyckelord i talet. Läkaren betonar specifikt vissa avsnitt med intonation: patientklagomål, diagnos,”klargör Bolsunovskaya.

Ett annat problem påpekas av Mikhail Burtsev, chef för laboratoriet för nervsystem och djup inlärning vid MIPT. Faktum är att maskinen hittills lyckas mer med att känna igen text när en person talar än flera, som i filmer.

Översättning med sammanhang

Låt oss ta en engelskspråkig video, till exempel ett klipp från TV-serien "Game of Thrones", och slå på automatiska ryska undertexter. Det vi ser kommer sannolikt att få oss att skratta.

Fortfarande från * Game of Thrones *.

I maskinöversättning har tekniken emellertid uppnått en imponerande framgång. Så översätter Google Translate texter på vanliga språk ganska tolerabelt, ofta krävs bara minimal redigering.

Faktum är att den neurala nätverksöversättaren också tränas i ett stort antal inledande, korrekt märkta data - ett parallellt korpus, som visar hur varje fras på originalspråket ska se ut på ryska.

”Att bygga sådana byggnader är mycket arbetskrävande, dyrt och tidskrävande, det tar månader och år. För att träna ett neuralt nätverk behöver vi texter i storleken på biblioteket i Alexandria. Modellerna är universella, men beror mycket på språket. Om du tillhandahåller mycket data, till exempel i Avar, och översättningen kommer att vara av hög kvalitet, men för Avar finns det helt enkelt ingen sådan mängd data, säger Andrey Filchenkov.

"Översättning är en separat produkt som är relaterad till originalet, men som inte är lika med den," säger Ilya Mirin, chef för School of Digital Economy vid Far Eastern Federal University. - Ett typiskt exempel är Dmitrij Puchkovs (Goblins) översättningar av utländska filmer på 90-talet. Först efter hans arbete blev det klart vad som hände där. Vi kunde inte ta reda på något tillräckligt med VHS-versionerna. Alternativt kan du försöka översätta till ett språk som du känner väl, något från Mästaren och Margarita. Till exempel "i en svart kappa med ett blodigt foder". Maskinen kan inte göra det."

Neurala nätverk lär sig väl av många typiska exempel, men filmer är fulla av komplexa betydelser och konnotationer, skämt som inte är tillgängliga för maskinen - det kan inte skilja dem.

”I varje avsnitt av den animerade serien Futurama finns det en hänvisning till den klassiska amerikanska biografen - Casablanca, Roman Holiday och så vidare. Vid sådana ögonblick måste översättaren komma med en nära analog från det ryska sammanhanget för att fånga och packa in betydelsen för dem som inte har sett dessa filmer. En felaktig maskinöversättning kan vara mycket nedslående för tittaren, fortsätter Mirin.

Enligt hans åsikt är kvaliteten på maskinöversättningen nära 80 procent, resten är specificitet som måste läggas till manuellt, med experter. "Och om 20-30 procent av fraser kräver manuell korrigering, vad är då användningen av maskinöversättning?" - säger forskaren.

"Översättning är det mest problematiska scenen", instämmer Sergey Aksenov. - Allt beror på semantik och sammanhang. De tillgängliga verktygen kan användas för översättning och maskinröstintresse, till exempel barnkarikonturer med enkelt ordförråd. Men med tolkningen av frasologiska enheter, egna namn, ord som hänvisar tittarna till vissa kulturella verkligheter, uppstår svårigheter."

I filmer och videor är sammanhanget alltid visuellt och åtföljs ofta av musik och brus. Vi spekulerar från bilden vad hjälten talar om. Tal som förvandlas till text saknar informationen, så översättning är svår. Detta är situationen för översättare som arbetar med textundertexter utan att se filmen. De är ofta fel. Maskinöversättning är samma historia.

AI röster tal

För att dubba en serie översatt till ryska behöver du en algoritm för att generera naturligt tal från text - en synthesizer. De är skapade av många IT-företag, inklusive Microsoft, Amazon, Yandex, och de klarar sig ganska bra.

Enligt Andrey Filchenkov tog det för ett par år sedan en minut att dubba en talsynthesizer flera timmar, nu har behandlingshastigheten ökat kraftigt. Uppgiften att prata syntese för vissa områden där neutrala dialoger krävs löses ganska bra.

Många tar redan för givet en konversation med en robot i telefonen, utförandet av kommandon från en bilnavigator, en dialog med Alice i en Yandex. Drive-bil. Men för att kopiera TV-serier är dessa tekniker ännu inte tillräckliga.

”Problemet är känslor och agerar. Vi har lärt oss att göra maskinen röst mänsklig, men så att det fortfarande låter lämpligt för sammanhanget och inspirerar förtroende är långt borta. Dålig röstuppträdande kan lätt döda uppfattningen av en film,”sa Filchenkov.

Enligt Mikhail Burtsev är talsyntesen ganska verklig. Detta är dock beräkningsintensivt och kan inte göras i realtid till ett rimligt pris.

”Det finns algoritmer som syntetiserar tal som liknar den för en viss skådespelare. Detta är klockan, sättet att tala och mycket mer. Så alla utländska skådespelare kommer faktiskt att tala ryska,”förutspår Burtsev. Han förväntar sig märkbara framsteg under de kommande åren.

Sergei Aksenov ger fem till tio år att utveckla verktyg för att översätta och dubbla komplexa verk från de vanligaste språken som engelska. Forskaren citerar exemplet på Skype, som för flera år sedan visade möjligheten att organisera onlinelektioner för skolbarn som talar olika språk. Men även då kommer systemet inte att vara idealt, det måste ständigt lära sig: få ordförråd, ta hänsyn till det kulturella sammanhanget.