Hur Konstgjord Intelligens Fungerar: Taligenkänning - Alternativ Vy

Video: Hur Konstgjord Intelligens Fungerar: Taligenkänning - Alternativ Vy

Video: The Moment in Time: The Manhattan Project 2024, September

2024 Författare: Keith Bush | [email protected]. Senast ändrad: 2023-12-16 14:50

Var och en av oss står inför ett så mystiskt fenomen som artificiell intelligens i vardagen - det är han som tillåter röstassistenter och sökmotorer att känna igen mänskligt tal och gissa användarnas önskemål. Idag kommer vi att prata om exakt hur denna teknik är ordnad och vilka utsikter som väntar på detta utvecklingsområde inom en snar framtid.

Konstgjord intelligens är ett mycket brett begrepp, inom vilket många algoritmer redan finns och fortfarande är under utveckling, utformade för att utföra ett brett spektrum av praktiska uppgifter. Men vad kan moderna konstgjorda intelligensprogram faktiskt ha, och vilka principer styrs de under deras arbete? Idag kommer vi att prata om en av nyckelfunktionerna i maskinsinnet, som var och en av oss regelbundet möter i vardagen - röstassistenternas förmåga att känna igen mänskligt tal.

Röstigenkänning

För att mäta röst använder programmet ett antal ljudparametrar: frekvensen och längden på ljudvågen vid en viss tidpunkt. När du till exempel chattar med den populära röstassistenten Alexa delar programvaran din röst i 25-millisekundiga bilder och konverterar sedan vart och ett av segmenten till digitala signaturer. Därefter jämförs signaturblocken med den interna katalogen med programljud tills antalet matchningar är tillräckligt hög för att AI kan "översätta" siffrorna till en alfabetisk fråga som den förstår.

Titta på din telefonskärm när du använder Siri eller Google Assistant så ser du att ordförrådet ändras när du säger orden. Detta händer på grund av det faktum att programvaran med varje nästa "steg" jämför det erhållna resultatet med den interna databasen och bygger ord beroende på matchningarna. Enligt Rohit Prasad, chefforskare vid Amazons Alexa-division, "lär språkmodellen många miljarder ord i form av text." Ordordning spelar också en viktig roll: detta kan märkas med hjälp av den vanliga Googles sökmotor, som ibland ger olika data för identiska frågor, där bara ett par ord ordnas om.

Kampanjvideo:

Perspektiv på taligenkänning

Alan Black från Carnegie Institute for Language Technology hävdar att för alla yrkesverksamma i stora företag är det mest intressanta att hitta gränsen för sitt eget system. "När programmet säger" Jag kan inte göra det här "blir situationen riktigt intressant," skämtar han. Men detta är verkligen fallet: att svara på oförutsägbara användarförfrågningar är till och med en av de viktigaste uppgifterna som studentcirklar som tävlar om Alexa-priset - och det är så mycket som $ 2,5 miljoner - undersöker. Deras uppgift är att skapa en chatbot utformad för att kommunicera med människor som ställer konsekventa och meningsfulla frågor. Information i detta fall uppdateras var 20: e minut. Låter som en ganska enkel uppgift även för en genomsnittlig programmerare,men i praktiken är kommunikationen av programmet med riktiga människor alltid förknippad med avvikelser från ämnet dialog, spontana fraser och andra kränkningar. Ett program som lär sig att arbeta med dem såväl som en riktig person kommer att vara ett stort genombrott för hela AI-branschen.

Vasily Makarov