Forskare Har Skapat En Självlärande AI Som Kan Spela Alla Spel - Alternativ Vy

Innehållsförteckning:

Forskare Har Skapat En Självlärande AI Som Kan Spela Alla Spel - Alternativ Vy
Forskare Har Skapat En Självlärande AI Som Kan Spela Alla Spel - Alternativ Vy

Video: Forskare Har Skapat En Självlärande AI Som Kan Spela Alla Spel - Alternativ Vy

Video: Forskare Har Skapat En Självlärande AI Som Kan Spela Alla Spel - Alternativ Vy
Video: 24 игрока WORLD Diplomacy Variant ИНТЕРВЬЮ с дизайнером / ALPHA 2 / Diplomacy1861 Playtest 2024, April
Anonim

Utvecklarna av det revolutionerande självlärande konstgjorda intelligenssystemet AlphaGo Zero har meddelat skapandet av en ny version av denna maskin, som oberoende kan lära sig spela alla brädspel och slå en person. Beskrivningen presenterades i tidskriften Science.

Djup i sinnet

AlphaGo AI-systemet utvecklades av David Silver och kollegor i slutet av 2014, och dess arbete "testades" på Europamästaren Fan Hui, som förlorade alla fem matcher till maskinen. I mars 2016 besegrade AlphaGo Go World Champion Lee Sedol i en serie med fem matcher, varav endast en slutade i en mänsklig seger.

Silver och hans kollegor kunde uppnå dessa framgångar genom att bygga sin AI på grundval av inte ett, utan två neurala nätverk på en gång - speciella algoritmer som efterliknar arbetet med nervkedjor i den mänskliga hjärnan. En av dem ansvarar för att utvärdera den aktuella positionen i styrelsen, och den andra använder analysresultaten som utarbetats av det första nätverket för att välja nästa steg.

Nästa logiska steg i utvecklingen av AlphaGo var eliminering av den största nackdelen med alla befintliga neurala nätverk och konstgjord intelligenssystem - behovet av att lära dem vad de borde göra med enorma dataarkiv manuellt bearbetade av en person, eller med direkt deltagande av en person, som det hände i de första etapperna utveckling av AlphaGo.

Silver och hans team löste problemet genom att skapa ett grundläggande nytt neuralt nätverk baserat på de så kallade förstärkningsinlärningsalgoritmerna. Detta neurala nätverk, till skillnad från dess stjärnföra föregångare, som ursprungligen utbildades i spel med frivilliga och hade några inbyggda primitiva spelstrategier, började sitt arbete som en absolut nybörjare med noll kunskapsbas.

Med andra ord, hon kände bara reglerna för Go-spelet, de ursprungliga förhållandena och segervillkoren, och sedan lärde sig datorn självständigt att spela denna forntida kinesiska strategi, lekte med sig själv och agera genom försök och misstag. Den enda begränsningen i hennes arbete var den maximala tiden att tänka på flytten - det var cirka 0,4 sekunder.

Kampanjvideo:

Efter varje sådant spel analyserade AI-systemet alla dess drag och kom ihåg de som förde en av sina "halvor" närmare segern och ingick i ett slags "svart lista" de steg som uppriktigt tappade. Med hjälp av dessa data byggde det neurala nätverket upp sig själv och steg gradvis till den nivå som den första versionen av AlphaGo nådde innan serien med Lee Sedol.

Övergången till självlärande algoritmer tillät inte bara AlphaGo Zero att överträffa sin föregångare och slå den 100-0, utan förbättrade också många andra aspekter av sitt arbete. I synnerhet tog processen för sin träning bara tre dagar och cirka fem miljoner spel, vilket var en storleksordning mindre än förfrågningarna från den första versionen av AI.

Vägen till spetskompetens

Det framgångsrika genomförandet av experimenten med AlphaGo Zero fick Silver och hans team att överväga om ett liknande neuralt nätverk skulle kunna användas för att vinna mästarens krona i andra typer av strategi och brädspel.

För att göra detta byggde forskarna ytterligare ett nytt element i AlphaGo Zero - heuristiska algoritmer för slumpmässig sökning efter lösningar, såväl som kod som tog hänsyn till förekomsten av oavgjort i vissa spel. Dessutom förbättrade den nya versionen av alfa ständigt sin struktur, snarare än att uppdateras i steg som sin föregångare.

Dessa relativt enkla förändringar, som ytterligare experiment visade, ökade hastigheten för självinlärning av detta konstgjorda intelligenssystem avsevärt och förvandlade det till en universell maskin som kan spela alla typer av plattformsstrategier.

Forskare har testat sitt arbete på tre typer av spel - gå, vanlig schack och deras japanska sort, shogi. I alla tre fallen nådde Silvers nya hjärnsköld nivån på en stormästare på mindre än en miljon spel, och uppnådde nästan mänsklig selektivitet i valet av möjliga drag på bara 9-12 timmars träning för schack och 13 dagar på gång.

Tidigare slog hon de mest sofistikerade datorprogrammen som spelar dessa spel - Stockfishs algoritm gav upp den fjärde timmen i AlphaZero-träningen, medan Elmo, den nuvarande mästaren i shogi, bara varade i två timmar. Slutligen började den första versionen av AlphaGo att ge efter för sitt "barnbarn" med cirka 30 timmar av sin träning.

De nästa "offren" för AlphaZero, som forskare noterade, kan vara "riktiga" datorspel, såsom Starcraft II och Dota 2. Att ta mästerskapet i sådana esportsdiscipliner, enligt deras åsikt, kommer att öppna vägen för självlärande AI att tränga in i mindre formaliserade områden inom vetenskap och kultur och teknik.

Rekommenderas: