Artificial Intelligence Och Jeffrey Hinton: The Father Of Deep Learning - Alternativ Vy

2024 Författare: Keith Bush | [email protected]. Senast ändrad: 2023-12-16 14:50

Artificiell intelligens. Hur mycket har sagts om honom, men vi har inte ens börjat prata ännu. Nästan allt du hör om utvecklingen av artificiell intelligens är baserat på ett genombrott som är trettio år gammalt. För att upprätthålla framstegsmomentet krävs kringgå allvarliga begränsningar och stora begränsningar. Nästa, i den första personen - James Somers.

Jag står där världens centrum snart kommer att vara, eller helt enkelt i ett stort rum på sjunde våningen i ett glänsande torn i centrala Toronto - vilken sida du tittar på. Jag åtföljs av Jordan Jacobs, medgrundare av denna plats: Vector Institute, som öppnar sina dörrar i höst och lovar att vara den globala epicentret för konstgjord intelligens.

Vi är i Toronto för att Jeffrey Hinton är i Toronto. Och Jeffrey Hinton är far till "deep learning", tekniken bakom AI-hype. "Om 30 år kommer vi att se tillbaka och säga att Jeff är Einstein för AI, djup inlärning, vad vi än kallar konstgjord intelligens," säger Jacobs. Av alla AI-forskare citeras Hinton oftare än de tre som följer honom tillsammans. Hans grund- och doktorander studerar på AI-laboratoriet på Apple, Facebook och OpenAI; Hinton själv är ledande forskare i Google Brain AI-teamet. Nästan varje framsteg inom AI under det senaste decenniet - inom översättning, taligenkänning, bildigenkänning och spel - har något att göra med Hintons arbete.

Vector Institute, ett monument för uppkomsten av Hintons idéer, är ett forskningscenter där företag från hela USA och Kanada - som Google, Uber och NVIDIA - sponsrar insatser för att kommersialisera AI-teknik. Pengar strömmar in snabbare än Jacobs kan begära det; två av dess medgrundare undersökte företag i Toronto-området, och efterfrågan på AI-experter var 10 gånger högre än Kanada levererar varje år. Vector Institute är på något sätt ett outnyttjat jungfrulandsland för att försöka mobilisera världen kring djup inlärning: att investera i, undervisa, finslipa och använda denna teknik. Datacenter håller på att byggas, skyskrapor fylls med nystartade företag och generationer av studenter strömmar in i regionen.

När du står på golvet i vektorn får du känslan av att du är i början av något. Men djup inlärning är i grunden mycket gammalt. Hintons genombrottartikel, skriven med David Rumelhart och Ronald Williams, publicerades 1986. Arbetet beskrev i detalj metoden för backpropagation av felet (backpropagation), kort sagt. Enligt John Cohen är bakgrunden "allt djup inlärning bygger på - allt."

I sin rot är AI idag djup inlärning och djup inlärning är bakgrundsbild. Det som är häpnadsväckande med tanke på bakgrunden är över 30 år gammal. Det är helt enkelt nödvändigt att förstå hur detta hände: hur kunde tekniken vänta så länge och sedan orsaka en explosion? För när du väl vet historien om bakgrundsbilden kommer du att förstå vad som händer med AI nu, och att vi kanske inte är i början av revolutionen. Kanske är vi i slutet av en.

Promenaden från Vector Institute till Hintons Google-kontor där han tillbringar större delen av sin tid (han är nu professor emeritus vid University of Toronto) är en slags liveannons för staden, åtminstone på sommaren. Det blir tydligt varför Hinton, som ursprungligen kommer från Storbritannien, flyttade hit på 1980-talet efter att ha arbetat vid Carnegie Mellon University i Pittsburgh.

Kampanjvideo:

Kanske är vi inte i början av revolutionen

Toronto är den fjärde största staden i Nordamerika (efter Mexico City, New York och Los Angeles) och den är säkert mer mångsidig: mer än hälften av befolkningen föddes utanför Kanada. Och du kan se det när du går runt i staden. Publiken är multinationell. Det finns gratis sjukvård och bra skolor, människor är vänliga, politiker är relativt vänster och stabila allt detta lockar människor som Hinton, som säger att han lämnade Förenta staterna på grund av Irangate (Iran-Contra är en stor politisk skandal i USA under andra hälften av 1980-talet; då blev det känt att vissa medlemmar av den amerikanska administrationen organiserade hemlighet vapenförsörjning till Iran och därmed kränker vapenembargot mot det landet). Det är här vårt samtal börjar före lunch.

"Många trodde att USA kanske skulle invadera Nicaragua," säger han. "Av någon anledning trodde de att Nicaragua tillhör USA." Han säger att han nyligen gjorde ett stort genombrott i projektet: "En mycket bra junioringenjör började arbeta med mig," en kvinna som heter Sarah Sabour. Sabur är iransk och har vägrats visum för att arbeta i USA. Googles Toronto-kontor drog ut det.

Hinton är 69 år gammal. Han har ett skarpt, tunt engelskt ansikte med en tunn mun, stora öron och en stolt näsa. Han föddes i Wimbledon och påminner i samtal berättaren om en barnbok om vetenskap: nyfiken, lockande och försöker förklara allt. Han är rolig och spelar lite för publiken. Det gör honom ont att sitta på grund av ryggproblem, så att han inte kan flyga, och på tandläkarkontoret ligger han på en enhet som liknar en surfbräda.

På 1980-talet var Hinton, som han nu är, expert på neurala nätverk, en mycket förenklad modell av nätverket av neuroner och synapser i våra hjärnor. Men vid den tidpunkten var man helt överens om att neurala nätverk var en återvändsgränd i AI-forskning. Även om det allra första neurala nätverket, Perceptron, utvecklades på 1960-talet och ansågs vara det första steget mot maskinell intelligens på mänsklig nivå, visade Marvin Minsky och Seymour Papert matematiskt 1969 att sådana nätverk bara kan utföra enkla funktioner. Dessa nätverk hade bara två lager av neuroner: ett inmatningsskikt och ett utgångsskikt. Nätverk med ett stort antal lager mellan inmatnings- och utgångsneuroner kunde i teorin lösa en mängd olika problem, men ingen visste hur de skulle träna dem, så i praktiken var de värdelösa. På grund av Perceptrons har nästan alla övergett idén om neurala nätverk med några få undantag.inklusive Hinton.

Hintons genombrott 1986 var att visa att backpropagation kan träna ett djupt neuralt nätverk med mer än två eller tre lager. Men det tog ytterligare 26 år innan datorkraften ökade. I ett papper från 2012 visade Hinton och två Toronto-studenter att djupa nervnätverk, utbildade med bakgrundsbild, överträffade de allra bästa systemen för bildigenkänning. Deep Learning har börjat få dragkraft. Världen beslutade över natten att AI skulle ta över på morgonen. För Hinton var detta en välkommen seger.

Verklighetsförvrängningsfält

Ett neuralt nätverk avbildas vanligtvis som en smörgås, vars lager överlagras på varandra. Dessa lager innehåller artificiella neuroner, som i huvudsak är små beräkningsenheter som avfyrar - som en riktig neuron - och överför denna spänning till de andra neuronerna till vilka de är anslutna. Excitationen av en neuron representeras av ett tal, säga 0,13 eller 32,39, som bestämmer graden av excitation för neuronet. Och det finns ett annat viktigt nummer, på var och en av förbindelserna mellan de två nervcellerna, som avgör hur mycket excitation som ska överföras från den ena till den andra. Detta nummer modellerar styrkan hos synapser mellan nervceller i hjärnan. Ju högre antal, desto starkare är anslutningen, vilket innebär att mer spänning flyter från det ena till det andra.

En av de mest framgångsrika tillämpningarna av djupa neurala nätverk har varit i bildigenkänning. Idag finns det program som kan känna igen om det finns en korv i bilden. För ungefär tio år sedan var de omöjliga. För att få dem att fungera måste du först ta en bild. För enkelhetens skull, låt oss säga att det är en 100 x 100 pixel svartvit bild. Du matar det till det neurala nätverket genom att ställa in avfyrningen av varje simulerad neuron i ingångsskiktet så att det kommer att vara lika med ljusstyrkan för varje pixel. Detta är det nedre lagret av smörgåsen: 10 000 nervceller (100 x 100) som representerar ljusstyrkan för varje pixel i bilden.

Sedan ansluter du detta stora lager av neuroner till ett annat stort lager av neuroner, redan högre, säger, flera tusen, och de i sin tur till ett annat lager av flera tusen nervceller, men mindre, och så vidare. Slutligen kommer det översta lagret av smörgåsen - utgångsskiktet - att bestå av två nervceller - en representerar korv och den andra inte korv. Tanken är att utbilda nervnätverket att bara avfyra den första av dessa nervceller om det finns en korv på bilden, och den andra om inte. Backprop, backpropagationstekniken som Hinton har byggt sin karriär på, gör just det.

Backprop är extremt enkelt, även om det fungerar bäst med enorma mängder data. Därför är big data så viktigt för AI - varför Facebook och Google är så passionerade för det, och varför Vector Institute beslutade att ansluta till Kanadas fyra största sjukhus och dela data.

I detta fall har uppgifterna formen av miljoner bilder, vissa med korv, några utan; tricket är att markera dessa bilder som att de har korv. När du först skapar ett neuralt nätverk har anslutningarna mellan neuroner slumpmässiga vikter - slumpmässiga nummer som säger hur mycket excitation som överförs via varje anslutning. Som om synapserna i hjärnan ännu inte är inställda. Syftet med bakgrundsbilden är att ändra dessa vikter så att nätverket fungerar: så att när du matar hotdogsbilden till det nedersta lagret, skjuter hotdogsneuronen i det översta lagret.

Låt oss säga att du tar den första bildhandledningen för piano. Du konverterar pixelintensiteten för en 100 x 100-bild till 10 000 nummer, en för varje neuron i nätverkets bottenlager. När excitationen sprids genom nätverket i enlighet med styrkan i anslutningen av nervceller i de intilliggande lagren kommer allt gradvis till det sista lagret, en av de två neuronerna som avgör om det finns en korv i bilden. Eftersom detta är en bild av ett piano, bör hot dogneuronen visa noll och den icke-hot dog neuronen ska visa ett högre nummer. Låt oss säga att saker inte fungerar så. Låt oss säga att nätverket var fel om bilden. Backprop är en procedur för att stärka styrkan hos varje anslutning i nätverket, så att du kan korrigera felet i det givna träningsexemplet.

Hur det fungerar? Du börjar med de två sista nervcellerna och räknar ut hur fel de är: vad är skillnaden mellan deras skottnummer och vad det egentligen borde vara. Sedan tittar du på varje anslutning som leder till att dessa nervceller - går ner i skikten - och bestämmer deras bidrag till felet. Du fortsätter att göra detta tills du kommer till den första uppsättningen anslutningar längst ner i nätverket. Just nu vet du hur den enskilda anslutningen bidrar till det övergripande felet. Slutligen ändrar du alla vikterna för att minska den totala risken för fel. Denna så kallade "felutbredningsteknik" är att du slags körfel tillbaka genom nätverket, börjar på baksidan, ut.

Det otroliga börjar hända när du gör det med miljoner eller miljarder bilder: nätverket börjar bestämma om en bild är en korv eller inte. Och det som är ännu mer anmärkningsvärt är att de enskilda lagren i dessa bildigenkänningsnätverk börjar "se" bilder på samma sätt som vårt eget visuella system gör. Det vill säga, det första lagret upptäcker konturer - nervceller avfyras när det finns konturer och avfyras inte när de inte är det; nästa lager definierar uppsättningar av banor, till exempel hörn; nästa lager börjar skilja former; nästa lager hittar alla slags element som "öppen bulle" eller "stängd bulle" eftersom motsvarande neuroner är aktiverade. Nätverket organiserar sig i hierarkiska lager utan att ens programmeras på detta sätt.

Sann intelligens förvirras inte när problemet förändras något.

Det här är vad som förvånade alla så mycket. Det är inte så mycket att neurala nätverk är bra på att klassificera hot dog-bilder: de bygger representationer av idéer. Med text blir detta ännu tydligare. Du kan mata texten på Wikipedia, många miljarder ord, till ett enkelt neuralt nätverk och lära det att förse varje ord med siffror som motsvarar upphetsningarna för varje neuron i skiktet. Om du tänker på alla dessa nummer som koordinater i ett komplext utrymme, hittar du en punkt, känd i detta sammanhang som en vektor, för varje ord i det utrymmet. Sedan tränar du nätverket så att ord som visas sida vid sida på Wikipedia-sidor kommer att få en liknande koordinater - och voila, något konstigt händer: ord med liknande betydelser kommer att visas sida vid sida i detta utrymme. "Mad" och "upprörd" kommer att vara där; "Tre" och "sju" också. Dessutom,vektor aritmetik gör att du kan subtrahera vektorn "Frankrike" från "Paris", lägga till den till "Italien" och hitta "Rom" i närheten. Ingen sa till det neurala nätverket att Rom är för Italien på samma sätt som Paris är för Frankrike.

"Det är fantastiskt", säger Hinton. "Det är chockerande." Neurala nätverk kan ses som ett försök att ta saker - bilder, ord, inspelningar av konversationer, medicinska data - och placera dem i, som matematiker säger, ett multidimensionellt vektorutrymme där närhet eller avstånd till saker kommer att återspegla de viktigaste aspekterna av den verkliga världen. Hinton tror att detta är vad hjärnan gör. "Om du vill veta vad en tanke är," säger han, "jag kan förmedla den till dig i en serie ord. Jag kan säga, "John tänkte 'oops.' Men om du frågar: vad är tänkt? Vad betyder det för John att ha denna tanke? När allt kommer omkring, i hans huvud finns inga öppningscitationstecken, "oops", slutande citat, i allmänhet finns det inget sådant. Viss nervaktivitet pågår i hans huvud. " Stora bilder av nervaktivitet, om du är en matematiker, kan fångas i vektorrum,där aktiviteten för varje neuron kommer att motsvara ett nummer, och varje nummer kommer att motsvara koordinaten för en mycket stor vektor. För Hinton är tanken en dans av vektorer.

Nu är det klart varför Vector Institute kallades det?

Hinton skapar ett slags verklighetsförvrängningsfält, en känsla av självförtroende och entusiasm överförs till dig, vilket ger en övertygelse om att ingenting är omöjligt för vektorer. När allt kommer omkring har de redan skapat självkörande bilar, cancerupptäckande datorer, översättare med direkt talat språk.

Det är först när du lämnar rummet att du kommer ihåg att dessa djupa inlärningssystem fortfarande är ganska stumma trots deras demonstrativa tankekraft. En dator som ser en hög med munkar på ett bord och automatiskt märker den som”en hög med munkar på bordet” verkar förstå världen; men när samma program ser en tjej borsta tänderna och säger att hon är en "pojke med en basebollträ", inser du hur svårfångad, om någon, denna förståelse är.

Neurala nätverk är bara sinneslösa och vaga mönsterigenkännare, och hur användbara sådana mönsterigenkänare kan vara - när allt kommer omkring försöker de integrera dem i all programvara - de är i bästa fall en begränsad ras av intelligens som lätt kan luras. Ett djupt neuralt nätverk som känner igen bilder kan förvirras helt om du ändrar en pixel eller lägger till visuellt brus som är osynligt för människor. Nästan lika ofta som vi hittar nya sätt att använda djup inlärning står vi ofta inför begränsningarna. Självkörande bilar kan inte köra under förhållanden som inte har sett förut. Maskiner kan inte analysera meningar som kräver sunt förnuft och en förståelse för hur världen fungerar.

Deep Learning imiterar vad som händer i den mänskliga hjärnan på ett sätt, men ytligt - vilket kanske förklarar varför hans intelligens ibland är så ytlig. Backprop upptäcktes inte under hjärnens nedsänkning, och försökte dechiffrera själva tanken; det växte ut från modeller av djurinlärning genom försök och misstag i gammaldags experiment. Och de flesta av de viktiga stegen som tagits sedan dess början inkluderade inte något nytt om neurovetenskap; det var tekniska förbättringar förtjänade av många års arbete av matematiker och ingenjörer. Det vi vet om intelligens är ingenting jämfört med vad vi ännu inte vet om det.

David Duvenaud, biträdande professor i samma avdelning som Hinton vid University of Toronto, säger att djup inlärning liknar teknik innan fysiken infördes. "Någon skriver ett verk och säger: 'Jag gjorde den här bron, och det är värt det!' En annan skriver: "Jag gjorde den här bron och den kollapsade, men jag lade till stöd och den står." Och alla blir galna för stöden. Någon lägger till en båge - och alla är så: bågar är coola! Med fysik kan du faktiskt ta reda på vad som kommer att fungera och varför. Vi har bara nyligen börjat gå mot åtminstone viss förståelse för konstgjord intelligens."

Och Hinton själv säger:”De flesta konferenser talar om att göra små förändringar istället för att tänka hårt och ställa frågor:” Varför är det vi gör nu inte att fungera? Vad är orsaken till detta? Låt oss fokusera på detta."

Det är svårt att få ett utifrån perspektiv när allt du ser är avancemang efter avancemang. Men de senaste framstegen inom AI har varit mindre vetenskapliga och mer tekniska. Medan vi har en bättre förståelse för vilka förändringar som kommer att förbättra djupa inlärningssystem, har vi fortfarande en vag uppfattning om hur dessa system fungerar och om de någonsin kan samlas i något lika kraftfullt som det mänskliga sinnet.

Det är viktigt att förstå om vi kunde dra ut allt vi kan från bakgrunden. I så fall kommer vi att ha en platå i utvecklingen av konstgjord intelligens.

Tålamod

Om du vill se nästa genombrott, något som ett ramverk för maskiner med mycket mer flexibel intelligens, bör du i teorin vända dig till forskning som liknar bakgrundsforskning på 80-talet: när smarta människor gav upp eftersom deras idéer inte fungerade ännu. …

För några månader sedan besökte jag Center for Minds, Brains and Machines, en mångsidig institution stationerad på MIT, för att se min vän Eyal Dechter försvara sin avhandling i kognitiv vetenskap. Innan föreställningen började stödde hans fru Amy, hans hund Ruby och hans dotter Suzanne honom och önskade honom lycka till.

Eyal inledde sitt tal med en fascinerande fråga: hur hände det att Suzanne, som bara är två år gammal, lärde sig att prata, spela, följa berättelser? Vad finns det i den mänskliga hjärnan som gör att han kan studera så bra? Kommer en dator någonsin att lära sig att lära sig så snabbt och smidigt?

Vi förstår nya fenomen i termer av saker som vi redan förstår. Vi delar domänen i bitar och granskar den bit för bit. Eyal är en matematiker och programmerare, han tänker på uppgifter - som att göra en souffle - som komplexa datorprogram. Men du lär dig inte hur man gör en soufflé genom att memorera hundratals minuters programinstruktioner som "vänd din armbåge 30 grader, titta sedan på bordsskivan, sträck sedan fingret och sedan …". Om du var tvungen att göra detta i alla nya fall skulle lärandet bli outhärdligt och du skulle sluta utveckla. Istället ser vi steg på hög nivå som”slå de vita” i programmet, som själva består av subroutiner som”bryta ägg” och”separera de vita från äggulorna”.

Datorer gör inte detta och verkar därför dumma. För djupt lärande att känna igen en hot dog måste du mata den 40 miljoner hot dog-bilder. Vad Suzanne kände igen korv, bara visa henne korv. Och långt innan det kommer hon att ha en förståelse för språket, som går mycket djupare än erkännandet av utseendet på separata ord tillsammans. Till skillnad från en dator har hennes huvud en uppfattning om hur världen fungerar. "Det förvånar mig att människor är rädda för att datorer kommer att ta sina jobb", säger Eyal.”Datorer kommer inte att kunna ersätta advokater eftersom advokater gör något svårt. Men eftersom advokater lyssnar och pratar med människor. I den meningen är vi väldigt långt ifrån allt detta."

Sann intelligens kommer inte att förvirras om du något ändrar kraven för att lösa problemet. Och Eyals nyckelavhandling var att demonstrera exakt detta, i princip, hur man kan få en dator att fungera på detta sätt: snabbt tillämpa allt det redan vet för att lösa nya problem, snabbt ta tag i farten och bli expert på ett helt nytt område.

I huvudsak är det detta han kallar exploration-komprimeringsalgoritmen. Det ger datorn funktionen som en programmerare och bygger ett bibliotek med återanvändbara modulkomponenter så att mer komplexa program kan skapas. Genom att veta någonting om den nya domänen försöker datorn att strukturera kunskap om det, helt enkelt studera det, konsolidera vad den har upptäckt och vidare studera det, som ett barn.

Hans rådgivare, Joshua Tenenbaum, är en av de mest citerade AI-forskarna. Tenenbaums namn kom upp i hälften av de samtal jag hade med andra forskare. Några av nyckelpersonerna på DeepMind - utvecklingsgruppen för AlphaGo som legendariska slog World Go Champion 2016 - har arbetat under honom. Han är involverad i en start som försöker ge självkörande bilar en intuitiv förståelse av grundläggande fysik och andra förarens avsikter, så att de bättre kan förutse vad som händer i situationer som inte har stött på tidigare.

Eyals avhandling har ännu inte tillämpats i praktiken, den har inte ens införts i programmen. "De problem som Eyal arbetar med är väldigt, mycket svåra", säger Tenenbaum. "Det tar många generationer att gå."

När vi satt oss ner för en kopp kaffe sa Tenenbaum att han forskade på bakgrunds historien för inspiration. I årtionden har bakgrundsbild varit en form av cool matematik, de flesta av dem inte kan någonting. När datorer blev snabbare och tekniken blev svårare förändrades saker. Han hoppas att något liknande kommer att hända med hans eget arbete och hans elever, men "det kan ta ytterligare några decennier."

För Hinton är han övertygad om att övervinna begränsningarna i AI handlar om att skapa en "bro mellan datavetenskap och biologi." Bakgrund, från denna synvinkel, var en triumf för biologiskt inspirerad datoranvändning; idén kom ursprungligen inte från teknik utan från psykologi. Så nu försöker Hinton upprepa detta trick.

Idag består neurala nätverk av stora platta lager, men i den mänskliga neocortexen samverkar verkliga neuroner inte bara horisontellt, utan också vertikalt i kolumner. Hinton gissar vad dessa kolumner är till för - i syn, till exempel, tillåter de dig att känna igen objekt även när du ändrar din synvinkel. Så han skapar en konstgjord version - och kallar dem "kapslar" - för att testa denna teori. Hittills kommer inget ut: kapslarna har inte avsevärt förbättrat prestandan i hans nätverk. Men för 30 år sedan var det samma med bakgrund.

”Det borde fungera,” säger han om kapselteorin och skrattar åt sin egen bravado. "Och det som inte fungerar ännu är bara en tillfällig irritation."

Baserat på material från Medium.com

Ilya Khel