Drömmer Nervceller Om Elektriska Får? Skaparen Av De Första Neurala Nätverk Berättade Om Deras Utveckling Och Framtiden - Alternativ Vy

2024 Författare: Keith Bush | [email protected]. Senast ändrad: 2023-12-16 14:50

Jeffrey Hinton är en medskapare av begreppet djupt lärande, en vinnare av Turing Award 2019 och en Google-ingenjör. Förra veckan, under en I / O-utvecklare-konferens, intervjuade Wired honom och diskuterade hans fascination för hjärnan och hans förmåga att modellera en dator baserad på hjärnans nervstruktur. Under en lång tid ansågs dessa idéer galna. En intressant och underhållande konversation om medvetande, Hintons framtidsplaner och om datorer kan läras drömma.

Vad händer med neurala nätverk?

Låt oss börja med de dagar då du skrev dina allra första, mycket inflytelserika artiklar. Alla sa: "Det är en smart idé, men vi kan verkligen inte utforma datorer på detta sätt." Förklara varför du insisterade på din egen och varför du var så säker på att du hittade något viktigt.

Det verkade för mig att hjärnan inte kunde fungera på något annat sätt. Han måste arbeta genom att studera styrkorna i anslutningarna. Och om du vill få en enhet att göra något smart har du två alternativ: du antingen programmerar den eller den lär sig. Och ingen programmerade människor, så vi var tvungna att studera. Denna metod måste vara korrekt.

Förklara vad neurala nätverk är. Förklara det ursprungliga konceptet

Du tar relativt enkla behandlingselement som mycket vagt liknar nervceller. De har inkommande anslutningar, varje anslutning har en vikt, och denna vikt kan förändras under träningen. Vad neuronet gör är att vidta åtgärderna på anslutningarna multiplicerade med vikterna, summera dem och sedan bestämma om de ska skickas data. Om summan skrivs tillräckligt stor ger den en utgång. Om beloppet är negativt skickar det inget. Det är allt. Allt du behöver göra är att ansluta ett moln av dessa neuroner till vikter och ta reda på hur man ändrar dessa vikter, och sedan kommer de att göra vad som helst. Den enda frågan är hur du ändrar vikterna.

Kampanjvideo:

När insåg du att det här är en grov framställning av hur hjärnan fungerar?

Åh, ja, allt var ursprungligen avsett. Designad för att likna hjärnan på jobbet.

Så någon gång i din karriär började du förstå hur hjärnan fungerar. Du var kanske tolv år, kanske tjugofem. När bestämde du dig för att försöka modellera datorer som hjärnor?

Ja omedelbart. Det var hela poängen. Hela idén var att skapa en läranordning som lär sig som hjärnan, enligt människors idéer om hur hjärnan lär sig, genom att ändra styrkorna i anslutningarna. Och det var inte min idé, Turing hade samma idé. Även om Turing uppfann mycket av grunden för standard datavetenskap, trodde han att hjärnan var en oorganiserad enhet med slumpmässiga vikter och använde förstärkningslärande för att ändra anslutningar, så att han kunde lära sig vad som helst. Och han trodde att detta är den bästa vägen till intelligens.

Och du följde Turings idé att det bästa sättet att bygga en maskin är att designa den som den mänskliga hjärnan. Så fungerar den mänskliga hjärnan, så låt oss skapa en liknande maskin

Ja, inte bara Turing trodde det. Många trodde det.

När kom de mörka tiderna? När hände det sig att andra människor som arbetade med det och trodde Turings idé att vara korrekt började slå tillbaka, och du fortsatte att böja din linje?

Det har alltid funnits en handfull människor som trodde oavsett vad, särskilt inom psykologin. Men bland datavetare antar jag på 90-talet att det höll på att datasätten var ganska små och datorerna var inte så snabba. Och med små datasätt presterade andra metoder som supportvektomaskiner något bättre. De var inte så generade av bruset. Så det var tråkigt eftersom vi på 80-talet utvecklade en metod för ryggutbredning, som är mycket viktig för neurala nätverk. Vi trodde att han skulle lösa allt. Och de blev förbryllade över att han inte hade bestämt något. Frågan var verkligen i skala, men då visste vi inte den.

Varför trodde du att det inte fungerade?

Vi trodde att det inte fungerade eftersom vi inte hade riktigt korrekta algoritmer och inte riktigt korrekta objektiva funktioner. Jag tänkte länge att detta beror på att vi försökte göra övervakat lärande när du märkte uppgifterna, och vi var tvungna att göra undervisning utan tillsyn när vi lärde oss från otaggade data. Det visade sig att frågan mest var i skala.

Det är intressant. Så problemet var att du inte hade tillräckligt med data. Du trodde att du hade rätt mängd data, men du taggade felaktigt. Så att du bara har diagnostiserat problemet felaktigt?

Jag trodde att misstaget var att vi använder etiketter alls. De flesta av din träning sker utan att använda några etiketter, du försöker bara modellera en struktur i uppgifterna. Jag tror faktiskt fortfarande det. Jag tror att eftersom datorerna blir snabbare, om datorn är tillräckligt snabb, då för varje datasats av en viss storlek, är det bättre att träna utan övervakning. Och när du har slutfört undervisning utan tillsyn kan du lära dig med färre taggar.

Så på 1990-talet fortsätter du din forskning, du är i akademin, du publicerar fortfarande, men du löser inte stora problem. Har du någonsin haft ett ögonblick när du sa:”Du vet vad, det är nog. Kommer jag att försöka göra något annat”? Eller sa du bara dig själv att du skulle fortsätta att göra djup inlärning [det vill säga begreppet djup inlärning, djup inlärning av neurala nätverk

Ja. Något som detta borde fungera. Jag menar, anslutningarna i hjärnan lär sig på något sätt, vi behöver bara ta reda på hur. Och det finns förmodligen många olika sätt att stärka kontakter i inlärningsprocessen; hjärnan använder en av dem. Det kan finnas andra sätt. Men du behöver definitivt något som kan stärka dessa kontakter medan du lär dig. Jag tvivlade aldrig på det.

Du har aldrig tvivlat på det. När verkade det som om det fungerade?

En av 80-talets största besvikelser var att om vi skapade nätverk med många dolda lager, kunde vi inte träna dem. Detta är inte helt sant, eftersom du kan träna relativt enkla processer som handskrift. Men vi visste inte hur vi tränar de flesta djupa neurala nätverk. Och omkring 2005 kom jag på ett sätt att träna djupa nätverk utan tillsyn. Du anger data, säger pixlar och tränar flera detaljdetektorer, vilket precis förklarade väl varför pixlarna var som de är. Sedan matar du dessa deldetektorer data och tränar en annan uppsättning deldetektorer så att vi kan förklara varför specifika deldetektorer har specifika korrelationer. Du fortsätter att träna lager för lager. Men det mest intressanta var detsom kan sönderdelas matematiskt och bevisa att varje gång du tränar ett nytt lager, kommer du inte nödvändigtvis att förbättra datamodellen, men du kommer att ta itu med en rad hur bra din modell är. Och det sortimentet blev bättre med varje lager som lagts till.

Vad menar du med intervallet på hur bra din modell är?

När du har fått modellen kan du ställa frågan "Hur ovanligt hittar den här modellen dessa data?" Du visar henne uppgifterna och ställer frågan: "Finner du allt detta som förväntat, eller är det ovanligt?" Och detta kunde mätas. Och jag ville få en modell, en bra modell som tittar på data och säger:”Ja, ja. Jag visste det. Detta är inte förvånande ". Det är alltid mycket svårt att beräkna exakt hur ovanligt en modell kommer att hitta data. Men du kan beräkna intervallet för detta. Vi kan säga att modellen kommer att hitta dessa data mindre ovanliga än detta. Och det kan visas att när nya lager läggs till detaljdetektorerna, bildas modellen, och med varje lager som läggs till när den hittar data, blir förståelsesområdet för hur ovanligt det tycker att uppgifterna blir bättre.

Så omkring 2005 gjorde du detta matematiska genombrott. När började du få rätt svar? Vilka data arbetade du med? Ditt första genombrott var med taldata, eller hur?

De var bara handskrivna nummer. Väldigt enkelt. Och ungefär samtidigt började utvecklingen av GPU: er (Grafikbearbetningsenheter). Och människor som gjorde neurala nätverk började använda GPU: er 2007. Jag hade en mycket bra student som började använda GPU för att hitta vägar i flygfotografier. Han skrev koden, som sedan antogs av andra studenter som använder GPU för att känna igen fonemer i tal. De använde den här förutbildningsidén. Och när förutbildningen var klar hängde de bara taggarna ovanpå och använde ryggutbredning. Det visade sig att det är möjligt att skapa ett mycket djupt nätverk som tidigare utbildats på detta sätt. Och sedan kan överföring användas och det fungerade faktiskt. När det gäller taligenkänning fungerade det bra. Först dockdet var inte mycket bättre.

Var det bättre än kommersiellt tillgängligt taligenkänning? Omkopplas av de bästa vetenskapliga artiklarna om taligenkänning?

På ett relativt litet datasätt som heter TIMIT var det något bättre än det bästa akademiska arbetet. IBM har också gjort mycket arbete.

Folk insåg snabbt att allt detta - eftersom det går förbi standardmodellerna som hade utvecklats i 30 år - skulle fungera bra om det utvecklats lite. Mina kandidater gick till Microsoft, IBM och Google, och Google skapade mycket snabbt ett fungerande taligenkännande. År 2012 hade detta arbete, som hade gjorts tillbaka 2009, träffat Android. Android är plötsligt mycket bättre på taligenkänning.

Berätta om ett ögonblick när du, som har lagrat dessa idéer i 40 år, har publicerat om detta ämne i 20 år, plötsligt förbi dina kollegor. Hur är denna känsla?

På den tiden hade jag bara lagrat dessa idéer i 30 år!

Eller hur

Det var en stor känsla att allt detta äntligen hade förvandlats till ett verkligt problem.

Kommer du ihåg när du först fick uppgifterna som indikerar detta?

Inte.

Okej. Så du får idén att detta fungerar med taligenkänning. När började du använda neurala nätverk på andra problem?

Till att börja med började vi använda dem på alla möjliga andra problem. George Dahl, med vilken vi ursprungligen arbetade med taligenkänning, använde dem för att förutsäga om en molekyl kunde binda till något och bli en bra medicin. Och det var en tävling. Han använde helt enkelt vår standardteknik, byggd för taligenkänning, för att förutsäga läkemedelsaktivitet och vann tävlingen. Det var ett tecken på att vi gör något mycket mångsidigt. Sedan dök upp en student som sa:”Du vet, Jeff, den här saken kommer att fungera med bildigenkänning, och Fei-Fei Li skapade ett lämpligt datasätt för det. Det finns en offentlig tävling, låt oss göra något."

Vi fick resultat som långt överträffade standard datorsyn. Det var 2012.

Det vill säga på dessa tre områden har du utmärkt dig: modellering av kemikalier, tal, röst. Var misslyckades du?

Förstår du att bakslag är tillfälliga?

Vad skiljer områden där allt fungerar snabbast och områden där det tar längst? Ser ut som visuell bearbetning, taligenkänning och något liknande de grundläggande mänskliga sakerna vi gör med sensorisk uppfattning anses vara de första hindren att övervinna, eller hur?

Ja och nej, för det finns andra saker som vi gör bra - samma motoriska färdigheter. Vi är mycket bra på motorstyrning. Våra hjärnor är definitivt utrustade för detta. Och först nu börjar neurala nätverk konkurrera med de bästa andra teknikerna för detta. De kommer att vinna till slut, men nu börjar de bara vinna.

Jag tror att tänkande, abstrakt tänkande är det sista vi lär oss. Jag tror att de kommer att vara bland de sista saker som dessa neurala nätverk lär sig göra.

Och så säger du hela tiden att neurala nätverk i slutändan kommer att ha överallt

Vi är neurala nätverk. Allt vi kan, de kan.

Det är sant, men den mänskliga hjärnan är långt ifrån den mest effektiva datormaskin som någonsin har byggts

Definitivt inte.

Definitivt inte min mänskliga hjärna! Finns det ett sätt att modellera maskiner som är mycket effektivare än den mänskliga hjärnan?

Filosofiskt sett har jag ingen invändning mot idén att det kan finnas något helt annat sätt att göra allt detta. Kanske om du börjar med logik, försöker automatisera logik, komma med något fancy teorem prover, resonera och sedan bestämma att det är genom resonemang som du kommer till visuell uppfattning, kan det vara att denna strategi kommer att vinna. Men inte än. Jag har ingen filosofisk invändning mot en sådan seger. Vi vet bara att hjärnan kan det.

Men det finns också saker som våra hjärnor inte kan göra bra. Betyder det att neurala nätverk inte heller kan göra dem bra?

Ganska möjligen, ja.

Och det finns ett separat problem, som är att vi inte helt förstår hur neurala nätverk fungerar, eller hur?

Ja, vi förstår inte riktigt hur de fungerar.

Vi förstår inte hur top-down neurala nätverk fungerar. Detta är en grundläggande del av hur neurala nätverk fungerar som vi inte förstår. Förklara det här och låt mig sedan ställa mig nästa fråga: om vi vet hur det fungerar, hur fungerar det då?

När du tittar på moderna datorsynsystem är de flesta främst framåtriktade; de använder inte feedback-anslutningar. Och sedan finns det något annat i moderna datorsynssystem som är mycket benägna att motverka fel. Du kan ändra något på några pixlar, och vad som var en pandabild och fortfarande ser exakt ut som en panda för dig kommer plötsligt att bli en struts i din förståelse av ett neuralt nätverk. Uppenbarligen är metoden för att ersätta pixlar genomtänkt på ett sådant sätt att man lurar neuralnätverket till att tänka på en struts. Men poängen är att det fortfarande är en panda för dig.

Till en början tyckte vi att allt fungerade bra. Men sedan, inför det faktum att de tittade på en panda och var säker på att det var en struts, blev vi oroliga. Och jag tror att en del av problemet är att de inte försöker rekonstruera från synpunkter på hög nivå. De försöker lära sig isolerat, där bara lagren med detaljdetektorer lär sig, och hela målet är att ändra vikterna för att bli bättre på att hitta rätt svar. Vi upptäckte nyligen, eller Nick Frost, i Toronto, att genom att lägga till rekonstruktion ökar motståndskraftigt motstånd. Jag tror att i mänsklig vision används rekonstruktion för att lära sig. Och eftersom vi lär oss så mycket när vi gör rekonstruktion, är vi mycket mer motståndskraftiga mot attacker.

Du tror att nedströms kommunikation i ett neuralt nätverk gör att du kan testa hur något rekonstrueras. Du kontrollerar det och ser till att det är en panda, inte en struts

Jag tycker att detta är viktigt, ja.

Men hjärnforskare håller inte helt med om detta?

Hjärnforskare hävdar inte att om du har två regioner i barken i uppfattningsvägen kommer det alltid att finnas omvända förbindelser. De argumenterar med vad det är för. Det kan behövas för uppmärksamhet, för lärande eller för återuppbyggnad. Eller för alla tre.

Och så vi vet inte vad feedback är. Byggjer du dina nya neurala nätverk, utifrån antagandet att … nej, inte ens - du bygger feedback, eftersom det behövs för rekonstruktion i dina neurala nätverk, även om du inte ens förstår hur hjärnan fungerar?

Ja.

Är det inte en gimmick? Det vill säga, om du försöker göra något som en hjärna, men du är inte säker på om hjärnan gör det?

Inte riktigt. Jag är inte inom beräkningsneurovetenskap. Jag försöker inte modellera hur hjärnan fungerar. Jag tittar på hjärnan och säger, "Det fungerar, och om vi vill göra något annat som fungerar, måste vi titta på och inspireras av det." Vi är inspirerade av nervceller och bygger inte en neural modell. Således inspireras hela modellen av neuroner vi använder av det faktum att neuroner har många anslutningar och att de ändrar vikter.

Det är intressant. Om jag var en datavetare som arbetade på neurala nätverk och ville ta sig runt Jeff Hinton, skulle ett alternativ vara att bygga nedåt kommunikation och basera den på andra modeller av hjärnvetenskap. Baserat på utbildning, inte rekonstruktion

Om det fanns bättre modeller skulle du ha vunnit. Ja.

Det är väldigt, väldigt intressant. Låt oss beröra ett mer allmänt ämne. Så neurala nätverk kan lösa alla möjliga problem. Finns det gåtor i den mänskliga hjärnan som neurala nätverk inte kan eller inte täcker? Till exempel känslor

Inte.

Så kärlek kan rekonstrueras med ett neuralt nätverk? Medvetandet kan rekonstrueras?

Absolut. När du väl har kommit fram till vad dessa saker betyder. Vi är neurala nätverk, eller hur? Medvetande är ett särskilt intressant ämne för mig. Men … människor vet inte riktigt vad de menar med detta ord. Det finns många olika definitioner. Och jag tror att det är en ganska vetenskaplig term. Därför om du för 100 år sedan frågade människor: vad är livet? De skulle svara:”Tja, levande saker har livskraft, och när de dör lämnar livskraften dem. Det här är skillnaden mellan de levande och de döda, antingen har du livskraften eller inte. Nu har vi ingen livskraft, vi tror att detta koncept kom före vetenskapen. Och när du börjar förstå lite om biokemi och molekylärbiologi, behöver du inte längre livskraft, kommer du att förstå hur allt verkligen fungerar. Och samma sak, tror jag, kommer att hända med medvetandet. Jag tror,att medvetande är ett försök att förklara mentala fenomen med hjälp av en enhet. Och den här essensen behövs inte. När du väl kan förklara det kan du förklara hur vi gör allt som gör människor medvetna varelser, förklarar de olika betydelserna av medvetandet utan att involvera några speciella enheter.

Det visar sig att det inte finns några känslor som inte kunde skapas? Det finns ingen tanke som inte kan skapas? Det finns inget som det mänskliga sinnet är kapabelt av som teoretiskt inte kunde återskapas av ett fullt fungerande neuralt nätverk när vi faktiskt förstår hur hjärnan fungerar?

John Lennon sjöng något liknande i en av sina låtar.

Är du 100% säker på det här?

Nej, jag är Bayesian, så jag är 99,9% säker.

Okej, vad är då 0,01%?

Vi kan till exempel alla vara del av en större simulering.

Rimligt nog. Så vad lär vi oss om hjärnan från vårt arbete med datorer?

Tja, jag tror att det som vi har lärt oss under de senaste tio åren är intressant att om du tar ett system med miljarder parametrar och en objektiv funktion - till exempel för att fylla en lucka i en rad ord - så fungerar det bättre än det borde. Det fungerar mycket bättre än du kan förvänta dig. Du kanske tror, och många människor i traditionell AI-forskning skulle tro att du kan ta ett system med en miljard parametrar, köra det med slumpmässiga värden, mäta gradienten för objektfunktionen och sedan justera det för att förbättra objektfunktionen. Du kanske tror att en hopplös algoritm oundvikligen skulle fastna. Men nej, det visar sig att det här är en riktigt bra algoritm. Och ju större skalan, desto bättre fungerar den. Och denna upptäckt var i huvudsak empirisk. Det fanns naturligtvis en teori bakom allt, men upptäckten var empirisk. Och nu,eftersom vi hittade detta verkar det mer troligt att hjärnan beräknar gradienten för någon objektiv funktion och uppdaterar vikterna och styrkan hos den synaptiska anslutningen för att hålla jämna steg med denna lutning. Vi behöver bara ta reda på vad den här målfunktionen är och hur den blir värre.

Men vi förstod inte detta med hjärnans exempel? Förstår inte balansuppdateringen?

Det var teori. För länge sedan trodde folk att det var möjligt. Men i bakgrunden fanns det alltid några datavetare som sa: "Ja, men idén att allt är slumpmässigt och lärande beror på lutningens nedstigning fungerar inte med en miljard parametrar, du måste ansluta mycket kunskap." Vi vet nu att detta inte är fallet. Du kan bara ange slumpmässiga parametrar och lära dig allt.

Låt oss dyka lite djupare. När vi lär oss mer och mer kommer vi antagligen att fortsätta lära oss mer och mer om hur den mänskliga hjärnan fungerar när vi utför massiva test av modeller baserade på vår förståelse av hjärnfunktionen. När vi väl har förstått allt detta bättre, kommer det att finnas en punkt där vi i huvudsak återansluter våra hjärnor för att bli mycket effektivare maskiner?

Om vi verkligen förstår vad som händer kan vi förbättra vissa saker som utbildning. Och jag tror att vi kommer att förbättras. Det vore väldigt konstigt att äntligen förstå vad som händer i din hjärna, hur den lär sig och inte anpassa sig för att lära sig bättre.

Hur tror du att vi inom ett par år kommer att använda det vi har lärt oss om hjärnan och hur djup inlärning fungerar för att förändra utbildning? Hur skulle du byta klasser?

Jag är inte säker på att vi kommer att lära oss mycket om ett par år. Jag tror att det kommer att ta längre tid att byta utbildning. Men när vi talar om det blir [digitala] assistenter ganska smarta. Och när assistenter kan förstå konversationer kan de prata med och utbilda barn.

Och i teorin, om vi förstår hjärnan bättre, kan vi programmera hjälpare för att bättre kunna prata med barn, baserat på vad de redan har lärt sig

Ja, men jag tänkte inte så mycket på det. Jag gör något annat. Men allt detta verkar ganska lika sanningen.

Kan vi förstå hur drömmar fungerar?

Ja, jag är mycket intresserad av drömmar. Jag är så intresserad att jag har minst fyra olika drömteorier.

Berätta om dem - om den första, andra, tredje, fjärde

För länge sedan fanns det den här typen av saker som heter Hopfield-nätverk, och de studerade minnen som lokala attraherare. Hopfield fann att om du försöker lägga för många minnen blir de trassliga. De kommer att ta två lokala attraherare och kombinera dem till en attraherare någonstans halvvägs mellan dem.

Sedan kom Francis Crick och Graham Mitchison och sa att vi kan bli av med dessa falska lågheter genom att lära oss (det vill säga glömma det vi har lärt oss). Vi stänger av datainmatningen, sätter nervnätverket i slumpmässigt tillstånd, låter det lugna ner, säger att det är dåligt, ändrar anslutningarna så att det inte faller i detta tillstånd, och därmed kan vi göra nätverkslagret fler minnen.

Då kom Terry Seinowski och jag in och sa: "Titta, om vi inte bara har neuronerna som lagrar minnen, utan ett gäng andra neuroner, kan vi hitta en algoritm som använder alla dessa andra nervceller för att återkalla minnen?" … Som ett resultat skapade vi en Boltzmann maskininlärningsalgoritm. Och Boltzmanns maskininlärningsalgoritm hade en oerhört intressant egenskap: Jag visar uppgifterna, och den går typ igenom resten av enheterna tills den kommer i ett mycket lyckligt tillstånd, och efter det ökar styrkan hos alla anslutningar, baserat på det faktum att två enheter är aktiva samtidigt.

Du bör också ha en fas där du stänger av inmatningen, låter algoritmen "rassla" och sätta honom i ett tillstånd där han är lycklig, så att han fantaserar, och så fort han har en fantasi säger du: "Ta alla par av nervceller som är aktiva och minskar styrkorna i anslutningarna."

Jag förklarar algoritmen för dig som en procedur. Men i verkligheten är denna algoritm en produkt av matematik och frågan: "Hur behöver du ändra dessa kedjor av anslutningar så att detta neurala nätverk med alla dessa dolda datorenheter inte verkar förvånande?" Och det borde också finnas en annan fas, som vi kallar den negativa fasen, när nätverket fungerar utan datainmatning och avläser, oavsett vilket tillstånd du sätter in det.

Vi drömmer i många timmar varje natt. Och om du plötsligt vaknar, kan du säga att du bara drömt, för drömmen lagras i kortvarigt minne. Vi vet att vi ser drömmar i många timmar, men på morgonen, efter att vi vaknat upp, kan vi bara komma ihåg den sista drömmen, och vi kommer inte ihåg de andra, vilket är mycket framgångsrikt, eftersom man skulle kunna misstaga dem för verkligheten. Så varför minns vi inte våra drömmar alls? Enligt Crick är detta meningen med drömmar: att avläsa dessa saker. Du lär dig tvärtom.

Terry Seinovski och jag har visat att detta faktiskt är den maximala sannolikheten för inlärningsprocessen för Boltzmann-maskiner. Detta är den första teorin om drömmar.

Jag vill gå vidare till dina andra teorier. Men min fråga är: Har du kunnat träna någon av dina djupa inlärningsalgoritmer för att faktiskt drömma?

Några av de första algoritmerna som kunde lära sig att arbeta med dolda enheter var Boltzmann-maskiner. De var extremt ineffektiva. Men senare hittade jag ett sätt att arbeta med approximationer, vilket visade sig vara effektivt. Och det fungerade faktiskt som drivkraft för återupptagandet av arbete med djup inlärning. Det var saker som tränade ett lager av funktionsdetektorer åt gången. Och det var en effektiv form av Boltzmanns restriktiva maskin. Och så gjorde hon den här typen av omvänd inlärning. Men istället för att somna, kunde hon bara fantasera lite efter varje datamärke.

Okej, så androider drömmer faktiskt om elektriska får. Låt oss gå vidare till teorierna två, tre och fyra

Teori två kallades Wake Sleep Algoritm. Du måste utbilda en generativ modell. Och du har en idé att skapa en modell som kan generera data, har lager av funktionsdetektorer och aktiverar de högre och nedre lagren, och så vidare, upp till aktiveringen av pixlar - skapar en bild, i huvudsak. Men du skulle vilja lära henne något annat. Du vill att den ska känna igen data.

Och så måste du göra en algoritm med två faser. I väckningsfasen kommer informationen in, han försöker känna igen den, och istället för att studera de anslutningar som han använder för igenkänning studerar han de generativa anslutningarna. Uppgifterna kommer in, jag aktiverar de dolda enheterna. Och sedan försöker jag lära dessa dolda enheter att återställa dessa data. Han lär sig rekonstruera i varje lager. Men frågan är hur man kan lära sig direkta anslutningar? Så tanken är att om du visste direkta anslutningar kan du lära dig omvända anslutningar, eftersom du kan lära dig att omvända ingenjörer.

Nu visar det sig också att om du använder omvända sammanfogningar kan du också lära dig direktförbindelser, eftersom du bara kan börja högst upp och generera lite data. Och eftersom du genererar data känner du tillstånden i alla dolda lager och kan studera direkta anslutningar för att återställa dessa tillstånd. Och här är vad som händer: om du börjar med slumpmässiga anslutningar och försöker använda båda faserna växelvis, kommer du att lyckas. För att det ska fungera bra måste du prova olika alternativ, men det fungerar.

Okej, så hur är det med de andra två teorierna? Vi har bara åtta minuter kvar, jag tror att jag inte har tid att fråga om allt

Ge mig ytterligare en timme så berättar jag om de andra två.

Låt oss prata om vad som är nästa. Var är din forskning rubrik? Vilka problem försöker du lösa nu?

I slutändan måste du arbeta med något som arbetet ännu inte har slutfört. Jag tror att jag mycket väl kan arbeta med något som jag aldrig kommer att avsluta - kallade kapslar, en teori om hur visuell uppfattning görs med hjälp av rekonstruktion och hur information riktas till rätt platser. De två huvudsakliga motiverande faktorerna var att i vanliga neurala nätverk skickas information, aktivitet i skiktet helt enkelt automatiskt någonstans, och du fattar inte ett beslut om vart du ska skicka den. Tanken bakom kapslarna var att fatta beslut om vart informationen skulle skickas.

Nu när jag började arbeta med kapslar har väldigt smarta människor på Google uppfunnit transformatorer som gör samma sak. De bestämmer vart de ska skicka informationen, och det är en stor vinst.

Vi kommer tillbaka nästa år för att prata om drömteorier nummer tre och nummer fyra.

Ilya Khel