Neurala Nätverk Har Lärt Sig Att Läsa Tankar I Realtid. Vad? Inte! - Alternativ Vy

Neurala Nätverk Har Lärt Sig Att Läsa Tankar I Realtid. Vad? Inte! - Alternativ Vy
Neurala Nätverk Har Lärt Sig Att Läsa Tankar I Realtid. Vad? Inte! - Alternativ Vy

Video: Neurala Nätverk Har Lärt Sig Att Läsa Tankar I Realtid. Vad? Inte! - Alternativ Vy

Video: Neurala Nätverk Har Lärt Sig Att Läsa Tankar I Realtid. Vad? Inte! - Alternativ Vy
Video: 10 Sätt att läsa folks TANKAR!!!!! *Helt otrolig psykologi* 2024, April
Anonim

För ett par dagar sedan publicerade bioRxiv.org-förtrycksportalen arbetet med ryska forskare från Moskva Institutet för fysik och teknik och företagen Neurobotics och Neuroassistive Technologies, som arbetar med att skapa neurocomputer-gränssnitt. Uppsatsen hävdar att forskare och utvecklare har lyckats lära ut en algoritm i realtid för att rekonstruera en video som visas av en person som använder EEG-signaler. Låter riktigt coolt och intressant - nästan som tankeläsning. I själva verket är allt naturligtvis inte så enkelt: datorer har inte lärt sig att läsa tankar. Kort sagt, datorn lärde sig från EEG-inspelningen för att bestämma vilken bild av fem olika tidigare kända klasser ämnet såg. Om hur experimentet byggdes, vilka uppgifter forskarna ställde in och varför tankeläsning sannolikt inte kommer att realiseras inom en nära framtid, berättar vi i vår blogg.

Image
Image

Generellt sett verkar tanken på att läsa hjärnans elektriska signal och dechiffrera den så att du kan se vad en person tänker eller gör vid ett givet ögonblick, med tanke på tempo i den nuvarande tekniska utvecklingen, inte så svår. Här är en signal, och här är vad denna signal betyder: lägg till två och två, träna klassificeraren och få det resultat vi behöver.

Resultatet är vad futurister och okunniga människor skulle kalla "tankeläsning". Och det verkar som om en sådan teknik kan hitta sig i en mängd olika applikationer: från perfekta hjärn-datorgränssnitt som gör att du kan kontrollera smarta proteser, till att skapa ett system som äntligen säger vad din katt tänker på där.

I verkligheten är naturligtvis allt inte alls så enkelt, och tanken på att skapa en sådan algoritm bryter nästan omedelbart på det största hindret: vi måste ta itu med hjärnan. Hjärnan är en mycket komplex sak: den har mer än 80 miljarder neuroner, och förbindelserna mellan dem är flera tusen gånger mer.

Även för en lekperson är det uppenbart: det här är för mycket för oss att förstå vad varje cell och deras sammanslagna ansvarar för. Forskare har ännu inte dechiffrat den mänskliga kontakten - även om de försöker göra det med relativ framgång.

En logisk fråga uppstår: är det alls nödvändigt att förstå funktionerna hos varje neuron för att exakt representera vad som händer i hjärnan? Finns det till exempel inte tillräckligt med funktionella kartor?

Svaret på denna fråga borde faktiskt vara "ja", men även här är det inte så enkelt. Om mänskligheten förlitade sig på att avkoda connectome som den enda nyckeln till att låsa upp hjärnans mysterium, skulle vi vara mycket nära idag. Men vi vet något om hur vår hjärna fungerar och naturligtvis kan vi använda den framgångsrikt.

Kampanjvideo:

Ett av de ljusaste och mest uppenbara exemplen på att använda den kunskap som forskarna samlat om hjärnans arbete är naturligtvis neurointerfaces. Generellt sett finns det idag tekniker som gör det möjligt att läsa hjärnaktivitet och använda den för att kontrollera, till exempel, en datormusmarkör eller till och med rörelserna i en protes.

Det finns två sätt att uppnå effektiv drift av det neurala gränssnittet. Den första metoden framkallar potentialer: vi tittar på kurvan för elektrisk aktivitet för vissa delar av hjärnan och väljer på dem de förändringar i signalen som, som vi vet med säkerhet, dyker upp i ett visst ögonblick efter presentationen av stimulansen.

Det andra sättet är inte att förlita sig på stimulering alls, utan att använda personens fantasi för att generera en elektrisk signal som kan läsas. Till exempel kan en person bli ombedd att visualisera hur de rör sig benet eller armen.

Båda metoderna har betydande nackdelar. Den första hindras av det faktum att antalet pålitligt framkallade potentialer som vi känner inte är så stort: deras antal kan inte exakt täcka alla möjliga åtgärder som utförs av en person. Nackdelen med den andra är att lång träning krävs för att uppnå åtminstone viss effekt.

Författarna till förtrycket beslutade att kombinera båda metoderna för att skapa neurocomputer-gränssnitt och trodde med rätta att detta skulle rädda båda metoderna från betydande begränsningar och möjliggöra att utveckla en ny och mest effektiv metod för att arbeta med neurointerfaces idag.

Det antogs också att denna metod kommer att stängas (sluten slinga), det vill säga att resultatet erhållet med dess hjälp, i sin tur kommer att påverka funktionen av algoritmen. Men mer om det senare.

I början bryter algoritmen alla bilder i separata komponenttecken, fördelade i vektorrummet, med hjälp av vilka de sedan kan korreleras med vissa hjärnsignaler inspelade med EEG.

I detta initiala skede används en binär klassificering - grovt sett själva "två och två": med en tillräckligt ren signal (EEG-inspelningen rensades från motorföremål), kan du välja antingen det ena eller det andra med en noggrannare noggrannhet än en slumpmässig träff.

I sina experiment använde forskarna videor av föremål från fem klasser: bilder av människor, vattenfall, abstrakta geometriska former, extremsport och Goldberg-bilar. Å ena sidan verkar en sådan uppsättning konstig, men å andra sidan verkar det som att alla dessa föremål skiljer sig mycket från varandra. Är det faktiskt något gemensamt mellan mänskliga ansikten och abstrakta geometriska former?

Enligt den binära klassificeringen kan abstrakta figurer och mänskliga ansikten emellertid inte skiljas från varandra: resultaten från nio av 17 deltagare i studien visar att det neurala gränssnittet, tydligen, inte lyckades skilja mellan dem. Men Goldbergs maskiner och samma ansikten, tvärtom från hjärnans synvinkel, skiljer sig väl från varandra.

Klassificeringsresultat. A - abstrakta former, W - vattenfall, HF - mänskliga ansikten, GM - Goldberg-bilar, extrema sporter
Klassificeringsresultat. A - abstrakta former, W - vattenfall, HF - mänskliga ansikten, GM - Goldberg-bilar, extrema sporter

Klassificeringsresultat. A - abstrakta former, W - vattenfall, HF - mänskliga ansikten, GM - Goldberg-bilar, extrema sporter.

Vid första anblicken är det inte särskilt tydligt varför detta händer: snarare kan inte samma maskiner och geometriska former skilja sig från varandra. Allt blir lite tydligare om du tittar på ett exempel på ramar från de använda filmerna.

Exempel på bilder från fem klasser
Exempel på bilder från fem klasser

Exempel på bilder från fem klasser.

Troligtvis (vi kan naturligtvis bara anta här). Klassificeringss framgång beror på hur mycket bilderna som används i de två klasserna skiljer sig från varandra i vissa ytliga, grundläggande funktioner - först och främst i färg. Detta korrelerar också bra med det faktum att dimensionen för det latenta utrymmet i autokodaren är 10.

I allmänhet är det en dimension på fem för att klassificera bilder av fem klasser, men i detta fall kommer det att göras maximalt med färghistogram - vilket innebär att dimension 10 inte kommer att förbättras för mycket och kommer att klargöra resultatet.

Det är inte särskilt tydligt varför författarna inte använde en linjär klassificering för fem klasser på en gång istället för tio binära klassificerare: det hade troligtvis varit bättre.

Sedan kommer scenen för återuppbyggnad av den resulterande bilden. Det faktum att det kommer ut smetat är förståeligt - poängen är i samma dimension av det latenta utrymmet. Men här förvirrar två saker.

Den första är att de ursprungliga och rekonstruerade bilderna liknar varandra. Här vill jag naturligtvis inte uppröra någon (inklusive oss själva - vi är fortfarande för framsteg), men det beror inte på att signalen är så bra inspelad och avkodad (och till och med i realtid!), Men på grund av att algoritmen återställer exakt de bilder som den redan hade.

Dessutom fungerar detta inte alltid så bra som vi skulle vilja: om du till exempel tittar på videon om systemets drift kommer du att märka att i videon med en gråtande man kommer det neurala gränssnittet av någon anledning att se en kvinna. Detta beror på att algoritmen inte rekonstruerar bilder utan objekt i en viss klass: även om den gör det tillräckligt effektivt hindrar ingenting algoritmen från att se en båt i bilden av en motorcykel - helt enkelt för att de tillhör samma klass.

Därför är det som visas på skärmen under rekonstruktion ofta bara en genomsnittlig bild av alla använda klassobjekt.

När det gäller meningsfullheten med att använda ett slutet system, är allt inte särskilt tydligt med det: när han utför en uppgift ser en person både en inspelning av EEG-signaler och en bild som gradvis dyker upp från huvudet. Huruvida detta faktiskt hjälper är svårt att säga - författarna jämförde inte gränssnittets prestanda med och utan förstärkning. Men vid första anblicken verkar det inte riktigt. Om det hjälper vill jag verkligen veta hur.

I allmänhet kan vi säkert dra slutsatsen att datorer inte har lärt sig att läsa tankar. Och de lärde inte ens hur man skulle återskapa videon. Allt de har lärt sig att göra, baserat på forskarnas arbete, är att klassificera föremål som de har sett i fem klasser baserat på några grundläggande kriterier. Har datorer kunnat göra det tidigare? Naturligtvis kunde de. Finns det en hjärna här? Naturligtvis finns det: men det är hjärnan som ser, inte hjärnan som förstår vad han såg exakt.

Elizaveta Ivtushok

Rekommenderas: