Adversarialattacker: Varför är Ett Neuralt Nätverk Lätt Att Lura? - Alternativ Vy

Innehållsförteckning:

Adversarialattacker: Varför är Ett Neuralt Nätverk Lätt Att Lura? - Alternativ Vy
Adversarialattacker: Varför är Ett Neuralt Nätverk Lätt Att Lura? - Alternativ Vy

Video: Adversarialattacker: Varför är Ett Neuralt Nätverk Lätt Att Lura? - Alternativ Vy

Video: Adversarialattacker: Varför är Ett Neuralt Nätverk Lätt Att Lura? - Alternativ Vy
Video: 'How neural networks learn' - Part II: Adversarial Examples 2024, Maj
Anonim

Under de senaste åren, när djupa inlärningssystem blir mer utbredda, har forskare visat hur motstridiga mönster kan påverka allt från en enkel bildklassificering till diagnossystem för cancer - och till och med skapa en livshotande situation. Trots all deras fara är motsatt exempel dåligt förstått. Och forskare var oroliga: kan detta problem lösas?

Vad är en motsatsattack? Detta är ett sätt att lura ett neuralt nätverk att producera ett felaktigt resultat. De används främst i vetenskaplig forskning för att testa modellernas robusthet mot icke-standarddata. Men i verkligheten, som ett exempel, kan du ändra några pixlar i bilden av en panda så att det neurala nätverket kommer att vara säker på att det finns ett gibbon i bilden. Även om forskare bara lägger till "buller" i bilden.

Adversarial attack: hur lura ett neuralt nätverk?

Nytt arbete från Massachusetts Institute of Technology pekar på ett möjligt sätt att lösa problemet. Genom att lösa det kan vi skapa mycket mer pålitliga modeller för djup inlärning som skulle vara mycket svårare att manipulera på skadliga sätt. Men låt oss titta på grunderna i motsatsmönster först.

Som du vet kommer kraften i djup inlärning från dess överlägsna förmåga att känna igen mönster (mönster, mönster, diagram, mönster) i data. Mata det neurala nätverket tiotusentals taggade djurfoton, och det lär sig vilka mönster som är associerade med en panda och vilka är associerade med en apa. Hon kan sedan använda dessa mönster för att känna igen nya bilder av djur som hon aldrig sett förut.

Men modeller för djup inlärning är också mycket ömtåliga. Eftersom bildigenkänningssystemet bara förlitar sig på pixelmönster och inte på en mer konceptuell förståelse av vad det ser, är det lätt att lura det att se något helt annat - helt enkelt genom att bryta mönstren på ett visst sätt. Klassiskt exempel: Lägg till lite brus i en pandabild och systemet klassificerar det som ett gibbon med nästan 100 procent säkerhet. Detta brus kommer att vara den motsatta attacken.

Image
Image

Kampanjvideo:

Under flera år har forskare observerat detta fenomen, särskilt i datorsynssystem, utan att egentligen veta hur man kan bli av med sådana sårbarheter. Faktum är att det arbete som presenterades förra veckan vid en stor konferens om konstgjord intelligensforskning - ICLR - ifrågasätter oundvikligheten av motstridiga attacker. Det kan tyckas att oavsett hur många pandabilder du matar till bildklassificeringen kommer det alltid att finnas någon form av förargelse som du bryter med systemet.

Men nytt arbete från MIT visar att vi tänkte fel på motsatsattacker. Istället för att hitta sätt att samla in mer av kvalitetsdata som matar systemet, måste vi grundläggande ompröva vår strategi för utbildning.

Arbetet visar detta genom att avslöja en ganska intressant egenskap av motsatta exempel som hjälper oss att förstå varför de är effektiva. Vad är tricket: till synes slumpmässiga brus eller klistermärken som förvirrar nervnätverket, i själva verket använder mycket punktliknande, subtila mönster som visualiseringssystemet har lärt sig starkt associera med specifika objekt. Med andra ord, maskinen kraschar inte när vi ser ett gibbon där vi ser en panda. I själva verket ser hon ett regelbundet arrangemang av pixlar, osynliga för människor, som uppträdde mycket oftare i bilder med gibbons än i bilder med pandaer under träning.

Forskare har demonstrerat detta genom experiment: de skapade en datasats med bilder av hundar, som alla ändrades på ett sådant sätt att standardbildsklassificeringen felaktigt identifierade dem som katter. De taggade sedan dessa bilder med”katter” och använde dem för att träna ett nytt neuralt nätverk från början. Efter träningen visade de det neurala nätverket verkliga bilder av katter, och hon identifierade dem korrekt som katter.

Forskarna antog att det finns två typer av korrelationer i varje datasats: mönster som faktiskt korrelerar med betydelsen av uppgifterna, till exempel viskor i kattbilder eller pälsfärgning i pandabilder, och mönster som finns i träningsdata men inte sprids. till andra sammanhang. Dessa sista "vilseledande" korrelationer, låt oss kalla dem det, används i motstridiga attacker. Ett igenkänningssystem, utbildat att känna igen "vilseledande" mönster, hittar dem och tror att det ser en apa.

Detta säger att om vi vill eliminera risken för en motsatsattack måste vi ändra vårt sätt att träna våra modeller. Vi tillåter för närvarande det neurala nätverket att välja de korrelationer som den vill använda för att identifiera objekt i bilden. Som ett resultat har vi ingen kontroll över de korrelationer som den finner, vare sig de är verkliga eller vilseledande. Om vi istället tränade våra modeller att bara komma ihåg verkliga mönster - som är knutna till meningsfulla pixlar - i teorin skulle det vara möjligt att producera djupa inlärningssystem som inte kan förväxlas.

När forskare testade denna idé, med bara verkliga korrelationer för att träna sin modell, minskade de faktiskt dess sårbarhet: den manipulerades bara 50% av tiden, medan en modell tränad på verkliga och falska korrelationer manipulerades 95% av tiden.

Kort sagt kan du försvara dig mot motsatsattacker. Men vi behöver mer forskning för att eliminera dem helt.

Ilya Khel

Rekommenderas: